5 Бесплатных онлайн курсов по Data Engineering

Лайфхаки

5 Бесплатных онлайн курсов по Data Engineering

Инженеры по данным – это незаслуженно забытые герои. Это те, кому всегда необходимы другие члены команды по обработке данных. Если ваша цель – стать одним из них, вам предстоит долгий путь обучения и инвестирования в свои знания.

Чтобы сделать этот путь более доступным и не попасть сразу в долговую яму, предлагаем включить эти бесплатные онлайн-курсы в ваш учебный маршрут.

1. Понимание Data Engineering от DataCamp

  • Уровень: Начальный
  • Ссылка: Understanding Data Engineering
  • Описание: Это 2-часовой курс, включающий 11 видео и 32 упражнения. Курс без программирования, который обучит вас:
    • Что такое инженерия данных
    • Хранение данных: управление различными структурами данных, работа в SQL, реализация решений для хранения данных
    • Перемещение и обработка данных: создание конвейеров, автоматизация, параллельные и облачные вычисления

2. DelftX: Навыки AI для инженеров: Инженерия данных и конвейеры данных на edX

  • Уровень: Начальный
  • Ссылка: DelftX: AI Skills for Engineers: Data Engineering and Data Pipelines
  • Описание: Этот вводный курс предоставлен Технологическим университетом Делфта для тех, кто хочет научиться разрабатывать приложения AI на базе Python. За 6 недель курс предоставит вам основы:
    • Управление данными для AI
    • Управление реляционными данными (SQL)
    • Обработка данных с использованием Python, pandas и Jupyter
    • Визуализация данных с помощью seaborn

3. DE Zoomcamp

  • Уровень: Средний
  • Ссылка: DE Zoomcamp
  • Описание: Это курс в формате лагеря, нацелен на обучение практическим знаниям через работу с реальными проектами. Вы будете работать с такими технологиями как:

    • Python
    • PostgreSQL
    • Docker
    • Mage
    • Big Query
    • dbt
    • Apache Spark
    • Apache Kafka

    Курс охватывает следующие темы:

    • Оркестрация рабочих процессов
    • Хранилища данных
    • Аналитическая инженерия
    • Пакетная обработка
    • Потоковая обработка

4. AI: Spark, Hadoop и Snowflake для Data Engineering на edX

  • Уровень: Средний
  • Ссылка: AI: Spark, Hadoop, and Snowflake for Data Engineering
  • Описание: Это еще один курс, фокусирующийся на использовании технологий инженерии данных. За 4 недели вы научитесь:
    • Управление и оптимизация Apache Hadoop, Apache Spark и Snowflake
    • Использовать Databricks для выполнения задач анализа данных и ML
    • Оптимизация конвейеров данных с использованием Python, PySpark и MLflow
    • Методологии Kaizen, DevOps и DataOps в инженерии данных

5. AI: Advanced Data Engineering на edX

  • Уровень: Продвинутый
  • Ссылка: AI: Advanced Data Engineering
  • Описание: Этот курс обеспечит вас навыками обращения с большими данными и масштабирования систем данных за 4 недели. В частности, вы узнаете:
    • Celery и RabbitMQ для масштабируемого потребления данных
    • Apache Airflow для оптимизации рабочих процессов
    • Векторные и графовые базы данных для управления данными в масштабе

БОНУС: Проекты и реальные данные для отработки навыков Data Engineering

Эти пять курсов охватывают практические навыки инженерии данных в различной степени. Ни один технический навык не закрепится без практики на реальных данных.

Вот несколько предложений по ресурсам, где вы можете их найти:

  • StrataScratch: 50 проектов по данным так же подходят для отработки навыков по data engineering.
  • Kaggle: Источник многих качественных реальных наборов данных.
  • Open Data на AWS: Публичные наборы данных на AWS.
  • Публичные наборы данных Google Cloud.
  • Data.gov: Открытый доступ к данным правительства США.
  • FiveThirtyEight: Наборы данных по политике, спорту, науке и здравоохранению, экономике и культуре.

Заключение

Инженерия данных, являясь настолько сложной и обширной областью, не имеет одного курса, который обучит всему. Даже эти пять курсов лишь поверхностно затрагивают тему. Однако они дают хорошее общее представление о техниках и технологиях, используемых в инженерии данных.

С несколькими дополнительными ресурсами для проектов по инженерии данных и наборов данных, вы находитесь на хорошем пути.

Нэйт Росиди — специалист по данным и стратегии продукта, а также преподаватель и основатель StrataScratch, платформы, помогающей научным сотрудникам подготовиться к реальным собеседованиям через вопросы ведущих компаний. Нэйт пишет о последних тенденциях на карьерном рынке, дает советы по собеседованиям и освещает проекты по науке о данных.

admin
Оцените автора
CheatGPT
Добавить комментарий