- 5 Бесплатных онлайн курсов по Data Engineering
- 1. Понимание Data Engineering от DataCamp
- 2. DelftX: Навыки AI для инженеров: Инженерия данных и конвейеры данных на edX
- 3. DE Zoomcamp
- 4. AI: Spark, Hadoop и Snowflake для Data Engineering на edX
- 5. AI: Advanced Data Engineering на edX
- БОНУС: Проекты и реальные данные для отработки навыков Data Engineering
- Заключение
5 Бесплатных онлайн курсов по Data Engineering
Инженеры по данным – это незаслуженно забытые герои. Это те, кому всегда необходимы другие члены команды по обработке данных. Если ваша цель – стать одним из них, вам предстоит долгий путь обучения и инвестирования в свои знания.
Чтобы сделать этот путь более доступным и не попасть сразу в долговую яму, предлагаем включить эти бесплатные онлайн-курсы в ваш учебный маршрут.
1. Понимание Data Engineering от DataCamp
- Уровень: Начальный
- Ссылка: Understanding Data Engineering
- Описание: Это 2-часовой курс, включающий 11 видео и 32 упражнения. Курс без программирования, который обучит вас:
- Что такое инженерия данных
- Хранение данных: управление различными структурами данных, работа в SQL, реализация решений для хранения данных
- Перемещение и обработка данных: создание конвейеров, автоматизация, параллельные и облачные вычисления
2. DelftX: Навыки AI для инженеров: Инженерия данных и конвейеры данных на edX
- Уровень: Начальный
- Ссылка: DelftX: AI Skills for Engineers: Data Engineering and Data Pipelines
- Описание: Этот вводный курс предоставлен Технологическим университетом Делфта для тех, кто хочет научиться разрабатывать приложения AI на базе Python. За 6 недель курс предоставит вам основы:
- Управление данными для AI
- Управление реляционными данными (SQL)
- Обработка данных с использованием Python, pandas и Jupyter
- Визуализация данных с помощью seaborn
3. DE Zoomcamp
- Уровень: Средний
- Ссылка: DE Zoomcamp
- Описание: Это курс в формате лагеря, нацелен на обучение практическим знаниям через работу с реальными проектами. Вы будете работать с такими технологиями как:
- Python
- PostgreSQL
- Docker
- Mage
- Big Query
- dbt
- Apache Spark
- Apache Kafka
Курс охватывает следующие темы:
- Оркестрация рабочих процессов
- Хранилища данных
- Аналитическая инженерия
- Пакетная обработка
- Потоковая обработка
4. AI: Spark, Hadoop и Snowflake для Data Engineering на edX
- Уровень: Средний
- Ссылка: AI: Spark, Hadoop, and Snowflake for Data Engineering
- Описание: Это еще один курс, фокусирующийся на использовании технологий инженерии данных. За 4 недели вы научитесь:
- Управление и оптимизация Apache Hadoop, Apache Spark и Snowflake
- Использовать Databricks для выполнения задач анализа данных и ML
- Оптимизация конвейеров данных с использованием Python, PySpark и MLflow
- Методологии Kaizen, DevOps и DataOps в инженерии данных
5. AI: Advanced Data Engineering на edX
- Уровень: Продвинутый
- Ссылка: AI: Advanced Data Engineering
- Описание: Этот курс обеспечит вас навыками обращения с большими данными и масштабирования систем данных за 4 недели. В частности, вы узнаете:
- Celery и RabbitMQ для масштабируемого потребления данных
- Apache Airflow для оптимизации рабочих процессов
- Векторные и графовые базы данных для управления данными в масштабе
БОНУС: Проекты и реальные данные для отработки навыков Data Engineering
Эти пять курсов охватывают практические навыки инженерии данных в различной степени. Ни один технический навык не закрепится без практики на реальных данных.
Вот несколько предложений по ресурсам, где вы можете их найти:
- StrataScratch: 50 проектов по данным так же подходят для отработки навыков по data engineering.
- Kaggle: Источник многих качественных реальных наборов данных.
- Open Data на AWS: Публичные наборы данных на AWS.
- Публичные наборы данных Google Cloud.
- Data.gov: Открытый доступ к данным правительства США.
- FiveThirtyEight: Наборы данных по политике, спорту, науке и здравоохранению, экономике и культуре.
Заключение
Инженерия данных, являясь настолько сложной и обширной областью, не имеет одного курса, который обучит всему. Даже эти пять курсов лишь поверхностно затрагивают тему. Однако они дают хорошее общее представление о техниках и технологиях, используемых в инженерии данных.
С несколькими дополнительными ресурсами для проектов по инженерии данных и наборов данных, вы находитесь на хорошем пути.
Нэйт Росиди — специалист по данным и стратегии продукта, а также преподаватель и основатель StrataScratch, платформы, помогающей научным сотрудникам подготовиться к реальным собеседованиям через вопросы ведущих компаний. Нэйт пишет о последних тенденциях на карьерном рынке, дает советы по собеседованиям и освещает проекты по науке о данных.








