Онлайн-курс, вебинар Курс по Data Engineering

Даты начала обучения

Продолжительность:
10 недель

Стоимость обучения:

29 900 р.
Записаться на курс
Добавить к сравнению

В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Программа курса

Введение, практический linux

Поговорим о профессиях в Data Science, узнаем чем на самом деле занимается Data Engineer. Научимся пользоваться одним из главных инструментов дата инженера - командной строкой linux, сразу отработаем навыки на практических заданиях.


Модуль 1. Современные хранилища данных

Разберемся какие бывают базы данных, посмотрим на их особенности и различия. Поговорим об архитектурах хранилищ данных, на примерах lambda architecture, kappa architecture и др. Сравним data warehouse vs data lake. Закрепим полученные знания на практических заданиях и упражнениях.


Модуль 2. Экосистема Hadoop

Перейдем к работе с Hadoop - узнаем, что это такое; поговорим про базис (hdfs, yarn, map reduce) и дистрибутивы Hadoop. Установим Cloudera QS, познакомимся с Cluster Manager, поработаем с hdfs. Дополнительно отработаем практический минимум - hive, zookeeper, hue

Модуль 3. Источники данных и работа с ними

Поговорим о структурировании данных: Oracle, MS SQL, Postgre. Рассмотрим различные файлы как источники данных: XML, JSON, текст. Научимся применять SQL для выгрузки данных из источников. На примере Apache Atlas изучим корпоративный каталог данных. И на примере Apache Ranger рассмотрим управление доступом


Модуль 4. Apache Spark и обработка данных

Научимся работать с Apache Spark, как с инструментом для обработки данных. Разберем core Spark, Spark SQL и Spark Stuctured Streaming. Закрепим материал на практических заданиях


Модуль 5. Hadoop как хранилище данных

Поговорим об особенностях и нюансах hdfs. Научимся загружать данные в Hive (файлы, sqoop, spark). Поработаем с разными форматами файлов (ORC, Parquet, Avro)


Модуль 6. Apache Airflow для оркестрации конвейеров

Научимся строить конвейеры обработки данных (data pipelines). Изучим основные сущности Apache Airflow. Поработаем с Airfow - Spark и Airflow - Livy


Модуль 7. Обзор облачных хранилищ

Разберемся с облачными хранилищами: Google, Amazon, Azure. Подведем итоги курса

Преподаватели

Михаил Королев
Ведущий Data Engineer в Альфастрахование

Даты и места проведения

Онлайн
По мере набора группы

Похожие курсы

Посмотреть все похожие курсы

Мы бесплатно подберем для Вас подходящие курсы.

 Подборка курсов на e-mail
Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies  🍪