Онлайн-курс, вебинар Курс по машинному обучению

Даты начала обучения

Продолжительность:
12 недель

Стоимость обучения:

36 900 р.
Записаться на курс
Добавить к сравнению

С 2012 по 2018 годы количество вакансий специалистов по Data Science выросло в 19 раз. Прямо сейчас стажеров и профессионалов ищут Яндекс, Mail.ru, Сбербанк, Райффайзенбанк, Росбанк, МТС, Tele2, ЦИАН, М-Видео, Северсталь и другие крупные компании.

От специалиста в ML ждут высокого уровня подготовки и понимания не только принципов работы моделей машинного обучения, но и реалий бизнеса, в которые эти модели предстоит внедрять, гибкости и готовности искать новые решения.

Совместно с профи из российских Data Science компаний мы разработали самый жизненный курс Machine Learning: с изучением как математических и статистических принципов алгоритмов, так и современных библиотек, с особым упором на предобработку данных, feature engineering и оценку моделей.

Программа курса

Модуль 1. Введение в машинное обучение

— Введение в машинное обучение. Типы алгоритмов
— Какие бизнес-задачи решает машинное обучение — и какие нет
— Обзор кейсов по внедрению машинного обучения: анализ алгоритмов и использованных решений
— Этапы решения задач машинного обучения:

  • Определение требований
  • Предобработка данных
  • Моделирование (обучение модели)
  • Тестирование
  • Внедрение

— Задачи на закрепление темы: тесты, проверка кода
— Практика: реализация этапов машинного обучения на примере готовой модели


Модуль 2. Методы предобработки данных

— Типы данных и их проблемы

  • Типы данных: табличные, текстовые, временные ряды, аудиосигналы, изображения, видео и другие
  • Проблемы с данными: пропуски, неподходящий формат, мусор в данных, зашифрованные данные, проблема с разметкой и прочее

— Работа с пропусками и начальная обработка

  • Работа с пропусками и дублями
  • Заполнение статистиками
  • Нормализация данных по min, max, std
  • Удаление столбцов и строк
  • Проверка правильности типа данных

— Визуализация для предобработки

  • Гистограмма
  • Correlation plot

— Feature engineering

  • Создание признаков вручную
  • Полиномиальные признаки
  • Dummy-переменные
  • Признаки даты и времени
  • Статистики по наборам признаков

— Поиск выбросов

  • Поиск и удаление по порогу
  • Поиск по отклонению / распределению
  • Interquartile range
  • DBSCAN

— Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
— Практика: работа с параметрами модели

    Модуль 3. Регрессия

    — Линейная регрессия. Задачи регрессии и примеры использования в бизнесе
    — Математический вывод линейной регрессии. Возможные ошибки в работе алгоритма
    — Обучение модели линейной регрессии
    — Методы нахождения прямой в регрессии

    • Аналитический вывод для одной переменной
    • Аналитический вывод для многих переменных
    • Градиентный спуск

    — Логистическая регрессия

    • Примеры использования в решении жизненных задач
    • Решение задачи с помощью градиентного спуска
    • Обучение модели логистической регрессии

    — Регуляризация моделей

    • L1-регуляризация
    • L2-регуляризация

    — Дополнительные материалы

    • Коэффициент детерминации
    • Сравнение производительности разных методов
    • Использование матричных операций
    • Преобразование линейной модели

    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: обучение и оптимизация моделей линейной и логистической регрессии


    Модуль 4. Кластеризация

    — Обучение с учителем и без учителя (supervised / unsupervised learning)
    — Области применения методов обучения без учителя
    — Метод K-means

    • теория метода и реализация в коде
    • плюсы и минусы метода
    • настройка параметров

    — Метод mean-shift

    • теория метода и реализация в коде
    • границы применимости

    — Метод понижения размерности с помощью SVD

    • теория метода и реализация в коде
    • сильные и слабые стороны

    — Работа с текстами

    • кластеризация текстов: теория и реализация в коде
    • метод "мешок слов"

    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: unsupervised обучение модели методами K-means, mean-shift и методом понижения размерности


    Модуль 5. Tree-based алгоритмы: введение в деревья решений

    — Введение в деревья решений
    — Решающее дерево и как его построить

    • Структура дерева: внутренние и терминальные узлы
    • Разделяющие функции. Виды разделяющих функций
    • Обучение дерева решений для классификации и регрессии
    • Критерии качества разделения и прекращения роста дерева
    • Влияние параметров обучения на under / overfitting модели

    — Примеры использования деревьев решений в production
    — Визуализация структуры дерева
    — Алгоритм построения дерева
    — Виды деревьев в библиотеках машинного обучения
    — Реализация деревьев в библиотеке sklearn
    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: обучение решающего дерева для задачи регрессии


    Модуль 6 Tree-based алгоритмы: ансамбли

    — Области применения ансамблей

    • Bagging и out-of-bag оценки
    • Применение bagging к логистической регрессии
    • Cлучайный лес: bagging и эвристики подбора признаков
    • Перебор параметров алгоритма по сетке (Grid Search)

    — Random Forest

    • Объединение деревьев в один классификатор
    • Как вырастить деревья разными?
    • Настраиваемые параметры случайного леса
    • Сравнение результатов настройки параметров
    • Анализ качества ансмабля и влияния признаков

    — Бустинг

    • Что такое бустинг деревьев?
    • AdaBoost и примеры использования
    • Значение порядка построения деревьев в ансамбле
    • AdaBoost в логистической регрессии
    • Gradient Boosting
    • CatBoost: особенности интерфейса

    — Стекинг

    • Построение классификатора первого уровня и мета-классификатора

    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: соревнование по обучению решающих деревьев на kaggle


    Модуль 7. Валидация данных и оценка качества алгоритмов

    — Методы разбиения выборки для валидации данных
    — Метрики качества алгоритмов

    • loss-функция
    • кросс-энтропия
    • метрики precision / recall
    • precision-recall curve
    • и другие

    — Оценка качества алгоритмов в production
    — Underfitting / overfitting

    • примеры реализации в коде
    • как избавиться от переобучения?

    — Дисбаланс выборки: как бороться
    — Визуализация процесса обучения модели

    • визуализация с Tensorboard
    • другие методы

    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: оценка качества алгоритма классификации


    Модуль 8. Временные ряды в машинном обучении

    — Задача анализа временных рядов в ML

    • области применения
    • метрики оценивания

    — Принципы обучения алгоритма

    • "оконные" функции
    • экспоненциальное сглаживание: простое, двойное, с ручной настройкой параметров
    • кросс-валидация на временных рядах

    — Эконометрический подход в анализе временных рядов

    • стационарность и единичные корни
    • дифференцирование
    • ограничения и недостатки эконометрического подхода

    — Алгоритмы машинного обучения для анализа временных рядов

    • извлечение признаков для обучения
    • обучение линейных моделей
    • применение регуляризации
    • бустинг для временных рядов: преимущества и ограничения

    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: обучение линейной модели и использование XGBoost для анализа временных рядов


    Модуль 9. Рекомендательные системы

    — Обзор подходов к построению рекомендательных систем
    — Принципы разбиения выборки
    — Модель TopRecommender

    • принцип работы алгоритма
    • практика реализации в коде
    • границы применимости, достоинства и недостатки

    — Коллаборативная фильтрация
    — Разреженная матрица
    — Алгоритм SVD Recommender

    • принцип работы алгоритма
    • практика реализации в коде
    • достоинства метода, ограничения

    — Проблема холодного старта в рекомендательных системах
    — Бустинг в рекомендательных системах: использование LightGBM
    — Задачи на закрепление темы: тесты, ввод значений, проверка кода студентов на платформе
    — Практика: обучение рекомендательной системы

    Модуль 10. Финальный хакатон

    — Выпускной хакатон: командное соревнование по обучению модели на платформе kaggle

    Преподаватели

    Антон Киселев
    Head of R&D, компания EORA
    Веренцов Сергей
    CTO, компания EORA
    Эмиль Магеррамов
    Автор курса, исполнительный директор EORA Data Lab

    Даты и места проведения

    Онлайн
    По мере набора группы

    Похожие курсы

    Посмотреть все похожие курсы

    Мы бесплатно подберем для Вас подходящие курсы.

     Подборка курсов на e-mail
    Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies  🍪