Курс от ведущих инженеров Mail.ru Group. Это онлайн-версия третьего семестра совместной программы Mail.ru Group и ВМК МГУ «Техносфера». Для тех, кто уже работает в сфере ML. Новичкам многое будет не понятно. Чтобы попасть на обучение, нужно сдать тест и пройти интервью.
В рамках обучения вы овладеете актуальными технологиями: продвинутый информационный поиск, машинное обучение на больших данных и ансамбли. Фишка курса: менторство от Mail.ru Group в небольшой закрытой группе.
Часть 1. Методы распределенной обработки больших объемов данных в Hadoop
- Распределенная файловая система HDFS;
- MapReduce в Hadoop;
- Введение в Pig и Hive;
- Решение MR задач;
- NoSQL базы данных, введение в Hbase;
- Применение HBase на практике;
- Другие NoSQL базы данных: Cassandra, AeroSpike, Redis;
- Библиотеки Spark;
- Hadoop 2.0. YARN;
- Hadoop: примеры использования в реальных проектах.
Часть 2. Методы создания поисковых систем
- Оценка качества поиска, сплиты, асессоры;
- Learning to rank;
- Ссылочное ранжирование;
- Кликовые модели;
- Поведенческое ранжирование;
- Сглаживание поведенческих факторов;
- Learning to match;
- Индексные структуры данных в эпоху нейросетей;
- Мультимедиа поиск;
- Conversational systems.
Часть 3. Практические навыки работы с методами машинного обучения
- Ансамбли: стохастические модели, бустинг, кульминация и развязка;
- LightGbm & CatBoost;
- Active Learning;
- Рекомендательные системы;
- Машинное обучение в онлайн рекламе;
- Машинное обучение на больших данных.