На обучение приглашают тех, кто уже имеет опыт работы в сфере Data Science. Новичкам без базовых знаний будет сложно. Курс полезен разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.
В результате вы будете иметь представление об основных классах задач инженера данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях. В качестве выпускного проекта вы реализуете задачи с применением парадигмы Map-Reduce кластера в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализации результатов.
Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы
Тема 3. On premises / Cloud solutions
Тема 4. Автоматизация пайплайнов и оркестрация – 1
Тема 5. Автоматизация пайплайнов и оркестрация – 2
Тема 6. Распределенные файловые системы. HDFS / S3
Тема 7. SQL-доступ к Hadoop. Apache Hive / Presto
Тема 8. Форматы хранения данных и их особенности
Тема 9. Разбор ДЗ по 1 кейсу
Тема 10. Очереди сообщений. Обзор Kafka.
Тема 11. Выгрузка данных из внешних систем
Тема 12. Apache Spark – 1
Тема 13. Apache Spark – 2
Тема 14. Аналитические СУБД. MPP-базы данных
Тема 15. Моделирование DWH – 1. Основы работы с dbt
Тема 16. Моделирование DWH – 2. Data Vault 2.0
Тема 17. DevOps практики в Аналитических приложениях. CI + CD
Тема 18. Разбор ДЗ по 2 кейсу
Тема 19. Data Quality. Управление качеством данных
Тема 20. Развертывание BI-решения
Тема 21. Мониторинг / Метаданные
Тема 22. NoSQL Хранилища. Wide-column и key-value
Тема 23. NoSQL Хранилища. Document-oriented
Тема 24. ELK
Тема 25. ClickHouse
Тема 26. Разбор ДЗ по 3 кейсу
Тема 27. Организация и Packaging кода
Тема 28. Docker и REST-архитектура
Тема 29. MLFlow + DVC
Тема 30. Деплоймент моделей
Тема 31. Разбор ДЗ по 4 кейсу
Тема 32. Разбор ДЗ по 5 кейсу
Тема 33. Выбор темы и организация проектной работы
Тема 34. Консультация
Тема 35. Защита