Скидки на курсы ждут в личном кабинете. Нажмите тут
Есть рассрочка Поддержка куратора Демо-доступ Домашние задания

Инженер данных

скидка Хочу промокод
95 000 ₽  за курс
Инженер данных
Формат
Онлайн
Длительность
6.5 месяцев
Уровень
Для новичков
Документ
Диплом
Трудоустройство
Да
Программа

Программа будет актуальна начинающим инженерам данных, а также разработчикам, аналитикам, специалистам по Data Science. Для прохождения курса необходимо знание SQL и Python. Вы узнаете, как обновить структуру базы данных и адаптировать её под смежные процессы. Также вы научитесь настраивать выгрузку данных и измерять их качество.

В курс входит 12 тематических модулей, рассчитанных на 6,5 на месяцев. В финале обучения вы будете работать над задачами по большим данным для выпускного проекта.

  • Бесплатный вводный курс. Простая витрина данных

    • Устроитесь на работу в IT-компанию как начинающий инженер данных и попробуете выполнить своё первое задание — получите от лида требования и построите по ним витрину данных.
    • SQL и Python.
    • Metabase.
    • PostgreSQL.
  • Актуализация модели данных

    • Компания продолжает погружать вас в свои процессы. Данные, с которыми вы работали, обновились, поэтому необходимо изменить модель данных.
    • Разберётесь, как в компании строят БД.
    • Обновите структуру текущей БД в соответствии с новыми требованиями бизнеса.
    • Подготовите новые витрины и метрики для аналитиков и менеджеров.
  • DWH: пересмотр модели данных

    • Компания растёт, архитектура данных усложняется. Вам дают задание — оптимизировать процессы с данными.
    • Продумаете процесс перехода со старой схемы БД на новую с минимизацией потерь для бизнеса (zero-downtime deployment).
    • Учтёте возможные проблемы и спроектируете вариант отката изменений.
    • Реализуете новую структуру БД и адаптируете её под существующие процессы вокруг данных.
  • ETL: автоматизация подготовки данных

    • О хранилище данных компании вы теперь знаете почти всё. Пришло время пересмотреть ETL-процессы.
    • Автоматизируете пайплайн данных.
    • Настроите автоматическую выгрузку данных из источников.
    • Научитесь регулярно и инкрементально загружать данные в БД.
  • DataOps: проверка качества данных

    • Вы хотите быть уверены, что ваши первые пайплайны работают нормально. Качество данных необходимо проверять, а поломки — вовремя отслеживать.
    • Поймёте, как пользоваться метаинформацией и документацией.
    • Измерите качество данных.
    • Построите несколько метрик качества данных.
    • Настроите по метрикам уведомления о состоянии инфраструктуры.
  • CDC: работа с RDBMS

    • Вы продолжаете исследовать DWH, потому что развитие компании и, следовательно, увеличение объёма данных не остановить.
    • Построите DWH с нуля на реляционной СУБД.
    • Изучите систему CDC (от англ. Change Data Capture — «отслеживание изменённых данных»).
  • Работа с NoSQL

    • Специфичных неструктурированных данных, которые тоже надо хранить и обрабатывать, становится больше. Чтобы с ними разобраться, вы обращаетесь к NoSQL базам данных.
    • Изучите организацию хранилища в NoSQL.
    • Познакомитесь с объектными и TimeSeries хранилищами.
    • Узнаете, как интегрировать разные системы в единый DWH.
    • Рассчитаете нагрузку и масштабирование хранилища.
    • Соберёте логи в ELK-стек.
  • ELT: организация Data Lake

    • Классические решения не помогают справиться с объёмом данных. Вам необходимо применить ELT-подход — объединить систему хранения и обработки данных.
    • Разберёте шаги и особенности ELT-подхода.
    • Рассмотрите архитектуру Data Lake (пер. «озеро данных»).
    • Научитесь обрабатывать данные в MPP-системе.
    • Примените навыки автоматизации и масштабирования к новой задаче.
  • Промежуточный проект

    Примените изученные навыки, чтобы самостоятельно реализовать проект: подберёте архитектуру и технологии, запустите процессы, протестируете и презентуете результат.

  • Потоковая обработка данных

    • Трудности с большим объёмом данных вы победили, но появилась новая задача — нужно помочь бизнесу быстрее принимать решения. Тут понадобятся знания потоковой обработки данных (англ. streaming).
    • Рассмотрите особенности потоковой обработки данных в stateful и stateless системах.
    • Изучите Kappa- и Lambda-архитектуры потоковой обработки и построите свою стриминговую систему.
    • Построите витрину с использованием real-time данных.
    • Узнаете больше про очередь и брокер сообщений, потоки.
  • Облачные технологии

    • Теперь вы умеете работать и с большими объёмами данных, и с потоками. Осталось только автоматизировать масштабирование систем с помощью облачных сервисов.
    • В этом курсе вы познакомитесь с облачными базами данных, а также с облачными системами визуализации и обработки данных.
  • Выпускной проект

    Подтвердите, что освоили новые навыки. В отличие от промежуточного проекта, здесь упор будет на большие данные, облачные решения и потоковые алгоритмы.

Чему научат на курсе
Строить пайплайны
Масштабировать потоки данных
Проектировать безопасные хранилища
Настраивать мониторинг
О школе
Яндекс Практикум
рейтинг 4.5
40 отзывов
79 курсов
Яндекс Практикум

Платформа онлайн-курсов «Яндекс Практикум» — проект компании «Яндекс» и «Школы анализа данных». На момент основания в 2019 году образовательные программы были рассчитаны только на начинающих веб-разработчиков и аналитиков, но сейчас в школе готовят сотрудников для IT и digital-сферы.

В каталоге Яндекс Практикума сегодня более 50 программ для начинающих и опытных специалистов.

Оставить отзыв
Оставьте свой отзыв
Так вы сделаете рейтинг школ более точным и поможете другим выбрать хороший курс

Информация носит ознакомительный характер и может отличаться от указанной на сайтах школ-партнёров. Актуальную стоимость и описание программ вы можете узнать на сайте школы.