4+ года в IT. Проектирую и реализую ETL/ELT-процессы, строю DWH-архитектуры, работаю с ClickHouse, Kafka, Airflow, PostgreSQL.
Data Engineer с опытом построения и поддержки аналитических пайплайнов. Работаю с колоночными СУБД, потоковой обработкой данных и оркестрацией ETL-процессов. Последние два года — в eLama (Yandex), где занимаюсь развитием DWH и интеграцией данных из различных источников. Есть опыт backend-разработки на Python и работы с Kubernetes.
Проектирование и реализация пайплайнов для сбора, трансформации и загрузки данных из различных источников и API
Построение хранилищ данных, создание аналитических витрин, проектирование схем хранения
Потоковая обработка через Kafka, стриминг данных в ClickHouse для оперативной аналитики
Ускорение SQL-запросов, оптимизация ETL-процессов, модернизация структуры БД и кодовой базы
Проанализировал узкие места в ряде DAG-ов. Разработал улучшенный метод батчевой вставки и альтернативный способ сбора данных, который лёг в основу доработки общего класса по работе с PostgreSQL. Подход стал стандартом для новых выгрузок.
Разработал решение для упрощённого добавления DAG-ов в pipeline — Python-класс, который генерирует готовые DAG-и по конфигурации со встроенной retry-логикой, алертингом и логированием. Стандартизировал архитектуру пайплайнов в команде.
Разработал систему партиционированного обновления аналитической таблицы — обновляются только изменившиеся партиции. При частичной потере данных восстановление занимает минуты вместо ожидания следующего дня.
Институт Экономики и Предпринимательства — Экономика
Диплом профессиональной переподготовки
Программа: Инженер данных
Квалификация: Специалист по большим данным