Data Engineering від А до Я

Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію? Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.

PLAY ON CASTBOX

Data Engineering Testing: від unit-тестів до інтеграції з dbt

У цьому випуску ми говоримо про тестування в дата-інжинірингу. Які види тестів варто застосовувати — від unit- і інтеграційних до end-to-end і контрактних. Розбираємо, що саме тестують у світі даних: схеми баз, трансформації, пайплайни, бізнес-правила та якість результатів. Окремо зупиняємось на ролі dbt у тестуванні: вбудовані тести, кастомні перевірки й те, як dbt допомагає зробити контроль якості даних частиною щоденного робочого процесу. Це практичний огляд для інженерів даних, які хочуть будувати більш надійні пайплайни.

09-30

18:01

Avro та Protobuf у Data Engineering: схеми для якісних даних

Щоб дані залишались узгодженими і зрозумілими, інженери даних використовують спеціальні формати опису схем. У цьому випуску ми розглянемо два найпопулярніших варіанти — Apache Avro та Google Protobuf. Ми пояснимо, як вони працюють, чим відрізняються, які переваги та обмеження мають. Ви дізнаєтесь, чому Avro зручний для schema evolution, а Protobuf — для високошвидкісних систем, і як обрати правильний інструмент для своїх data pipelines.Також не забувайте підписуватись на каналта писати коменти під відео :)

09-16

20:20

Якість даних для Data Engineering: що міряти і як тримати SLA

Пояснюємо, що таке Data Quality (якість даних) і як її вимірювати без «води». Розберемо «погані дані» та бізнес-виміри (Descriptive, User-driven), технічні метрики (Availability, Freshness, Uniqueness, Completeness, Schema validity + Consistency), і як оформити це у scorecard з чіткими SLA/SLI/SLO. Покажемо, як вшити тести якості у пайплайни/DAG (дедуп, non-NULL, обсяги, аномалії), налаштувати алерти й observability (метрики, логи, lineage) та використовувати data contracts для стабільних схем. Завершимо практикою: старт з 3 ключових датасетів і 3–5 базових тестів. Підписуйтесь — випуск максимально практичний.

09-01

12:15

Data Orchestration: від cron до DAG — глибше за Airflow

Ми вже говорили про Airflow як приклад оркестратора. У цьому епізоді йдемо ширше й глибше: пояснюємо, що таке data orchestration, навіщо вона потрібна та як виглядає зріла оркестрація поза межами одного інструмента. Розберемо історичні болі cron (залежності, продуктивність, «клейовий» код, data silos), три основні кроки collection → unification → activation, типи платформ (інженерні Airflow/Dagster, модельні dbt, low/no-code), роль DAG (upstream/downstream, без циклів, паралельність). Поговоримо про тригери (time/event/manual), SLA, алерти, retries, idempotency, чеки якості, а також observability (метрики, логи, lineage), вартість і RBAC. Наприкінці — як почати перехід від cron до керованих DAG і вибрати стек під вашу команду.

08-22

07:52

SQL: Query, DDL vs DML та життєвий цикл запиту (Query Life Cycle)

У цьому епізоді просто й по суті: пояснюємо, що таке query (запит) у СУБД, чітко розводимо DDL vs DML(структура проти даних) і проходимо Query Life Cycle від парсера та оптимізатора до виконання плану зі стадіями wait → read → compute → write. Розберемо ключові команди без коду:— DDL: CREATE, ALTER, DROP, TRUNCATE, RENAME, INDEX;— DML: SELECT, INSERT, UPDATE, DELETE, MERGE.Пояснимо, як думати про партиціювання (PARTITION BY), кластеризацію (CLUSTER BY) і фільтри до JOIN, щоб запити працювали швидше й дешевше. Підписуйтесь, буде практично й без «води».

08-11

06:12

Steps of Dimensional Modeling: 4 кроки на прикладі оренди e-самокатів

У 21-му випуску ми покроково проведемо вас крізь процес Dimensional Modeling за методологією Кімбалла. На прикладі компанії з оренди електросамокатів ви дізнаєтеся:Select the business process – чому grain = одна завершена поїздка.Declare the grain – як вибір атомарного рівня деталізації дає гнучкість у запитах.Identify the dimensions – створюємо таблиці Rider (SCD1), City (SCD2) і Vehicle + mini-dimension (SCD4).Identify the facts – які метрики (duration, distance, price, pauses, rating) варто зберігати в fact table.Наприкінці епізоду словесно опишемо, як у BigQuery побудувати датасет, налаштувати партиціювання за датою та кластеризацію за ключами вимірювань для максимальної продуктивності ваших аналітичних запитів.Підпишіться, щоб не пропустити детальні гайди з практичною реалізацією!

08-06

06:33

Dimensional Modeling: OLTP vs OLAP, освоюємо Kimball’s Star Schema (Зіркова схема Кімбела) та Slowly Changing Dimension (SCD, повільно змінювана розмірність)

У цьому випуску ми просто й зрозуміло розкажемо:OLTP vs OLAP: навіщо потрібні окремі оперативні й аналітичні бази даних.Star Schema by Kimball: як факти (fact table) у центрі та виміри (dimension tables) навколо допомагають робити запити швидко й зрозуміло.Snowflake Schema: коли варто нормалізувати виміри, щоб зекономити місце.Slowly Changing Dimension (SCD): п’ять способів (Type 0–4) зберегти історію змін атрибутів.Після цього епізоду ви знатимете, як правильно спроєктувати модель даних для свого data warehouse. Підпишіться, щоб не пропустити інші корисні випуски!

08-01

10:32

Вступ до Data Modeling: Як перетворити бізнес-вимоги на таблиці

У цьому випуску — introduction to data modeling для data engineers. Розбираємо три рівні моделювання: conceptual, logical та physical. Пояснюємо, що таке granularity, normalization, primary keys, foreign keys та як усе це допомагає побудувати зрозумілу, масштабовану аналітичну систему.📦 На прикладі продуктової мережі моделюємо процес продажів: від бізнес-процесу до BigQuery-таблиць.Це — основи, без яких неможливо побудувати якісний data warehouse чи data product.👉 У наступному випуску поговоримо про Kimball’s Dimensional ModelingПідпишись, щоб не пропустити продовження!

07-26

08:15

Ingest with Python — pandas та PySpark у data pipelines

Цей випуск завершує серію про ingestion-методи. Говоримо про два популярних інструменти з Python-екосистеми — pandas та PySpark.Коли варто використовувати кожен? Як зчитувати, обробляти і завантажувати дані з CSV, BigQuery або DataFrame-структури? Чим відрізняються RDD, DataFrame і Dataset у Spark?Щоб не пропустити нові епізоди — підпишіться на подкаст ✨

07-23

06:58

Real-Time Ingestion без магії — CDC та Streaming Explained (Kafka)

Real-time ingestion — це вже не розкіш, а норма. У цьому випуску розбираємо, як працює CDC (Change Data Capture), чим він відрізняється від Kafka, і які існують варіанти стримінгових платформ для обробки подій у реальному часі.

07-22

06:31

SFTP vs API vs Object Storage: Битва ingestion-методів

У цьому випуску — глибоке занурення у три архітектурно різні способи інжесту: від старої школи (SFTP) до REST API та сучасних data lake-підходів через object storage. Пояснюю на прикладах, коли обрати який.

07-15

07:29

Push чи Pull: як обрати правильну стратегію для data ingestion

Push чи Pull? Розбираємось, як саме дані потрапляють у систему: хто ініціює передачу, як це впливає на швидкість, надійність і масштабування. Порівнюємо обидва підходи з реальними прикладами.

07-15

07:55

Stream Ingestion — нова ера Data Ingestion

Stream ingestion — новий підхід до data ingestion у реальному часі. У цьому епізоді: різниця з batch, delivery semantics, обробка помилок і практичний приклад з Pub/Sub → BigQuery. Мінімум теорії, максимум користі.

07-08

06:59

Data Ingestion по-старому: батч, snapshot і BigQuery

Batch ingestion — це класика data ingestion. Пояснюємо, як працює завантаження даних пачками: по часу чи обсягу, snapshot чи інкрементально. І показуємо практичний приклад з BigQuery та біткоїном.

07-08

08:27

Принципи хорошої Cloud Data Architecture

Побудувати щось у хмарі може кожен. Побудувати так, щоб воно було надійне, гнучке, дешеве і безпечне — вже інше питання. У цьому випуску говоримо про 5 ключових принципів Cloud Data Architecture, які справді працюють.

06-11

06:34

Весь ІТ у трьох літерах: розбираємо IaaS, PaaS, SaaS

IaaS, PaaS і SaaS — не просто модні слова. Це різні способи використовувати хмару. Розбираємось, що вони значать, які є приклади, і як зрозуміти, що підійде саме тобі.

06-11

06:28

Cloud Data Architecture простими словами

Після оркестраторів переходимо до великої картини: як виглядає сучасна хмарна архітектура для даних. Пояснюємо, що таке Lambda, Kappa та Medallion — простими словами, з прикладами з життя. Якщо хочеш зрозуміти, як великі компанії будують data-системи — це твоя відправна точка.

06-08

08:02

Prefect, Dagster, Mage: чим вони кращі (або простіші) за Airflow?

Airflow — це круто, але іноді занадто важко. У цьому випуску розбираємо, які ще інструменти керують пайплайнами: що обрати, якщо ти тільки починаєш, чим різняться стилі, і де Mage кращий за Airflow. Просто, по суті й з прикладами.

06-08

05:49

Airflow не магія. Це просто — якщо знаєш, що таке DAG

Airflow звучить як щось складне? Насправді все простіше, ніж здається. У цьому випуску пояснюємо, що таке DAG, чому саме на ньому тримається оркестрація, і як Airflow допомагає не втратити контроль, коли пайплайнів стає більше. Без термінів, але з прикладами.

06-06

05:26

Пайплайни не слухаються? Ось як навести порядок у світі даних

Усе летить, дашборди не оновлюються, пайплайни запускаються коли заманеться — знайомо? У цьому випуску розбираємося, що таке оркестрація даних і чому без неї навіть найкращий pipeline перетворюється на головний біль.

06-04

05:13

View All on Castbox

Recommend Channels