DataWatch

🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question.

DataWatch - Episode 23 - Mort des clés primaires et étrangères, Data Mesh chez Roche, Github Actions, Data Stack déclarative, Data Owner

☝️ Dans cet épisode, nous parlons de la mort des clés primaires et étrangères, de l’implémentation du Data Mesh chez Roche, du Github Actions pour la Data Engineering, de la Data Stack déclarative et du rôle de Data Owner ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La mort des clés primaires et étrangères 👉 La Data Observability lors de l’implémentation du Data Mesh chez Roche 👉 Github Actions pour la Data Engineering 👉 La Data Stack déclarative 👉 Le rôle de Data Owner

11-01
01:14:14

DataWatch - Episode 22 - Data Engineering, BigQuery, Spanner, Apache Iceberg, v1.9 dbt, Data Quality

☝️ Dans cet épisode, nous parlons des stratégies innovantes en Data Engineering, de la preview des datasets externes entre BigQuery et Spanner, de la preview des tables BigQuery pour Apache Iceberg, du micro batch incremental models de la v1.9 de dbt, du Data Quality Management ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Les stratégies innovantes en Data Engineering 👉 La preview des datasets externes entre BigQuery et Spanner 👉 La preview des tables BigQuery pour Apache Iceberg 👉 Le micro batch incremental models de la v1.9 de dbt 👉 Data Quality Management

10-25
48:58

DataWatch - Episode 21 - V. 3.13.0 de Python, Data Warehouse, Databricks Apps, V. 8.0 de MongoDB

☝️ Dans cet épisode, nous parlons de la sortie de la version 3.13.0 de Python, de la mort du Data Warehouse au profit du Data Lake House, de la Preview des Databricks Apps, de la sortie de la version 8.0 de MongoDB et de Data Strategy. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La sortie de la version 3.13.0 de Python 👉 La mort du Data Warehouse au profit du Data Lake House 👉 La Preview des Databricks Apps 👉 La sortie de la version 8.0 de MongoDB et de Data Strategy 👉 La Data Strategy

10-18
53:37

DataWatch - Episode 20 - Presto, Rust, Data Lineage Python, Outils Data, Version 1.0.0 dlt

☝️ Dans cet épisode, nous parlons de l’importance de Presto et de son framework d’optimisation basé sur l’historique, de l’utilisation de Rust dans la Data Engineering, de l’implémentation du Data Lineage dans les traitements python, de la balance entre achat et création d’outils Data et de la sortie de la version 1.0.0 de dlt. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Presto et son framework d’optimisation basé sur l’historique 👉 L’utilisation de Rust dans la Data Engineering 👉 L’implémentation du Data Lineage dans les traitements python 👉 La balance entre achat et création d’outils Data 👉 La sortie de la version 1.0.0 de dlt

10-11
41:55

DataWatch - Episode 19 - Requêtes SQL, BigQuery jobs explorer, PyCharm et Databricks, PostgreSQL 17

☝️ Dans cet épisode, nous parlons de la génération automatisée de requêtes SQL, de la présentation de BigQuery jobs explorer, de l’intégration de PyCharm avec Databricks, de bonnes pratiques en SQL et de la sortie de PostgreSQL 17 ; 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La génération automatisée de requêtes SQL 👉 La présentation de BigQuery jobs explorer 👉 L’intégration de PyCharm avec Databricks 👉 Les bonnes pratiques en SQL 👉 La sortie de PostgreSQL 17

10-05
57:04

DataWatch - Episode 18 - Data Engineering & IA, Pipe SQL, Data Observability, Data Modeling, Iceberg

☝️ Dans cet épisode, nous parlons de l’importance de la Data Engineering dans l’IA générative, de la Pipe Syntax en SQL, de Data Observability, de la déperdition du Data Modeling et de cas d’usage d’Apache Iceberg dans Snowflake. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 L’importance de la Data Engineering dans l’IA générative 👉 La Pipe Syntax en SQL 👉 Data Observability 👉 La déperdition du Data Modeling 👉 Des cas d’usage d’Apache Iceberg dans Snowflake

09-27
57:11

DataWatch - Episode 17 - Uber migration, DuckDB 1.1.0, Airbyte 1.0, Data Engineers, Pandas Snowflake

☝️ Dans cet épisode, nous parlons de la migration de Uber vers le cloud, de la sortie de DuckDB 1.1.0, de la sortie de Airbyte 1.0, de la classification des Data Engineers en trois groupes et de la disponibilité de Pandas sur Snowflake. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 La migration de Uber vers le cloud ; 👉 La sortie de DuckDB 1.1.0 ; 👉 La sortie de Airbyte 1.0 ; 👉 La classification des Data Engineers en trois groupes ; 👉 La disponibilité de Pandas sur Snowflake.

09-21
39:18

DataWatch - Episode 16 - Data & décisions, Elasticsearch, IA, procédures stockées, amende pour Uber

☝️ Dans cet épisode, nous parlons du retour d'Elasticsearch en Open Source, des risques des décisions basées uniquement sur la Data, de l'utilisation des résultats d'une procédure stockée dans un SELECT sur Snowflake, des tendances de la Data Engineering avec l'IA et de Data Governance et 324 millions d'amende pour Uber 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn ➕ Newsletter de Bertrand ➕ Blog de Bertrand Articles 👉 Le retour d'Elasticsearch en Open Source 👉 Les risques des décisions basées uniquement sur la Data 👉 Utilisation des résultats d'une procédure stockée dans un SELECT sur Snowflake 👉 Les tendances de la Data Engineering avec l'IA 👉 Data Governance et 324 millions d'amende pour Uber

09-15
58:44

DataWatch - Episode 15 - BigQuery Vector Search, Databricks, InstantDB, Kimball, Spark, Ray, Amazon

☝️ Dans cet épisode, je parle de ScaNN sur BigQuery Vector Search, des nouveautés de Databricks Workflows, de InstantDB, de tables de faits et de dimensions et de migration d’Apache Spark vers Ray chez Amazon. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Preview de l’algorithme ScaNN sur BigQuery Vector Search 👉 Les nouveautés de Databricks Worklfows 👉 Présentation de InstantDB utilisé dans Notion ou Figma 👉 Les tables de faits et de dimension 👉 Explication de la migration d’Apache Spark vers Ray chez Amazon

09-09
16:54

DataWatch - Episode 14 - SQL, python, Iceberg vs Hudi, Vector Search, Airflow 2.10.0, Data Engineer

☝️ Dans cet épisode, je parle de l’utilisation de SQL avec python, de Apache Iceberg vs Apache Hudi, la preview du Vector Search sur MariaDB, la sortie de la version 2.10.0 d’Airflow et sur les différents niveaux de Data Engineers et Software Engineers 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Utilisation de SQL avec Python 👉 Apache Iceberg vs Apache Hudi 👉 Preview de Vector Search sur MariaDB 👉 Apache Airflow 2.10.0 👉 Les niveaux de Data et Software Engineer

09-01
11:25

DataWatch - Episode 13 - DE & SE, Cloud SQL Studio, Snowflake, BigQuery temps réel, gestion problème

☝️ Dans cet épisode, je parle de Data Engineering vs Software Engineering, de Cloud SQL Studio, des fonctions d’agrégat personnaliées en python sur Snowflake, de BigQuery Continuous Queries et de recommandations pour la résolution de problèmes de Data Engineering. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Est-ce que la Data Engineering est du Software Engineering ? 👉 Disponibilité générale de Cloud SQL Studio sur GCP 👉 Disponibilité des fonctions d’agrégat customisées en python sur Snowflake 👉 Sortie en preview de BigQuery Continuous Queries 👉 Recommandations pour résoudre des problèmes de Data Engineering

08-19
12:47

DataWatch - Episode 12 - Kafka, menaces cachées, hyperscalers vs local, simplicité , CDC

☝️ Dans cet épisode, je parle de la sortie d’Apache Kafka 3.8.0, de menaces cachées dans un Data Warehouse, de l’avenir des hyperscalers et des data centers, de simplicité et de composabilité en Data Engineering, et de Data Lake Change Data Capture. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Apache Kafka 3.8.0 👉 Menaces cachées dans un Data Warehouse 👉 L'avenir entre hyperscalers et datacenters locaux 👉 La simplicité et la composabilité en Data Engineering 👉 Le Data Lake Change Data Capture

08-11
18:34

DataWatch - Episode 11 - Erreurs en DE, stockage, Snowflake Horizon, simplicité, Data Modeling

☝️ Dans cet épisode, je parle de 5 erreurs en Data Engineering, des bénéfices économiques dans la mise en place d’une politique de cycle de vie du stockage, de Snowflake Horizon, de l’utilisation de la simplicité pour résoudre les problèmes, et de différentes techniques de Data Modeling. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Pendant le mois d'août, je serai seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 5 erreurs en Data Engineering 👉 Les économies d’une politique de cycle de vie du stockage 👉 Snowflake Horizon pour une gouvernance unifiée 👉 L’utilisation de la simplicité pour résoudre les problèmes 👉 Différentes techniques de Data Modeling

08-04
21:01

DataWatch - Episode 10 - Souveraineté, Exadata Exascale, Data Timeliness, Data Quality, Data Centers

☝️ Dans cet épisode, nous parlons de souveraineté des données, de Exadata Exascale de Oracle, de Data Timeliness, de 3 étapes pour la mise en place de Data Quality et de la croissance des Data Centers. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. Cette semaine, je serai exceptionnellement seul pour animer le podcast. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 La souveraineté des données 👉 Exadata Exascale de Oracle 👉 Data Timeliness 👉 3 étapes pour la mise en place de Data Quality 👉 La croissance fulgurante des Data Centers

07-27
16:42

DataWatch - Episode 9 - Polars/PySpark, Leader Data, couche sémantique, Unistore, Modern Data Stack

☝️ Dans cet épisode, nous parlons de Polars vs PySpark, de la création d’une couche sémantique des données, de conseils pour leader une équipe data, de la convergence de l’OLTP et de l’OLAP avec Unistore de Snowflake et de l’histoire de la Modern Data Stack. 🎙️ DataWatch est un podcast de veille en data.Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Polars vs PySpark 👉 Conseils pour leader une équipe data 👉 Couche sémantique des données avec dbt 👉 Unistore, la convergence de l’OLTP et de l’OLAP 👉 L’histoire de la Modern Data Stack

07-20
01:09:38

DataWatch - Episode 8 - SCD, Data Validation, bq2dbt, BigQuery Data Canvas, Snowflake Native Apps

☝️ Dans cet épisode, nous parlons des Slowly Changing Dimensions en compagnie de Julien Hurault, de Data Validation, du script bq2dbt, de BigQuery Data Canvas, de Data Sharing avec les Snowflake Native Apps. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Julien Hurault sur LinkedIn ➕ Et le lien de sa newsletter 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les Slowly Changing Dimensions 👉 Le Data Sharing avec les Snowflake Native Apps 👉 La Data Validation 👉 Le script python : bq2dbt 👉 BigQuery Data Canvas

07-13
54:43

DataWatch - Episode 7 - Polars v1.0, Smart Data, Data Vault, Gestion logique, BigQuery JupyterLab

☝️ Dans cet épisode, nous parlons de la sortie de la version 1.0 de Polars, de Smart Data, de la gestion du cycle de vie des données avec les Data Vaults sur Snowflake, de gestion logique des données et de la preview du plugin BigQuery JupyterLab. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Polars version 1.0 👉 Smart Data 👉 Gestion du cycle de vie des données avec Data Vault sur Snowflake 👉 Plugin BigQuery JupyterLab en preview 👉 Gestion logique des données

07-07
01:13:38

DataWatch - Episode 6 - Data Reliability, CI/CD, BigQuery, tendances data

☝️ Dans cet épisode, nous parlons de Data Reliability, de CI/CD pour les Data Engineers, de l'utilisation du mode "append-only" de Datasream sur BigQuery et des tendances et opportunités actuelles en data. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 L'utilisation du mode "append-only" de Datasream sur BigQuery 👉 Data Reliability 👉 Tendances et opportunités actuelles en data 👉 CI/CD pour les Data Engineers

06-29
50:23

DataWatch - Episode 5 - LakeFlow, Daft, Unity Catalog, DPU & NumPy

☝️ Dans cet épisode, nous parlons de la disponibilité de LakeFlow sur Databricks, du package python Daft, de la mise en Open Source de Unity Catalog de Databricks, du rôle du DPU dans l’informatique, de la future sortie de la version 2.0 de Numpy. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 La disponibilité de LakeFlow de Databricks 👉 La package python : Daft 👉 La mise en Open Source de Unity Catalog de Databricks 👉 Le rôle du DPU dans l'informatique 👉 La future sortie de NumPy 2.0

06-23
35:09

DataWatch - Episode 4 - Dynamics tables, DuckDB v1, OpenSearch, Delta Lake, Variant Data Type

☝️ Dans cet épisode, nous parlons de Dynamics Tables sur Snowflake vs ETL/ELT, la sortie de la version 1.0.0 de DuckDB, l'intégration d’Amazon OpenSearch Service avec Amazon S3, le support de Delta Lake dans BigQuery et Variant Data Type dans Databricks. 🤩 Nous avons également un nouvel invité cette semaine qui est l'auteur d'un article sur les Dynamics Tables : Gaël Lemaux. 🎙️ DataWatch est un podcast de veille en data. Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en data et découlant du post LinkedIn du vendredi de Bertrand qui liste les articles en question. 👉 Gaël sur LinkedIn 👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn Articles 👉 Les Dynamics Table sur Snowflake avec Gaël Lemaux 👉 La sortie de la version 1.0.0 de DuckDB 👉 L'intégration d'Amazon OpenSeach Service avec Amazon S3 👉 Le support de Delta Lake dans BigQuery 👉 Databricks sort un nouveau format de données : Variant

06-16
55:50

Recommend Channels