Discover#DataOops
#DataOops
Claim Ownership

#DataOops

Author: Romain Ferraton, Fabien Beaumont, Eric Duquesnoy

Subscribed: 2Played: 7
Share

Description

DataOops : savoir-faire et compétences réunies autour des sujets données et DevOps.
On y parle :
- databases & performances : techniques d'optimisations, bonnes et mauvaises pratiques, détections des problèmes et même de hardware et de cloud
- modélisations des données : les différents types de modélisation et leur spécificités.
- devops : des bases du devops aux éléments les plus pointus
et bien sur les liens entre les 3 domaines
Retrouves nous sur https://www.dataoops.org pour plus de détails.
48 Episodes
Reverse
On parle : Migration/Transfert de données inter-databases et les problématiques de collations associées. Puis discussions sur les collations : performances, impacts Un REX sur un dataoops sur les datatypes text/varchar entre postgresqle et mssql Les grands cas d'usage IA : détection DevOx : retour d'Adrien sur ce qui lui a plus : Alto et Park et l'AGC (Appolo Guidance Computer : ou la programmation sous contraintes 😀 )
On parle indexation dans les bases de données relationnelles et en particulier PostgreSQL, MSSQL et Oracle : index Btree, GIN, GIST, partiel ou filtré, couvrant, columnstore, FullText, Spatial, BRIN, Bitmap... Une heure de comparaison entre les 3 grands SGBDR
Retour pgday Paris. PostgreSQL : MVCC et Vacuum. PowerBI : Analyser les performances et quelques conseils pour les optimiser. OBT : modélisation One Big Table et le stockage colonne à la rescousse. Clause Non-Sargable et détection d'anti-pattern avec les extended events sur MSSQL
Adrien Nayrat un spécialiste postgresql rejoint l'équipe Dataoops, il se présente et en profite pour nous rappeler l'histoire de postgresql et glisser quelques conseils sur les extensions. La deuxième partie concerne DuckDB et les nouveautés de la v0.10 ainsi que des remarques sur une nouvelle concernant les languages C/C++ considérés comme "à risques" par l'administration américaine.
Comment accélérer un chargement massif dans un columnstore sur SQL Server : un retour d'expérience approfondi avec 1 milliard de lignes chargé en 6 minutes. DuckDB passe en v0.10 et stabilise son stockage. MS Fabric annonce que le Vacuum sera bientot possible et voici pourquoi c'est une bonne chose...
REX sur des erreurs de modélisation avec des vues trop imbriquées, performance postgresql windows vs linux. DuckDB une star sur Github qui rejoint Postgresql. MS Fabric des prix d'appel pour les entreprises avec un ratio prix/performance attractif.
Episode 43 : bilan 2023 avec les lakehouses, la gouvernance des données, les bases de données vectorielles, les IA génératives et autres LLM, Oracle Cloud et les bases Autonomous
Episode timeline
Onyxia est une UX open source pour mettre en place un datalab avec des services basés sur des containers et orchestrés par K8s. Minio pour le stockage, Keycloak et Vault pour la sécurité s'intègre parfaitement. Cette solution est mise en oeuvre à l'INSEE avec le datalab SSP et Frederic Comte, Architecte Data à l'INSEE nous en explique les fondements et les avantages.
Microsoft Fabric passe en GA : on en parle
Une interview de Sylvain Lesage développeur chez Hugging Face dans l'équipe en charge de la prévisualisation des datasets : le dataset viewer. Il nous parle de son parcours et de son expérience chez Hugging Face, une société très inspirée dans le monde de l'IA.
Partie 1 : La couche sémantique et l'architecture de Power BI. Partie 2 : Comptage approximatif et l'algorythme hyperlolog. Partie 3 : les différents types d'encodage avec les columnstore index SQL Server & Apache Parquet et des stockages colonnaires en général
Episode 37 : Oracle Database Data Cartbridge ou comment faire une extension dans la base Oracle. SQL Server Journalisation Minimale. L'importance du tri des données pour les performances avec Parquet. Le tableau de bord des bases de données : +900 databases étudiées. La DataGouvernance un sujet qui n'est pas uniquement technique.
Databricks : formation en ligne gratuite et aparté Delta Lake 3.0. Oracle DB : un dashboard sur les features et innovation depuis la 11.2 avec 1608 features. Les tendances des bases de données (Relationnelles et NoSQL). Les bases de données vectorielles : qu'est ce qui les différencie et les points importants pour les choisir.
SQL : un language incontournable dans le traitement des données. On en parle avec une approche historique, les dialectes et les nouvelles approches qui rendent ce language plus vivant que jamais. Dans la deuxième partie de l'épisode on vous parle de Microsoft DataFabric : où en est-on avec ce nouveau service orienté données proposé par Microsoft.
DataLakehouse et Architecture Médaillon. Les nouveautés d'Oracle Database 23c
Dans cette épisode on parle d'un essai d'implémentation de recherche sémantique et vectorielle avec SQL Server. Dans la seconde partie : Approfondissement de Microsoft Fabric.
Microsoft a lancé un nouveau service chapeau : Microsoft Fabric. Senser regrouper tous les services autour de l'analytique, ce service est plein de promesses. Premiers avis sur ce service avec Fabien Beaumont. Romain Ferraton aborde ensuite les bases de données vectorielles, support de la mémoire des IAs. Capables de recherches sémantiques accélérées les bases de données vectorielles ont le vent en poupe. Mais on peut aussi faire ce type de recherche semantique avec des bases classiques comme postgresql avec une extension (pgvector) voir même avec sql server, oracle ou n'importe quelle base de données relationnelles en faisant des calculs de distances. Ce qui manquera toutefois à ces bases non-spécialisées : des index adaptées aux vecteurs.
4 sujets dans cet épisode : Une REX sur un problème de modélisation de données IOT dans SQL Server. L'arrivée des fonctionnalités spatiales sur DuckDB. Discussion sur l'observabilité : théorie et un exemple de log machine friendly avec Serilog. Discussion sur le datamesh
On parle de chargement de données Parquet dans SQL Server via C# et bulkcopy. On parle également des bonnes pratiques pour sql server pour stocker 3000 milliards de lignes. Dernière partie avec une overview
loading
Comments