#DataOops

DataOops : savoir-faire et compétences réunies autour des sujets données et DevOps. On y parle : - databases & performances : techniques d'optimisations, bonnes et mauvaises pratiques, détections des problèmes et même de hardware et de cloud - modélisations des données : les différents types de modélisation et leur spécificités. - devops : des bases du devops aux éléments les plus pointus et bien sur les liens entre les 3 domaines Retrouves nous sur https://www.dataoops.org pour plus de détails.

Episode 56 : MongoDB

MongoDB vs PostgreSQL : différences et similarités. Démo d'Atlas SQL vs MQL MongoDB et l'IA : vecteur et search

07-12
01:01:00

Episode 54 : des nouvelles de DuckDB, des vecteurs chez les principales databases, no/low-code vs code

Des nouvelles de DuckDB avec l'interface graphique DuckDB UI, Les vecteurs dans les principales bases de données relationnelles comme Oracle, SQL Server ou PostgreSQL et comment fabriquer ses embeddings. Enfin une discussion sur les avantages et inconvénients entre la solution NO/Low Code et le Code de l'intégration à la BI

03-24
01:00:11

Episode 50 : Performance d’un stockage physique récent | L’audit de sécurité dans SQL Server et PostgreSQL | Stockage objet

Dans cet épisode ont parle de Performance d'un stockage physique recent et la comparaison avec ce que l'on peut avoir sur du cloud public. De l'audit de sécurité dans SQL Server et PostgreSQL. Du stockage objet (S3 et Ceph), Cloud (ou pas)

07-15
--:--

Episode 49 : Migration de données et collations, Cas d’utilisations d’IA, DevOx

On parle : Migration/Transfert de données inter-databases et les problématiques de collations associées. Puis discussions sur les collations : performances, impacts Un REX sur un dataoops sur les datatypes text/varchar entre postgresqle et mssql Les grands cas d'usage IA : détection DevOx : retour d'Adrien sur ce qui lui a plus : Alto et Park et l'AGC (Appolo Guidance Computer : ou la programmation sous contraintes 😀 )

05-28
--:--

Episode 48 : Indexation – PostgreSQL vs MSSQL vs Oracle

On parle indexation dans les bases de données relationnelles et en particulier PostgreSQL, MSSQL et Oracle : index Btree, GIN, GIST, partiel ou filtré, couvrant, columnstore, FullText, Spatial, BRIN, Bitmap... Une heure de comparaison entre les 3 grands SGBDR

04-30
--:--

Episode 47 : PostgreSQL : MVCC et Vacuum – PowerBI : Analyser les performances – Modélisation One Big Table et le stockage colonne à la rescousse – Détection d’anti-pattern dans MSSQL

Retour pgday Paris. PostgreSQL : MVCC et Vacuum. PowerBI : Analyser les performances et quelques conseils pour les optimiser. OBT : modélisation One Big Table et le stockage colonne à la rescousse. Clause Non-Sargable et détection d'anti-pattern avec les extended events sur MSSQL

04-06
--:--

Episode 46 : Adrien Nayrat nous rejoint pour parler postgresql – DuckDB v0.10 – C/C++ bannis par les USA ?

Adrien Nayrat un spécialiste postgresql rejoint l'équipe Dataoops, il se présente et en profite pour nous rappeler l'histoire de postgresql et glisser quelques conseils sur les extensions. La deuxième partie concerne DuckDB et les nouveautés de la v0.10 ainsi que des remarques sur une nouvelle concernant les languages C/C++ considérés comme "à risques" par l'administration américaine.

03-10
--:--

Episode 45 : Chargement massif 1 Milliard de lignes dans un columnstore SQL Server en 6min, DuckDB v0.10, MS Fabrics et Vacuum

Comment accélérer un chargement massif dans un columnstore sur SQL Server : un retour d'expérience approfondi avec 1 milliard de lignes chargé en 6 minutes. DuckDB passe en v0.10 et stabilise son stockage. MS Fabric annonce que le Vacuum sera bientot possible et voici pourquoi c'est une bonne chose...

02-19
01:07:09

Episode 44 : REX dataoops modélisation et postgresql performance, DuckDB stars, MS Fabric ratio prix/performance

REX sur des erreurs de modélisation avec des vues trop imbriquées, performance postgresql windows vs linux. DuckDB une star sur Github qui rejoint Postgresql. MS Fabric des prix d'appel pour les entreprises avec un ratio prix/performance attractif.

01-31
01:06:09

Episode 43 : bilan 2023 une année spéciale pour la data avec l’émergence de l’IA et la progression des stockages objets et lakehouse

Episode 43 : bilan 2023 avec les lakehouses, la gouvernance des données, les bases de données vectorielles, les IA génératives et autres LLM, Oracle Cloud et les bases Autonomous

12-31
01:02:01

Episode 41 : Onyxia et SSP Cloud avec Frederic Comte

Onyxia est une UX open source pour mettre en place un datalab avec des services basés sur des containers et orchestrés par K8s. Minio pour le stockage, Keycloak et Vault pour la sécurité s'intègre parfaitement. Cette solution est mise en oeuvre à l'INSEE avec le datalab SSP et Frederic Comte, Architecte Data à l'INSEE nous en explique les fondements et les avantages.

12-20
--:--

Episode 40 – Microsoft Fabric passe en GA

Microsoft Fabric passe en GA : on en parle

12-06
01:07:10

Episode 39 : Interview Sylvain Lesage, Développeur chez Hugging Face

Une interview de Sylvain Lesage développeur chez Hugging Face dans l'équipe en charge de la prévisualisation des datasets : le dataset viewer. Il nous parle de son parcours et de son expérience chez Hugging Face, une société très inspirée dans le monde de l'IA.

11-19
01:05:28

Episode 38 : PowerBI et Couche Sémantique – Databases et Comptage Approximatif – Parquet méthode d’encodage

Partie 1 : La couche sémantique et l'architecture de Power BI. Partie 2 : Comptage approximatif et l'algorythme hyperlolog. Partie 3 : les différents types d'encodage avec les columnstore index SQL Server & Apache Parquet et des stockages colonnaires en général

11-08
57:09

Episode 37 : Oracle Data Cartbidge, SQL Server Minimal Logging, Parquet et tri des données, Database of Databases Dashboard, DataGouvernance

Episode 37 : Oracle Database Data Cartbridge ou comment faire une extension dans la base Oracle. SQL Server Journalisation Minimale. L'importance du tri des données pour les performances avec Parquet. Le tableau de bord des bases de données : +900 databases étudiées. La DataGouvernance un sujet qui n'est pas uniquement technique.

10-15
01:06:43

Recommend Channels