Episode 224 : Données non structurées et modern OCR

Update: 2025-10-28

Description

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.

On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.

00:00 Introduction
03:06 La promesse des éditeurs
08:05 Comprendre le RAG et son fonctionnement
11:06 Difficultés liées à l'OCR et à l'extraction de données
19:05 Recommandations pour l'optimisation des documents
28:46 Mistral Document AI et ses fonctionnalités
33:49 Chunking et gestion des documents
40:55 Fine-tuning des modèles d'embeddings
43:00 Formats de documents et leur pérennité
47:23 Conclusion et perspectives

Notes et ressources
https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr

Comments

In Channel

Episode 225 : La guerre des agents SDK

2025-11-0454:51

Episode 224 : Données non structurées et modern OCR

2025-10-2851:24

Episode 223 : Aerospike

2025-10-1601:03:25

Episode 222 - Chemise hawaienne et GPT5 qui flop

2025-10-1052:53

Episode 221 : Data vibe coding avec NAO

2025-08-0601:05:33

Episode 220 : Databricks Data and AI Summit 2025

2025-07-2501:06:58

Episode 219 : Format Table Iceberg, Delta et Ducklake

2025-07-1155:19

Episode 218 : Agents IA

2025-07-0259:15

Episode 217 : BDH live à Devoxx Paris 2025

2025-05-2842:23

Episode 216 : DBT vs SQLMesh

2025-04-1153:17

Episode 215 : Le RAG en 2025 toujours d'actualité ?

2025-04-0757:46

Episode 214 : Plus vite et moins cher sur Snowflake avec Indexima

2025-03-2151:53

episode 213 : Timeseries et SQL avec Warp10

2025-02-2101:00:16

Episode 212 Analytique en Cloud Hybride

2025-02-0301:18:03

Episode 211 - Motherduck

2025-01-2355:19

Episode 210 - Prédictions 2025

2025-01-1744:52

Episode 209 : FoundationDB, brique élémentaire de Materia KV feat @MACI

2024-11-2201:15:26

Episode 208 : Aux sources de FoundationDB feat @MACI

2024-11-1558:48

Episode 207 : Live au Salon Data & IA de Nantes 2024

2024-11-0135:30

Episode 206 : portes ouvertes chez OpenAI

2024-10-1850:54

00:00

Episode 224 : Données non structurées et modern OCR

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

#box-pro-ellipsis-176398551551294{-webkit-line-clamp:2;}Episode 224 : Données non structurées et modern OCR

Episode 224 : Données non structurées et modern OCR

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

Episode 224 : Données non structurées et modern OCR