DiscoverBig Data HebdoEpisode 224 : Données non structurées et modern OCR
Episode 224  : Données non structurées et modern OCR

Episode 224 : Données non structurées et modern OCR

Update: 2025-10-28
Share

Description

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.

On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.

00:00 Introduction
03:06 La promesse des éditeurs
08:05 Comprendre le RAG et son fonctionnement
11:06 Difficultés liées à l'OCR et à l'extraction de données
19:05 Recommandations pour l'optimisation des documents
28:46 Mistral Document AI et ses fonctionnalités
33:49 Chunking et gestion des documents
40:55 Fine-tuning des modèles d'embeddings
43:00 Formats de documents et leur pérennité
47:23 Conclusion et perspectives

Notes et ressources 
https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
Comments 
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Episode 224  : Données non structurées et modern OCR

Episode 224 : Données non structurées et modern OCR

Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz