084 - Modale Sprachmodelle

Update: 2025-11-14

Description

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams aus spezialisierten Systemen. Wir klären auf, wie Large Language Models (LLMs), die von Natur aus für Text gemacht sind, Bilder und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch einen eingefrorenen Vision Encoder in visuelle Tokens (Vektoren) umgewandelt. Die eigentliche Magie liegt in der trainierbaren Brücke, die diese Tokens für den Sprachexperten (das LLM) übersetzt. Wir stellen die beiden Hauptansätze zur Verbindung vor: den nicht-invasiven Ansatz (wie bei LLaVA) und den invasiven Ansatz (wie beim Flamingomodell), der dem LLM ermöglicht, permanent auf die Bildinformationen zurückzugreifen. Zudem grenzen wir die Perzeption (Encoding) klar von der Bildererzeugung (Decoding/Diffusionsmodelle) ab.