DiscoverPrompt und Antwort084 - Modale Sprachmodelle
084 - Modale Sprachmodelle

084 - Modale Sprachmodelle

Update: 2025-11-14
Share

Description

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams aus spezialisierten Systemen. Wir klären auf, wie Large Language Models (LLMs), die von Natur aus für Text gemacht sind, Bilder und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch einen eingefrorenen Vision Encoder in visuelle Tokens (Vektoren) umgewandelt. Die eigentliche Magie liegt in der trainierbaren Brücke, die diese Tokens für den Sprachexperten (das LLM) übersetzt. Wir stellen die beiden Hauptansätze zur Verbindung vor: den nicht-invasiven Ansatz (wie bei LLaVA) und den invasiven Ansatz (wie beim Flamingomodell), der dem LLM ermöglicht, permanent auf die Bildinformationen zurückzugreifen. Zudem grenzen wir die Perzeption (Encoding) klar von der Bildererzeugung (Decoding/Diffusionsmodelle) ab.

Comments 
loading
00:00
00:00
1.0x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

084 - Modale Sprachmodelle

084 - Modale Sprachmodelle

KI-Gilde