DiscoverKnowledge Science - Alles über KI, ML und NLPEpisode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen
Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Update: 2025-06-21
Share

Description

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.


Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Sigurd Schacht, Carsten Lanquillon