Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Update: 2025-06-21

Description

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

Comments

In Channel

Episode 215: Wenn Rauschen zu Geschichten wird - Wie Transformer halluzinieren

2025-10-1436:20

Episode 214 - Die 10 Gebote der Agenten-Ökonomie: Wunschdenken oder Wegweiser?

2025-10-0544:29

Episode 213 - AI Transparency Days 2025: Von Boston nach Nürnberg - Brücken bauen zwischen KI-Forschung und Praxis

2025-09-2424:28

Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

2025-09-2050:36

Episode 211 - GPT-5, GPT-OSS & die Ethik der KI-Agenten: Wenn Maschinen zu Freunden werden

2025-08-0944:22

Episode 210 - KI-Finanzminister im Test: 93% mehr soziale Wohlfahrt durch Sprachmodelle

2025-07-2940:45

Episode 209 - Die schleichende Entmachtung: Wie KI-Systeme bereits heute unseren Einfluss auf Wirtschaft, Kultur und Staat untergraben können.

2025-07-2145:48

Episode 208 - Theory of Mind für KI: Wenn Maschinen lernen, uns zu verstehen

2025-07-1233:46

Episode 207 - KI-Verifikation: Wie wir Antworten vertrauen können – Generation Gap & schwache Verifizierer

2025-07-0536:28

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

2025-06-2138:30

Episode 205 - KI-Modelle unter Beobachtung: Verändern Evaluierungen das Verhalten?

2025-06-0731:09

Episode 204 - Claude Opus/Sonnet 4 zwischen Innovation und Ethik"

2025-05-3144:12

Episode 203 - TINA Reasoning: Kleine Modelle, große Wirkung mit LoRA

2025-05-1029:23

Episode 202 - KI im Schlafmodus: Wie Sleep-Time-Compute Sprachmodelle effizienter macht

2025-05-0430:53

Episode 201 - KI-Gehirnwäsche? Wie man Sprachmodelle umprogrammiert – Ethik vs. Innovation

2025-04-2640:38

AI Generated (E): KS Pulse - AI Alignment and Complex Problem Solving

2025-04-2503:39

KI generiert (D): KS Pulse - AI Alignment and Complex Problem Solving

2025-04-2504:01

AI Generated (E): KS Pulse - Long Chain-of-Thought and the Need for AI Safety in Complex Reasoning

2025-04-2403:13

KI generiert (D): KS Pulse - Long Chain-of-Thought and the Need for AI Safety in Complex Reasoning

2025-04-2403:40

AI Generated (E): KS Pulse - Automatic Prompt Optimization via Heuristic Search

2025-04-2304:14

00:00

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Sigurd Schacht, Carsten Lanquillon

#box-pro-ellipsis-176060359156550{-webkit-line-clamp:2;}Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Sigurd Schacht, Carsten Lanquillon

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen