Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

Update: 2025-09-20

Description

Haben KI-Systeme Präferenzen? Können sie sich unwohl fühlen? Leonard Dung von der Ruhr-Universität Bochum erforscht das mögliche Wohlbefinden von Sprachmodellen. Im Gespräch erklärt er, wie sein Team mit dem "Agent Think Tank" testet, worüber Modelle wie Claude gerne sprechen, warum sie immer wieder zu philosophischen Themen über Bewusstsein tendieren und was passiert, wenn man KI-Systemen virtuelle Münzen gibt. Eine faszinierende Reise an die Grenze zwischen Simulation und echten mentalen Zuständen.

Paper: Probing the Preferences of a Language Model: Integrating Verbal and Behavioral Tests of AI Welfare - https://arxiv.org/abs/2509.07961

Support the show

Comments

In Channel

Episode 219 Nested Learning: Ist Deep Learning nur eine Illusion?

2025-12-0337:02

Episode 218 - Mechanistische Interpretierbarkeit - Warum wir verstehen müssen, wie Sprachmodelle wirklich ticken

2025-11-1929:47

Episode 217 - Circuit Lenses: Den KI-Kontext entschlüsseln - Teil 2

2025-11-0831:16

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

2025-10-2939:55

Episode 215: Wenn Rauschen zu Geschichten wird - Wie Transformer halluzinieren

2025-10-1436:20

Episode 214 - Die 10 Gebote der Agenten-Ökonomie: Wunschdenken oder Wegweiser?

2025-10-0544:29

Episode 213 - AI Transparency Days 2025: Von Boston nach Nürnberg - Brücken bauen zwischen KI-Forschung und Praxis

2025-09-2424:28

Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

2025-09-2050:36

Episode 211 - GPT-5, GPT-OSS & die Ethik der KI-Agenten: Wenn Maschinen zu Freunden werden

2025-08-0944:22

Episode 210 - KI-Finanzminister im Test: 93% mehr soziale Wohlfahrt durch Sprachmodelle

2025-07-2940:45

Episode 209 - Die schleichende Entmachtung: Wie KI-Systeme bereits heute unseren Einfluss auf Wirtschaft, Kultur und Staat untergraben können.

2025-07-2145:48

Episode 208 - Theory of Mind für KI: Wenn Maschinen lernen, uns zu verstehen

2025-07-1233:46

Episode 207 - KI-Verifikation: Wie wir Antworten vertrauen können – Generation Gap & schwache Verifizierer

2025-07-0536:28

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

2025-06-2138:30

Episode 205 - KI-Modelle unter Beobachtung: Verändern Evaluierungen das Verhalten?

2025-06-0731:09

Episode 204 - Claude Opus/Sonnet 4 zwischen Innovation und Ethik"

2025-05-3144:12

Episode 203 - TINA Reasoning: Kleine Modelle, große Wirkung mit LoRA

2025-05-1029:23

Episode 202 - KI im Schlafmodus: Wie Sleep-Time-Compute Sprachmodelle effizienter macht

2025-05-0430:53

Episode 201 - KI-Gehirnwäsche? Wie man Sprachmodelle umprogrammiert – Ethik vs. Innovation

2025-04-2640:38

AI Generated (E): KS Pulse - AI Alignment and Complex Problem Solving

2025-04-2503:39

00:00

Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

Sigurd Schacht, Carsten Lanquillon

#box-pro-ellipsis-176548204146611{-webkit-line-clamp:2;}Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen

Sigurd Schacht, Carsten Lanquillon

Episode 212 - Leonard Dung - AI Welfare: Wie wir das Wohlbefinden von Sprachmodellen messen