DiscoverKnowledge Science - Alles über KI, ML und NLPEpisode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz
Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Update: 2025-10-29
Share

Description

Send us a text

Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein  Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet. 

Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!


Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936

Support the show

Comments 
loading
In Channel
loading
00:00
00:00
1.0x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz

Sigurd Schacht, Carsten Lanquillon