#219 - Az év válsága a benchmarkok körül forog

Update: 2025-07-16

Description

A nagy nyelvi modellek eredményességét nehéz mérni, hiszen egy meglehetősen szubjektív tevékenységet kellene összehasonlítható és objektív módon értékelni. A régebbi benchmark-adatbázisok, mint pl. az MMLU vagy a GPQA már nem jelentenek kihívást az LLM-eknek (ahogy ezt az LMArena Leaderboardján is láthatjuk), mert rájuk tanultak - de akkor mi a megoldás? Az Apple tanulmánya szerint (The Illusion of Thinking) úgysem tudnak komplex problémákat megoldani az LLM-ek, és Caiwei Chen is azt írja, hogy válságban a benchmarking (Can We Fix AI's Evaluation Crisis?). Amíg ezek vitatkoznak, mi versenyezhetünk az LLM-ekkel - ki az okosabb?

Comments

In Channel

045 - Mi köze a szitakötő agyának az automatizált programozáshoz?

2022-02-1741:15

#230 - Elhozza-e a Zero Click korát a lakossági AI?

2025-10-1544:12

#229 - A Meta miért dózerol le egy félkész adatközpontot?

2025-10-0140:56

#228 - Arcra érkezés egy puhább leszállópályán

2025-09-2438:47

#227 - Eljön-e a 100%-os munkanélküliség?

2025-09-1059:23

#226 - Az LLM eltörli a népítéletet és a beadandó dolgozatokat?

2025-09-0346:14

#225 - Van-e AI az LLM-en túl?

2025-08-2738:15

#224 - Mindenki az AI lufiról beszél, jön a durranás?

2025-08-2033:53

#223 - Szemfényvesztés és fifika-verseny az MI világában

2025-08-1436:06

#221 - Mindenki sír: EU-s cégek, az amerikai tanárok és a Grok userek

2025-07-3037:37

#220 - Becsukták a Pocketet, Gyuri tombol!

2025-07-2342:59

#219 - Az év válsága a benchmarkok körül forog

2025-07-1635:25

#218 - Claude, avagy az Anthropic alkotmányos költségei

2025-07-0944:47

#217 - Az elszaródás törvénye az MI-re is lecsap

2025-07-0240:28

#216 - A szerkesztőség a BusinessFesten téblábol

2025-06-2535:34

#215 - Érdemes-e a Google MI-hez fordulni bármivel?

2025-06-1340:44

#214 - Elveszi-e az MI a munkánk után az életünk értelmét is?

2025-06-0650:21

#213 - dataSTREAM 2025

2025-05-3052:16

#212 - Miért nem érünk rá savazni az LLM-et?

2025-05-2339:28

#211 - A Nagy Párbaj: egymásnak eresztettük a Google-t és a Perplexityt

2025-05-1646:33

00:00

#219 - Az év válsága a benchmarkok körül forog

#box-pro-ellipsis-176249653835281{-webkit-line-clamp:2;}#219 - Az év válsága a benchmarkok körül forog

#219 - Az év válsága a benchmarkok körül forog

Láncreakció Clementine

#219 - Az év válsága a benchmarkok körül forog