#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜
Update: 2024-11-18
Description
LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://arxiv.org/abs/2410.10934v1
https://huggingface.co/DEVAI-benchmark
https://github.com/metauto-ai/agent-as-a-judge/tree/main
https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/
出演者:
seya(@sekikazu01)
kagaya(@ry0_kaga)
Comments
Top Podcasts
The Best New Comedy Podcast Right Now – June 2024The Best News Podcast Right Now – June 2024The Best New Business Podcast Right Now – June 2024The Best New Sports Podcast Right Now – June 2024The Best New True Crime Podcast Right Now – June 2024The Best New Joe Rogan Experience Podcast Right Now – June 20The Best New Dan Bongino Show Podcast Right Now – June 20The Best New Mark Levin Podcast – June 2024
In Channel