DiscoverAI Engineering Now#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜
#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

Update: 2024-11-18
Share

Description

LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。



ポッドキャストの書き起こしサービス「LISTEN」は⁠こちら⁠



Shownotes:




https://arxiv.org/abs/2410.10934v1




https://huggingface.co/DEVAI-benchmark




https://github.com/metauto-ai/agent-as-a-judge/tree/main




https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/


出演者:


seya(⁠@sekikazu01⁠)


kagaya(⁠@ry0_kaga⁠)

Comments 
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜

AI Engineering Now