#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント〜

Update: 2024-11-18

Description

LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with Agentsを題材に話しました。

ポッドキャストの書き起こしサービス「LISTEN」は⁠こちら⁠

Shownotes:

出演者：

Comments

Top Podcasts

In Channel

#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント〜

2024-11-1829:18

#9: 今流行り!?の社内v0開発に取り組んでみてる感想

2024-11-1429:19

#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -

2024-11-0432:30

#7: AIによるプロンプト最適化：Automated Prompting 〜そして評価へ〜

2024-10-2832:01

#6: RAG and Beyond 〜4つのレベルで理解するRAGとその先〜

2024-10-2335:59

#5: OpenAI DevDay 2024の感想 ~Prompt Caching編~

2024-10-1515:18

#4: ~Embedding first, Chunking Later~ Jina AIが提唱したLate Chunkingについて学ぶ

2024-10-0724:57

#3: 音声AI使ってる？最近の音声AIサービスについて雑談〜GoogleのNotebookLMとRetell AI、個人開発〜

2024-09-3018:56

#2: LLMエージェント for ソフトウェアエンジニアリングの世界

2024-09-1646:58

#1: Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作る

2024-09-0832:59

00:00

#box-pro-ellipsis-173227071464446{-webkit-line-clamp:2;}#10: Agent-as-a-judge 〜エージェントの評価を行うエージェント 〜