Discover株式会社ずんだもん技術室AI放送局株式会社ずんだもん技術室AI放送局 podcast 20241122
株式会社ずんだもん技術室AI放送局 podcast 20241122

株式会社ずんだもん技術室AI放送局 podcast 20241122

Update: 2024-11-21
Share

Description

関連リンク





LLM(大規模言語モデル)は英語での能力が向上していますが、他の言語での性能はまだ未知数です。そこで、日本語のLLMの性能を評価する「Open Japanese LLM Leaderboard」が発表されました。これは、LLM-jpプロジェクトとHugging Faceのパートナーシップにより開発されたもので、20以上のデータセットから構成され、日本語LLMのメカニズムを理解することを目的としています。



日本語は、漢字、ひらがな、カタカナの3種類の文字を組み合わせた複雑な書き言葉体系を持ち、英語や中国語、オランダ語、ポルトガル語、フランス語、ドイツ語、アラビア語などからの外来語や、独特の絵文字や顔文字も存在します。さらに、日本語は単語間のスペースがなく、トークン化の難易度が高い言語です。



Open Japanese LLM Leaderboardは、日本語LLMの評価に特化したllm-jp-evalライブラリを使用し、16のタスクでLLMを評価します。これらのタスクには、自然言語推論、機械翻訳、要約、質問応答などの古典的なものから、コード生成、数学的推論、人間試験などの現代的なものまで含まれます。データセットは、LLM-jpの評価チームが言語学者、専門家、人間アノテーターと協力して作成したものや、日本語に自動翻訳され、日本語の特徴に合わせて調整されたものなどがあります。



このリーダーシップでは、Jamp、JEMHopQA、jcommonsenseqa、chABSA、mbpp-ja、mawps、JMMLU、XL-Sumなどのデータセットを使用しています。Jampは、NLIのための日本語の時間的推論ベンチマークであり、JEMHopQAは、内部推論を評価できる日本語の多段QAデータセットです。jcommonsenseqaは、常識的推論能力を評価する多肢選択式の質問回答データセットです。chABSAは、金融レポートの感情分析データセットで、2016年の日本の上場企業の財務報告書に基づいています。mbpp-jaは、Pythonの基本的な問題を日本語に翻訳したプログラミングデータセットです。mawpsは、数学的な問題を解く能力を評価するデータセットで、CoT推論を使用しています。JMMLUは、高校レベルのテストの知識を評価する4択の質問回答データセットです。XL-Sumは、BBCニュースの記事の日本語翻訳に基づく要約データセットです。



このリーダーシップは、Hugging FaceのOpen LLM Leaderboardに触発され、HuggingFaceのInference endpoints、llm-jp-evalライブラリ、vLLMエンジン、mdxコンピューティングプラットフォームを使用してモデルを評価します。



日本語LLMガイド「Awesome Japanese LLM」によると、MetaのLLamaアーキテクチャが多くの日本のAIラボで好まれているようです。しかし、MistralやQwenなどの他のアーキテクチャも、日本語LLMリーダーシップで高いスコアを獲得しています。オープンソースの日本語LLMは、クローズドソースのLLMとの性能差を縮めており、特にllm-jp-3-13b-instructはクローズドソースのモデルと同等の性能を示しています。



今後の方向性として、llm-jp-evalツールの開発に合わせて、リーダーシップも進化していく予定です。例えば、JHumanEvalやMMLUなどの新しいデータセットの追加、CoTプロンプトを使用した評価、NLIタスクでのアウト・オブ・チョイス率の測定などが挙げられます。



Open Japanese LLM Leaderboardは、LLM-jpコンソーシアムによって構築され、国立情報学研究所(NII)とmdxプログラムの支援を受けています。このプロジェクトには、東京大学の宮尾祐介教授、Han Namgi氏、Hugging Faceのクレモンティーヌ・フーリエ氏、林俊宏氏が参加しています。



引用元: https://huggingface.co/blog/leaderboard-japanese





(株式会社ずんだもんは架空の登場組織です)

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

株式会社ずんだもん技術室AI放送局 podcast 20241122

株式会社ずんだもん技術室AI放送局 podcast 20241122

株式会社ずんだもん技術室AI放送局