73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話

Update: 2023-08-20

Description

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm につぶやいてもらえるととても喜びます！

匿名でのお便りもgoogle formにてお待ちしております！

—

show notes

辻さんが紹介している論文：Lost in the Middle: How Language Models Use Long Contexts
- 関連する情報が入力コンテキストの先頭または末尾にある場合に性能が最も高くなることが多く、
- 長いコンテキストの途中で関連する情報にアクセスしなければならない場合に性能が著しく低下することがわかった
- さらに、入力コンテキストが長くなるにつれて、明示的に長いコンテキストを持つモデルであっても性能が大幅に低下する

金さんが紹介している論文:Language Models are Realistic Tabular Data Generators
- ICLR 2023 posterにて選定された
- 実際にKaggleのPlaygroundコンペ用のデータに使われている
  - Regression with a Crab Age Dataset
  - Make Synthetic Crab Age Data
- GReaTのPythonパッケージ

Comments

In Channel

89. 執筆者でトーク！先輩データサイエンティストからの指南書ってどんな本？

2025-08-1720:50

88. 新会社BrainPad AAA（エーキューブ）とAIエージェントについて

2025-05-2830:42

87.スタートアップ代表お二人とスポーツアナリティクスについてトーク！（外部ゲスト @k_shoppi、@nagano_meme）

2024-11-1742:27

86.実務における効果検証

2024-09-0916:31

85.受託分析の歯痒さと限界、やっていて良かったこと

2024-08-0427:12

84.2024年の人工知能学会とICLR (LLM、拡散モデル、世界モデル)

2024-07-0127:16

83.言語処理学会第30回(NLP2024)について「大規模言語モデルによる予測モデルの生成」と「逆学習による言語モデルの解析」

2024-04-0721:58

82.MLOpsの役割とチーム内コミュニケーション

2024-03-2422:14

81.【公開収録】受託分析から事業会社に転職してどうですか？（特別ゲスト：にのぴら、dhirooka、おおたまん）

2024-02-1634:11

80.最近のLLMの動向、マルチモーダルモデルの仕組みとLLMの評価方法を解説

2024-02-0437:41

79.分析PM Three Essentials WITH Ryosuke Nakamichi

2024-01-2856:25

78.白金鉱業FM、初の公開収録をやります！そして吉田さん（ysdyt）、転職してからどうですか？

2024-01-08--:--

77.となりのデータ分析屋さんコラボ回！事業会社のデータサイエンティスト&アナリストのキャリアについて(DeNA & ソフトバンク)

2023-12-1353:32

76.ブレインパッドのインターンの紹介(データサイエンティストコース)

2023-11-1231:54

75.バンダイナムコネクサスのデータマネジメントについて（外部ゲスト回：BNXデータマネージャー井村さん）

2023-10-2128:27

74.勉強会が盛んな組織を作る「b2b」の紹介その2 ~ FY2023の勉強会を振り返る ~

2023-09-1026:52

73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話

2023-08-2028:36

72.「学習と推論の時間を劇的に減らせる？QLoRA」と「ユーザープライバシー保護に使いたいMachine Unlearning」の話

2023-08-0437:19

71. データ分析における「品質を考える会」 ~ 品質はコミュニケーション ~

2023-06-2453:59

70. LLM回2回目！ChatGPTプラグインとクレームっぽい名前の論文？そして世界中でバズったDrag Your GANなど！

2023-05-2853:27

00:00

73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話

#box-pro-ellipsis-176594025170737{-webkit-line-clamp:2;}73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話

目次

show notes

73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話

白金鉱業

73.言語モデルは中間部分を見ていない？「Lost in the Middle」とテキストデータのaugmentation？「GReaT」の話