Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日(2026年1月1日配信)
Description
Metaの研究部門であるMeta AIが、また一つAIの知覚能力を押し上げる画期的な論文を発表しました。その名も「PE-AV(Perception Encoder Audiovisual)」。簡単に言えば、AIに「目」と「耳」を同時に、そして完全にリンクした状態で持たせるための新しい脳の構造です。
これまでも映像と音声を扱うAIはありましたが、その多くは「画像」が主役で、音声はあくまで補助的な役割に留まるか、あるいは別々に処理されることが一般的でした。しかし、私たちの現実世界では、ガラスが割れる映像と、パリーンという音は不可分な存在ですよね。Metaが今回発表したPE-AVは、1億件以上という膨大な動画データを用い、映像、音声、そしてテキストのすべての組み合わせ(ペア)において、何がどう対応しているのかを「対照学習」という手法で徹底的に学習させました。
このモデルの凄さは、特定のデータ(例えば画像だけ)を基準にするのではなく、すべての感覚データを対等に扱える点にあります。これにより、「波の音」を聞かせるだけでそれにぴったりの「海の映像」を探し出したり、逆に映像からどんな音が鳴っているはずかを推測したりする精度が劇的に向上しました。
さらに興味深いのは、この技術がMetaの次世代音声AIツール「SAM Audio」の基盤になっているという点です。写真から物体を切り抜くように、複雑な環境音から特定の音だけを抽出するこの技術は、PE-AVという強力な「知覚エンジン」があって初めて実現しました。
GoogleやOpenAIが派手な「生成」機能で注目を集める中、Metaはこうして地味ながらも強力な「知覚(Perception)」の基礎体力を着々と強化しています。これは、彼らが目指すARグラスやメタバースにおいて、AIが現実世界を人間と同じように理解するために不可欠なステップだからです。AIが私たちの見ているもの、聞いているものを違和感なく理解する未来が、また一歩近づいたと言えるでしょう。




