Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）

Update: 2025-12-31

Description

Metaの研究部門であるMeta AIが、また一つAIの知覚能力を押し上げる画期的な論文を発表しました。その名も「PE-AV（Perception Encoder Audiovisual）」。簡単に言えば、AIに「目」と「耳」を同時に、そして完全にリンクした状態で持たせるための新しい脳の構造です。

これまでも映像と音声を扱うAIはありましたが、その多くは「画像」が主役で、音声はあくまで補助的な役割に留まるか、あるいは別々に処理されることが一般的でした。しかし、私たちの現実世界では、ガラスが割れる映像と、パリーンという音は不可分な存在ですよね。Metaが今回発表したPE-AVは、1億件以上という膨大な動画データを用い、映像、音声、そしてテキストのすべての組み合わせ（ペア）において、何がどう対応しているのかを「対照学習」という手法で徹底的に学習させました。

このモデルの凄さは、特定のデータ（例えば画像だけ）を基準にするのではなく、すべての感覚データを対等に扱える点にあります。これにより、「波の音」を聞かせるだけでそれにぴったりの「海の映像」を探し出したり、逆に映像からどんな音が鳴っているはずかを推測したりする精度が劇的に向上しました。

さらに興味深いのは、この技術がMetaの次世代音声AIツール「SAM Audio」の基盤になっているという点です。写真から物体を切り抜くように、複雑な環境音から特定の音だけを抽出するこの技術は、PE-AVという強力な「知覚エンジン」があって初めて実現しました。

GoogleやOpenAIが派手な「生成」機能で注目を集める中、Metaはこうして地味ながらも強力な「知覚（Perception）」の基礎体力を着々と強化しています。これは、彼らが目指すARグラスやメタバースにおいて、AIが現実世界を人間と同じように理解するために不可欠なステップだからです。AIが私たちの見ているもの、聞いているものを違和感なく理解する未来が、また一歩近づいたと言えるでしょう。

Comments

In Channel

Ep.826 覇権交代、BYDがテスラを超えた日──「走るスマホ」とデカップリングの行方（2026年1月8日配信）

2026-01-0604:04

Ep.823 Meta、急成長AIエージェント「Manus」を買収──“対話”から“行動”するAIへの転換点（2026年1月1日配信）

2025-12-3103:28

Ep.822 ソフトバンク、OpenAIへの400億ドル投資を完了──「ASI」実現へ向けた孫正義氏の最終勝負（2026年1月1日配信）

2025-12-3103:48

Ep.821 100億年に1秒の刻（とき）──島津製作所の光格子時計が支える「日本標準時」の未来（2026年1月1日配信）

2025-12-3103:37

Ep.820 xAI、3拠点目の巨大データセンター「MACROHARDRR」始動──メンフィスで加速する2ギガワット構想（2026年1月1日配信）

2025-12-3103:06

Ep.819 TSMC「N2」量産開始──ナノシート技術が拓く半導体の新時代（2026年1月1日配信）

2025-12-3103:28

Ep.818 日の丸半導体、再始動──ソフトバンク・富士通・インテルが挑む“脱HBM”への道（2026年1月1日配信）

2025-12-3103:39

Ep.817 Tencentが放つ「WeDLM」の衝撃──“画像生成の技術”で言葉を紡ぐ、爆速AIの誕生（2026年1月1日配信）

2025-12-3103:32

Ep.816 Marvell、5000億円の勝負手──「光の回路」で挑む、対Nvidia・Broadcom包囲網（2026年1月1日配信）

2025-12-3104:04

Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）

2025-12-3103:21

Ep.814 Nvidia、200億ドルの衝撃──「Groq」の実質買収で狙う“推論”の完全制覇（2026年1月1日配信）

2025-12-3103:19

Ep.813 日本政府「AI基本計画」決定──“源内”と1兆円で挑む「物理AI」の逆襲（2025年12月25日配信）

2025-12-2403:53

Ep.812 Alphabet、47.5億ドルの巨額投資──「Intersect Power」買収で確保するAIの“食料”（2025年12月25日配信）

2025-12-2401:55

Ep.811 Z.ai「GLM-4.7」リリース──中国発“思考する”コーディングAIの衝撃（2025年12月25日配信）

2025-12-2403:53

Ep.810 GitHub Copilot Memory始動──AIが“あなたの流儀”を覚え始めた日（2025年12月25日配信）

2025-12-2403:02

Ep.809 ByteDance「Seedance 1.5 Pro」発表──“音と映像”を同時生成する動画AIの進化（2025年12月25日配信）

2025-12-2403:41

Ep.808 NVIDIA「Nemotron 3」始動──エージェントAI時代の“協調する頭脳”（2025年12月25日配信）

2025-12-2402:52

Ep.807 Meta、逆襲の「フルーツバスケット」──次世代モデルMangoとAvocadoが描く2026年（2025年12月25日配信）

2025-12-2403:12

Ep.806 Anthropic「Bloom」公開──AIの“隠れた本性”を暴く自動評価フレームワーク（2025年12月25日配信）

2025-12-2403:23

Ep.805 Qwen-Image-Layered登場──AI画像生成は「一枚絵」から「レイヤー」の時代へ（2025年12月25日配信）

2025-12-2403:15

00:00

Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）

#box-pro-ellipsis-17677641441961{-webkit-line-clamp:2;}Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）

Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）

ikuo suzuki

Ep.815 Metaが「PE-AV」で挑む新境地──AIの“目”と“耳”が真に統合される日（2026年1月1日配信）