Ep.759 中国Zhipu AI、「GLM-4.6V」を発表──“目”を持つAIが、ついに“手”も手に入れた(2025年12月11日配信)
Description
中国の有力AIスタートアップであるZhipu AIが、最新のマルチモーダルモデル「GLM-4.6V」を発表しました。ユーザーから提示されたURLやWeb上の情報を統合すると、このモデルは単に「画像認識の精度が上がった」というレベルを超え、AIが「目」だけでなく「手」も手に入れたような進化を遂げています。
これまでの視覚AIモデルは、画像を見て「これは猫です」とか「グラフの売上は右肩上がりです」と説明することは得意でした。しかし、その後の「じゃあ猫の画像を保存して」とか「売上データをExcelに入力して」といった具体的な操作(アクション)を行うには、別のプログラムを組み合わせる必要がありました。
今回発表された「GLM-4.6V」の革新的な点は、画像認識モデルそのものに「Function Calling(道具を使う機能)」がネイティブに組み込まれたことです。これにより、AIは工場の監視カメラ映像を見て「異常発生」と判断したら、即座にライン停止のシステムコマンドを送信したり、Webサイトのスクリーンショットを見て、そのデザイン通りにコーディングを行ったりといった、複雑なタスクを一気通貫でこなせるようになります。
スペック面を見ると、クラウド向けの高性能な「106B(1060億パラメータ)」モデルと、PCやスマホ上で高速に動く「9B(90億パラメータ)」モデルの2種類が用意されました。特に9Bモデルは非常に軽量でありながら高い性能を持っており、これをロボットやドローン、あるいは昨日話題にしたスマートグラスのようなデバイスに搭載すれば、ネットがない場所でも「見て判断して動く」AIが実現します。
欧米ではOpenAIやAnthropicが先行して「Agentic AI(エージェント型AI)」へのシフトを進めていますが、中国勢もまた、Zhipu AIを筆頭に「実社会でどう役に立つか」という実装力において猛烈な追い上げを見せています。2026年は、AIがチャット画面の中から飛び出し、工場のラインや私たちのPC画面を直接操作する「AI同僚」として働き始める年になるでしょう。




