Ep.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)
Description
今回は、画像生成AIの世界に現れた、小さくてもとてつもなく器用なニューカマーについてお話ししましょう。アリババの国際研究チームであるAIDC-AIが、Hugging Faceで「Ovis-Image-7B」という新しいモデルを公開しました。
皆さん、画像生成AIを使っていて「惜しい!」と思ったことはありませんか? 例えば、「カフェの看板を描いて」と頼んだとき、絵は完璧におしゃれなカフェなのに、看板に書かれている文字が、まるで宇宙語のような謎の記号になってしまっている……そんな経験です。実は、これまでのAIにとって、画像の中に正しいスペルで文字を書くというのは、非常に難しい課題でした。
ところが、今回登場した「Ovis-Image-7B」は、まさにその弱点を克服するために生まれてきました。このモデル、名前に「7B」とある通り、パラメータ数は70億と、業界の基準で見ればかなりコンパクトなサイズです。一般的にAIは、脳みそであるパラメータが大きいほど賢いとされていますが、このOvisは違います。その小さな体で、なんとあのGPT-4oのような超巨大モデルに匹敵するほど、「正確に文字を描く」ことができるんです。
なぜそんなことが可能になったのでしょうか。その秘密は「構造的埋め込み(Structural Embedding)」という独自の技術にあります。従来のAIが画像を「色の集まり」としてぼんやり捉えていたのに対し、Ovisは画像を、まるで文章を読むように「意味のある構造」として捉えます。これにより、「この位置に、このフォントで、正確に『SALE』と書く」といった指示を、驚くほど忠実に実行できるようになったのです。
これが普及すれば、例えば飲食店のメニュー表や、イベントのポスター、Webサイトのバナー広告などが、デザイナーでなくとも一瞬で作れるようになります。しかも、軽量なモデルなので、巨大なサーバーを用意しなくても、手元の高性能なPCでサクサク動かせる未来もすぐそこに来ています。
「文字が書けない」という画像生成AIの長年の悩みが、このコンパクトな巨人によって解決されようとしています。クリエイティブの敷居がまた一つ下がりそうですね。




