Discover名古屋ではたらく社長のITニュースポッドキャストEp.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)
Ep.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)

Ep.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)

Update: 2025-12-03
Share

Description

今回は、画像生成AIの世界に現れた、小さくてもとてつもなく器用なニューカマーについてお話ししましょう。アリババの国際研究チームであるAIDC-AIが、Hugging Faceで「Ovis-Image-7B」という新しいモデルを公開しました。


皆さん、画像生成AIを使っていて「惜しい!」と思ったことはありませんか? 例えば、「カフェの看板を描いて」と頼んだとき、絵は完璧におしゃれなカフェなのに、看板に書かれている文字が、まるで宇宙語のような謎の記号になってしまっている……そんな経験です。実は、これまでのAIにとって、画像の中に正しいスペルで文字を書くというのは、非常に難しい課題でした。


ところが、今回登場した「Ovis-Image-7B」は、まさにその弱点を克服するために生まれてきました。このモデル、名前に「7B」とある通り、パラメータ数は70億と、業界の基準で見ればかなりコンパクトなサイズです。一般的にAIは、脳みそであるパラメータが大きいほど賢いとされていますが、このOvisは違います。その小さな体で、なんとあのGPT-4oのような超巨大モデルに匹敵するほど、「正確に文字を描く」ことができるんです。


なぜそんなことが可能になったのでしょうか。その秘密は「構造的埋め込み(Structural Embedding)」という独自の技術にあります。従来のAIが画像を「色の集まり」としてぼんやり捉えていたのに対し、Ovisは画像を、まるで文章を読むように「意味のある構造」として捉えます。これにより、「この位置に、このフォントで、正確に『SALE』と書く」といった指示を、驚くほど忠実に実行できるようになったのです。


これが普及すれば、例えば飲食店のメニュー表や、イベントのポスター、Webサイトのバナー広告などが、デザイナーでなくとも一瞬で作れるようになります。しかも、軽量なモデルなので、巨大なサーバーを用意しなくても、手元の高性能なPCでサクサク動かせる未来もすぐそこに来ています。


「文字が書けない」という画像生成AIの長年の悩みが、このコンパクトな巨人によって解決されようとしています。クリエイティブの敷居がまた一つ下がりそうですね。

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Ep.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)

Ep.729 画像の中の“文字”を制する7Bの革命児──Alibaba発「Ovis-Image」の衝撃(2025年12月4日配信)

ikuo suzuki