Scribble at 2026-06-05 07:18:49 Last modified: 2026-06-05 07:20:45

IDEOGRAM という会社から、オリジナルの画像生成モデル IDEOGRAM 4.0 がリリースされた。しかも、今回は FP8 版などのオープン・ウェイトも Huggingface でリリースされている。確認してみると、テキスト・エンコーダとモデル本体と VAE とのセットで、おおよそ 20 GB くらいになる。ふつう、フロント・エンドで読み込むときはモデル本体の容量だけを考えて、他はオフロードとして考えることが多いので、ひとまず僕のマシンでも動くには動く（実際、僕のマシンではモデル本体だけでも 14 GB になる、動画生成モデルの Wan 2.2 も動く）。ただ、公式サイトでは ComfyUI での動作が紹介されているだけなので、Forge Neo が対応しないのであれば、このモデルを僕が使うことはないだろう。フロント・エンドの仕様によって使うかどうかを判断するのは本末転倒かもしれないが、あまり色々なフロント・エンドをマシンに入れたくないし、なんだかんだ言っても僕は ComfyUI が好きになれない（これまでに Qwen や Ace-Step を動かすために２回ほどインストールして使った事はあるから、もちろん導入方法や使い方は知っている）。しょせん、ロジックやバック・エンドでやってることは Forge Neo や他のフロント・エンドと同じであるにも関わらず、表面的な UI だけで「中級向け」を気取っている、単に使い辛いだけのツールを習得する気など起きない。

それから、もちろんプロモーションのサイトで紹介されているのだから、あるていどは取捨選択されているのは仕方ないと思うが、実際に IDEOGRAM 4.0 で生成された画像のサンプルを眺めていると、とにかく酷く凡庸でつまらないという印象しか出てこないのだ。判定用のアプリケーションなんて使わずとも、即座に「これは AI」と断定できるほど画一的で、未熟で、凡庸な画像ばかりでウンザリだ。それから、テキストの生成について正確なコントロールができるという特徴をアピールしているけれど、これも別に僕は必要を感じていない。画像にわざわざ何かテキストを正確な表現で精密な位置に表示する必要があるなら、そんなもん Photoshop で編集すればいいだけだ。何も失敗するリスクがある生成モデルに任せる必要はあるまい（どれほどテキストの制御ができると言っても、「画像の左上から右に 18 ピクセル、下へ 25 ピクセルの位置から描き始めよ」とまでは指示できまい）。

冒頭に戻る