Scribble at 2026-06-16 14:48:21 Last modified: 2026-06-17 09:42:52
このところ、一般向けのメディアでも「オープン・ウェイト」(公開版)というだけの理由で、こういうモデル・データを簡単に紹介するのだけれど、少し切り分けた方がいいと思うんだよね。これは、特にローカル環境で生成 AI を扱うための解説をしているブログやメディアについても、以前から指摘している話と同じだ。つまり、やたらと高いスペックが必要な環境を前提に平気で解説しているような類の記事というのは、買い替え需要を煽るための、実質的にはアフィリエイターやステマになっているのだ。
しかし、生成 AI をローカル環境で3年以上は使ってきた経験と、コンピュータ・サイエンスの一定レベルの素養がある者として言わせてもらうが、生成するデータがテキストであろうと楽曲であろうと画像であろうと(動画はオープン・ウェイトの範囲だと実用的なレベルの品質とは言い難いので、例外にした方がいい)、実用的なレベルの品質で十分なら最新のモデルなんて使わなくてもいいのだ。壁紙ていどの用途の画像を作るだけなら3年前のモデルである Stable Diffusion 1.5 でも素晴らしい画像を作れるし、楽曲でも 10 GB に満たない Diffusers 版の ACE-Step を動かせるなら、YouTube で配信する番組のテーマ曲とか実況動画の BGM などであれば十分なものがつくれる。テキストなら、オンライン・サービスで利用する AI の品質には届かなくても、PDF の文章を要約させたり、大部の英語テキストを翻訳させられるし、いわゆる壁打ちに使うていどなら、たとえ2年前の Gemma や Llama や GPT-OSS でも十分に使えるだろう。
というか、もちろん殆どの一般ユーザとして生成 AI を利用するのであれば、悪いことは言わないからオンラインのサービスをサブスク契約して使うのが健全だし堅実だと言える。そもそもオープン・ウェイトは研究用に一般公開されているわけで、その「一般」とは実質的に言って同業者や研究者であって、自宅で存分にけしからんイラストを作りたがっているキモオタなどではない。
したがって、いろいろな一般向けのメディアですら上で紹介している DiffusionGemma を4倍も高速なオープン・ウェイトだとして取り上げているけれど、こんなのは大多数の家庭にあるパソコンでは動かせない。まず、Google がリリースしているオリジナルのモデルについて、多くのメディアや個人サイトやブログでは「推論時に 3.8 B のパラメータだけが活性化される」ので、スペックの低いマシンでも扱える云々などと平気で書いているが、そもそもそのために格納するべきモデルの全体が Huggingface に11分割されたファイルとして公開されていることでもわかるように、50 GB を超える容量となる。更に、これを量子化した派生モデルが数多く出てきているが、最も軽量な unsloth の 4 bit edition ですら、16.8 GB もある。僕の使っているマシンだと、もちろん動くには動くが、メイン・メモリへのオフロードが必須となる。
[追記:2026-06-17] https://news.ycombinator.com/item?id=48555993 このスレッドでもまた、ローカルで動かすモデルを紹介するブログ記事を題材として、おおむね Hacker News を利用している人々の大勢としては、ローカル・モデルでの作業を他人に推奨するのは時期尚早という意見だ。僕もそう思う。しかも、このスレッドで紹介されているブログ記事の著者が使っているのは約30万円の M2 MacBook だ。おおよそ標準的な家庭で子供どころかお父さんが買える価格帯とは思えないわけで、いかにも趣味的な条件での利用だと言わざるをえない。しかも、その条件で動かしていても趣味的なクォリティに留まるわけなので、こんな状況で他人に勧めるというのは現状認識として間違っている。あるいは、上でも書いていることだが、パソコン・メーカーのステマと思われてもしょうがない。