Scribble at 2026-03-06 11:53:25 Last modified: 2026-03-06 12:46:13
新しいマシンに LM Studio を入れてから、最新の Qwen 3.5 9B(8ビット量子化版)をロードして、FLUX.2 Klein 9B のプロンプトを作ってもらおうとしているのだが、どうもパフォーマンスがよくない。プロンプトについて指示しているのだけれど、途中で処理を終えてしまうことがよくあるし、応答のテキストを表示している最中にぷっつりと応答が止まってしまうことも、たびたびあるのだ。8ビット量子化版だと 10 GB ていどのモデルをオフロードで動かしているから、いかに GeForce RTX 5060 16 GB のグラフィック・カードでも、ややしんどいのだろうか。ちょっと期待外れな印象が強い。これなら、プロンプトの整形専用にリリースされている、Qwen3 4B Z-Image Engineer のほうがマシというものだ。あるいは、Qwen 3.5 の 4B や 2B などのファイン・チューニング版へグレードを落としたり、さらに下の4ビット版などに量子化したモデルを使うほうがいいんだろうか。でも、常識的には8ビット以下に計算精度を落とすとレスポンスの質が急に落ちるというからねぇ。
ということで、試しに4ビット版の Qwen 3.5 を入れたみたのだけれど、やはり上の画像で上半分が示すように、どうも推論モデルは途中で処理をやめてしまうリスクがあるようだ。それにくらべて、上の画像で下半分にちゃんと応答が出ているのは、Gemma 3 の 12B である。こちらは応答するどころか、応答そのものが軽快で、指示を与えると即座に応答が出てくる。もちろん、Gemini でも経験していることだが、こういう応答が早いモデルは嘘つきであることが多いし、そもそもプロンプトの一部を無視していることもあるので、応答が早いというだけではいけないのだが、はっきり言えば止まってしまうよりはマシだ。