Scribble at 2026-03-06 11:53:25 Last modified: 2026-03-06 12:46:13

添付画像

新しいマシンに LM Studio を入れてから、最新の Qwen 3.5 9B（８ビット量子化版）をロードして、FLUX.2 Klein 9B のプロンプトを作ってもらおうとしているのだが、どうもパフォーマンスがよくない。プロンプトについて指示しているのだけれど、途中で処理を終えてしまうことがよくあるし、応答のテキストを表示している最中にぷっつりと応答が止まってしまうことも、たびたびあるのだ。８ビット量子化版だと 10 GB ていどのモデルをオフロードで動かしているから、いかに GeForce RTX 5060 16 GB のグラフィック・カードでも、ややしんどいのだろうか。ちょっと期待外れな印象が強い。これなら、プロンプトの整形専用にリリースされている、Qwen3 4B Z-Image Engineer のほうがマシというものだ。あるいは、Qwen 3.5 の 4B や 2B などのファイン・チューニング版へグレードを落としたり、さらに下の４ビット版などに量子化したモデルを使うほうがいいんだろうか。でも、常識的には８ビット以下に計算精度を落とすとレスポンスの質が急に落ちるというからねぇ。

ということで、試しに４ビット版の Qwen 3.5 を入れたみたのだけれど、やはり上の画像で上半分が示すように、どうも推論モデルは途中で処理をやめてしまうリスクがあるようだ。それにくらべて、上の画像で下半分にちゃんと応答が出ているのは、Gemma 3 の 12B である。こちらは応答するどころか、応答そのものが軽快で、指示を与えると即座に応答が出てくる。もちろん、Gemini でも経験していることだが、こういう応答が早いモデルは嘘つきであることが多いし、そもそもプロンプトの一部を無視していることもあるので、応答が早いというだけではいけないのだが、はっきり言えば止まってしまうよりはマシだ。

冒頭に戻る