Scribble at 2026-05-29 08:36:39 Last modified: unmodified

添付画像

LM Studio でモデルを検索する画面の "best match" という条件には、いつも違和感がある。上のスクリーンショットをご覧いただくとお分かりのとおり、26.10 GB もの容量がある Nemotron 3 Nano Omni (NVIDIA) が最上位にくるのだけれど、評価としても「部分的なGPUオフロードが可能」と表示されているのだから、GPU のメモリに入りきらないのは LM Studio でも認識しているわけで、どうしてそんな条件で動作するモデルを "best match" の検索結果に並べてしまうのか。理解不能である。

「オフロード」というのは、メイン・メモリや GPU のメモリといった、或る処理のために主要な記録領域として確保されているスペースに入りきらないデータの一部を退避して扱うことを指している。ローカル・マシンで動かす生成 AI の場合は、GPU メモリにモデルのデータを格納することがスタンダードであるから、この場合のオフロードとはメインのメモリにデータを退避したり、あるいはストレージのページ・ファイルへデータを退避することだ。何年か前にここで書いたように、僕の旧マシン（Ryzen 5 + GeForce RTX 2060 6 GB）で 2 GB ていどの Stable Diffusion 1.5 ならともかく、7GB くらいある SDXL のモデルを動かせるのは、このオフロードによってページ・ファイルを一時的に利用するからだ（実際、ページ・ファイルの容量をゼロにすると SDXL を読み込んだ生成 AI のシステムがメモリ不足で動かなくなる）。このようにして、GPU メモリの容量を超えるデータでも扱えるわけだが、その代償として分割したデータのやりとりに余計な処理と時間がかかるため、オフロードしない条件で動かすよりも圧倒的に処理が遅くなる。よって、ローカル・マシンで生成 AI を動かす場合は、オフロードしない範囲のモデルを使うのが基本だ。

ということなので、オフロードしないと動かないようなモデルを "best match" に入れること自体がおかしいのである。いや、スクリーンショットで列挙されている他のモデルをご覧いただいても、17.48 GB の Qwen 3.6 27B とか、22.07 GB の Qwen 3.6 35 A3B とか（"A3B" は実際に推論するときは 3B だけ使う高速モデル）、よく分からない並び方をしている。確かに、オフロードすることが前提なら、LM Studio の解析では僕のメイン・マシンには最大で 39.18 GB のモデルが入る（GPU メモリに加えて、メイン・メモリの 32 GB とページ・ファイルを使うと想定）。でも、そんな状況で動かしてもロクなことにならない。実用性が殆どないくらい遅いからだ。

冒頭に戻る