Scribble at 2026-05-03 13:13:27 Last modified: unmodified

スタンフォード大学の The Stanford Institute for Human-Centered AI (HAI) という研究機関が発表した年間リポートをご紹介する。これを取り上げているマスコミでは、生成 AI の学習データに限界が迫ってきているというネガティヴなポイントを熱心に紹介していて、あいかわらず Forbes のような経済誌ですら「上げて、下げる」という凡庸なパターンをワイドショー番組のように繰り返しているわけだが、ひとまず内容を全て見てみよう。リポートの概略としては、AI の技術がガバナンスや教育、インフラなどの社会システムよりも進んでいるというポイントを掲げておこう。これは、利害関係やイデオロギーがどうであれ、誰のどういう立場から見ても否定しようのない事実だからだ。

ただし、その技術の進展には明らかな偏りがあって、かたや東大の入試で「首席合格」しておきながら、他方でアナログ時計の時刻を読み取れない（50 % の精度で間違う）という事実もある。そして、AI の性能を測るベンチマークのスコアを提案しても、主要な開発企業のモデルが数か月で満点になるため（要するにスコアに最適化したトレーニングができてしまうという、ベンチマークの欠陥を改善しきれない）、ベンチマークそのものの信頼性が低下している。実際、artificialanalysis.ai のスコア・ボードで分かるように、ベンチマークそのものが増えていて、これではベンチマークどうしを比較するメタ・ベンチマークが必要なほどだ。

そして、これもご承知のとおりアメリカと中国とでの覇権争いが激化していて、現状ではアメリカが劣勢になりつつある。実際、僕も画像生成の AI である拡散モデルを利用するエンド・ユーザとして、中国の組織がリリースしている無償のモデルの性能には（法的な観点からは悪い意味においてもだが）圧倒されている。かろうじて競争の舞台で踏みとどまっている ChatGPT Images や Nano Banana にしてもクローズドな開発のモデルであり、確かに品質として優れているものの、すぐに中国のオープンなモデルに追い付かれてしまう。結局、プロンプトに対して生成された画像というペアのデータが大量に蓄積するだけでもモデルのトレーニングに使えるからだ。こういう大量のデータを API 経由で競合が集められてしまうのだから、どれほどクローズドなモデルであろうと安泰とはいかないのである。

次に、計算資源の奪い合いという問題も起きているのはご承知のことだ。各地で起きている戦争などの理由だけではなく、単純にデータセンターで使うハードウェアが優先して供給されているために、コンシューマ用途のパソコンに使うメイン・メモリやグラフィック・カードの VRAM、あるいは SSD といった部品が不足し、ここでも何度かご紹介したことだが、僕の使っているマシンと同じスペックのパソコンが１年もたたないうちに倍の価格になってしまっている。

それから社会全体への影響として、とりわけ労働・雇用・失業に関わる話題においては、専門家の７割が生産性の向上や人件費の抑制などを理由に肯定的な評価を与えている一方で、一般消費者は７割が生成 AI の利用という現状を否定的に見ているという対照的な結果がある。それはそのはずで、「専門家」の大半は生成 AI による雇用への影響から殆ど関係のない学者や官僚やコンサルや経営者や株主という立場で傍観しているだけであるのに比べて、一般消費者の多くは生成 AI によって雇用を奪われたり採用求人数が減ったりしている当事者だからだ。

では、ピーク・データの予想についてリポートをみてみると、確かに今後の５年くらいで人が作り上げた良質なデータを学習に使い果たすという予測はあるが、そこから先のデータをどうやって利用するかという方法や指標の改善なり学習のやりなおしについても議論されている。もちろん、データが増えれば増えるほど成果が増えていくような、単純なスケーリング則は通用しなくなるだろうが、そんなことは従来の学術研究や技術開発においても同じことが数百年と繰り返されてきているのだ。学術においては、既存の成果が一定の分量で蓄積されていて、たとえば図書館だとか研究室の資料だとか博物館の所蔵品といったように、後から生まれた人間が利用できる。もちろん、その中には当代の最先端の研究業績も含まれるわけで、ノベール賞を受けた研究の成果などもある。学問の世界に入った者は、才能があれば最先端の成果を学んで自分なりの独創的な研究を始めるのであって、そうなるためには先人がたどった手順や経緯の中で不必要な失敗とか準備工程などを無視したり省くことによって、効率的に学問を習得しなくてはならない。実際、最先端の研究プロセスに加わって成果を出していく人々というものは、そうやってあるていどは既存の成果や知見を要約したり、場合によっては偏見によって短絡して、効率よく学んだり都合よく短絡するものである。

或る与えられたデータを解析する方法、それから解析して得た成果の解釈が、なんにせよ一つしかないというのは間違いである。話が数学を使うので、多くの人はデータの解析結果が一つの「解」として確定するものだと思いがちなのだが、実際には与えられた条件（方法や解釈の基準）によって、データから得る成果はいくらでも変わるのであり、「解」などと「むつかしいことば」を覚えたての小学生みたいにキーワードを振り回しておれば済むというものではないのだ。そして、生成 AI の利用においても、いや生成 AI そのものの開発においても同じことが言える。よって、仮にデータが現実的に「枯渇」したとしても、有能な研究者が一定の業績を上げた後に、過去の古典的な業績に立ち返って再びそれらの内容や研究の経緯を学びなおしたり問い直して、更に新しい成果を出すことがあるのと同じく、３年前にリリースされた Stable Diffusion 1.5 という画像生成モデルのアルゴリズムを再検討して、同じ拡散モデルを使いながら更にすぐれた結果を出すような手法を開発できる可能性が残されているという話と同じなのである。

そしてさらに、枯渇しようとしている「良質な」データは、これまでは人の手によって生み出されたものだが、いまや大半の研究者が良くも悪くも AI を利用しており、データがこれまでよりも効率的に増えていくのは明らかである。データの枯渇という話は、単にそれら今後も増えていく成果を AI の学習データとして取り込むスピードの方が単純に作業として速いというだけに過ぎないのである。

冒頭に戻る