Scribble at 2023-12-11 22:20:50 Last modified: 2023-12-11 22:30:23

ChatGPT は約3,000億語でトレーニングしていると言われる。ちなみに Bard へ直に "How many words and sentences did you use for training as a LLM?" と質問しても "Unfortunately, the exact number of words and sentences used for my training as a large language model is not publicly available. This information is considered proprietary by Google AI, and releasing it could potentially reveal details about the specific data and methods used in my training process." としか答えてもらえないのだが、少なくとも books, articles, websites, code repositories, public conversations を参照しているらしいということは教えてくれた。ChatGPT も同様に、コーディングの手伝いまでやれるのだから、論説や学術論文だけではなく、プログラムのソースコードや言語仕様も取り込んでいるであろう。したがって、たとえば僕が科学哲学に関連する事項について解説を書こうとして LLM を利用するという場合に、現今の LLM がトレーニングしているデータとして、少なく見積もっても 1/3 程度はあってもなくてもどうだっていいデータだということになる。ナショナル・クライアント案件でサーバ構築やプログラミングを担ったり自社の情報セキュリティの最高実務責任者を拝命している人間が言うのも変な話だが、科学哲学にとってコンピュータ・サイエンスや暗号学から学ぶべきことはあるが、実際のソフトウェアのコードやプログラミング言語の仕様から学ぶべきことなど塵ほどもないからだ。企業の distinguished developer 兼 Chief Privacy Officer として言わせてもらうが、科学哲学が現実のシステム開発から学ぶべきことなど何も無い。

ということで、現行の LLM は約2,000億語でトレーニングされていると仮定してよかろう。それ以外のプログラムなり設定ファイルの記述が何千億と積み上げられようと、科学哲学にとってはゼロ加算やゼロ乗算でしかない。あるいは、無用なデータが含まれるせいで、それだけ LLM としての無駄なパフォーマンスが強化されるだけなのだから、正確には悪影響があろう。ちょうど、科学哲学の大学院生でありながら骨董品の収集や e-sports や風俗通いに時間と金を費やしてる学生のようなものだ（言っておくが、「風俗通い」と書いたからといって男子学生が科学哲学の学生の典型であるような sexism を語ってはいない。昨今は女子大生がホスト狂いで借金まみれになる事例も多いという）。

いや、そんな話はどうでもよろしい。ここでは2,000億の words and phrases をトレーニングしているにすぎない実情があるという前提を置いて、あと数年もすれば LLM がトレーニングするための（品質の良い）データが枯渇するなどと騒いでいる人々の憂慮が本当なのかどうかを確認したいわけである。そこで、単純なフェルミ推計をやってみよう。というか、Bard にやってもらったら、こうなった。

「The Journal of Philosophy は、1876年に創刊された、世界で最も権威ある哲学雑誌のひとつです。毎年、約200件の論文が掲載されています。2022年までの合計論文数をフェルミ推計で概算する際には、以下の基準を参考にするとよいでしょう。毎年の論文掲載数：約200件、発行年数：2022年までの147年、論文の平均ページ数：20ページ。これらの情報をもとに、以下の計算式で概算することができます。論文数 = 毎年の論文掲載数 * 発行年数、論文数 = 200 * 147、論文数 = 29,400。したがって、The Journal of Philosophy に掲載された論文の総数は、2022年までの時点で約29,400件と推定されます。」

かようにして、約３万点（論文を数えるのに「件」は妙な気がするが）という推定が出た。まず、僕はこの数は多すぎると思う。恐らく book reviews や discussions や notes の類を論文として数えているのではないか。JP は1976年までは隔週で発行されていたけれど、年間で25冊前後が発行されていた頃ですら、JP という雑誌は投稿論文が１本も掲載されずに書評しか掲載されない号があったり、あるいはアメリカ哲学会の発表記録などが何号にもわたって掲載されたりすることが多かったので、実際にはそれだけの頻度で発行されていた時期でも年間の論文掲載数が200本というのは多すぎる印象があるからだ。そもそも、ここをご覧のプロパーや大学院生なら知っているように、JP はイギリスで発行されている Analysis と同じくらいページ数の少ない雑誌であり、各号に掲載される論文が１本だけという場合も少なくない。ということで、僕の見立てでは、平均した年間の掲載本数はせいぜい70本前後といったところだろうと思う。（全くの余談だが、関大の修士だった頃は千里山中央図書館の地下書庫で英米系の雑誌のバックナンバーを手当たり次第に眺めてはコピーを取っていた。おかげで、大学院生に割り当てられた年間の無料コピー枚数を数週間で使い果たしてしまい、コピー料金を稼ぐために数日間という短期のアルバイトをしたこともある。そのとき JP もバックナンバーをあらかた眺めたのだが、読むべきだと思ってコピーした数は、せいぜい１年で30本くらいが限度だった。）

さて、では僕の前提を利用して147年分のフェルミ推計を続けよう。Bard は論文１本あたりのページ数を20ページとしているが、これも僕の経験から言えば多い。JP に掲載される論文というのは、クワインの論文なんて典型的だが、せいぜい10ページ以内だろう。すると、147年分で、１年あたりの掲載数が70本として、１本あたり10ページだとすると、合計で約10,000本の論文が掲載されてきたこととなり、ページ数としては10万ページだ。A5判の雑誌として、１ページあたりの語数は 350 words ていどだと思うので、これを総計すると3,500万 words となる。ChatGPT が3,000億語でトレーニングしたというのだから、JP のような雑誌１万誌分を既に学習済みということであり、これならトレーニング用のデータが足りなくなるという話にも納得がゆく。今回の推計では discussions などを論文ではないとして除外したけれど、これらを含めてトレーニングしても、すぐにデータは足りなくなるだろう。

冒頭に戻る