Scribble at 2025-08-20 12:15:20 Last modified: 2025-08-20 12:26:28

添付画像

Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models: how TPUs (and GPUs) work and how they communicate with each other, how LLMs run on real hardware, and how to parallelize your models during training and inference so they run efficiently at massive scale. If you've ever wondered “how expensive should this LLM be to train” or “how much memory do I need to serve this model myself” or “what's an AllGather”, we hope this will be useful to you.

How to Scale Your Model

自分でオンラインのテキストを作ろうという意欲もなければ、そういう体系的な文書どころかパースペクティヴを得ようという意欲すらない、文字通りピースミールな雑文を積み上げて専任講師とかになろうとしている人々には縁遠い話だと思うのだが、実例を示さないと分からない人も多いだろう。僕が日頃から、海外では大学教員や研究機関のプロパーでもない人たち(上の事例は Google DeepMind のスタッフ)が、体系的な知見を文書としてまとめることに意欲を持っていて、確かにそこにはキリスト教などの文化的な背景があるかもしれないとは言え、結局はこういうことの積み重ねが学問でも産業でも大きな違い(「格差」と言い切るつもりはないし、これだけが国や民族を比較する指標でないのは確かだが)となる。

なるほど、こういうことをやるには巨大な資本によって従業員がこういうことをしていられる余裕が必要なのだろう。でも、それは経済的な理屈によれば結果であり、遅延指標にすぎない。余裕のある大企業だからできるのではなく、こういうことをプライベートでも積み上げてきた人々が集まることで、企業は大きく成長して余裕が生まれるのである。最初から上げ膳据え膳で、キーエンス並みの待遇や給料で働ける会社などあるものか。昭和マインドの脳筋精神論を語るつもりはないが、はっきり言って日本の研究者(とりわけ人文・社会系)は、日本という、なんだかんだ言っても物取りに拳銃でいきなり撃たれたり(アメリカなら毎日のように起きる)、被差別部落の小中学生が近隣に住む大人に集団強姦されたりするわけでもない(インドなら毎日のように起きる)、豊かな国の実情に甘えすぎていると思う。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


共有ボタンは廃止しました。他人へシェアしてる暇があったら、ここで読んだあなたが成果を出すべきです。