Scribble at 2025-03-25 11:09:55 Last modified: unmodified
高性能なAIモデルを開発するには、膨大な量の高品質なデータを用いてトレーニングする必要があります。MetaやOpenAIがAIモデルのトレーニングに使ったとされるオンライン海賊版ライブラリ「Library Genesis(LibGen)」やその倫理的問題について、海外メディアのThe Atlanticが報じました。
Library Genesis も知ってるしアクセスしてみたことはある。でも、かなり UI の設計が未熟で利用者は苦労するだろうなと思った。たとえば、複数の条件を組み合わせて検索できないので、英語の PDF だけを検索するなんて初歩的なことすらできない。
僕は画像の生成 AI でスクレイピングした画像を解析して拡散モデルを学習させることは、著作権法で言う「軽微な利用」の範疇に入ると思うので、おおむねフェア・ユースだと思っているし、現にデザイン業界でも Stable Diffusion などの拡散モデルの学習そのものについては不問にして、出来上がった画像の類似性だけを問うている場合が多い。生成 AI というだけで犯罪であるかのように X で喚いているのは、だいたいがクズみたいな仕事しかしてないフリーランサーのイラストレータか、「絵師」と呼ばれるエロ漫画を描いているような連中だけだ。でも、書籍の PDF はイラストや写真とは違って PDF が公開されているわけではないのだから、それを使ってトレーニングすることはフェア・ユースだと言い難いように思う。だって、その PDF はどうやって手に入れたの。フリーで distribute されてるわけじゃないだろうに。