Scribble at 2026-06-15 17:55:43 Last modified: unmodified

添付画像 — Rio-3.5-Open-397B ≈ 0.6 x Nex-N2_pro + 0.4 x Qwen

先日、NHK の『日曜討論』という殆ど討論しないことで知られる番組は生成 AI を取り上げていた。出演していた今井翔太氏が「国産AI」について聞かれたときに、既存のモデルをマージしたものも「国産」と言う場合もあるなどと苦笑しながら語っていたわけだが（誰だ、楽天の悪口を言ってるのは！）、もちろんマージしたモデルを「国産」だの「オリジナル」だのと語るのはインチキでありホラである。トレーニングのベースになるデータ・セットが全て日本人による文書や写真や音声でなくてはいけないなどという制約をつける必要はないが、すくなくともトレーニングの設定や環境は日本国内のインフラだけを使って揃える必要がある。そうでないと、日本に不利なデータが混在したり、意図的に性能を下げる不適切な学習率などを設定されてしまい、汚染されたトレーニングとなってしまうリスクがある。つまり、データ・セットの収集と取捨選択やトレーニング条件の設定やインフラの整備という段階で、既にリスクを考慮しておかなくてはいけない。単純なナショナリズムで言っているわけではないが、中国人やアメリカ人が作ったモデルをマージなんてしてる場合ではないのだ。

実際、上の事例は「オリジナルのモデル」と語っておきながら、実際には Nex と Qwen をマージしただけだったということが判明して、リオ・デ・ジャネイロ市は公式のアカウントでマージした事実を改めて公表している。もっとも、地方公共団体がなんのためなのかマージしたモデルをわざわざ作ったという事実は注目に値する。いったい何をしようとしていたのか。単に既存のモデルを「混ぜる」だけなら、特定の地方公共団体にとって有利になることなど何にもないはずである。仮に、マージに使った Qwen にリオ・デ・ジャネイロの情報を誤って教えるようなデータが使われていた証拠でもあるならともかく、そういうわけでもなさそうだ。それに、もしそんな偽情報を混在させていたという明白な証拠があるなら、マージしたモデルを作って補正するよりも、単純に Qwen をリリースしたアリババにクレームを出したり公に発表する方が効果的ではないのか。

冒頭に戻る