2024/04/14

アメリカの New York Times社 が、AIの学習に、自社の記事を勝手に使われたとして、OpenAI と Microsoft を著作権侵害で提訴したというニュースを見た。この問題、なかなかに難しいので、その問題の本質を考えてみたい。
まず、New York Times 側の主張では、同社の大量の新聞記事が勝手にAIの学習に使われ、プロンプトによっては、Chat GPTの出力が過去の記事そのものだったり、または「New York Timesによれば」という文書で、New York Timesには掲載されたことのない内容が出力されたりする(いわゆるハルシネーション)、というものだ。確かに、新聞記事の著作権は新聞社にあって、AIに限らず、勝手にコピーして商売に使ったら著作権違反ではあるし、New York Timesを語って嘘の内容を広めたら、これも名誉棄損などにあたるかもしれない。ま、一理ある意見ではある。
では、Open AI側の主張はどうだろうか。広くインターネットに公開されている資料を使ってAIを訓練することは、これまでも行われており、フェアーな行為だというのが、基本的な主張だろう。そもそもLLMは大量の文書を学習させることでモデルを構築するしくみなので、信頼でき、意味のある大量の文章がなければAIを作ることができない。今のAIのしくみでは、ハルシネーションは回避できないが、New York Timesが主張するような、まるまる記事コピーとか、わざと特定の文言の入ったハルシネーションを発生させるなど、故意にそのようなプロンプトを作って難癖をつけるようなことはやめてほしいとも言っている。生成AIのパワーをポジティブに活用したいと思っている人にとっては、正当でない使い方をして、その弱点に対して文句をつけるのはやめてほしいと思う、これもわかる。
生成AIの回答をめぐって、双方の言い分はかみ合ってなくて、今のところまったく相容れない。
なぜこのような見解の相違が生まれるのか、その本質的な原因は、今のAIが、文章とそこに登場する単語を、一旦ニューラルネットワーク内のノードの重みという数値に変換してしまい、記事そのものではなくなってしまうという、AIのしくみそのものにあると思う。OpenAI側からすれば、AIの出力は、新聞記事の内容がもとになっていることは事実だが、AIの仕組み上、故意の盗用や著作権の侵害にあたるような行為ではないと主張できる。New York Times側からすれば、一旦ノードの重みという数値に変換されるとは言え、AIが回答を作る過程で記事を基にした情報を使っていることは事実であり、著作権に抵触すると主張できる。
ま、原因がそこにあると言ってみたところで、生成AIの著作権の問題が解決するわけではない。私はテクノロジー大好き派なので、人類を次のステージに連れて行ってくれるかしれないこんなブレイクスルーの時代に、New York Timesは、何をせこい自己主張しているんだと思ってしまうが、でも、冷静に考えると、New York Timesに限らず、ジャーナリストたちが積み重ねてきた努力の歴史に思いをはせると、いやいや、Open AIはただ乗りで商売しているという気持ちににもなる。やっぱり、自分如きが考えたところで解決できるような問題ではない。ほんとに、難しいけれど、面白い世の中になったものだ。
2024.4.14.日
画像:New York Times と Open AIのロゴ 自作