世界最古の英語百科事典を発行するEncyclopedia Britannicaと、姉妹企業の辞書出版社Merriam-WebsterがOpenAIを著作権侵害で提訴した。10万本近い著作権付き記事がLLMの訓練に無断使用されたと主張するとともに、RAG(Retrieval-Augmented Generation)による著作権コンテンツの再現も争点に加えている。
この訴訟は、AI業界が直面する著作権問題の中でも特に注目度が高い。なぜなら、Britannicaのコンテンツは「事実の集積」であると同時に、250年以上にわたって編集者が磨き上げてきた「知識の構造化と表現」でもあるからだ。この二面性が、AI著作権訴訟の新しい論点を生み出している。
訴訟の概要
| 項目 | 内容 |
|---|---|
| 原告 | Encyclopedia Britannica Inc.、Merriam-Webster Inc. |
| 被告 | OpenAI |
| 主張1 | 約10万本の著作権付き記事をLLM訓練に無断使用 |
| 主張2 | RAGによりBritannicaのコンテンツが実質的に再現されている |
| 請求 | 損害賠償および差し止め |
なぜRAGが新しい争点なのか
従来のAI著作権訴訟は「学習データとしての無断使用」が中心だった。NYT対OpenAI訴訟に代表されるように、訓練プロセスでの著作物の複製が著作権を侵害するかどうかが主な論点だった。
しかし今回の訴訟では、RAGという新しい論点が加わっている。RAGとは、AIがユーザーの質問に答える際に外部データベースから関連情報を検索・取得し、それを参照して回答を生成する技術だ。Britannicaは、OpenAIのRAGシステムが自社の百科事典コンテンツを検索・取得し、その内容を実質的にそのまま再現する形でユーザーに提供していると主張している。
学習データとしての使用と、RAGでのリアルタイム検索・提供では、著作権法上の扱いが異なる可能性がある。後者はより直接的な複製・配信に近いとする見方もあり、判例がない新しい法的領域だ。
AI企業が直面する著作権リスクの全体像
AI企業に対する著作権訴訟は増加の一途をたどっている。NYT、Getty Images、音楽レーベル各社に続き、Britannicaが訴訟に加わったことで、「信頼性の高い情報源」を謳う百科事典や辞書のコンテンツまでが争点となった。
AI企業側は「フェアユース」を主張することが多いが、RAGのケースではフェアユースの適用が難しくなる可能性がある。学習段階での使用と異なり、RAGでは著作物のコンテンツがほぼリアルタイムでユーザーに提供されるため、「変容的使用」とみなされにくいからだ。
RAGと著作権——法的分析
RAG(Retrieval-Augmented Generation)がなぜ著作権法上の新しい論点となるのかを理解するには、従来のAI学習との違いを整理する必要がある。LLMの事前学習では、著作物がモデルのパラメータに「溶け込む」ため、出力が元の著作物の直接的なコピーであることを立証するのは困難だ。しかしRAGでは、外部データベースから取得した文章の断片が回答に直接組み込まれるケースがあり、これは「引用」や「複製」として著作権侵害に該当しやすい。
Britannicaの訴状では、ChatGPTがBritannicaの記事の文章構造と表現を「実質的に複製(substantially copied)」していると主張している。これは著作権法の「実質的類似性テスト」に基づく議論であり、事実のみの利用(フェアユース)と表現の複製(侵害)の境界線を争うことになる。
この訴訟の結果は、AI業界全体のビジネスモデルに直結する。RAGを活用するすべてのAI製品——Perplexity、Microsoft Copilot、Google AI Overview——が同様の法的リスクを抱えているからだ。裁判所がRAGによるコンテンツ利用を「フェアユース」と認定すれば、AI企業のビジネスモデルは安定する。逆に「著作権侵害」と認定されれば、AI企業はコンテンツプロバイダーへのライセンス料支払いを迫られ、AIサービスのコスト構造が根本的に変わる。
New York Timesの対OpenAI訴訟、Getty Imagesの対Stability AI訴訟と合わせて、2026年はAI著作権訴訟の「判決ラッシュ」の年になりつつある。これらの判決の累積が、AI時代のコンテンツ経済のルールを形作ることになる。
ライセンスモデルの模索
訴訟と並行して、AI企業とコンテンツプロバイダーの間でライセンス契約の動きも進んでいる。OpenAIはAssociated Press、Le Monde、Financial Timesなどのメディアとコンテンツライセンス契約を締結しており、年間数千万ドル規模の支払いを行っているとされる。GoogleもRedditに年間6,000万ドルのライセンス料を支払うことで合意した。
しかしBritannicaのケースは、メディアとは異なる課題を提起する。ニュース記事には鮮度があり、古い記事の価値は低下するが、百科事典の記事は「知識の蓄積」として長期的な価値を持つ。ライセンスの対象が「過去の全アーカイブ」にまで及ぶ場合、その対価をどう算定するかは未踏の領域だ。
AI企業がコンテンツのライセンス料を支払うモデルが定着すれば、「AIによるコンテンツの価値破壊」から「AIによるコンテンツの価値再分配」へとパラダイムが転換する。その場合、高品質なコンテンツを持つ企業(Britannica、Nature、New York Timesなど)は、AI時代においてもコンテンツの対価を得られる。逆に、オリジナルコンテンツを持たないキュレーションメディアやアグリゲーターは、AI時代に存在意義を失う可能性がある。
裁判所の判断は、AI業界のビジネスモデルだけでなく、インターネット上の知識の流通構造そのものを変える可能性がある。フェアユースが認められればAI企業のコンテンツ利用は加速し、著作権侵害が認定されればライセンスモデルが業界標準となる。
知識の「所有」は誰のものか
この訴訟の行方は、AI時代における「知識の流通」のルールを決定づける可能性がある。百科事典の記事は事実の集積であり、事実そのものには著作権は発生しない。しかし、事実をどう構成し、どう表現するかには著作権が認められる。
Britannicaは1768年創業の世界最古の百科事典ブランドであり、その250年以上にわたるコンテンツの蓄積は「人類の知的遺産」とも言える。この歴史的なコンテンツ資産がAIの学習データとして「無断利用」されているという主張は、法的な論点を超えて、知識の価値と対価に関する哲学的な問いを投げかけている。AIが無料で提供する「知識」の裏には、誰かが数十年かけて構築したコンテンツがある。その対価をどう設計するかが、AI時代の知識経済の根幹を成す。
AIが「知識を民主化する」ツールとして機能する一方で、その知識を生み出したコンテンツ制作者への対価はどう保証されるべきか。この問いに対する司法の判断が、AI業界全体の事業モデルを左右することになるだろう。