何を開示しなければならないのか
テンプレートの求める情報
欧州委員会が公開した「学習データ公開テンプレート(Training Data Summary Template)」は、以下の情報を要求する。
- 学習に使用したデータセットの種類と規模
- オンラインスクレイピングを行った場合、「上位10%のドメイン」(最も大量にクロールしたサイト群)の開示
- 著作権opt-outシグナル(robots.txt、ai.txt等)の遵守状況
- データ収集時の著作権ライセンスの有無
「上位10%ドメイン開示」は特に注目を集めている。 ウィキペディア・書籍データベース・ニュースアーカイブが上位に入ることは確実視され、これらのコンテンツオーナーとの交渉力が変化する可能性がある。
著作権opt-outとは何か
EU著作権指令のテキスト・データマイニング(TDM)条項では、著作権者がmachine-readableな形式でopt-outを表明した場合、AI企業はその作品を学習に使用できないとされている。
具体的には robots.txt の AI-crawlers: disallow 記述や、ai.txt の利用禁止表明がopt-outシグナルとして機能する。
問題は、2020〜2023年に構築されたGPTシリーズやGeminiの初期モデルが、こうした規制が整備される前にデータ収集を行っていた点だ。 「過去のデータ収集」に現行の法的基準を適用できるかについては、法律家の間でも見解が分かれている。
制裁金の規模と企業への影響
違反した場合のペナルティ
8月2日以降、コンプライアンス違反に対してAI Officeが課せる制裁金は以下の通りだ。
- 最大: 全世界売上高の3%、または1,500万ユーロのいずれか高い方
- より重篤な違反(故意の虚偽報告等): 最大6%または3,000万ユーロ
OpenAI(2024年売上約200億ドル)で換算すれば、3%は約600億円に相当する。 実際の適用はケースバイケースだが、抑止力としての規模は十分だ。
モデルの適用タイムライン
テンプレートの適用タイムラインは2段階だ。
- 2025年8月2日以降にEU市場に投入された新規モデル: 即時適用(現在の対象)
- 既存モデル(2025年8月2日以前から稼働): 2027年8月2日まで猶予
つまり現在の主要GPAIモデル(GPT-4シリーズ、Gemini 1.5等)は2027年まで猶予があるが、新規リリースのFable 5やGemini 3.5は即時対象だ。
テック企業の反発と交渉構図
「€6,000億の価値が消える」という主張
複数のテック業界団体は、EU著作権overhaul(見直し)と組み合わさると「欧州のAIバリューチェーンで6,000億ユーロ(約100兆円)規模の損害が生じうる」と警告している。
著作権opt-outを強制的に遵守させると、インターネット上の相当な割合のコンテンツが学習から除外される可能性がある。 これは欧州での訓練コストを他地域より高くする可能性があり、「欧州外でGPAIモデルを訓練して欧州に輸出する」という抜け道を生む懸念もある。
日本企業への波及
EU AI法は「EUで提供される・EUを対象とする」GPAIモデルに適用される。 つまりSakana AI・Preferred Networks・NTTのLLM等、EU展開を視野に入れる日本のAI企業も対象になりうる。
EU AI法高リスクAI分類ガイドラインへの意見公募(関連記事)と合わせて、8月2日の全面施行(関連記事)に向けて日本企業も即時対応が求められる。
法務・ポリシー視点での総括
「透明性は起点、責任追及は次の段階」
今回の学習データ開示義務を「著作権侵害を直接罰するもの」と誤解してはならない。
これはあくまで「透明性確保のための開示義務」だ。 著作権者がテンプレートを見て「自分の作品が無断使用されている」と判断した場合、民事訴訟を起こす根拠として使える——という間接的な効果を持つ。
実際の著作権侵害訴訟は、このテンプレートで開示された情報をもとに各国の国内裁判所で争われることになる。 GEMAのSuno訴訟や、Sony・UMGのAI音楽会社への訴訟と連動して、今後数年間でケースロー(判例法)が積み上がる見込みだ。
標準化の逆説
「標準テンプレートを全AI企業が使う」ことで、逆説的に学習データの比較分析が可能になる。 研究機関や規制当局が各GPAIモデルの学習データ傾向を横断的に比較できるようになれば、政策的な示唆も大きくなる。
AI規制は「規制が先か、技術が先か」という問いを常に突きつけてくる。 8月2日を迎える今、あなたの会社のAI利用ポリシーは学習データの出所を把握できているだろうか。
ソース:
- European Commission Releases Mandatory Template for Public Disclosure of AI Training Data — WilmerHale
- The EU AI Act in 2026: What August Enforcement Means for AI Training Data and Web Scraping — Coronium.io
- EU AI Act 2026: New Rules for Training Data and Copyright — Scalevise
- EU Commission Publishes Guidelines on GPAI Obligations and Training Data Template — Paul Weiss
- Tech group warns EU copyright overhaul could put 600bn in AI value at risk — MLex