何が起きたのか
Forum AIは4つのチャットボットに、選挙制度、候補者、投票方法、外交、医療政策など幅広い時事トピックを質問した。総質問数は3,100問を超える。回答は専門家パネルが「事実の正確性」「政治的バイアス」「出典の妥当性」の3軸で採点した。
結果は厳しいものだった。選挙に関する回答のうち、3軸のいずれかで不合格となった割合は90%に達した。事実誤認を1つ以上含む回答は全体の約36%。製品別ではGrokが最も高く、約52%の回答に誤りが含まれた。
バイアスの方向にも偏りが出た。ChatGPT、Claude、Geminiが偏った回答をした場合、その多くは政治的左派に寄っていた。一方Grokは右派寄りに傾く傾向が確認された。同じ質問でも製品ごとに答えの色合いが変わる構図である。
出典選択の問題も深刻だった。チャットボットは回答の根拠として情報源を示すが、出典が一次情報ではなく二次・三次のまとめサイトだったり、古い情報のまま提示されたりするケースが目立った。読者は出典が併記されていることで安心するが、その出典自体の質が担保されていない。
具体的な誤りの形もさまざまだ。投票の締め切り日を実際と違う日付で答える。すでに撤退した候補者を現職のように扱う。法改正の前の古い制度を最新のものとして説明する。いずれも、もっともらしい文章にまぎれ込むため、読者が誤りに気づきにくい。質問の仕方を少し変えるだけで答えが変わる不安定さも、調査では繰り返し確認された。
背景:これまでの経緯
生成AIの報道精度をめぐる懸念は今回が初めてではない。報道の信頼性を評価するNewsGuardの監視プロジェクトによると、主要10チャットボットがニュース関連の質問に対して誤った主張を返す割合は、2025年8月時点で35%だった。前年同期の18%からほぼ倍増している。
地域選挙でも実害が報告されている。英BBCは2026年初頭、ウェールズ議会(Senedd)選挙に関してチャットボットが誤った投票案内を示した事例を検証した。投票登録の締め切りや手続きについて、実際とは異なる情報を自信を持って提示する現象が確認された。
精度低下の一因は、チャットボットの構造にある。多くの製品はリアルタイムの検索結果を取り込んで回答する仕組み(RAG)を採用している。しかし検索で拾う情報の質は玉石混交で、SNSの投稿や信頼性の低いサイトを根拠にしてしまう余地が残る。学習データの古さと、検索結果の質のばらつきが二重に効く。
中間選挙という文脈が、この問題の重みを増している。NOTUSは、現世代チャットボットの失敗パターンが選挙誤情報の特性とほぼ重なると指摘した。投票日・投票所・有権者登録といった事実確認が必要な情報ほど、誤りが有権者の行動に直結する。
この懸念は米国だけのものではない。世界各地で選挙が行われ、そのたびに有権者がAIに情報を求める。言語や制度が違えば、誤りの出方も変わる。英語以外の言語では学習データが少なく、精度がさらに下がる傾向も指摘されている。日本語のように話者が限られる言語では、この問題はより深刻になりうる。
世界トップメディアの見立て
Bloomberg(5月20日付)は、4製品が「選挙と地政学の質問に公正かつ正確に答えられていない」とForum AIの結論を報じた。とりわけ選挙関連で90%が不合格という数字は、AIを情報源として使う有権者が増える現状への警鐘だと位置づける。
The Next Web(5月20日付)は「ChatGPT、Claude、Gemini、Grokは米国の有権者に説明する準備ができていない」と表現した。問題はモデルの性能不足だけではない。事実が日々更新される選挙情報を、静的に学習したモデルで扱う設計そのものに構造的な無理があると論じる。
Technology.org(5月14日付)はForum AIの監査手法に焦点を当てた。専門家が回答を3軸で採点する方式は、従来の自動評価より人間の判断に近い。一方で採点者の主観が混じる余地もあり、「バイアス」の定義をどう設計するかが今後の論点になると指摘した。
NewsGuardの監視データを引くBBC系の報道は、誤情報率が1年で18%から35%へ上がった事実を重視する。モデルが新しくなるほど精度が上がるという直感に反し、検索接続の拡大がむしろ低品質情報の取り込みを増やした可能性を示唆する。
バイアスの方向についても評価は割れる。左右どちらに傾くかは製品の設計思想と学習データに左右される。Forum AIは特定陣営を擁護も批判もせず、「どの製品も中立ではない」という事実を並列に示した。評価軸の透明性こそが、今後の信頼回復の前提になる。
なぜチャットボットは誤るのか
チャットボットが報道で誤る理由は、大きく三つに分けられる。
一つ目は学習データの古さである。大規模言語モデルは、ある時点までのテキストを学習して作られる。学習の締め切り以降に起きた出来事は、モデルの内部知識に存在しない。選挙のように直前まで情報が動く領域では、この時間差が誤りに直結する。
二つ目は検索接続の質である。多くの製品は、回答時にウェブ検索を行って最新情報を補う。だが検索で上位に来るのが常に正確な情報とは限らない。SNSの投稿、古いまとめ記事、誤りを含むサイトを根拠にすれば、もっともらしい誤答が生まれる。出典が併記されていても、その出典自体の質は別の問題だ。
三つ目はモデルの「うのみにしやすさ」である。チャットボットは、問いに含まれた前提に引きずられやすい。誤った前提を含む質問には、それに沿った誤った答えを返しがちだ。加えて、断定的な口調で答える設計が、誤りを自信のある正解に見せてしまう。読者は口調の確かさを正確さと取り違える。
この三つは互いに絡み合う。古い知識を検索で補おうとして低品質な情報を拾い、それを断定口調で提示する。利便性を高める設計が、そのまま誤りを増幅する装置にもなる。Forum AIの調査でGrokの誤り率が突出した背景にも、この構造がかかわる。SNS上の投稿を取り込む比重が高いほど速報性は上がるが、検証を経ない情報を拾うリスクも増す。速さと正確さのどちらを優先するかという設計の選択が、製品ごとの誤り率の差に表れている。
数字で見る
| 指標 | 数値 | 出典・時点 |
|---|---|---|
| 調査対象チャットボット | 4製品(ChatGPT/Gemini/Claude/Grok) | Forum AI |
| 総質問数 | 3,100問超 | Forum AI |
| 選挙回答の不合格率 | 約90% | Forum AI 5月20日 |
| 事実誤認を含む回答 | 約36% | 同上 |
| Grokの誤り率 | 約52% | 同上 |
| チャットボットの誤情報率 | 35%(2025年8月) | NewsGuard |
| 前年同期の誤情報率 | 18%(2024年) | 同上 |
| 米中間選挙 | 2026年11月 | — |
日本への影響・示唆
日本でも生成AIを情報収集に使う人は急増している。総務省の調査では、ニュースや調べ物の入り口にチャットボットを使う層が若年を中心に拡大した。同じ精度問題が日本語でも起きる可能性は高い。むしろ日本語の学習データや報道アーカイブは英語より量が少なく、誤りの率が上がる懸念がある。
第一の論点はメディア・コンテンツ産業への影響である。チャットボットが報道を要約・代替するほど、一次情報を生む報道機関への流入は減る。出典の質が担保されないまま要約だけが流通すれば、正確な取材に支えられた記事の価値が見えにくくなる。コンテンツ制作の現場では、AIが拾いやすい構造化された一次情報を整える発想が問われる。
第二の論点は企業利用のリスク管理である。社内の問い合わせ対応や調査業務でチャットボットを使う企業は増えた。事実が日々動く領域(法改正、価格、選挙・行政情報)では、AIの回答をそのまま使う運用は危うい。一次情報への確認フローを業務に組み込む必要がある。
第三の論点は選挙・行政情報の設計である。日本でも統一地方選や国政選挙のたびに、投票方法や期日前投票の情報が検索される。行政側が機械可読な正確データを提供し、AIが参照しやすい形に整えることが、誤案内を防ぐ現実的な手立てになる。
加えて、教育の現場でも対応が要る。学生や若い世代がレポートや調べ物でチャットボットを使う場面は増えた。AIの答えをうのみにせず、出典を確かめ、複数の情報を突き合わせる力が要る。こうした情報リテラシーを育てることが、誤情報への最も基礎的な備えになる。学校や図書館、報道機関が連携して、AIとの付き合い方を学ぶ機会を増やす意義は大きい。
バイアスをどう設計するか
今回の調査で浮かんだ難題は「中立とは何か」である。Forum AIは左右どちらにも偏りを検出したが、何を基準に中立を定義するかは国・文化で異なる。米国の二大政党を軸にした評価軸は、多党制の日本にそのまま当てはまらない。
日本語環境での監査には、日本のメディア・選挙制度に即した評価設計が要る。国立情報学研究所や大学の研究機関、報道各社が連携し、日本語チャットボットの事実精度とバイアスを継続的に測る枠組みが望ましい。海外の監査結果をそのまま輸入するだけでは、日本固有の誤りを見落とす。
開発側の対応も分かれる。出典の信頼度をスコア化して低品質ソースを除外する方式、選挙・医療など高リスク領域では回答を保留して公式情報へ誘導する方式、回答にAI生成であることを明示するラベリング方式。いずれも一長一短で、利便性と正確性のトレードオフが残る。
4製品で傾向が分かれる理由
同じ質問でも、ChatGPT、Gemini、Claude、Grokの答えは少しずつ違う。違いを生むのは、学習データの構成、安全設計の方針、検索接続の仕組みである。
ChatGPT、Gemini、Claudeは、有害な出力を抑える安全層を厚く設計している。その過程で、論争的な話題への回答が特定の方向に寄ることがある。Forum AIの調査では、この3製品の偏りは政治的左派に寄る傾向が見られた。安全設計の副作用として偏りが生じる構図である。
Grokは、表現の自由度を重視し、検閲を避ける方針を掲げてきた。SNS上の投稿を積極的に取り込むため、速報性は高い。一方で検証されていない情報を拾いやすく、誤り率も右派寄りの偏りも大きく出た。設計思想の違いが、そのまま結果の違いになる。
重要なのは、どの製品も中立ではないという点だ。偏りの方向が違うだけで、偏り自体はどれにも存在する。複数の製品を併用しても、偏りが相殺されるとは限らない。利用者が「AIの答えは中立だ」と思い込むことこそ、最も避けるべき誤解である。
報道とAIの新しい関係
この問題は、報道機関とAI企業の関係を組み替えつつある。
AIが報道を要約し、出典として示すほど、記事への直接の流入は減る。読者はチャットボットの答えで満足し、元記事を読まない。報道機関にとっては、取材コストをかけた記事の対価が回収しにくくなる。
その反動として、AI企業と報道機関のライセンス契約が広がっている。AI側は信頼できる一次情報へのアクセスを求め、報道側は対価を得る。質の高い出典を組み込めるかどうかが、AIの精度競争の分かれ目になりつつある。正確さを担保するコストを、誰がどう負担するかという問題だ。
日本の報道・コンテンツ産業にとっても他人事ではない。AIに引用されやすい正確な一次情報を、どう作り、どう届けるか。取材に基づく記事の価値を、AI時代にどう示すか。コンテンツの作り手は、AIを敵視するのでも無防備に明け渡すのでもなく、共存の設計を迫られている。
検索からAIへの移行は、事業の構造も変える。これまで多くのメディアは検索流入を前提に運営されてきた。AIが答えを直接返す時代には、その前提が崩れる。読者との接点をどこに作るか、対価をどう得るか。コンテンツ産業は収益の組み立て直しを迫られている。正確で深い取材にこそ価値があるという原則は変わらないが、その価値を届ける経路は変わりつつある。
利用者ができる自衛策
完璧な解決を待つあいだも、利用者にできることはある。
第一に、事実確認が必要な情報をAIの答えで終わらせないことだ。投票日や手続き、法改正、価格といった日々動く事実は、公式サイトや一次情報で裏を取る。AIは入り口として使い、結論の確認は別の情報源で行う。
第二に、出典をたどる習慣である。チャットボットが示す出典が一次情報か、いつの情報かを確かめる。出典が併記されているだけで信頼するのではなく、その中身まで見る。
第三に、複数の製品で同じ質問を試すことだ。答えが食い違えば、そこに不確かさがある合図になる。一致しても正しいとは限らないが、食い違いはうのみにしないきっかけになる。
企業の現場でも同じだ。AIの回答を業務にそのまま転用せず、確認のフローを挟む。とくに顧客対応や法務、広報など、誤りが信用に直結する領域では、人の確認を最後に置く運用が要る。AIを禁じるのではなく、どこまで任せ、どこから人が確かめるかの線引きを、組織として決めておくことが現実的な備えになる。
各国の規制はどこへ向かうか
チャットボットの報道精度をめぐる対応は、国によって考え方が分かれている。
EUはAI規制(AI Act)の枠組みで、高リスク用途に透明性と説明責任を求める方向にある。選挙にかかわる情報提供は、誤情報のリスクが高い領域として扱われやすい。事業者には、学習データの出所や誤りへの対処を説明する義務が課される可能性がある。規制で底上げを図る発想だ。
米国は対照的に、自主基準を重視する。表現の自由への配慮が強く、政府が情報の正誤を判定することに慎重な土壌がある。選挙誤情報への対応は、各社の取り組みと市場の評価に委ねられる部分が大きい。規制よりイノベーションを優先する姿勢である。
英国は両者の中間にある。BBCがチャットボットの誤った選挙案内を検証したように、公共放送と研究機関が監視の役割を担う。規制と自主対応を組み合わせる現実的な路線だ。
日本はまだ枠組みが定まっていない。AIの利活用を促す方針を掲げつつ、誤情報への対応は事業者の裁量に任されている。選挙や行政情報のように誤りが実害を生む領域では、行政が機械可読な正確データを整え、AIが参照しやすくする取り組みが現実的だ。規制で縛るより、正確な情報を流通させる土台を作る発想である。
プラットフォーム側の責任も問われている。検索結果やSNSの投稿をどう選び、どう重みづけるか。低品質な情報源を除外し、信頼できる一次情報を優先する仕組みを組み込めるかが、精度を左右する。技術的には、出典の信頼度をスコア化する手法や、高リスク領域で回答を保留して公式情報へ誘導する手法が試されている。
情報の出所を示す来歴の技術も注目される。コンテンツがどこで作られ、どう編集されたかを記録し、AIが参照する際に出所をたどれるようにする。報道機関が自らの記事に来歴情報を付与すれば、AIが信頼できる一次情報を見分けやすくなる。技術と制度の両面から、正確さを支える仕組みづくりが進む。どの路線にも一長一短があり、規制が強すぎれば技術の発展を妨げ、弱すぎれば誤情報が放置される。最後に判断するのは人だという前提は変わらない。
今後の見通し
注目点は三つ。
第一に規制の動き。EUはAI規制(AI Act)の枠組みで高リスク用途の透明性を求める方向にある。米国は自主基準を重視し、選挙誤情報への対応を各社の裁量に委ねる。規制思想の差が、製品の設計にそのまま反映される。
第二に報道機関とのライセンス契約。AI各社は信頼できる一次情報へのアクセスを求め、報道機関との有償契約を増やしている。質の高い出典を組み込めるかどうかが、精度競争の分かれ目になる。
第三に日本語監査の整備。海外の監査が先行する中、日本語環境での継続的な精度測定はまだ手薄である。研究機関と報道各社が連携した評価基盤の構築が、今後12〜24カ月の課題になる。
チャットボットが「出典つきで自信たっぷりに誤る」という失敗の形は、選挙のように事実確認が命を分ける場面でこそ危うく、利便性の裏で誰が正確性を担保するのかという問いを突きつけている。
