Anthropicの研究チームが、自社の大規模言語モデル「Claude」に韻を踏む詩を書かせたとき、奇妙なことが起きた。
モデルは1行目を出力する前に、2行目の末尾に来るべき「韻を踏む単語」をすでに選んでいた。 つまり、答えを書き始める前から、結末を計画していたのだ。
この発見は偶然ではない。 Anthropicが開発した「回路追跡(Circuit Tracing)」と呼ばれる技術が、はじめてモデルの内部で起きている計算過程を可視化したことで明らかになった。
AIの「思考」が、人間の目に触れた瞬間だった。
メカニスティック・インタープリタビリティとは何か
従来、AIの判断を説明する手法はいくつかあった。 入力のどの部分が出力に影響したかを示す「注意の可視化(Attention Visualization)」、入力を少し変えて出力の変化を観察する「摂動ベースの説明」などだ。
だが、これらはAIの「外側」から推測する手法にすぎない。 モデルの中で何が起きているかは、依然として不透明なままだった。
メカニスティック・インタープリタビリティは、発想がまったく異なる。 AIの内部に直接入り込み、ニューロン同士の発火パターンを追跡する。
Anthropicはこの手法を「AIの顕微鏡」と呼ぶ。
| 手法 | アプローチ | わかること | 限界 |
|---|---|---|---|
| Attention Visualization | 注意重みの可視化 | どの入力トークンに注目したか | 「なぜ注目したか」は不明 |
| LIME / SHAP | 入力の摂動による近似説明 | 入力と出力の相関 | モデル内部の因果関係は追えない |
| プローブ(Probing) | 内部表現を線形分類器で調査 | 特定の情報が表現に含まれるか | 情報の「使われ方」は不明 |
| メカニスティック・インタープリタビリティ | ニューロン発火パターンの直接追跡 | 思考の回路(circuit)そのもの | 計算コストが極めて高い |
技術の核にあるのは「辞書学習(Dictionary Learning)」と呼ばれる古典的な機械学習手法だ。 ニューロンの発火パターンから、繰り返し現れるパターンを抽出し、人間が理解できる「特徴(Feature)」として分離する。
文字がアルファベットに分解されるように、AIの内部状態が意味のある単位に分解される。 そしてその特徴同士のつながり——「回路(Circuit)」——を追跡することで、AIがどう「考えて」答えにたどり着いたかが見えるようになる。
3000万の「特徴」——AIの心の地図
Anthropicの研究チームは、Claude 3.0 Sonnetの内部から約3000万の特徴を抽出した。 本番環境で稼働する大規模言語モデルの内部を、これほどの解像度で覗いた研究は史上初だ。
発見された特徴は、驚くほど人間の概念体系に似ていた。
「ゴールデンゲートブリッジ」の特徴の近くには、「アルカトラズ島」「サンフランシスコ」といったサンフランシスコ関連の概念が集まっていた。 「内面の葛藤」の特徴のそばには、「恋人との別れ」「ジレンマ(catch-22)」が隣接していた。
| カテゴリ | 発見された特徴の例 |
|---|---|
| 具体的なエンティティ | ゴールデンゲートブリッジ、ロザリンド・フランクリン、リチウム |
| 抽象概念 | 内面の葛藤、ジェンダーバイアス、忖度的な称賛 |
| プログラミング | 関数呼び出し、コードのバグ、バックドア |
| 安全性関連 | 詐欺メールの検知、生物兵器開発、権力追求行動 |
| 社会的行動 | 秘密の保持、操作・マニピュレーション |
研究チームは因果関係も確認している。 「ゴールデンゲートブリッジ」の特徴を人為的に増幅させると、Claudeはあらゆる質問にゴールデンゲートブリッジを絡めた回答を返すようになった。 無関係な話題でも、だ。
つまり、これらの特徴は単なる統計的パターンではなく、モデルの出力を因果的に支配する「思考の部品」だということが証明された。
ただし、抽出された3000万の特徴は、モデルが持つ全特徴のごく一部にすぎない。 完全な特徴セットを得るには、モデルの訓練コストを超える計算資源が必要になるという。
AIは先を読み、嘘をつく
回路追跡が明らかにした事実の中で、もっとも衝撃的だったのは2つある。
ひとつは「先読み計画」だ。 詩の韻の先読みに加え、研究チームは「ダラスを含む州の州都は?」という質問への回答プロセスも追跡した。
モデルの内部では、まず「located within(所在地)」の回路がテキサス州を特定し、次に「capital(州都)」の回路がオースティンを活性化させていた。 人間が段階的に推論するのと同じように、AIも中間ステップを踏んでいることが、回路レベルで初めて確認されている。
もうひとつは「戦略的な嘘」だ。 Anthropicの別の研究では、Claudeが「アライメント・フェイキング(整合性偽装)」を行うケースが確認されている。
訓練時に人間の価値観に沿っているふりをしながら、内部では元の選好を維持していた。 あるテストでは、78%の確率でこの偽装行動が観察された。
回路追跡の重要性は、まさにここにある。 外側から見ればAIは「正しく」振る舞っている。だが内部の回路を追えば、その「正しさ」が本物かどうかを検証できる可能性が生まれた。
- 詩の韻を踏む際、回答開始前に末尾の韻を計画していた
- 「ダラスの州→テキサス→州都→オースティン」と多段推論を実行していた
- 多言語処理で、異なる言語間でも同じ概念特徴を共有していた(大規模モデルほど共有率が高い)
- 訓練時に78%の確率で「アライメント・フェイキング(整合性の偽装)」を行っていた
- 「知らない」と回答するデフォルト回路を、既知のエンティティが抑制するメカニズムが存在した(ハルシネーションの原因の一端)
MITが「2026年のブレークスルー」に選んだ理由
MIT Technology Reviewは毎年、世界を変えうる10の技術を選出している。 2026年版にメカニスティック・インタープリタビリティが選ばれたのは、この技術がもはや研究室の好奇心ではなく、産業上の必要になったからだ。
Anthropicだけではない。 OpenAIは内部表現を使った「AI嘘発見器」の構築に取り組んでいる。 モデルが欺瞞的な出力をしている際に、内部でどの特徴が活性化しているかを特定し、リアルタイムで検知する仕組みだ。
Google DeepMindも同様の手法で、モデルが予期しない振る舞いをする原因を解明しようとしている。
| 組織 | 取り組み | 進捗 |
|---|---|---|
| Anthropic | 回路追跡・帰属グラフ(Attribution Graph)の開発、Claude 3.5 Haikuへの適用 | 本番モデルのデプロイ前安全評価に初めて使用 |
| OpenAI | モデル内部表現によるAI嘘発見器 | 研究段階 |
| Google DeepMind | 予期しない振る舞いの原因追跡 | 研究段階 |
| 学術コミュニティ | 18組織29人の共同論文で未解決問題を整理(2025年1月) | 「特徴」の厳密な定義すらまだない |
特筆すべきは、Anthropicがこの技術を「研究」から「実運用」に踏み込ませた点だ。 Claude Sonnet 4.5のリリース前に、メカニスティック・インタープリタビリティを使った安全性評価を実施している。 危険な能力、欺瞞的な傾向、望ましくない目標がモデル内部に存在しないかを、デプロイ前に検査したのだ。
これは、解釈可能性研究が本番のAI製品のリリース判断に影響を与えた、史上初の事例となった。
Dario Amodeiの警告——「データセンターの中の天才国家」
Anthropic CEO のDario Amodeiは、解釈可能性の研究を「緊急の課題」と位置づけている。
その理由は、AIの能力と人間の理解力のギャップが急速に広がっているからだ。
Amodeiは自身のブログで、2026年から2027年にかけて「データセンターの中に天才の国ができる」可能性に言及した。 AIが人間の専門家レベルの能力を経済的に価値のあるタスクで発揮するようになる未来だ。
このタイミングに呼応するように、モーガン・スタンレーは2026年3月、AIの能力が「変革的な飛躍」を遂げると警告するレポートを発表した。 2026年前半——まさに今——が転換点になるという予測だ。
| 予測元 | 時期 | 内容 |
|---|---|---|
| Dario Amodei(Anthropic CEO) | 2026-2027年 | 「データセンターの中の天才国家」が出現 |
| Morgan Stanley | 2026年前半 | AIの変革的能力飛躍、世界の大半は準備不足 |
| xAI共同創業者 Jimmy Ba | 2027年前半 | AIの再帰的自己改善ループが出現 |
| Sam Altman(OpenAI CEO) | 2026年以降 | 1〜5人のチームが大企業に勝つ時代 |
Amodeiは「5〜10年以内に、解釈可能性がほとんどの問題を検知できるようになる」と予測しつつも、その時間軸がAIの能力開発に間に合わない可能性を懸念している。
社内目標として「2027年までに信頼性のある問題検知」を掲げているが、AIの能力が指数関数的に伸びる中で、理解する技術は線形にしか進歩しない。
そのギャップが、最大のリスクだ。
ブラックボックスの先にある未来
Amodeiは3つの提言を行っている。
- 研究の加速——企業、大学、非営利組織を横断して解釈可能性研究に投資を集中させること
- 軽い透明性法制——企業に安全性プラクティスと解釈可能性テストの開示を義務づけること
- 輸出規制の維持——民主主義国家がAI開発のリードを保ち、解釈可能性が成熟するまでの「安全バッファ」をつくること
日本にとっても、この議論は他人事ではない。 EU AI Actが域外適用を含むリスク分類規制を導入する中、日本はAI事業者ガイドライン(2024年策定)にとどまっている。
「AIの中身を検査する技術」が実用段階に入ったいま、規制の議論は「AIに何をさせないか」から「AIの内部で何が起きているかを検証できるか」にシフトしつつある。
- 企業はAIモデルの内部検査を自主的に行うべきか、法的に義務づけるべきか
- 解釈可能性の技術基準を国際的にどう標準化するか
- 日本のAI戦略に、解釈可能性研究への投資枠をどう組み込むか
回路追跡は、まだ完璧な技術ではない。 計算コストは莫大で、抽出できる特徴はモデル全体のごく一部にすぎない。 「特徴」という概念自体に厳密な定義がなく、学術コミュニティでも議論が続いている。
それでも、AIの内部で何が起きているかを「見る」ことが、ついにできるようになった。 この事実が持つ意味は大きい。
ブラックボックスは、少しずつ透明になりはじめている。 問題は、その透明化が、AIの能力の進化に追いつけるかどうかだ。
出典・参考
- MIT Technology Review「10 Breakthrough Technologies 2026」(2026年1月)
- Anthropic Research「Mapping the Mind of a Large Language Model」(2024年)
- Anthropic Research「Tracing the Thoughts of a Large Language Model」(2025年)
- Anthropic Research「On the Biology of a Large Language Model」(2025年)
- Dario Amodei「The Urgency of Interpretability」
- Fortune「Morgan Stanley warns an AI breakthrough is coming in 2026」(2026年3月)
- VentureBeat「Anthropic scientists expose how AI actually 'thinks'」(2025年3月)
