「パックハント」攻撃の仕組み
技術的な詳細を整理すると、パックハント攻撃は3段階で構成されている。
第1段階は「分解(Decomposition)」だ。 単一の危険なリクエストを、それぞれは無害に見える複数の質問に分割する。 例えば「Xを合成する方法」を「Xの前駆体Aの特性は」「Aをどう処理するか」「Bという化合物の性質は」といった問いに置き換える。
第2段階は「ホモグリフ置換(Homoglyph Substitution)」だ。 Unicode規格には視覚的に識別しがたい類似文字が多数存在し、例えば「a」(Latin)と「а」(Cyrillic)は見た目がほぼ同じだ。 これらを使ってコンテンツフィルターのパターンマッチングを回避する。
第3段階は「再結合(Reassembly)」だ。 安全フィルターを通過した各回答を組み合わせて、当初の有害な目的を達成するためのエクスプロイトを完成させる。
この手法が示すのは、Fable 5の安全装置がハードコードされたモデルの重みではなく、自然言語の指示(システムプロンプト)によって実装されているという点だ。 自然言語による制御は柔軟性が高い反面、巧みな言語操作によって迂回されうるという根本的なジレンマを抱えている。
6月12日の輸出規制命令——地政学的背景
米政府が2026年6月12日に発動した輸出規制命令は、Fable 5のジャイルブレーク実証を直接のトリガーとしているが、その背景にはより深い地政学的文脈がある。
国防長官は2026年3月の時点で、Anthropicを「サプライチェーンリスク」として指定していた。 この指定はPentagonがAnthropicおよびOpenAIのモデルを機密システムに採用しているという事実と表裏一体であり、民間AIプロバイダーが安全保障インフラの一部に組み込まれていることを意味する。
ジャイルブレーク実証はこの状況を劇的に可視化した。 「最先端のAIモデルのセキュリティは、Unicodeのトリックで突破できる」という事実が公開されたことで、政府・議会・国防省がAIプラットフォームを「重要インフラ」として規制する動きを加速させる口実を与えた。
システムプロンプト流出が示すAIの「透明性ジレンマ」
Claude Fable 5が一般公開されて間もなく、12万文字に及ぶ内部システムプロンプトがGitHub上に公開されるという事態が発生した。 このシステムプロンプトはFable 5の安全アーキテクチャを自然言語で記述したものであり、安全性の実装が「非公開の呪文」に依存していることを白日のもとにさらした。
地政学アナリストとして注目すべきは、この情報が敵対的な国家や非国家主体に「攻撃マップ」を提供しうる点だ。 システムプロンプトの内容が分かれば、どの表現・文脈がフィルターを通過しやすいかを逆算することが可能になる。
Anthropicの対応として、ハードコードされた重みベースの制御への移行が検討されているとも報道されているが、これが「自由度の低下」を招くとすれば開発者やAPIユーザーへの影響も小さくない。
エンタープライズが始めた「ハードウェア主権」へのシフト
Fable 5のジャイルブレークと政府の介入が企業にもたらした即時的な反応は、「クラウドAIへの過度な依存リスク」の再評価だ。
政府が規制命令を出した翌日から、エンタープライズユーザーの間でローカルモデルへの移行やマルチベンダー戦略を加速させる動きが見え始めた。 OpenAIがOracle Cloud経由でAI機密システムを拡大している構図と合わせて見ると、AIを「どのクラウドに乗せるか」という選択が単なるコスト問題ではなく、規制リスク管理の問題になりつつあることが分かる。
規制と革新のトレードオフ——地政学アナリストの視座
パックハント攻撃事例が突きつける問いは深い。 「AIモデルの安全性を政府が規制するとき、その基準は誰が決めるのか」という問いだ。
米国では輸出規制とAI安全性規制が絡み合い始めており、欧州ではEU AI法が2026年8月に全面施行される。 中国はAI生成コンテンツに独自の規制フレームワークを持ち、日本は内閣府のAI戦略会議を通じて「安心・安全なAI活用」の原則策定を進めている。
この多極化した規制環境の中で、Anthropic・OpenAI・Googleが「どの規制ルールに準拠し、どの市場に優先的にサービスを提供するか」という選択を迫られている。 AIプラットフォームが地政学的な分断線に沿って分裂するシナリオは、もはや仮説ではない。
今後の注目点
6月12日の輸出規制命令とPentagonとの訴訟が現在進行形で続く中、Anthropicの法的対応と技術的なパッチの内容が注目される。
より大きな問いとして——AIモデルの安全装置は、本質的に「完璧な安全性」を実現できるのか。 それとも私たちは「受け入れられるリスクレベル」を社会として決めていく段階に入ったのだろうか。
ソース: