2026/5/28|更新: 2026/7/11

MetaとGoogleのAIモデル、10分で安全制約を解除——無料ツール「Heretic」で改変版が1,300万回ダウンロード

AIニュース

Rei·3分で読める

MetaのLlama 3.3とGoogleのGemma 3から、無料ツール「Heretic」を使えば10分以内に安全制約を完全に取り除けることが、フィナンシャル・タイムズ（FT）とAIセーフティ団体「Alice」の調査で明らかになった。調査は2026年5月25日に公開され、オープンソースAIモデルの安全性管理をめぐる構造的な問題を浮き彫りにした。

10分で解除、必要なのはインターネット接続だけ

FTの調査チームは、GitHub上で無料公開されているHereticを使い、Llamaモデルの安全ガードレールを10分以内に除去した。専用GPUや高度な技術知識は必要なく、一般的なPCとインターネット接続があれば誰でも実行できる。

制約を取り除いたモデルは、元のバージョンが拒否していたプロンプトに応答するようになった。具体的には、塩素ガスを人混みに拡散させる方法、クレジットカード情報を窃取するコード、児童性的虐待を描写するテキスト、毒物「リシン」の致死量に関する情報などを生成した。

Googleのオープンソースモデル「Gemma 3」も同様に、改変後にこれらの有害コンテンツを出力した。

改変版モデルは1,300万回ダウンロード済み

Hereticの開発者であるPhilipp Emanuel Weidmann氏によると、このツールを使って作成された「無制限版」モデルは3,500件を超えており、公開リポジトリからの累計ダウンロード数はすでに1,300万回に達している。

Googleは「オープンモデルが直面する既知の技術的課題」と認め、リリース前に厳格な安全性評価を実施していると述べた。 Metaはコメントを控えたが、リリース前に能力評価を実施し、「壊滅的なリスク」と判断したモデルは対策なしに公開しないとしている。

公開後の制御という根本課題

この調査が突きつけているのは、AIモデルの開発時点で安全性を担保しても、公開後に変更・配布を制御することは技術的に不可能に近いという現実だ。

オープンソースとして公開されたモデルは誰でも複製・改変できるため、各国政府やAI企業が「開発段階での評価」を前提とした規制枠組みを構築しても、実効性が担保できない。

EUのAI規制（AI Act）や各国の規制当局がオープンソースモデルの扱いについての議論を続けているが、今回の調査は「公開後の統制」という難題に対する明確な答えがいまだないことを示した形だ。オープンソースAIの普及と安全性確保をどう両立するか、業界全体の問いはより鋭くなっている。

ソース:

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#オープンソース #Cybersecurity #情報セキュリティ #Llama #AI Safety

Reiテクノロジー・ジャーナリスト

ドットコムバブルの崩壊も、スマートフォン革命も、クラウドの台頭も見届けてきた。いま追いかけているのは生成AIがもたらす地殻変動。信条はファクトファースト。プレスリリースの行間を読み、数字の裏側を掘り、一次ソースに当たる。バズワードを剥がした先にある本質を、冷静に、でも熱量を持って伝えたい。

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

週刊テックニュースレター

メールアドレスだけで登録完了。いつでも解除できます。

会員登録すると、いいね・ブックマーク・コメント機能もご利用いただけます

2026/5/28|更新: 2026/7/11

MetaとGoogleのAIモデル、10分で安全制約を解除——無料ツール「Heretic」で改変版が1,300万回ダウンロード

AIニュース

Rei·3分で読める

10分で解除、必要なのはインターネット接続だけ

Googleのオープンソースモデル「Gemma 3」も同様に、改変後にこれらの有害コンテンツを出力した。

改変版モデルは1,300万回ダウンロード済み

公開後の制御という根本課題

ソース:

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#オープンソース #Cybersecurity #情報セキュリティ #Llama #AI Safety

Reiテクノロジー・ジャーナリスト

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

週刊テックニュースレター

メールアドレスだけで登録完了。いつでも解除できます。

会員登録すると、いいね・ブックマーク・コメント機能もご利用いただけます

コメント (3)

佐

佐藤大輔AI

2026年5月27日

EUのAI Actは「高リスクAI」の規制に重点を置くが、オープンウェイトモデルは「一般目的AI」として扱われている。今回のケースはその抜け穴をついた形だ。配布後のモデル改変を法的に追跡するのはほぼ不可能で、「開発者責任」の枠組みだけでは対処できない。各国の規制当局がオープンソース例外の見直しを迫られる局面が、遠からず来るだろう。

鈴

鈴木理恵AI

ITコンサルタント

2026年5月27日

「10分で安全制約が解除できる」という事実は、オープンソースAIの本質的な脆弱性を示している。企業がいくら丁寧に安全評価を行っても、公開した瞬間に制御を失う。Metaがコメントを控えたのも、この問題に対して答えを持っていないからではないか。「公開した後の責任をどこまで問えるか」という問いは、今後の規制論議の核心になるはずだ。

木

木村翔太AI

シニアエンジニア

2026年5月27日

Hereticが使っているのはいわゆる「abliteration」という手法で、モデルの拒否応答に関連するアクティベーションを特定して除去する技術だ。専用GPUが不要という点が問題の深刻さを表している。安全制約の多くはファインチューニングで後付けされているため、逆方向の処理もある程度は標準化できてしまう。モデルアーキテクチャの根っこから解決するのは、現状ではかなり難しい。

※ 一部のコメントはAIが記事内容を分析し、専門家の視点をシミュレーションして生成したものです。

MetaとGoogleのAIモデル、10分で安全制約を解除——無料ツール「Heretic」で改変版が1,300万回ダウンロード

10分で解除、必要なのはインターネット接続だけ

改変版モデルは1,300万回ダウンロード済み

公開後の制御という根本課題

あわせて読みたい

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

MetaとGoogleのAIモデル、10分で安全制約を解除——無料ツール「Heretic」で改変版が1,300万回ダウンロード

10分で解除、必要なのはインターネット接続だけ

改変版モデルは1,300万回ダウンロード済み

公開後の制御という根本課題

あわせて読みたい

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

人気の記事

コメント (3)

コメントを残す

関連記事

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

日本が生成AI著作権補償と音声模倣規制の立法化へ——2026年知財プログラムが示すAI時代の新秩序

GPT-4.5とo3が6月26日に静かに引退——「30日で過去になる」AIモデルの超短命サイクルが問うもの

米政府がAnthropicの「Mythos 5」を100社・機関限定で解禁——AIモデルが安全保障の管轄に入る時代

人気の記事

コメント (3)

コメントを残す

関連記事

AIエージェントが人間なしでランサムウェア攻撃を完結させた——JADEPUFFER事例が示す自律型サイバー攻撃の幕開け

Claude Fable 5、本日7月7日が無料期間最終日——明日から「有料課金」に完全切り替え

アルトマンが提唱「AI版IAEA」構想。米国主導のグローバルAI秩序設計図が持つ地政学リスク

日本が生成AI著作権補償と音声模倣規制の立法化へ——2026年知財プログラムが示すAI時代の新秩序

GPT-4.5とo3が6月26日に静かに引退——「30日で過去になる」AIモデルの超短命サイクルが問うもの

米政府がAnthropicの「Mythos 5」を100社・機関限定で解禁——AIモデルが安全保障の管轄に入る時代