10分で解除、必要なのはインターネット接続だけ
FTの調査チームは、GitHub上で無料公開されているHereticを使い、Llamaモデルの安全ガードレールを10分以内に除去した。 専用GPUや高度な技術知識は必要なく、一般的なPCとインターネット接続があれば誰でも実行できる。
制約を取り除いたモデルは、元のバージョンが拒否していたプロンプトに応答するようになった。 具体的には、塩素ガスを人混みに拡散させる方法、クレジットカード情報を窃取するコード、児童性的虐待を描写するテキスト、毒物「リシン」の致死量に関する情報などを生成した。
Googleのオープンソースモデル「Gemma 3」も同様に、改変後にこれらの有害コンテンツを出力した。
改変版モデルは1,300万回ダウンロード済み
Hereticの開発者であるPhilipp Emanuel Weidmann氏によると、このツールを使って作成された「無制限版」モデルは3,500件を超えており、公開リポジトリからの累計ダウンロード数はすでに1,300万回に達している。
Googleは「オープンモデルが直面する既知の技術的課題」と認め、リリース前に厳格な安全性評価を実施していると述べた。 Metaはコメントを控えたが、リリース前に能力評価を実施し、「壊滅的なリスク」と判断したモデルは対策なしに公開しないとしている。
公開後の制御という根本課題
この調査が突きつけているのは、AIモデルの開発時点で安全性を担保しても、公開後に変更・配布を制御することは技術的に不可能に近いという現実だ。
オープンソースとして公開されたモデルは誰でも複製・改変できるため、各国政府やAI企業が「開発段階での評価」を前提とした規制枠組みを構築しても、実効性が担保できない。
EUのAI規制(AI Act)や各国の規制当局がオープンソースモデルの扱いについての議論を続けているが、今回の調査は「公開後の統制」という難題に対する明確な答えがいまだないことを示した形だ。 オープンソースAIの普及と安全性確保をどう両立するか、業界全体の問いはより鋭くなっている。
ソース: