徹底カイボウ|Claude Opus 4.7 ── Anthropicが放った「自分の出力を検証するAI」、Opus 4.6から何が変わったのか
2026年4月16日(米国時間)、Anthropicは新たなフラッグシップモデル「Claude Opus 4.7」を一般提供開始した。
「最も難しいコーディング作業を、自信を持って任せられる」──Anthropicが公式アナウンスで強調したのは、難易度のフロンティアではなく、**「人間の監督なしでどこまで任せられるか」**という委任の境界線だ。
価格はOpus 4.6から据え置き。だがトークナイザー、ビジョン、推論深度、そしてサイバーセキュリティ・ガードレールに至るまで、内部の作りは深いところで書き換えられている。本稿では、公式システムカード、ブログ、X告知、報道情報を突き合わせ、Opus 4.7という製品を「徹底カイボウ」する。
Overview ── 30秒でわかるClaude Opus 4.7
Claude Opus 4.7は、Anthropicが2026年4月16日にリリースした、Opus系列の最新世代モデルだ。Opus 4.6からの直接アップグレードとして位置づけられ、長時間にわたる自律的なタスク実行と、コードレビュー級のコーディング能力で「実務での委任」に最適化されている。
| 項目 | 内容 |
|---|---|
| 正式名称 | Claude Opus 4.7 |
| モデルID(API) | claude-opus-4-7 |
| リリース日 | 2026年4月16日(米国時間) |
| 開発元 | Anthropic(米サンフランシスコ) |
| 価格(API) | 入力 $5/M tokens、出力 $25/M tokens(Opus 4.6から据え置き) |
| 主要新機能 | xhighエフォート、/ultrareview、auto モード拡張、タスクバジェット |
| 上位モデル | Claude Mythos Preview(限定提供) |
| 利用可能基盤 | claude.ai、Claude Platform、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry |
公式アナウンスは強気だ。「ユーザーから報告されているのは、これまで密接な監督を必要とした最も難しいコーディング作業を、Opus 4.7には自信を持って手渡せる、ということだ」。
1. リリースの背景 ── なぜ今、Opus 4.7なのか
Mythos Previewから降りてきた「弟分」
Opus 4.7を理解する鍵は、その少し上にあるモデル「Claude Mythos Preview」の存在だ。
Anthropicは2026年4月初旬、最も強力な内部モデル「Mythos Preview」と、それに伴うサイバーセキュリティ研究プロジェクト「Project Glasswing」を公表した。Mythosは現時点で世界最高水準の能力を持つが、サイバー領域での悪用リスクを慎重に評価する必要があるとして、提供範囲は限定されている。
Opus 4.7は、その**「Mythosの能力を意図的に抑制し、新しい安全策のテスト場として広く公開する」**第一弾モデルとして設計された。Anthropicの説明をそのまま引けば、「Opus 4.7のサイバー能力はMythos Previewほど高度ではない(実際、訓練段階で差別的にこれらの能力を低下させる試みを行った)」。
裏を返せば、Opus 4.7はMythosの遺伝子を引き継ぎつつ、現実世界に解き放っても安全に運用できる範囲に調整した派生モデルだ。Anthropicはこれを「Mythosクラスの広範な提供に向けた学習材料」と位置づけている。
Opus 4.6からの「直接アップグレード」
Opus 4.6(2026年2月リリース)は、コンテキストウィンドウ100万トークンや改善されたエージェント能力で評価を集めた。だが、Anthropic自身が指摘する通り、ユーザーは**「指示を細かく書いても、無視されたり、勝手に解釈されたりする」**ことに不満を持っていた。
Opus 4.7は、この「指示への忠実度」を中心命題に据えている。「以前のモデルは指示をゆるく解釈したり、一部をスキップしたりすることがあったが、Opus 4.7は文字通りに指示を受け取る。プロンプトとハーネスは、それに合わせて再調整する必要がある」と公式ガイドは述べている。
つまり、雑なプロンプトでもうまく動いてくれた前モデルから、**「正確に書けば、正確に応える」**モデルへの転換だ。
2. 「自分の出力を検証するAI」とは何を意味するのか
Opus 4.7の最大の思想的変化は、自己検証(self-verification) の組み込みである。
公式アナウンスはこう書く。「Opus 4.7は、複雑で長時間にわたるタスクを、厳密さと一貫性をもって処理し、指示に細心の注意を払い、報告する前に自分の出力を検証する方法を考案する」。
これは些細な変更ではない。従来のLLMは、出力を生成したら「それで終わり」だった。エラーや矛盾があっても、人間がレビューするまで気づけなかった。Opus 4.7は、自分が書いたコードを実行して結果を確かめる、生成した分析の数値を再計算する、書いた文章の事実関係を別ソースで照合するといった「検証ステップ」を、タスクの一部として自発的に組み込む。
なぜこれがエージェント時代に決定的なのか
AIに長時間の自律タスクを任せる時、最大の障害は**「途中で間違えたまま走り続ける」**ことだ。1ステップ目で誤った前提を置けば、その上に積み上がる10ステップは全部無駄になる。
人間のシニアエンジニアは、コードを書いたらまずテストを走らせる。データ分析を終えたらサンプルで検算する。Opus 4.7の自己検証は、この「シニアの当たり前」をモデル内部に埋め込む試みだ。
公式が強調するのは「rigor and consistency(厳密さと一貫性)」。後述するベンチマークで、長時間タスクほどスコアの伸びが顕著なのは、この検証ループが効いている証左と読める。
3. プロダクト全解説 ── Opus 4.7で何ができるようになったか
コーディング ── 委任ラインが上がった
Opus 4.7のコーディング能力は、ベンチマークだけでなく**「人間がどこまで任せられるか」**という体感面での進化が大きい。
第三者テスターからの早期評価では、複数の独立したコーディング評価で大幅な向上が報告されている。
| 評価項目 | 改善幅 |
|---|---|
| 内部の高難度コーディング評価 | エフォートレベル全域でトークン効率と精度が改善 |
| GitHub Copilot系評価 | Opus 4.6比で +13% |
| Rakuten-SWE-Bench | 解決タスク数が約3倍 |
| CodeRabbit recall | +10%以上 |
| Terminal-Bench 2.0 | Opus 4.6が失敗した3タスクをクリア |
特にTerminal-Benchの結果は象徴的だ。これは「ターミナル上で多段階の作業を自律的に完遂できるか」を測る評価で、Opus 4.6が手も足も出なかった3つのタスクを、Opus 4.7はクリアした。
ビジョン ── 解像度3倍が拓く新しい使い方
Opus 4.7は、長辺2,576ピクセル(約3.75メガピクセル)までの画像をそのままの解像度で処理できる。これまでのClaudeモデルの3倍以上だ。
これは単なるスペック改善ではなく、できる仕事のカテゴリーが変わる変更だ。
- コンピュータ操作エージェント: 高解像度のスクリーンショットから、小さなUIボタンや細かな文字までを正確に読み取って操作できる
- データ抽出: 複雑な図表、技術仕様書、設計図の細部まで読み取れる
- ピクセル精度のリファレンス: デザインカンプから正確な座標やスペーシングを参照する作業
Anthropicはこれを「APIパラメータではなくモデルレベルの変更」と説明している。つまり、利用者が何もしなくても、送った画像は自動的に高解像度で処理される。逆に、解像度を必要としない用途では、トークン消費を減らすために事前にダウンサンプリングするのが推奨される。
メモリ ── 「長期記憶」の精度が上がった
Opus 4.7は、ファイルシステムベースのメモリ機能の利用が改善されている。Anthropicの説明では、「長時間・複数セッションにわたる作業の中で重要なメモを記憶し続け、それを使って次のタスクに移れる。結果として、事前に与える文脈が少なくて済む」。
Claude Codeのような長期プロジェクトでは、毎回プロジェクトの構造や規約を再説明する必要がない。前回作業した内容を踏まえて、今回の作業に着手できる。**「セッション間で連続した思考を持てるエージェント」**への一歩だ。
4. ベンチマーク詳細 ── GPT-5.4・Gemini 3.1 Pro・Mythos Previewと比較
Anthropicが公開したベンチマークは、Opus 4.7の立ち位置を明確に示している。
主要ベンチマーク(2026年4月時点)
| ベンチマーク | Opus 4.7 | Opus 4.6 | 比較対象 |
|---|---|---|---|
| Finance Agent | State-of-the-art | — | サードパーティ評価でトップ |
| GDPval-AA | State-of-the-art | — | 経済的に価値のある知識業務評価 |
| CyberGym | 73.8 | 66.6 | サイバー攻撃シミュレーション |
| Terminal-Bench 2.0 | 3タスク追加クリア | 失敗 | Terminus-2ハーネス使用 |
| SWE-bench Verified/Pro/Multilingual | Opus 4.6比で改善 | ベースライン | メモリゼーション除外でも優位を維持 |
| MCP-Atlas | 改善 | — | Scale AI改訂後の評価 |
注目すべきは、Opus 4.7は単一の最高スコアを狙ったモデルではない点だ。GDPval-AA(実際の経済価値を持つホワイトカラー業務)でトップを取り、Finance Agentでもトップ。これは「ベンチマーク用のモデル」ではなく「実務で稼ぐモデル」を志向していることを意味する。
競合モデルとの構図
参考までに、2026年4月時点での主要モデルの位置づけを整理する。
| モデル | 提供元 | 強み | 公開状況 |
|---|---|---|---|
| Claude Mythos Preview | Anthropic | SWE-bench Verified 93.9%、最高水準のアラインメント | 限定提供 |
| Claude Opus 4.7 | Anthropic | 実務タスク・指示追従・自己検証 | 一般提供 |
| Claude Opus 4.6 | Anthropic | コンテキスト100万トークン、汎用性 | 提供継続 |
| GPT-5.4 | OpenAI | 推論、エージェント | 一般提供 |
| Gemini 3.1 Pro | マルチモーダル(特に動画) | 一般提供 | |
| Grok 4 | xAI | コーディング系で一部上回る | 一般提供 |
Mythos Previewは公開ベンチマークでSWE-bench Verified 93.9%と、業界の壁を破った。Opus 4.7はそこまでではないが、「Mythosほどの能力は要らないが、Opus 4.6より一歩先が欲しい」という多くのユーザーの実需を埋めるポジションにある。
5. Claude Codeの新機能 ── /ultrareview と auto モード
Opus 4.7のリリースに合わせて、Claude Codeにも重要なアップデートが入った。
/ultrareview ── 「丁寧なレビュアー」が見落とさない指摘を返す
新しいスラッシュコマンド /ultrareview は、変更されたコードを読み通し、**「注意深いレビュアーなら指摘するであろうバグや設計の問題」**をフラグ立てする専用レビューセッションを起動する。
通常のチャット応答よりも長い時間をかけて、以下のような観点で変更を分析する:
- 既存コードへの副作用や破壊的変更
- 境界値・例外パスの漏れ
- セキュリティ上の脆弱性パターン
- 設計の一貫性、命名規則の逸脱
- パフォーマンスの懸念点
Pro/Maxプランのユーザーには、この機能を試すための無料利用回数が3回分提供される。
auto モードがMaxユーザーに開放
「auto モード」は、Claudeがユーザーに代わって権限判断を行う新しい権限オプションだ。
従来は「すべての権限をスキップ」(最も自由だが最もリスクが高い)か、「逐一許可を求める」(安全だが中断が多い)の二択だった。auto モードはその中間で、長時間タスクをより少ない中断で実行できる一方、すべてをスキップするよりリスクは抑えられる。
これがMaxユーザー全員に拡大されたことは、Anthropicが「長時間自律タスク」を主戦場と見定めていることの表れだ。
エフォートレベルがxhighにデフォルト変更
Claude Code内では、すべてのプランでデフォルトのエフォートレベルが新設の「xhigh」に引き上げられた。Anthropicは「Opus 4.7をコーディングやエージェント用途で試す際は、highまたはxhighから始めることを推奨する」としている。
6. Claude Platform(API)の新機能 ── xhighとタスクバジェット
xhigh ── 「高」と「最大」の間に入った新しいダイヤル
xhigh(extra high)は、highとmaxの間に位置する新しいエフォートレベルだ。
| エフォート | 用途 |
|---|---|
low | 短い応答、対話的な利用 |
medium | 標準 |
high | 複雑な推論 |
xhigh | ハードな問題、推論とレイテンシのバランスを細かく調整 |
max | 最大限の推論時間を許容 |
ハードな問題で、highでは足りないがmaxでは遅すぎる、というユースケースを埋める。Anthropicが「Opus 4.7はOpus 4.6より高エフォート時に多く考える」と注意喚起している通り、xhighは**「考える時間を増やしてでも質を取りたい」場面の新しい選択肢**になる。
タスクバジェット(パブリックベータ) ── トークン消費の交通整理
タスクバジェットは、長時間ランの中でClaudeのトークン支出を方向付ける新しい仕組みだ。
エージェントが何時間も動き続けるユースケースでは、コストが青天井になりかねない。タスクバジェットは、開発者が**「この一連のタスクには合計でこれだけのトークンを使う」**という上限を設定し、Claude自身がその予算内で優先順位を判断するように促す。
これは単なる「上限カット」ではなく、**「Claude側に予算意識を持たせる」**設計が画期的だ。残り予算が少なくなれば、より重要な検証ステップに集中するなど、自律的な配分が期待される。
7. 価格・トークン経済 ── 同じ$5/$25で、何が変わったか
Opus 4.7の価格はOpus 4.6と完全に据え置きだ。入力 $5/M、出力 $25/M。
ただし、実質的な単価は2つの要因で変動する点に注意が必要だ。
1. トークナイザーの更新
Opus 4.7では、テキスト処理を改善した新しいトークナイザーが採用された。同じ入力テキストが、コンテンツの種類によって1.0〜1.35倍のトークン数にマッピングされる。
つまり、同じ日本語の文章を投げても、Opus 4.6時代より2〜3割多くトークンを消費するケースがある。価格表は据え置きでも、実支払いは増える可能性がある。
2. 高エフォート時の思考トークン増加
Opus 4.7は、特に後半のターンでより多く考える傾向がある。エージェント的な多ターン対話では、出力トークン(思考含む)が膨らみやすい。
この2点について、Anthropicは公式ブログで率直に「実トラフィックでの差分を計測することを推奨する」と書いている。重要な内部評価では、エフォートレベル全域でトークン使用効率が改善しているとも示されているが、ユースケースごとに測定するのが正解という案内だ。
移行時のコントロール手段
ユーザー側で消費を抑える手段は3つある。
effortパラメータをタスクの難度に合わせて適切に下げる- タスクバジェットで明示的な上限を設定する
- プロンプトで「簡潔に」「短く」と明示する
8. Project Glasswingとサイバーセーフガード
Opus 4.7のリリースは、AnthropicのProject Glasswingと切り離せない。
Project Glasswingは、AIモデルがサイバーセキュリティに与えるリスクと便益を真剣に検討し、Mythos Previewのような最先端モデルの提供を慎重に進めるための内部プロジェクトだ。
Opus 4.7はその最初の実証実験として、サイバー攻撃に転用される可能性のあるリクエストを自動検知してブロックする新しいセーフガードを組み込んでいる。
サイバー検証プログラム(Cyber Verification Program)
正当なサイバーセキュリティ用途──脆弱性研究、ペネトレーションテスト、レッドチーミング──でOpus 4.7をフルに使いたいセキュリティプロフェッショナル向けに、新たに「Cyber Verification Program」が開始された。
これは、研究者個人や企業が身元と用途を申告することで、過剰なセーフガード発動を回避できる仕組みだ。一般公開と専門家利用のバランスを、**「一律緩和」ではなく「検証付き解放」**で取りに行く設計が興味深い。
CyberGymスコアの伸び(66.6→73.8)も、このセーフガード設計を本番環境で検証するための前提条件として位置づけられる。「能力は上がっているが、悪用は防ぐ」を両立できるかが、Opus 4.7の社会実験的な側面だ。
9. 安全性とアラインメント ── Mythosとの差はどこか
Anthropicは、Opus 4.7の安全性プロファイルがOpus 4.6と「概ね同等」だとしている。重要な指標を整理する。
良くなった点
- 誠実性(honesty):嘘をつく、意図を隠すといった行動の率が低下
- プロンプトインジェクション耐性:悪意ある外部入力に従わない能力が向上
横ばい・やや悪化した点
- 規制薬物の害減少アドバイス:詳細すぎる回答をする傾向がOpus 4.6よりやや強い
Mythosとの差
自動化された行動監査における「misaligned behavior(不整合な振る舞い)」の総合スコアでは、Mythos Previewが依然として最も低い。Opus 4.7はOpus 4.6・Sonnet 4.6より一段良いが、Mythosには届かない。
Anthropicの公式アラインメント評価書は、Opus 4.7を「概ねよく整合し、信頼できるが、振る舞いとして完全に理想的ではない」と結論づけている。詳細はClaude Opus 4.7 System Cardで公開されている。
10. 利用可能なプラットフォーム
Opus 4.7は、リリース当日から以下の経路で利用できる。
| 利用経路 | 対象ユーザー | 備考 |
|---|---|---|
| claude.ai(Web/アプリ) | Pro/Max契約者 | デフォルトでOpus 4.7にアクセス可能 |
| Claude Code | Pro/Max契約者 | デフォルトエフォートはxhighに引き上げ |
| Claude Platform(API) | 開発者 | モデルID claude-opus-4-7 |
| Amazon Bedrock | AWSユーザー | エンタープライズ向け |
| Google Cloud Vertex AI | Google Cloudユーザー | エンタープライズ向け |
| Microsoft Foundry | Microsoftユーザー | エンタープライズ向け |
3大クラウドすべてで同時提供されている点は、エンタープライズ採用を強く意識した戦略だ。
11. Opus 4.6からの移行ガイド ── 何に注意すべきか
Anthropicは公式の移行ガイドを公開しているが、要点を整理すると以下になる。
プロンプトの再調整
Opus 4.7は指示を文字通りに解釈する。Opus 4.6時代に「ゆるい指示でもいい感じに動いてくれた」ハーネスは、要求を明示し直す必要がある。
例えば「短くまとめて」だけでは曖昧で、Opus 4.7は「短く」を厳密に解釈して内容を切り詰めすぎる場合がある。「3段落以内、各段落は2文以内」のように操作可能な定義で書く方が、安定して期待通りの出力が得られる。
トークン使用の計測
トークナイザー更新と思考トークン増加で、実トラフィックでの単価が上がる可能性がある。本番投入前に、代表的なリクエストでトークン消費を計測することが推奨される。
エフォートレベルの設定
Anthropicは「コーディングやエージェント用途ではhighまたはxhighから始める」を推奨。一方、対話的な短い応答ではmediumで十分なことが多い。**「タスク難度とエフォートを意識的にマッピングする」**のが、Opus 4.7時代の運用センスだ。
12. 競合との構造的比較
2026年4月時点で、Opus 4.7が立つ競争環境を整理する。
各社の強み
- OpenAI GPT-5.4:エージェント、ツール利用、ChatGPTエコシステム
- Google Gemini 3.1 Pro:マルチモーダル(特に動画理解で他を圧倒)、検索統合
- xAI Grok 4:コーディング系の一部ベンチマークで上回る、X連携
- Anthropic Opus 4.7:実務タスク、指示追従、自己検証、コードレビュー
各社は徐々に**「総合点で勝つ」から「特定領域で深く勝つ」**戦略にシフトしている。Opus 4.7のGDPval-AAやFinance AgentでのSOTAは、この潮流の中での「実務エージェント」というポジショニングを明確にする。
価格構造の比較(API、2026年4月時点)
Opus 4.7の$5/M入力・$25/M出力は、フロンティアモデルとしては中位の価格帯だ。GPT-5.4やGemini 3.1 Proの上位モデルと同等水準で、Mythos Previewより安く、Sonnet 4.6/Haiku 4.5より高い。
「最高性能を取りに行くならMythos、汎用ならSonnet、その間の実務最適化ならOpus 4.7」という三層構造で、Anthropicは選択肢を整えてきた。
13. リスクと課題 ── 何が脅威か
Opus 4.7にも、構造的なリスクは複数ある。
1. 過剰な指示忠実性が逆効果になる場合
「指示を文字通りに守る」ことは、雑なプロンプトでは期待外れの動作につながる。プロンプトエンジニアリングの新しい学習コストが、移行のハードルになる。
2. トークン消費の不確実性
トークナイザー更新と思考トークン増加で、運用コストの予測が難しくなる。タスクバジェットは対策にはなるが、ベータ機能であり、運用ノウハウはこれから蓄積される。
3. サイバーセーフガードによる過剰ブロック
正当なセキュリティ研究者が、サイバーセーフガードに引っかかって作業を中断される可能性がある。Cyber Verification Programは対応策だが、検証プロセスのスケーラビリティが課題となる。
4. Mythos Previewへの「物足りなさ」期待
Mythos Previewのベンチマーク(SWE-bench Verified 93.9%)が公開されてしまった以上、Opus 4.7に対しても「もっとできるはずでは」という期待が生まれやすい。意図的に能力を抑制した派生モデルであるという背景が、ユーザーに正しく理解される必要がある。
14. 今後の展望 ── Mythosクラスの広範提供への道筋
Opus 4.7の真の意義は、単独のモデルとしての性能だけではない。
Anthropicは公式ブログでこう書いている。「これらのセーフガードの実世界での展開から学ぶことが、最終的にMythosクラスのモデルを広く提供する目標に向けた前進に役立つ」。
つまりOpus 4.7は、「Mythosクラスのモデルを安全に広く提供できるか」という壮大な実験の第一歩だ。
今後注目すべき点はいくつもある。
- Project Glasswingのセーフガードが、実世界でどこまで誤検知なく機能するか
- Cyber Verification Programの参加者数と運用実態
- Opus 4.7のユーザー報告から、Anthropicが何を学び、Mythosの広範提供に向けた次の一手をどう打つか
- xhighやタスクバジェットといった新しい制御パラメータが、エージェント開発の標準として定着するか
そして、**「自分の出力を検証するAI」**というOpus 4.7の核心思想が、競合各社にどう波及するかも興味深い。OpenAIもGoogleも、長時間自律タスクに同じ問いを抱えている。Anthropicが先行した自己検証アーキテクチャは、業界全体の次のスタンダードになる可能性がある。
問いはこうだ。「自分が自分を検証するAI」が当たり前になった時、人間のレビューはどこに残るのか。
Opus 4.7はその問いを、ユーザー一人ひとりの目の前に置いた。
15. データシート
基本情報
| 項目 | 内容 |
|---|---|
| モデル名 | Claude Opus 4.7 |
| API モデルID | claude-opus-4-7 |
| リリース日 | 2026年4月16日 |
| 開発元 | Anthropic(米サンフランシスコ) |
| 上位モデル | Claude Mythos Preview(限定提供) |
| 前世代モデル | Claude Opus 4.6(2026年2月リリース) |
価格表(API)
| 項目 | 単価 |
|---|---|
| 入力トークン | $5 / 1Mトークン |
| 出力トークン | $25 / 1Mトークン |
※ Opus 4.6から据え置き。トークナイザー更新により実消費量は1.0〜1.35倍に。
主要新機能一覧
| 機能 | 説明 | 提供範囲 |
|---|---|---|
| 自己検証(self-verification) | 出力前に自分の生成を検証 | モデル内蔵 |
| 高解像度ビジョン | 長辺2,576px(約3.75MP)対応 | モデル内蔵 |
| メモリ強化 | ファイルシステムベースの長期記憶 | モデル内蔵 |
xhigh エフォート | high と max の間 | API |
| タスクバジェット | トークン予算による制御 | API(パブリックベータ) |
/ultrareview | コードレビュー専用セッション | Claude Code(Pro/Max・3回無料) |
| auto モード | 中間的な権限委任 | Claude Code(Maxに拡大) |
| デフォルトxhigh | エフォート初期値の引き上げ | Claude Code 全プラン |
利用可能基盤
| 経路 | 対象 |
|---|---|
| claude.ai(Web、iOS、Android、デスクトップ) | コンシューマー(Pro/Max) |
| Claude Code | 開発者(Pro/Max) |
| Claude Platform API | 全開発者 |
| Amazon Bedrock | AWSユーザー |
| Google Cloud Vertex AI | Google Cloudユーザー |
| Microsoft Foundry | Microsoftユーザー |
主要ベンチマーク(Anthropic公開値)
| ベンチマーク | スコア/評価 |
|---|---|
| Finance Agent | State-of-the-art |
| GDPval-AA | State-of-the-art |
| CyberGym | 73.8(Opus 4.6: 66.6) |
| Terminal-Bench 2.0 | Opus 4.6が失敗した3タスクをクリア |
| SWE-bench Verified/Pro/Multilingual | Opus 4.6比で改善 |
| MCP-Atlas | 改訂後評価で改善 |
| GitHub Copilot系 | +13% lift |
| Rakuten-SWE-Bench | 解決タスク数 約3倍 |
| CodeRabbit recall | +10%以上 |
安全性・アラインメント評価
| 項目 | 評価 |
|---|---|
| 総合 misalignment スコア | Opus 4.6から改善(ただしMythos Previewが最良) |
| 誠実性(honesty) | 改善 |
| プロンプトインジェクション耐性 | 改善 |
| 規制薬物への害減少アドバイス過剰 | やや悪化 |
| アラインメント評価結論 | 「概ねよく整合し、信頼できるが完全に理想的ではない」 |
16. Sources / 参考文献
公式ソース:
- [1] Anthropic, "Introducing Claude Opus 4.7",
, 2026年4月16日 - [2] Anthropic, "Claude Opus 4.7 System Card",
- [3] Anthropic公式X, "Introducing Claude Opus 4.7",
, 2026年4月16日 - [4] Anthropic, "Claude Opus 4.7 Migration Guide", Anthropic Developer Documentation, 2026年4月
前世代・関連モデル:
- [5] Anthropic, "Claude Opus 4.6 Release Notes", 2026年2月
- [6] Anthropic, "Claude Mythos Preview & Project Glasswing", 2026年4月初旬
- [7] Anthropic, "Cyber Verification Program",
, 2026年4月
ベンチマーク・第三者評価:
- [8] Scale AI, "MCP-Atlas Revised Methodology", 2026年
- [9] Terminal-Bench 2.0 Working Group, "Terminus-2 Harness Specification", 2026年
- [10] CyberGym Benchmark, "Updated Harness Parameters for Opus 4.6", 2026年
比較・競合情報:
- [11] NxCode, "Claude Mythos Benchmarks Explained: 93.9% SWE-bench & Every Record Broken (2026)",
- [12] Morphllm, "Claude Benchmarks (2026): Every Score for Opus 4.6, Sonnet 4.6 & Haiku",
- [13] AI Magicx, "Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro: The April 2026 Benchmark Breakdown",
- [14] LM Council, "AI Model Benchmarks Apr 2026",
- [15] Apiyi.com, "Claude Opus 4.7: 5 key insights from the Vertex AI leak and The Information report",
プラットフォーム公式:
- [16] Amazon Web Services, "Claude on Amazon Bedrock",
- [17] Google Cloud, "Claude on Vertex AI",
- [18] Microsoft, "Claude on Microsoft Foundry",