2024年3月、あるデモ動画がSNSを席巻した。画面のなかのAIエージェントがSlackでタスクを受け取り、コードを書き、テストを走らせ、プルリクエストを提出する。人間の介入はゼロ。Cognition Labsが公開した「Devin」は、AIコーディングアシスタントの文法を根底から塗り替える存在として登場した。ローンチから約2年、評価額は102億ドルに達し、Goldman SachsやNubankといった大企業が本番環境に導入している。一方で「成功率15%」「ジュニア未満」という厳しい声も絶えない。本稿では、Devin AIの機能・料金・使い方から競合比較、そしてWindsurf買収の裏側まで、2026年3月時点の最新情報を網羅的に整理する。
Devin AIとは——Cognitionが開発した「自律型AIエンジニア」
Devinは、米スタートアップCognition Labsが開発した自律型AIソフトウェアエンジニアである。従来のGitHub CopilotやCursorが「人間の横で補完する」アシスタントであるのに対し、Devinはタスクを丸ごと委任できるエージェントとして設計されている点が最大の差別化ポイントだ。
| 項目 | 内容 |
|---|---|
| 開発元 | Cognition Labs(2023年8月設立、米サンフランシスコ) |
| 創業者 | Scott Wu(CEO)、Steven Hao(CTO)、Walden Yan — 3名とも国際情報オリンピック金メダリスト |
| 初公開 | 2024年3月(デモ動画が大きな話題に) |
| 一般提供 | 2024年12月(Devin 2.0で月額20ドルプランを追加) |
| 最新版 | Devin 2.2(2026年2月リリース) |
| 累計資金調達 | 約10億ドル以上(Founders Fund主導) |
| 評価額 | 102億ドル(2025年9月時点) |
| 主要顧客 | Goldman Sachs、Nubank、Citi、Dell、Cisco、Palantir |
Cognitionは設立当初は暗号通貨領域を手がけていたが、ChatGPT以降のAIブームを受けてピボット。SWE-benchベンチマークで13.86%のissue解決率を記録し、それまでの最高値1.96%を大幅に上回ったことで一躍注目を集めた。ARR(年間経常収益)は2024年9月の約100万ドルから2025年6月に約7,300万ドルへと急伸し、AI Coding Agent領域で最速クラスの成長を遂げている。
主要機能——コーディングからデプロイまで自律実行
Devinの核心は「自律性」にある。人間がタスクを自然言語で記述すると、Devinが計画立案からコード実装、テスト、デバッグ、PRの提出まで一貫して実行する。サンドボックス化された仮想環境にはターミナル、コードエディタ、ブラウザが内蔵されており、APIドキュメントの参照やStackOverflowの検索も自力で行う。
| 機能カテゴリ | 具体的な対応範囲 |
|---|---|
| コーディング | フルスタック開発、API統合、データパイプライン構築 |
| テスト | ユニットテスト生成、E2Eテスト、デスクトップアプリテスト |
| デバッグ | エラーログ解析、自律修正ループ、セキュリティスキャン |
| デプロイ | CI/CD設定、プルリクエスト自動作成、Slack通知 |
| レビュー | Devin Reviewによる差分解析、バグ検出、コピーコード検出 |
| 移行 | レガシー言語変換、フレームワーク移行(Angular→React等) |
v3.0では障害に遭遇した際に人間の介入なしで戦略を再構築する「動的再計画」に対応。インタラクティブプランニングにより、実行前にコードベースを分析し詳細な計画書を提示するレビューチェックポイントも追加された。
Goldman Sachsは約12,000人のエンジニアリングチームにDevinを組み込み、内部コードベースの言語アップデートなど「人間にとって退屈な定型業務」をオフロードしている。Nubankでは8年分のモノリシックETLのサブモジュール分割にDevinを活用し、エンジニアリング工数を12倍効率化した。
料金プラン——個人向けからエンタープライズまで
Devinの課金単位はACU(Agent Compute Unit)と呼ばれる独自メトリクスで、仮想マシン稼働時間、モデル推論、ネットワーク帯域を正規化した値だ。
| プラン | 月額 | ACU単価 | ACU付与 | 想定ユーザー |
|---|---|---|---|---|
| Core | 20ドル | 2.25ドル | 従量課金 | フリーランス、個人開発者 |
| Teams | 500ドル | 2.00ドル | 250 ACU/月 | 中規模チーム、複数リポジトリ運用 |
| Enterprise | カスタム | 要相談 | カスタム | 大企業、VPCデプロイ対応 |
注意すべきは「見えにくいコスト」だ。Coreプラン月額20ドルだけでは実用的な作業量を確保しにくく、実際に開発業務に組み込むとACU消費が想定以上にかさむという声が多い。月次コストの予測が難しい点は導入前に理解しておく必要がある。
使い方——セットアップからタスク実行まで
Devinの利用開始は3ステップで完了する。
| ステップ | 作業内容 | 所要時間目安 |
|---|---|---|
| アカウント作成 | devin.aiでサインアップ、プラン選択 | 5分 |
| リポジトリ接続 | GitHub OAuth認証、リポジトリ選択 | 10分 |
| 環境設定 | スナップショットに依存関係やツールを含める | 15〜30分 |
| 初回タスク投入 | 小規模なバグ修正やテスト生成から着手 | タスク次第 |
タスクの投入はWebインターフェース、Slack、Jira、APIのいずれからも可能だ。効果を最大化するポイントは以下の通り。
- 最初は低リスクなタスクから始め、Devinの得意領域を把握する
- 受け入れ基準を明確に定義する。具体的で計測可能な要件で最も高いパフォーマンスを発揮する
- 途中で要件を変えない。タスク開始後の仕様変更に弱く、最初にスコープを固めるのが成功の鍵
- すべてのPRはマージ前に人間が確認する運用が前提
Devin vs Cursor vs Claude Code vs Copilot——AIコーディングツール4強比較
| 比較項目 | Devin | Cursor | Claude Code | GitHub Copilot |
|---|---|---|---|---|
| カテゴリ | 自律型エージェント | AI統合IDE | ターミナルエージェント | エディタ拡張 |
| 動作環境 | クラウドサンドボックス | ローカルIDE | ターミナル(CLI) | VSCode / JetBrains等 |
| 自律度 | 最高 | 中 | 高 | 低〜中 |
| 月額(個人) | 20ドル+ACU | 20ドル | 20ドル | 10ドル |
| 得意領域 | 定型タスク、移行、テスト | リアルタイム編集 | 大規模変更、自動化 | インライン補完 |
2026年のAI Coding調査では、経験豊富な開発者は平均2.3個のツールを併用している。Devinは「非同期でバックログを消化する」使い方に最もフィットし、CursorやClaude Codeとは補完関係にある。
ユーザー評価と実際の使い心地
| プラットフォーム | スコア | 補足 |
|---|---|---|
| Gartner Peer Insights | 4.0 / 5.0 | 非技術メンバーがコードをシップできた点を評価 |
| Trustpilot | 3.0 / 5.0 | GitHub Copilot(4.5+)やCursor(4.5+)と比較して低い |
| 独立レビュー | 20タスク中3成功 | 成功率15%、14タスク失敗 |
| Cognition公式 | PRマージ率67% | 2024年の34%から倍増 |
明確な仕様があり、ジュニアエンジニアが4〜8時間で完了するタスクが最も成功率が高い。一方、途中で要件が変わるタスクではパフォーマンスが著しく低下する。セキュリティレビューで存在しない脆弱性をハルシネーションしたケースも報告されている。
Cognitionの2025年年次レビューによれば、問題解決速度は4倍、リソース消費効率は2倍に改善されている。ただしこれは公式データであり、独立テストとの乖離がある点は留意すべきだ。
Cognition × Windsurf買収——エコシステム戦略
2025年7月、AI Codingツール市場を揺るがすM&Aが起きた。
| 時系列 | 出来事 |
|---|---|
| 2025年前半 | OpenAIがWindsurfに30億ドルの買収提案 |
| 2025年7月 | MicrosoftがOpenAIの買収を事実上ブロック |
| 同月 | Google DeepMindが24億ドルでCEOと主要R&Dスタッフを逆買収 |
| 2025年7月14日 | CognitionがWindsurfの残存事業を約2.5億ドルで買収 |
| 2025年9月 | Cognition、Founders Fund主導で4億ドル調達。評価額102億ドル |
Cognitionが取得したのは、Windsurf IDEの製品・ブランド・商標、8,200万ドルのARRと350社以上のエンタープライズ顧客だ。Devin(自律型エージェント)+ Windsurf IDE(リアルタイム補完)の二刀流で、CursorとClaude Codeの両方に対抗できる製品ラインナップが完成した。買収後、合算のエンタープライズARRは30%以上増加している。
所感——「ジュニアエンジニア」は本当に使えるのか
Devinを「ジュニアエンジニア」と呼ぶ比喩は、現時点ではかなり正確だ。明確な仕様書があり、スコープが限定されたタスクでは驚くほどの生産性を発揮する。Nubankの事例のように、大量の定型移行作業を12倍効率化した実績は無視できない。
| 観点 | 評価 |
|---|---|
| 定型タスクの自動化 | 高い実用性。移行・テスト生成・脆弱性修正で時間短縮が明確 |
| 創造的な開発 | 不向き。アーキテクチャ設計や要件定義は人間が主導すべき |
| コスト対効果 | チーム規模と利用頻度に依存。Coreプランでは検証用途が限界 |
| 信頼性 | 発展途上。公式データと独立テストに乖離あり |
結局のところ、Devinの価値は「何を任せるか」の設計にかかっている。すべてのコーディングを丸投げするツールではなく、バックログの定型タスクを非同期で処理させる「もう一つの手」として位置づけたとき、初めて投資対効果が成立する。
CognitionがGoldman Sachsの「Employee #1」としてのDevinを、どこまで信頼できる存在に育てられるのか——あなたの開発チームは、どの未来に賭けるだろうか。
出典・参考
- Cognition公式サイト:
- Devin公式ドキュメント:
- Devin料金ページ:
- Cognition Blog「Devin's 2025 Performance Review」:
- TechCrunch「Cognition acquires Windsurf」(2025年7月)
- CNBC「Cognition valued at $10.2 billion」(2025年9月)
- VentureBeat「Devin 2.0: price slashed to $20/month」
- IBM Think「Goldman Sachs' Hybrid Workforce with Devin」
- Trickle「Devin AI Review: The Good, Bad & Costly Truth」