チャットボット時代が終わる——「ターン制AI」の根本的な限界
現在の主流AIインタフェースは、ユーザーが入力を終えてから初めてAIが処理を開始するターン制の設計に基づいている。 OpenAIのGPT-Realtime-2もその範疇に入り、ユーザーの発話終了から平均1.18秒かけて応答する。
Thinking Machines Labはこのアーキテクチャそのものを問い直した。 「すべてのAIラボが会話設計を間違えてきた」——ムラティはそう断言し、人間同士の会話が持つリアルタイム性をAIで再現することを目標に掲げた。
TML-Interaction-Smallは、入力と出力を並行した「二重のデータストリーム」として扱う。 200ミリ秒単位でブロックを処理し、ユーザーが話し終わるのを待たずに応答を開始できる設計だ。
アーキテクチャの詳細——276Bパラメータ MoEモデルの仕組み
TML-Interaction-Smallは2,760億(276B)パラメータを持つMixture-of-Experts(MoE)モデルで、実際の推論時に使用されるアクティブパラメータは120億(12B)に絞られている。 この設計により、大規模モデルの表現力を保ちながら、低遅延での応答を可能にした。
音声・映像・テキストを同時に入力として受け付け、外部の制御コンポーネントに依存せず単体で処理できる点が特徴だ。 従来の音声AIが音声認識(ASR)→言語モデル→音声合成(TTS)と複数コンポーネントを経由するのに対し、TML-Interaction-Smallは一つのモデルがエンドツーエンドで完結する。
深い推論が必要なタスクは、非同期で動作するバックグラウンドモデルに委譲される仕組みだ。 ウェブ検索やエージェント型ワークフローも、このバックグラウンドモデルが担う。
GPT-Realtime-2との比較——0.4秒対1.18秒の意味
平均応答時間0.40秒と1.18秒の差は、数字以上の体験差をもたらす。 人間の会話における「心地よい間」は一般に200〜400ミリ秒とされており、1秒超の遅延は既に「AIらしい不自然さ」として知覚される。
0.4秒での応答は、人間と人間の会話に近い「割り込み」と「重ね合わせ」を可能にする。 ユーザーが途中で発言を修正したり、AIの応答を遮ったりすることも、TML-Interaction-Smallのリアルタイム処理では自然に対応できる。
Thinking Machines Labはこのモデルを「インタラクションモデル」と呼び、従来の「言語モデル」「推論モデル」とは別のカテゴリに位置づけた。 モデルの能力を性能指標(ベンチマーク)だけで測る時代から、「人間との共存スコア」で評価する時代への移行を示唆している。
OpenAIのGPT-Realtime-2(OpenAIが音声API「GPT-Realtime-2」を公開)が目指す音声AIのデファクトスタンダード路線に対し、ムラティは設計思想の根幹から異議を唱えた形だ。
AI研究者視点——「フルデュプレックスAI」が開くユーザビリティ研究の新領域
AI研究者の観点から見ると、TML-Interaction-Smallが示す最も重要なインパクトは、「インタラクション」の定義が変わることにある。
これまでのAI研究は、「いかに正確で質の高い出力を生成するか」に焦点が当たってきた。 しかしTML-Interaction-Smallは、「いかに人間のコミュニケーションリズムに同期するか」という別の次元の問いを立てている。
フルデュプレックス通信技術の文脈で言えば、これは無線通信が半二重(トランシーバー)から全二重(電話)へと進化した転換に近い。 AIとの対話が「質問と回答の往復」から「常時接続の協働」へと変化することで、教育・医療・接客などの領域での応用可能性が広がる。
特に注目されるのは、割り込みや自己修正を自然に扱える点だ。 人間の思考は線形でなく、話しながら考えを変える。その非線形な対話にAIが追従できるかどうかが、実用性を大きく左右する。
AnthropicがClaudeエージェントに自己改善機能を実装した動向(AnthropicのClaudeエージェントに「ドリーミング」機能)と組み合わせると、AI研究の主戦場が「モデルの能力」から「インタラクションの質」へとシフトしつつある潮流が見えてくる。
競合他社への影響と日本市場の展望
現時点でTML-Interaction-Smallは限られた研究パートナーへの公開にとどまり、一般公開の時期は「2026年後半」とされている。 しかし発表内容だけで、AI業界の設計思想に揺さぶりをかけた。
OpenAI・Google・Anthropicはいずれも、より低遅延かつ多モーダルな会話AIの開発に取り組んでいる。 TML-Interaction-Smallのフルデュプレックス設計が業界標準として採用されれば、リアルタイム接客AI・語学学習ツール・メンタルヘルスサポートなど、日本市場でも需要の高い分野に大きなインパクトをもたらす可能性がある。
日本では音声AIアシスタントの普及がまだ限定的だ。 「0.4秒で応答するAI」という体験は、これまでの「AIに話しかける違和感」を取り払い、国内企業の音声AI採用を加速させる触媒となるかもしれない。
今後の注目点——「100ミリ秒の壁」を超えられるか
Thinking Machines Labが次に目指すのは、応答時間をさらに短縮し「知覚できない遅延」を実現することだとされる。 人間が遅延を知覚できる最小時間は約100ミリ秒とされており、それを下回れば事実上、AIとの会話は人間同士の会話と区別がつかなくなる。
2026年後半の一般公開に向けて、モデルの安全性評価と多言語対応がどこまで進むかも重要な焦点だ。 日本語対応のタイミングと品質が、国内市場での採用スピードを大きく左右するだろう。
AIとの会話が「使うもの」から「共にいるもの」に変わるとき、私たちの「会話」という経験そのものはどう変容するのだろうか。
ソース:
- Thinking Machines drops a new, highly responsive model designed for humanlike interactions in real time — SiliconANGLE(2026年5月11日)
- Mira Murati's Thinking Machines Lab Unveils Full-Duplex AI That Responds in 0.4 Seconds — The AI Insider(2026年5月12日)
- Thinking Machines Lab Ships First Model With 200ms Real-Time Interaction — Unite.AI(2026年5月12日)