AIエージェント

エージェントスタック

エージェントハーネス

ランタイム

AIワークスペース

MCPlato

2026 H1のエージェントスタック：モデル、ハーネス、ランタイム、AIワークスペース

AIエージェント、コーディングエージェント、ハーネス、ランタイム、ブラウザとサンドボックス基盤、可観測性、ガバナンス、AIワークスペースを概観する2026 H1の簡潔なランドスケープ。MCPlatoはワークスペース層の一部として位置づける。

MCPlato Research Team公開日 2026-05-29

2026 H1のエージェント競争は、もはや単純なモデル順位表のようには見えない。

より優れたモデルは今でも重要だ。Claude 4、Claude Sonnet 4.5、Claude Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder、Mistral Magistralはいずれも、推論、コーディング、コンテキスト、ツール利用において基盤層を前進させた。¹²³⁴⁵⁶⁷⁸ しかし競争の問いは変わった。

誰がこれらのモデルを信頼できる仕事に投入できるのか。

それは、ハーネス、ランタイム、ブラウザ、サンドボックス、評価、可観測性、ガバナンス、権限、そしてユーザー向けワークスペースを意味する。モデルはエンジンだ。エージェント製品は車両だ。ハーネスとワークスペースが、その車両を現実の企業内で、状態、権限、信頼を失わずに走らせられるかどうかを決める。

階層化された2026 H1エージェントスタック

市場を読むうえで有用なのは、ロゴの一覧ではなく、スタックとして捉えることだ。

基盤モデルからAIワークスペースまでの階層化された2026 H1エージェントスタック

図1：2026 H1のエージェントスタックは、モデル能力から実行、可観測性、ガバナンス、ワークスペースの継続性へと上方に移動している。

レイヤー	提供するもの	代表例
基盤モデル	推論、コーディング、長いコンテキスト、コンピュータ/ツール利用、計画	Claude 4 / Sonnet 4.5 / Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder、Mistral Magistral
エージェント製品	コーディング、調査、アプリ構築、運用、企業プロセス向けにパッケージ化されたワークフロー	Claude Code、OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Jules、Replit Agent、Lovable、Bolt.new、Manus、Perplexity Labs
ハーネス / ランタイム	状態、リトライ、ヒューマンインザループ、オーケストレーション、メモリ、構造化ツール呼び出し	LangGraph/LangChain、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno、Letta
ブラウザとサンドボックス基盤	安全な実行環境、ブラウザ自動化、コードサンドボックス、タスク分離	Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade、Composio
可観測性と評価	トレース、コスト、レイテンシ、回帰テスト、プロンプト/ツールのデバッグ、本番レビュー	LangSmith、Langfuse、Helicone、モデルとエージェントのベンチマーク
エンタープライズガバナンス	可視性、アクセス制御、ポリシー、エージェント台帳、監査可能性、コンプライアンスワークフロー	Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Control Tower、MCPベースの統合パターン
AIワークスペース	複数ステップの作業、ファイル、セッション、成果物、意思決定が持続するユーザー向けの場所	MCPlato、Dust、Hebbia、ワークスペース型エージェントプラットフォーム

重要なのは、すべての製品がすべてのレイヤーを覆わなければならないということではない。本格的なエージェント作業には、システム内のどこかにこれらすべてが必要になったということだ。

生のディレクトリではなく、製品クラスター

1. コーディングエージェントが最初の大衆市場向けエージェントカテゴリになった

コーディングエージェントは、エージェントがチャットを超えられることを最も明確に示している。Claude CodeはClaude 4とともに一般提供され、ターミナルと開発ワークフロー向けのagentic coding toolとして文書化されている。¹⁹ OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Google Jules、Replit Agentはいずれも同じ方向を示している。開発者は、リポジトリを調査し、ファイルを編集し、コマンドを実行し、pull requestを開き、ローカルとクラウドのコンテキストをまたいで作業を継続できるエージェントを求めている。¹⁰¹¹¹²¹³¹⁴¹⁵

このクラスターが先行しているのは、ソフトウェア作業にはすでに有用なガードレールがあるからだ。ファイル、diff、テスト、ログ、ブランチ、CI、レビューである。他の市場領域への教訓は「すべてをコーディングにすべき」ということではない。エージェントにはレビュー可能な成果物と検証ループが必要だということだ。

2. アプリビルダーと汎用エージェントがプロンプトをワークフローに変えた

Lovable、Bolt.new、Replit Agent、Manusは、アプリ、Webサイト、実行可能な作業の生成を中心にした製品の例である。PerplexityはLabsを、レポート、ダッシュボード、軽量アプリなどのプロジェクト向けの作成機能として説明している。¹⁶¹⁷¹⁸¹⁹ OpenAIの開発者ドキュメントは、視覚的なブラウザツール画面を含むcomputer-useとエージェント構築のプリミティブを説明している。そのため、OpenAIのエージェント方向は、単純なチャット機能というより、同じワークフローシフトの一部として扱うのが適切だ。²⁰²¹

これらの製品は、意図と成果物の距離を縮める。課題は、より広いエージェント市場が直面しているものと同じだ。タスクが長時間化し、複数ステップになり、外部から見えるものになると、製品には状態、権限、ロールバック、生成されたドラフトから本番アセットへの明確な引き継ぎが必要になる。

3. エンタープライズエージェントは導入から制御へ移行している

Salesforce Agentforce、ServiceNow AI Control Tower、Microsoft Copilot Studioはいずれも、このエンタープライズの現実を反映している。²²²³²⁴²⁵ エージェント導入はもはやプロンプト品質だけでなく、可視性、ポリシー、権限、運用責任に左右される。

Zapier Agents、Lindy、Gumloop、Dust、Hebbiaは、ビジネスチームのワークフロー自動化とナレッジワークにより近い位置にある。²⁶²⁷²⁸²⁹³⁰ これらが重要なのは、エージェント導入がエンジニアリングだけの問題ではないからだ。営業、財務、法務、運用、採用、調査、サポートの各チームも、ポリシーを静かに迂回せずにツールを使えるエージェントシステムを必要としている。

4. フレームワークとランタイムがエージェントの中間層になった

LangGraph/LangChain、LangSmith、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno、Lettaは、パッケージ化された製品の下にある構築レイヤーを代表している。³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

このレイヤーでは、永続的な状態、メモリ、ツールルーティング、人間による承認、構造化出力、マルチエージェントオーケストレーションが再利用可能なプリミティブになる。同時に、多くのチームはここで「エージェント」が単一の抽象ではないことに気づく。検索アシスタント、コーディングワーカー、ブラウザオペレーター、財務アナリスト、カスタマーサービスエージェントは、それぞれ異なるランタイム契約を必要とする。

5. 基盤と可観測性が本番要件になった

Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade、Composioは周辺ツールではない。これらはエージェント制御プレーンの一部だ。⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

作業対象のWebの多くにはまだきれいなAPIがないため、エージェントにはブラウザが必要だ。コードとツールは隔離環境で実行されなければならないため、サンドボックスが必要だ。長いタスクは失敗し再開するため、永続的なワークフローエンジンが必要だ。認証情報、権限、アクション範囲をプロンプト内で即興的に扱うべきではないため、統合ゲートウェイが必要だ。

LangSmith、Langfuse、Heliconeは、可観測性の側から同じ成熟を示している。³²⁵¹⁵² エージェントが顧客データ、本番システム、高価なモデル呼び出しに触れるなら、チームにはトレース、評価、コスト可視性、レイテンシ可視性、回帰チェックが必要になる。

注目すべき5つのトレンド

1. モデルだけの差別化はランタイム差別化へ薄れていく

最良のモデルは、強力なコーディング、ツール利用、長いコンテキスト、計画能力へ収束している。AnthropicはClaude 4のコーディング結果とClaude Codeの提供を報告し、Gemini 2.5 Proはコーディングと長いコンテキスト能力を強調し、DeepSeek V3.1は自らをエージェント時代への一歩と位置づけ、Qwen3-Coderは大規模なコードエージェント訓練環境を打ち出している。¹⁴⁶⁷

だからこそランタイムは、重要でなくなるのではなく、より重要になる。複数の基盤モデルが十分に推論できるようになると、チームは状態を保持し、安全にツールを呼び出し、結果を評価し、人間を制御の中に保てるスタックを選ぶ。

2. 可観測性が本番投入のゲートになりつつある

「モデルは答えたか」という問いは、エージェントに対しては弱すぎる。本番チームが知る必要があるのは次のことだ。

どのツールが呼び出されたか。
どの状態が変わったか。
完了を裏づける証拠は何か。
実行にはいくらかかったか。
レイテンシはどこで発生したか。
どのプロンプト、モデル、ツール、環境変更が回帰を引き起こしたか。

これが、LangSmith、Langfuse、Helicone、ベンチマークスイート、エンタープライズ向けコマンドセンターが購買議論の一部になっている理由だ。企業は、見えないものを統治することはできない。

3. ブラウザとコードサンドボックスが一級の基盤になりつつある

コンピュータ利用エージェントとコーディングエージェントには、安全な操作面が必要だ。BrowserbaseとStagehandはAIエージェント向けのブラウザ自動化に注力し、Playwright MCPはMCPを通じてブラウザ制御を公開し、E2BとDaytonaは隔離実行環境に注力し、Temporalはagentic AIワークフロー向けの永続実行を掲げている。⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

これは2026 H1で最も重要な変化の一つだ。「エージェント環境」が製品カテゴリになりつつある。環境は、自律性が有用になるか危険になるかを決める場所である。

4. ガバナンスとプロトコルが既定の期待になりつつある

MCPが重要なのは、モデルをツールやコンテキストへ接続するための共通言語を市場に与えるからだ。⁵⁴⁵⁵ しかしプロトコルはガバナンス要件を取り除かない。むしろ緊急性を高める。ツールを接続しやすくなるほど、誰が接続できるのか、どのアクションが許可されるのか、認証情報の範囲をどう限定するのか、活動をどう監査するのかについて、より明確なポリシーが必要になる。

Salesforce Agentforce、ServiceNow AI Control Tower、Microsoft Copilot Studioはいずれも、このエンタープライズの現実を反映している。エージェント導入はもはやプロンプト品質だけでなく、可視性、ポリシー、権限、運用責任に左右される。

5. 非同期マルチセッションワークスペースが欠けているユーザー層である

単一のチャットスレッドは、長い仕事の入れ物としては不十分だ。現実のエージェント作業はしばしば分岐する。あるセッションが調査し、別のセッションがドラフトを書き、別のセッションがテストし、別のセッションがレビューし、さらに別のセッションが予定されたフォローアップを待つ。ユーザーには、これらの作業流、ファイル、意思決定、成果物を検査可能なまま保つ場所が必要だ。

ここで MCPlato は自然に適合する。MCPlatoはAIワークスペース層として理解するのが最もよい。ローカル資料、複数セッション、バックグラウンドまたはスケジュール実行、成果物、権限付きで可観測な実行のための環境である。⁵⁶ それはコーディングエージェント、エンタープライズ制御塔、ブラウザ基盤の万能な代替と扱うべきではない。役割は異なる。文書、調査、ブラウザコンテキスト、オフィス成果物、非同期のフォロースルーにまたがるAI作業を、ユーザーが整理し監督するのを助けることだ。

言い換えれば、MCPlatoはエージェントスタックのワークスペース層に属する。ユーザーに近く、資料に近く、実行を可能にする下位のランタイムと基盤コンポーネントの上に位置する。

実用的な意思決定フレームワーク

自律性の時間軸とガバナンス要件に基づいてエージェント製品を選ぶための意思決定マトリクス

図2：エージェントスタックの選択は、単一の万能ランキングではなく、自律性の時間軸とガバナンス圧力に基づくべきだ。

エージェントスタックを選ぶ前に、5つの質問を使う。

質問	答えが「はい」なら優先するもの
エージェントはコード、データ、記録、外部システムを変更するか。	サンドボックス、権限、監査ログ、レビューゲート、ロールバック経路
タスクは1つのプロンプトまたは1つのセッションより長く実行されるか。	永続状態、チェックポイント、バックグラウンド実行、ワークスペース継続性
エージェントはブラウザを使うか、コードを実行するか。	ブラウザ自動化基盤、隔離サンドボックス、認証情報の境界
複数チームが出力に依存するか。	可観測性、評価、コスト追跡、ポリシー、責任者
ユーザーは多数の並行作業流を監督する必要があるか。	AIワークスペース、マルチセッションオーケストレーション、成果物、要約、引き継ぎ規律

簡単な対応づけは役に立つ。

短いコーディングタスク：Claude Code、Codex、Cursor、Jules、Devin、Replit Agent、GitHub Copilot coding agentのようなコーディングネイティブなエージェントから始める。
アプリプロトタイプ：Lovable、Bolt.new、Replit Agent、または類似のビルダー画面を検討し、本番利用前にレビューを追加する。
業務ワークフロー自動化：データ、ガバナンス、ドメイン適合性に応じて、Copilot Studio、Agentforce、ServiceNow、Zapier Agents、Lindy、Gumloop、Dust、Hebbiaを検討する。
カスタムエージェント製品：LangGraph、LlamaIndex、CrewAI、OpenAI Agents SDK、Vercel AI SDK、MCP、Browserbase、E2B、Temporal、Composio、Langfuse、Helicone、LangSmithなどのランタイムと基盤部品を組み合わせる。
横断的なナレッジワーク：AIワークスペースパターンを使う。MCPlatoは関連する例であり、とくに作業がローカル資料、調査、成果物、複数セッション、権限付き実行にまたがる場合に有用だ。

結論

2026 H1のエージェントランドスケープは、「モデル」と「製品」の戦いではない。フルスタックの出現である。

モデルは推論の基盤を提供する。エージェント製品は一般的な仕事をパッケージ化する。ハーネスとランタイムは作業を状態付きに保つ。ブラウザとサンドボックス基盤はツール利用をより安全にする。可観測性と評価は実行を検査可能にする。ガバナンスは組織内で自律性を受け入れ可能にする。AIワークスペースは、長時間の仕事を調整する場所をユーザーに与える。

勝者は、単に最大のモデルベンチマーク数値を持つチームではない。モデルの知能を、信頼でき、レビュー可能で、権限管理されたワークフローへ変えられるチームである。

参考資料

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

続きを読む

OpenClaw vs Claude Code vs Hermes vs MCPlato: AI Agent Harness 徹底比較 2026
2026年に君臨する4大AI Agent Harnessをデータに基づき徹底比較。OpenClaw、Claude Code、Hermes Agent、MCPlatoをアーキテクチャ、ベンチマーク、価格、実運用の観点から分析する。
Pi、Hermes、Codex、Claude Code、MCPlato：あなたの仕事に合う Agent はどれか？
Pi Agent、Hermes Agent、Codex、Claude Code、MCPlato を、制御、ワークフロー適合性、長時間タスク、権限戦略の観点から実践的に比較します。
Harness and Agent：AI システムのレイヤードアーキテクチャ
ツール層と Agent 層の関係を探り、MCPlato がどのように MCP ネイティブアーキテクチャを実装するか
Long-Running AI Agentの工学的突破：Anthropic Harnessフレームワークの重要性
AIが長時間タスクをこなせないのは、モデルが賢くないからではなく、エンジニアリングの方法が欠けているからだ。AnthropicのHarnessフレームワークの4つの核心メカニズムと、MCPlatoの類似した工学的設計を解説する。
SaaS-Bench が示すもの：AI Agent に必要なのは、より大きなモデルだけでなく Harness である
SaaS-Bench は、実際の専門的な SaaS ワークフローで computer-use agents をテストし、部分的な進捗と検証済み完了のギャップを明らかにする。その結果は、agent harness、workspace state、verification、permissions、recovery が次のプロダクトレイヤーになることを示している。