OpenClaw vs Claude Code vs Hermes vs MCPlato: AI Agent Harness 徹底比較 2026
2026年に君臨する4大AI Agent Harnessをデータに基づき徹底比較。OpenClaw、Claude Code、Hermes Agent、MCPlatoをアーキテクチャ、ベンチマーク、価格、実運用の観点から分析する。
公開日 2026-04-10
OpenClaw vs Claude Code vs Hermes vs MCPlato: AI Agent Harness 徹底比較 2026
AI Agent Harness——ユーザーと大規模言語モデルの間に位置するレイヤー——を構築する競争は、現代のソフトウェアにおいて最も重要な戦いの一つとなっている。2026年において、「ハーネス」はもはや単なるチャットラッパーではない。それは、エージェントがどのように推論し、記憶し、コードを実行し、ファイルとインターフェースし、人間と協働するかを決定するオペレーティング環境なのだ。
本記事では、4つの異なる哲学を体現する4つの有力候補を検証する。
- OpenClaw: オープンでモジュール式のメッセージプラットフォームOS
- Claude (Code): ターミナルネイティブなプロフェッショナルコードエージェント
- Hermes Agent: 研究優先型の自己改善フレームワーク
- MCPlato: AIネイティブかつローカルファーストなデスクトップワークスペース
それぞれが、オープン性、コントロール、パフォーマンス、使いやすさの間で異なるトレードオフを行っている。検証済みのデータをもって詳しく解説しよう。
プロダクト概要
OpenClaw: パーソナルAIのためのコミュニティOS
Peter Steinbergerおよび活発なオープンソースコミュニティによって開発されたOpenClawは、MITライセンスのプロジェクトであり、おおよそ354kのGitHubスターを獲得している——この比較において圧倒的なコミュニティ規模を誇る。1
OpenClawはハーネスをパーソナルオペレーティングシステムとして扱う。メッセージプラットフォームファーストのアーキテクチャに基づき構築されており、会話は一時的なプロンプトではなく第一級のエンティティである。ユーザーは単一のスレッド内に複数のモデル、ツール、メモリバックエンドを接続できる。コストモデルはシンプルだ:フレームワークは無料で、APIキーは各自が用意する。
欠点は? Web UIには賛否両論がある——一部のユーザーはその情報密度を気に入っているが、他のユーザーは圧倒的だと感じている。設定は煩雑になりがちで、多くのツールを単一セッションで有効化すると、パワーユーザーからはトークン消費が急速に増加するとの報告が頻繁に寄せられている。
Claude (Code): Anthropicのターミナルネイティブエージェント
AnthropicのClaude Codeは、開発者のターミナルに最も深く統合されたハーネスである。112kのGitHubスターを獲得し、すでに2026年最もスター数の多い開発者ツールの一つとなっている。2
OpenClawのブラウザ中心モデルとは異なり、Claude Codeはファイルシステム、git、一般的な開発者ワークフローと直接通信するクライアントサイドアプリケーションである。コードベース全体の推論、リファクタリング、デバッグに優れている。クライアントはオープンソースだが、モデルプロバイダーはAnthropicのままである。
欠点は? レート制限エラー(HTTP 429)はパワーユーザーにとって頻繁な悩みの種であり、高負荷セッションを実行するチームにとってサブスクリプションコストは急速に高騰する可能性がある。
Hermes Agent: Nous Researchの自己改善フレームワーク
リサーチコレクティブNous Researchから生まれたHermes Agentは、MITライセンスのフレームワークであり、48.7kのGitHubスターを獲得している。永続的なメモリと自己改善ループを設計の中心に据えている。3
OpenClawがチャットUXを最適化し、Claude Codeがコード実行を最適化するのに対し、Hermesは長期間の自律性を最適化する。そのメモリレイヤーにより、エージェントはスキルを蓄積し、プロンプトを洗練させ、セッションを通じて自らのツール使用ポリシーを改善できる。プロジェクトはエコシステムの成熟度においてまだ初期段階にあり、ドキュメントは既知の作業進行中である。
欠点は? このフレームワークは強力だが未完成である。ポリッシュされたすぐに使える体験を求めるユーザーというよりは、研究者や忍耐強く試行錯誤する人々に報いてくれる。
MCPlato: AIネイティブデスクトップワークスペース
MCPlatoは、このラインナップで唯一のクローズドソース候補である。MCPlatoチームによって構築され、ローカルファーストのデスクトップ哲学を持つAI Native Workspaceとして設計されている。ターミナル重視のハーネスとは異なり、MCPlatoは統一されたデスクトップ環境を提供し、AIエージェントはファイル、ノート、ブラウザコンテキストと並んでサンドボックス化されたワークスペース内で動作する。
このプロダクトは、無限のカスタマイズ性よりもセットアップの容易さを優先する。マルチエージェントワークフローを実行するためにYAML調整は不要である。この利便性の代償として、ソースレベルの透明性は失われ、公開されたコミュニティの議論はオープンソースの巨人たちと比較して限定的なままである。
技術アーキテクチャ比較
| 属性 | OpenClaw | Claude Code | Hermes Agent | MCPlato |
|---|---|---|---|---|
| ライセンス | MIT (完全オープン) | クライアントはオープンソース | MIT (完全オープン) | クローズドソース |
| 配布形態 | Webファースト、セルフホスト | ターミナルネイティブCLI | フレームワーク / ライブラリ | デスクトップアプリケーション |
| コア抽象化 | メッセージプラットフォーム / スレッドOS | シェル内のコードエージェント | 永続的メモリ + 自己改善ループ | AIネイティブワークスペース |
| モデルベンダーロックイン | なし (BYOK) | Anthropicモデル | なし (BYOK) | マルチモデル(マネージド) |
| 拡張性 | プラグインマーケットプレイス、カスタムツール | MCP(Model Context Protocol) | 研究志向のフック | 組み込みツールサンドボックス |
| 実行モデル | クラウド / セルフホストサーバー | ローカルCLI、クラウド推論 | ローカルまたは分散 | ローカルファーストデスクトップ |
いくつかのパターンが目立つ。
- OpenClawとHermesはBYOK(bring-your-own-keys)モデルを共有しており、コスト管理とモデルの柔軟性において魅力的である。
- Claude Codeはターミナルを標準的な開発者インターフェースとして賭けており、これによりファイル操作において比類ない速度を得るが、非エンジニアへの訴求力は制限される。
- MCPlatoは完全に異なる象限に位置する:クローズドソース、ローカルファースト、そしてスレッド中心またはターミナル中心というよりワークスペース中心である。
機能マトリックス
| 機能 | OpenClaw | Claude Code | Hermes Agent | MCPlato |
|---|---|---|---|---|
| マルチモデルルーティング | ネイティブ | Anthropicのみ | ネイティブ | マネージドマルチモデル |
| 永続的メモリ | プラグイン経由 | セッションベースのコンテキスト | 第一級 | ワークスペースレベルの状態 |
| コード実行 | 統合経由 | 深いネイティブ統合 | ツーリング経由 | サンドボックス + ターミナル |
| コラボレーション / 共有 | スレッド共有 | Gitベースのワークフロー | 実験的 | ワークスペース同期 |
| モバイル / Webアクセス | 強力なWeb UI | CLIのみ | APIファースト | デスクトップのみ |
| カスタムツール構築 | 高 | MCPプロトコル | 非常に高い | 中程度(プリビルド) |
特筆すべきは、Claude Codeがコード実行カラムを支配しているが、マルチモデルの柔軟性では最も弱いという点である。Hermesはメモリアーキテクチャでリードしているが、洗練されたUXでは遅れをとっている。OpenClawは最も広範なカスタマイズ性を提供し、MCPlatoは一部の柔軟性をタイム・トゥ・ファースト・バリューの低さと交換している。
パフォーマンスベンチマーク
本セクションでは公開検証済みの数値のみに限定する。
SWE-bench Verified(コードエージェントベンチマーク)
| プロダクト / モデル | スコア | 備考 |
|---|---|---|
| Claude Opus 4 | 72.5% (高負荷時79.4%) | Anthropic公式結果4 |
| Claude Sonnet 4 | 72.7% (高負荷時80.2%) | Anthropic + Hugging Face検証4 |
| OpenClaw + Sonnet 4.6 | 79.6% (特定の設定) | 検証済みサードパーティ評価5 |
| Hermes 4 (405B) | 非公開 | 公開SWE-benchスコアなし |
| MCPlato | 未検出 | 公開ベンチマークデータなし |
HumanEval(コード生成ベンチマーク)
| プロダクト / モデル | スコア | 備考 |
|---|---|---|
| Claude Sonnet 4 | 88.7% | Hugging Faceリーダーボード4 |
| Claude Opus 4 | ~85-90% | Anthropic報告範囲4 |
| OpenClaw + Sonnet 4.6 | 非公開 | 独立したHumanEvalスコア未発表 |
| Hermes 4 (405B) | 非公開 | 公開HumanEvalスコアなし |
| MCPlato | 未検出 | 公開ベンチマークデータなし |
数値が示すもの
- Anthropicの独自モデルが現在のベンチマークリーダーである。 Opus 4とSonnet 4の両方が標準SWE-bench Verifiedで70%台半ばを記録し、拡張推論予算が許可されると80%台半ばに達する。
- OpenClawはチューニングされたハーネス設定でSonnet 4.6と組み合わせることで、生のモデルスコアを上回ることができる(79.6%)。これは、ハーネスレベルのオーケストレーション——プロンプトエンジニアリング、ツール選択、リトライポリシー——が結果を実質的に改善できることを示している。
- HermesとMCPlatoは独立したコーディングベンチマークを公開していない。 Hermesの場合、これは競争力のあるSWE-bench最適化というよりは一般的な自律性への研究フォーカスと一致している。MCPlatoの場合、クローズドソースの性質上、ユーザーは直接的な試用を通じて適合性を評価する必要がある。
価格モデル
| プロダクト | 価格構造 |
|---|---|
| OpenClaw | 無料 (MIT)。LLM API使用料のみ支払う。 |
| Claude Code | Pro $20/月; Max 5x $100/月; Max 20x $200/月。4 |
| Hermes | 無料 (MIT)。LLM API使用料のみ支払う。 |
| MCPlato | 無料枠 (300クレジット); Pro $20/月; Pro+ $50/月; Pro Max $200/月。6 |
ユーザーからのフィードバックに基づくコストに関する感想。
- OpenClawユーザーはベンダー税の不在を評価しているが、無制限のツールループがAPI予算を急速に消費しうると警告している。
- Claude Codeユーザーは、真剣なプロフェッショナルユースにとって最も高価なオプションとして一貫して評価しているが、多くの人が時間節約を通じてコストを正当化している。
- HermesはOpenClawと同じAPIコストプロファイルを継承するが、カスタム推論スタックを実行する研究オーバーヘッドを追加する。
- MCPlatoはSaaS的な価格設定でClaude Codeに最も近い位置にあるが、軽量使用向けに無料枠を提供し、クレジットシステムにモデルアクセスをバンドルしている。
選択のガイド: シナリオベースの推奨
Claude Codeを選ぶべき場合…
- ターミナルで作業しており、検証済みの最も高いコーディングパフォーマンスが欲しい場合
- UIの洗練よりも深いgit、ファイルシステム、IDE統合を重視する場合
- マネージドされ最先端のモデルバックエンドのためにサブスクリプションのプレミアムを支払う意志がある場合
OpenClawを選ぶべき場合…
- ハーネススタックを完全に所有し、モデルをホットスワップできる能力が欲しい場合
- 会話が永続的で共有可能なメッセージ中心のUIを好む場合
- ゼロのベンダーロックインと引き換えに、より重い初期設定にも対応できる場合
Hermes Agentを選ぶべき場合…
- 主な関心事が長期間の自律性、メモリ研究、または自己改善エージェントである場合
- 日々のプロダクトコードを出荷するというよりは、実験的なエージェントシステムを構築している場合
- アーキテクチャの柔軟性と引き換えに、初期段階のドキュメントを許容できる場合
MCPlatoを選ぶべき場合…
- YAMLの煩雑な設定なしにすぐに使える統合デスクトップワークスペースが欲しい場合
- ローカルファーストの実行、サンドボックス化、視覚的なワークスペース構成がターミナルの速度よりも重要である場合
- セルフホスティングとAPIキー管理よりも階層的な価格設定によるSaaS的な体験を好む場合
MCPlatoの視点
MCPlatoは、この市場にチャットアプリまたはCLIプラグインとしてではなく、根本的に異なるAI作業のコンテナとして参入する。OpenClawが「会話はどこまで設定可能か?」と問い、Claude Codeが「エージェントはコードベースをどこまで深く理解できるか?」と問うのに対し、MCPlatoは「もしコンピュータそのものがエージェントの周りに再構築されたらどうか?」と問う。
その哲学は3つのプロダクト選択として具現化される。
- スレッドよりワークスペース。 MCPlatoは単一のチャットペインを最適化しない。ファイル、エージェント、ブラウザビュー、ノートが共存する永続的なマルチパネルワークスペースを最適化する。
- シェルよりサンドボックス。 コードおよびツール実行は、ユーザーのホストOSに対して直接ではなく、マネージドサンドボックス内で行われる。これにより一部のパワーユーザーにとってはレイテンシが増加するが、他のすべての人にとっては影響範囲が劇的に縮小する。
- セルフホストよりマネージド。 モデルルーティング、クレジット請求、サンドボックスプロビジョニングを処理することで、MCPlatoはOpenClawおよびHermesユーザーが受け入れなければならないDevOps負担を取り除く。
正直なトレードオフは可視性である。MCPlatoのソースを監査することはできず、公開ベンチマークの足跡はまだ成長途中である。研究プラットフォームというよりは生産性ワークスペースとして最も適切に評価される。
結論
2026年に単一の「最高の」AI Agent Harnessは存在しない。正しい選択は、3つの軸——オープン性対利便性、ターミナル対ワークスペース、コーディング専門性対一般的自律性——においてユーザーがどこに位置するかに依存する。
- Claude Codeは、最も強力な検証済みベンチマークとターミナル統合を備え、プレミアム価格でプロフェッショナルコーディングニッチを制覇する。
- OpenClawは、比類ないコミュニティ規模とモデルの自由を備え、UIの摩擦という代償で、オープンで設定可能な会話OSニッチを制覇する。
- Hermesは、メモリファースト、自己改善のアーキテクチャで研究のフロンティアを制覇し、今日のプロダクトというよりは明日のエージェントの構築者を対象とする。
- MCPlatoは、深い設定可能性よりも統合、サンドボックス化、すぐに使える実行を重視するユーザー向けに、独自のローカルファーストワークスペースを切り開く。
もし決定のパララシスが続くなら、シンプルな発見的手法が有効だ:すでに1日のほとんどを過ごしているインターフェースに合ったツールから始める——Claude Codeならターミナル、OpenClawならブラウザ、Hermesならノートブック、MCPlatoならデスクトップ。環境に合ったハーネスは、新しいアプリを学ぶというよりも、ワークフローの自然な拡張のように感じられるだろう。
参考文献
Footnotes
-
OpenClaw GitHubリポジトリおよびコミュニティ指標。 https://github.com/openclaw ↩
-
Anthropic、「Claude Code」クライアントリポジトリ。 https://github.com/anthropics/claude-code ↩
-
Nous Research、「Hermes Agent」リポジトリ。 https://github.com/nousresearch/hermes ↩
-
Anthropic、「Claude 4」発表(SWE-bench Verifiedおよび価格の詳細を含む)。 https://www.anthropic.com/news/claude-4 ↩ ↩2 ↩3 ↩4 ↩5
-
developer.tenten.co、OpenClaw + Sonnet 4.6 SWE-bench Verified評価。 https://developer.tenten.co ↩
-
MCPlato価格ページ。 https://mcplato.com/pricing ↩
