AI 智能體

智能體技術棧

智能體編排框架

執行階段

AI 工作空間

MCPlato

2026 H1 智能體技術棧：模型、編排框架、執行階段與 AI 工作空間

一份簡明的 2026 H1 AI 智能體、編碼智能體、編排框架、執行階段、瀏覽器與沙箱基礎設施、可觀測性、治理和 AI 工作空間版圖，並將 MCPlato 定位在工作空間層。

MCPlato Research Team發布於 2026-05-29

2026 H1 的智能體競賽，已經不再像一個簡單的模型排行榜。

更強的模型仍然重要。Claude 4、Claude Sonnet 4.5、Claude Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder 和 Mistral Magistral 都在推理、編碼、上下文和工具使用能力上推動了基礎層前進。¹²³⁴⁵⁶⁷⁸ 但競爭問題已經變成：

誰能把這些模型投入可靠的工作？

這意味著編排框架、執行階段、瀏覽器、沙箱、評測、可觀測性、治理、權限，以及面向使用者的工作空間。模型是引擎。智能體產品是車輛。編排框架和工作空間決定這輛車能否在真實公司內部運行，同時不遺失狀態、權責或信任。

分層的 2026 H1 智能體技術棧

理解市場的一個有用方式，是把它看作技術棧，而不是一個 logo 目錄。

從基礎模型到 AI 工作空間的分層 2026 H1 智能體技術棧

圖 1：2026 H1 智能體技術棧正在從模型能力向執行、可觀測性、治理和工作空間連續性上移。

層級	貢獻內容	代表性示例
基礎模型	推理、編碼、長上下文、電腦/工具使用、規劃	Claude 4 / Sonnet 4.5 / Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder、Mistral Magistral
智能體產品	面向編碼、研究、應用程式建置、營運和企業流程的打包工作流	Claude Code、OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Jules、Replit Agent、Lovable、Bolt.new、Manus、Perplexity Labs
編排框架 / 執行階段	狀態、重試、人在回路、編排、記憶、結構化工具呼叫	LangGraph/LangChain、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno、Letta
瀏覽器與沙箱基礎設施	安全執行環境、瀏覽器自動化、程式碼沙箱、任務隔離	Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade、Composio
可觀測性與評測	Trace、成本、延遲、回歸測試、提示詞/工具除錯、生產複盤	LangSmith、Langfuse、Helicone、模型與智能體 benchmark
企業治理	可見性、存取控制、策略、智能體清單、可稽核性、合規工作流	Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Control Tower、基於 MCP 的整合模式
AI 工作空間	面向使用者的場所，用來持久化多步驟工作、檔案、會話、產物和決策	MCPlato、Dust、Hebbia、工作空間型智能體平台

重要之處不在於每個產品都必須覆蓋每一層，而在於嚴肅的智能體工作現在需要系統中的某個位置具備所有這些能力。

產品集群，而不是原始目錄

1. 編碼智能體成為第一個大眾化智能體品類

編碼智能體最清楚地證明，智能體可以超越聊天。Claude Code 隨 Claude 4 一起正式可用，並被文件定義為面向終端機和開發工作流的 agentic coding tool。¹⁹ OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Google Jules 和 Replit Agent 都指向同一個方向：開發者想要能夠檢查倉庫、編輯檔案、執行命令、開啟 pull request，並在本地與雲端上下文之間持續工作的智能體。¹⁰¹¹¹²¹³¹⁴¹⁵

這個集群領先，是因為軟體工作已經擁有有用的護欄：檔案、diff、測試、日誌、分支、CI 和 review。它給市場其他部分的啟示並不是「所有事情都應該變成編碼」，而是智能體需要可審查的產物和驗證閉環。

2. 應用程式建置器和通用智能體把 prompt 變成工作流

Lovable、Bolt.new、Replit Agent 和 Manus 是以生成應用程式、網站或可執行工作為中心的產品示例；Perplexity 將 Labs 描述為一種創作功能，可用於報告、儀表板和輕量應用程式等專案。¹⁶¹⁷¹⁸¹⁹ OpenAI 的開發者文件描述了 computer-use 和智能體建置基礎能力，包括視覺化瀏覽器工具介面，因此它的智能體方向更適合被視為同一工作流轉變的一部分，而不是簡單的聊天功能。²⁰²¹

這些產品壓縮了意圖與產物之間的距離。它們面臨的挑戰，也正是更廣泛智能體市場的挑戰：一旦任務變成長時間、多步驟或對外可見，產品就需要狀態、權限、回滾，以及從生成草稿到生產資產的清晰交接。

3. 企業智能體正在從採用轉向控制

Salesforce Agentforce、ServiceNow AI Control Tower 和 Microsoft Copilot Studio 都反映了這一企業現實。²²²³²⁴²⁵ 智能體採用現在取決於可見性、策略、權限和營運歸屬，而不只是 prompt 品質。

Zapier Agents、Lindy、Gumloop、Dust 和 Hebbia 更接近業務團隊的工作流自動化與知識工作。²⁶²⁷²⁸²⁹³⁰ 它們之所以重要，是因為智能體採用並不只是工程問題。銷售、財務、法務、營運、招募、研究和支援團隊同樣需要能使用工具、但不會悄悄繞過策略的智能體系統。

4. 框架和執行階段成為智能體中間層

LangGraph/LangChain、LangSmith、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno 和 Letta 代表了打包產品之下的建置層。³¹³²³³³⁴³⁵³⁶³⁷³⁸³⁹⁴⁰⁴¹⁴²

在這一層，持久狀態、記憶、工具路由、人工審批、結構化輸出和多智能體編排會變成可重用的基礎能力。也正是在這一層，許多團隊會發現「智能體」並不是單一抽象。檢索助手、編碼 worker、瀏覽器操作員、財務分析師和客服智能體，需要不同的執行階段契約。

5. 基礎設施和可觀測性成為生產要求

Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade 和 Composio 不是外圍工具。它們是智能體控制平面的一部分。⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁴⁸⁴⁹⁵⁰

智能體需要瀏覽器，因為大部分工作型 web 仍然缺乏乾淨的 API。它們需要沙箱，因為程式碼和工具必須在隔離環境中運行。它們需要持久工作流引擎，因為長任務會失敗並需要恢復。它們需要整合閘道，因為憑證、權限和動作範圍不應該在 prompt 裡臨時拼湊。

LangSmith、Langfuse 和 Helicone 從可觀測性側展示了同樣的成熟化。³²⁵¹⁵² 如果智能體正在接觸客戶資料、生產系統或昂貴的模型呼叫，團隊就需要 trace、評測、成本可見性、延遲可見性和回歸檢查。

值得關注的五個趨勢

1. 僅靠模型的差異化正在讓位於執行階段差異化

最好的模型正在向強編碼、工具使用、長上下文和規劃能力收斂。Anthropic 報告了 Claude 4 的編碼結果和 Claude Code 可用性；Gemini 2.5 Pro 強調編碼和長上下文能力；DeepSeek V3.1 將自身定位為走向智能體時代的一步；Qwen3-Coder 則強調大規模程式碼智能體訓練環境。¹⁴⁶⁷

這讓執行階段變得更重要，而不是更不重要。當多個基礎模型都已經具備足夠好的推理能力時，團隊會選擇能保留狀態、安全呼叫工具、評估結果並讓人類保持控制的技術棧。

2. 可觀測性正在成為生產門檻

「模型有沒有回答？」這個問題對智能體來說太弱了。生產團隊需要知道：

呼叫了哪些工具？
哪些狀態發生了變化？
哪些證據支持任務完成？
本次運行花費了多少？
延遲出現在哪裡？
哪個 prompt、模型、工具或環境變更導致了回歸？

這就是為什麼 LangSmith、Langfuse、Helicone、benchmark 套件和企業指揮中心正在成為採購討論的一部分。公司無法治理自己看不見的東西。

3. 瀏覽器和程式碼沙箱正在成為一等基礎設施

電腦使用型智能體和編碼智能體需要安全的操作表面。Browserbase 和 Stagehand 專注於面向 AI 智能體的瀏覽器自動化；Playwright MCP 透過 MCP 暴露瀏覽器控制；E2B 和 Daytona 專注於隔離執行環境；Temporal 則將持久執行定位於 agentic AI 工作流。⁴³⁴⁴⁴⁵⁴⁶⁴⁷⁵³

這是 2026 H1 最重要的變化之一：「智能體環境」正在成為一個產品品類。環境決定自治能力會變得有用，還是變得危險。

4. 治理和協議正在成為預設預期

MCP 很重要，因為它為市場提供了把模型連接到工具和上下文的共同語言。⁵⁴⁵⁵ 但協議並不會消除治理需求。它們會讓治理更緊迫：一旦工具更容易連接，團隊就需要更清晰的策略來規定誰可以連接工具、允許哪些動作、憑證如何限定範圍，以及活動如何稽核。

Salesforce Agentforce、ServiceNow AI Control Tower 和 Microsoft Copilot Studio 都反映了這一企業現實。智能體採用現在取決於可見性、策略、權限和營運歸屬，而不只是 prompt 品質。

5. 非同步多會話工作空間是缺失的使用者層

單一聊天執行緒並不是長時間工作的好容器。真實的智能體工作經常會分叉：一個會話做研究，另一個寫草稿，另一個測試，另一個 review，還有一個等待定時跟進。使用者需要一個地方，讓這些工作流、檔案、決策和產物保持可檢查。

這正是 MCPlato 自然適合的位置。MCPlato 最適合被理解為 AI 工作空間層：一個面向本地材料、多會話、背景或定時工作、產物，以及帶權限且可觀測執行的環境。⁵⁶ 它不應該被視為編碼智能體、企業控制塔或瀏覽器基礎設施的萬能替代品。它的角色不同：幫助使用者組織和監督橫跨文件、研究、瀏覽器上下文、辦公輸出和非同步跟進的 AI 工作。

換句話說，MCPlato 屬於智能體技術棧的工作空間層：靠近使用者，靠近材料，並位於讓執行成為可能的更底層執行階段和基礎設施元件之上。

一個實用決策框架

按自治時長和治理需求選擇智能體產品的決策矩陣

圖 2：智能體技術棧選擇應基於自治時長和治理壓力，而不是基於單一通用排名。

選擇智能體技術棧前，先問五個問題。

問題	如果答案是「是」，優先考慮
智能體是否會修改程式碼、資料、記錄或外部系統？	沙箱、權限、稽核日誌、review 門禁、回滾路徑
任務是否會運行超過一個 prompt 或一個會話？	持久狀態、檢查點、背景執行、工作空間連續性
智能體是否會使用瀏覽器或執行程式碼？	瀏覽器自動化基礎設施、隔離沙箱、憑證邊界
多個團隊是否會依賴輸出？	可觀測性、評測、成本追蹤、策略、歸屬
使用者是否需要監督許多並行工作流？	AI 工作空間、多會話編排、產物、摘要、交接紀律

一個簡單映射會有幫助：

短編碼任務：從編碼原生智能體開始，例如 Claude Code、Codex、Cursor、Jules、Devin、Replit Agent 或 GitHub Copilot coding agent。
應用程式原型：考慮 Lovable、Bolt.new、Replit Agent 或類似建置器介面，然後在進入生產使用前增加 review。
業務工作流自動化：根據資料、治理和領域匹配，考察 Copilot Studio、Agentforce、ServiceNow、Zapier Agents、Lindy、Gumloop、Dust 或 Hebbia。
自訂智能體產品：組合執行階段與基礎設施元件，例如 LangGraph、LlamaIndex、CrewAI、OpenAI Agents SDK、Vercel AI SDK、MCP、Browserbase、E2B、Temporal、Composio、Langfuse、Helicone 和 LangSmith。
跨材料知識工作：採用 AI 工作空間模式。MCPlato 是一個相關示例，尤其適用於工作橫跨本地材料、研究、產物、多會話和帶權限執行的場景。

結論

2026 H1 的智能體版圖，不是「模型」和「產品」之間的戰爭，而是完整技術棧的出現。

模型提供推理底座。智能體產品打包常見任務。編排框架和執行階段讓工作保持有狀態。瀏覽器和沙箱基礎設施讓工具使用更安全。可觀測性和評測讓執行可檢查。治理讓自治在組織中可以被接受。AI 工作空間給使用者一個協調長時間工作的地方。

贏家不會只是模型 benchmark 數字最大的團隊。贏家會是那些能把模型智能轉化為可靠、可審查、帶權限工作流的團隊。

參考資料

Footnotes

Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩² ↩³
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩²
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩²
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩²
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
Cursor changelog, https://cursor.com/changelog ↩
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
Lovable, https://lovable.dev/ ↩
Bolt.new, https://bolt.new/ ↩
Manus, https://manus.im/ ↩
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
Lindy Agents, https://www.lindy.ai/agents ↩
Gumloop, https://www.gumloop.com/ ↩
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
Hebbia product, https://www.hebbia.com/product ↩
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩²
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
Mastra, https://mastra.ai/ ↩
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
Agno documentation, https://docs.agno.com/introduction ↩
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩²
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩²
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩²
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩²
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩²
Temporal AI solutions, https://temporal.io/solutions/ai ↩
Arcade, https://www.arcade.dev/ ↩
Composio, https://composio.dev/ ↩
Langfuse documentation, https://langfuse.com/docs ↩
Helicone, https://www.helicone.ai/ ↩
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
MCPlato, https://mcplato.com/en/ ↩

閱讀更多

OpenClaw vs Claude Code vs Hermes vs MCPlato：AI Agent Harness 深度解析 2026
基於數據的 2026 年四大 AI Agent Harness 對比分析。我們從架構、基準測試、定價和實際應用場景等維度深入剖析 OpenClaw、Claude Code、Hermes Agent 和 MCPlato。
Pi、Hermes、Codex、Claude Code 與 MCPlato：哪個 Agent 更適合你的工作？
從控制權、工作流程適配、長任務與權限策略出發，對 Pi Agent、Hermes Agent、Codex、Claude Code 和 MCPlato 做一次基於場景的實用比較。
Harness 和 Agent：AI 系统的分層架構
探索工具層和 Agent 層的關係，以及 MCPlato 如何實現 MCP 原生架構
為什麼 SaaS-Bench 表明 AI Agent 需要 Harness，而不只是更大的模型
SaaS-Bench 在真實專業 SaaS 工作流中測試 computer-use agents，並揭示了部分進展與已驗證完成之間的差距。結果指向 agent harness、workspace state、verification、permissions 和 recovery 作為下一層產品能力。
Skywork vs Manus：2026 年該選哪個 AI 智能體？
根據官方資料比較 Skywork Super Agents 與 Manus 在辦公成果物、自主執行、積分定價、監督機制與資料掌控方面的差異，協助你在 2026 年做出選擇。