2026 H1 智能體技術棧:模型、編排框架、執行階段與 AI 工作空間
一份簡明的 2026 H1 AI 智能體、編碼智能體、編排框架、執行階段、瀏覽器與沙箱基礎設施、可觀測性、治理和 AI 工作空間版圖,並將 MCPlato 定位在工作空間層。
發布於 2026-05-29
2026 H1 的智能體競賽,已經不再像一個簡單的模型排行榜。
更強的模型仍然重要。Claude 4、Claude Sonnet 4.5、Claude Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder 和 Mistral Magistral 都在推理、編碼、上下文和工具使用能力上推動了基礎層前進。12345678 但競爭問題已經變成:
誰能把這些模型投入可靠的工作?
這意味著編排框架、執行階段、瀏覽器、沙箱、評測、可觀測性、治理、權限,以及面向使用者的工作空間。模型是引擎。智能體產品是車輛。編排框架和工作空間決定這輛車能否在真實公司內部運行,同時不遺失狀態、權責或信任。
分層的 2026 H1 智能體技術棧
理解市場的一個有用方式,是把它看作技術棧,而不是一個 logo 目錄。
從基礎模型到 AI 工作空間的分層 2026 H1 智能體技術棧
圖 1:2026 H1 智能體技術棧正在從模型能力向執行、可觀測性、治理和工作空間連續性上移。
| 層級 | 貢獻內容 | 代表性示例 |
|---|---|---|
| 基礎模型 | 推理、編碼、長上下文、電腦/工具使用、規劃 | Claude 4 / Sonnet 4.5 / Opus 4.8、Gemini 2.5 Pro、DeepSeek R1/V3.1、Qwen3-Coder、Mistral Magistral |
| 智能體產品 | 面向編碼、研究、應用程式建置、營運和企業流程的打包工作流 | Claude Code、OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Jules、Replit Agent、Lovable、Bolt.new、Manus、Perplexity Labs |
| 編排框架 / 執行階段 | 狀態、重試、人在回路、編排、記憶、結構化工具呼叫 | LangGraph/LangChain、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno、Letta |
| 瀏覽器與沙箱基礎設施 | 安全執行環境、瀏覽器自動化、程式碼沙箱、任務隔離 | Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade、Composio |
| 可觀測性與評測 | Trace、成本、延遲、回歸測試、提示詞/工具除錯、生產複盤 | LangSmith、Langfuse、Helicone、模型與智能體 benchmark |
| 企業治理 | 可見性、存取控制、策略、智能體清單、可稽核性、合規工作流 | Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Control Tower、基於 MCP 的整合模式 |
| AI 工作空間 | 面向使用者的場所,用來持久化多步驟工作、檔案、會話、產物和決策 | MCPlato、Dust、Hebbia、工作空間型智能體平台 |
重要之處不在於每個產品都必須覆蓋每一層,而在於嚴肅的智能體工作現在需要系統中的某個位置具備所有這些能力。
產品集群,而不是原始目錄
1. 編碼智能體成為第一個大眾化智能體品類
編碼智能體最清楚地證明,智能體可以超越聊天。Claude Code 隨 Claude 4 一起正式可用,並被文件定義為面向終端機和開發工作流的 agentic coding tool。19 OpenAI Codex、GitHub Copilot coding agent、Cursor、Devin、Google Jules 和 Replit Agent 都指向同一個方向:開發者想要能夠檢查倉庫、編輯檔案、執行命令、開啟 pull request,並在本地與雲端上下文之間持續工作的智能體。101112131415
這個集群領先,是因為軟體工作已經擁有有用的護欄:檔案、diff、測試、日誌、分支、CI 和 review。它給市場其他部分的啟示並不是「所有事情都應該變成編碼」,而是智能體需要可審查的產物和驗證閉環。
2. 應用程式建置器和通用智能體把 prompt 變成工作流
Lovable、Bolt.new、Replit Agent 和 Manus 是以生成應用程式、網站或可執行工作為中心的產品示例;Perplexity 將 Labs 描述為一種創作功能,可用於報告、儀表板和輕量應用程式等專案。16171819 OpenAI 的開發者文件描述了 computer-use 和智能體建置基礎能力,包括視覺化瀏覽器工具介面,因此它的智能體方向更適合被視為同一工作流轉變的一部分,而不是簡單的聊天功能。2021
這些產品壓縮了意圖與產物之間的距離。它們面臨的挑戰,也正是更廣泛智能體市場的挑戰:一旦任務變成長時間、多步驟或對外可見,產品就需要狀態、權限、回滾,以及從生成草稿到生產資產的清晰交接。
3. 企業智能體正在從採用轉向控制
Salesforce Agentforce、ServiceNow AI Control Tower 和 Microsoft Copilot Studio 都反映了這一企業現實。22232425 智能體採用現在取決於可見性、策略、權限和營運歸屬,而不只是 prompt 品質。
Zapier Agents、Lindy、Gumloop、Dust 和 Hebbia 更接近業務團隊的工作流自動化與知識工作。2627282930 它們之所以重要,是因為智能體採用並不只是工程問題。銷售、財務、法務、營運、招募、研究和支援團隊同樣需要能使用工具、但不會悄悄繞過策略的智能體系統。
4. 框架和執行階段成為智能體中間層
LangGraph/LangChain、LangSmith、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、Vercel AI SDK、Mastra、PydanticAI、Agno 和 Letta 代表了打包產品之下的建置層。313233343536373839404142
在這一層,持久狀態、記憶、工具路由、人工審批、結構化輸出和多智能體編排會變成可重用的基礎能力。也正是在這一層,許多團隊會發現「智能體」並不是單一抽象。檢索助手、編碼 worker、瀏覽器操作員、財務分析師和客服智能體,需要不同的執行階段契約。
5. 基礎設施和可觀測性成為生產要求
Browserbase、Stagehand、Playwright MCP、E2B、Daytona、Temporal、Arcade 和 Composio 不是外圍工具。它們是智能體控制平面的一部分。4344454647484950
智能體需要瀏覽器,因為大部分工作型 web 仍然缺乏乾淨的 API。它們需要沙箱,因為程式碼和工具必須在隔離環境中運行。它們需要持久工作流引擎,因為長任務會失敗並需要恢復。它們需要整合閘道,因為憑證、權限和動作範圍不應該在 prompt 裡臨時拼湊。
LangSmith、Langfuse 和 Helicone 從可觀測性側展示了同樣的成熟化。325152 如果智能體正在接觸客戶資料、生產系統或昂貴的模型呼叫,團隊就需要 trace、評測、成本可見性、延遲可見性和回歸檢查。
值得關注的五個趨勢
1. 僅靠模型的差異化正在讓位於執行階段差異化
最好的模型正在向強編碼、工具使用、長上下文和規劃能力收斂。Anthropic 報告了 Claude 4 的編碼結果和 Claude Code 可用性;Gemini 2.5 Pro 強調編碼和長上下文能力;DeepSeek V3.1 將自身定位為走向智能體時代的一步;Qwen3-Coder 則強調大規模程式碼智能體訓練環境。1467
這讓執行階段變得更重要,而不是更不重要。當多個基礎模型都已經具備足夠好的推理能力時,團隊會選擇能保留狀態、安全呼叫工具、評估結果並讓人類保持控制的技術棧。
2. 可觀測性正在成為生產門檻
「模型有沒有回答?」這個問題對智能體來說太弱了。生產團隊需要知道:
- 呼叫了哪些工具?
- 哪些狀態發生了變化?
- 哪些證據支持任務完成?
- 本次運行花費了多少?
- 延遲出現在哪裡?
- 哪個 prompt、模型、工具或環境變更導致了回歸?
這就是為什麼 LangSmith、Langfuse、Helicone、benchmark 套件和企業指揮中心正在成為採購討論的一部分。公司無法治理自己看不見的東西。
3. 瀏覽器和程式碼沙箱正在成為一等基礎設施
電腦使用型智能體和編碼智能體需要安全的操作表面。Browserbase 和 Stagehand 專注於面向 AI 智能體的瀏覽器自動化;Playwright MCP 透過 MCP 暴露瀏覽器控制;E2B 和 Daytona 專注於隔離執行環境;Temporal 則將持久執行定位於 agentic AI 工作流。434445464753
這是 2026 H1 最重要的變化之一:「智能體環境」正在成為一個產品品類。環境決定自治能力會變得有用,還是變得危險。
4. 治理和協議正在成為預設預期
MCP 很重要,因為它為市場提供了把模型連接到工具和上下文的共同語言。5455 但協議並不會消除治理需求。它們會讓治理更緊迫:一旦工具更容易連接,團隊就需要更清晰的策略來規定誰可以連接工具、允許哪些動作、憑證如何限定範圍,以及活動如何稽核。
Salesforce Agentforce、ServiceNow AI Control Tower 和 Microsoft Copilot Studio 都反映了這一企業現實。智能體採用現在取決於可見性、策略、權限和營運歸屬,而不只是 prompt 品質。
5. 非同步多會話工作空間是缺失的使用者層
單一聊天執行緒並不是長時間工作的好容器。真實的智能體工作經常會分叉:一個會話做研究,另一個寫草稿,另一個測試,另一個 review,還有一個等待定時跟進。使用者需要一個地方,讓這些工作流、檔案、決策和產物保持可檢查。
這正是 MCPlato 自然適合的位置。MCPlato 最適合被理解為 AI 工作空間層:一個面向本地材料、多會話、背景或定時工作、產物,以及帶權限且可觀測執行的環境。56 它不應該被視為編碼智能體、企業控制塔或瀏覽器基礎設施的萬能替代品。它的角色不同:幫助使用者組織和監督橫跨文件、研究、瀏覽器上下文、辦公輸出和非同步跟進的 AI 工作。
換句話說,MCPlato 屬於智能體技術棧的工作空間層:靠近使用者,靠近材料,並位於讓執行成為可能的更底層執行階段和基礎設施元件之上。
一個實用決策框架
按自治時長和治理需求選擇智能體產品的決策矩陣
圖 2:智能體技術棧選擇應基於自治時長和治理壓力,而不是基於單一通用排名。
選擇智能體技術棧前,先問五個問題。
| 問題 | 如果答案是「是」,優先考慮 |
|---|---|
| 智能體是否會修改程式碼、資料、記錄或外部系統? | 沙箱、權限、稽核日誌、review 門禁、回滾路徑 |
| 任務是否會運行超過一個 prompt 或一個會話? | 持久狀態、檢查點、背景執行、工作空間連續性 |
| 智能體是否會使用瀏覽器或執行程式碼? | 瀏覽器自動化基礎設施、隔離沙箱、憑證邊界 |
| 多個團隊是否會依賴輸出? | 可觀測性、評測、成本追蹤、策略、歸屬 |
| 使用者是否需要監督許多並行工作流? | AI 工作空間、多會話編排、產物、摘要、交接紀律 |
一個簡單映射會有幫助:
- 短編碼任務:從編碼原生智能體開始,例如 Claude Code、Codex、Cursor、Jules、Devin、Replit Agent 或 GitHub Copilot coding agent。
- 應用程式原型:考慮 Lovable、Bolt.new、Replit Agent 或類似建置器介面,然後在進入生產使用前增加 review。
- 業務工作流自動化:根據資料、治理和領域匹配,考察 Copilot Studio、Agentforce、ServiceNow、Zapier Agents、Lindy、Gumloop、Dust 或 Hebbia。
- 自訂智能體產品:組合執行階段與基礎設施元件,例如 LangGraph、LlamaIndex、CrewAI、OpenAI Agents SDK、Vercel AI SDK、MCP、Browserbase、E2B、Temporal、Composio、Langfuse、Helicone 和 LangSmith。
- 跨材料知識工作:採用 AI 工作空間模式。MCPlato 是一個相關示例,尤其適用於工作橫跨本地材料、研究、產物、多會話和帶權限執行的場景。
結論
2026 H1 的智能體版圖,不是「模型」和「產品」之間的戰爭,而是完整技術棧的出現。
模型提供推理底座。智能體產品打包常見任務。編排框架和執行階段讓工作保持有狀態。瀏覽器和沙箱基礎設施讓工具使用更安全。可觀測性和評測讓執行可檢查。治理讓自治在組織中可以被接受。AI 工作空間給使用者一個協調長時間工作的地方。
贏家不會只是模型 benchmark 數字最大的團隊。贏家會是那些能把模型智能轉化為可靠、可審查、帶權限工作流的團隊。
參考資料
Footnotes
-
Anthropic, “Introducing Claude 4,” https://www.anthropic.com/news/claude-4 ↩ ↩2 ↩3
-
Anthropic, “Claude Sonnet 4.5,” https://www.anthropic.com/news/claude-sonnet-4-5 ↩
-
Anthropic, “Claude Opus 4.8,” https://www.anthropic.com/news/claude-opus-4-8 ↩
-
Google, “Gemini 2.5 Pro coding performance,” https://developers.googleblog.com/en/gemini-2-5-pro-io-improved-coding-performance/ ↩ ↩2
-
DeepSeek, “DeepSeek-R1 release,” https://api-docs.deepseek.com/news/news250120 ↩
-
DeepSeek, “DeepSeek-V3.1 release,” https://api-docs.deepseek.com/news/news250821 ↩ ↩2
-
Qwen, “Qwen3-Coder,” https://qwenlm.github.io/blog/qwen3-coder/ ↩ ↩2
-
Mistral AI, “Magistral,” https://mistral.ai/news/magistral ↩
-
Anthropic, “Claude Code overview,” https://code.claude.com/docs/en/overview ↩
-
OpenAI Codex developer documentation, https://developers.openai.com/codex ↩
-
GitHub, “GitHub Copilot coding agent in public preview,” https://github.blog/changelog/2025-05-19-github-copilot-coding-agent-in-public-preview/ ↩
-
Cursor changelog, https://cursor.com/changelog ↩
-
Cognition, “Devin 2,” https://cognition.ai/blog/devin-2 ↩
-
Google, “Jules now available,” https://blog.google/innovation-and-ai/models-and-research/google-labs/jules-now-available/ ↩
-
Replit, “Introducing Agent 3,” https://replit.com/blog/introducing-agent-3-our-most-autonomous-agent-yet ↩
-
Lovable, https://lovable.dev/ ↩
-
Bolt.new, https://bolt.new/ ↩
-
Manus, https://manus.im/ ↩
-
Perplexity, “Getting started with Labs,” https://www.perplexity.ai/hub/getting-started ↩
-
OpenAI developer documentation, “Computer use,” https://developers.openai.com/api/docs/guides/tools-computer-use ↩
-
OpenAI developer documentation, “Agents,” https://developers.openai.com/api/docs/guides/agents ↩
-
Salesforce, “Salesforce launches Agentforce 3,” https://www.salesforce.com/ap/news/press-releases/2025/06/24/salesforce-launches-agentforce-3-to-solve-the-biggest-blockers-to-scaling-ai-agents-visibility-and-control/ ↩
-
ServiceNow, “AI Control Tower,” https://www.servicenow.com/products/ai-control-tower.html ↩
-
Microsoft Copilot Studio release plan, https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave2/microsoft-copilot-studio/ ↩
-
Microsoft, “6 core capabilities to scale agent adoption in 2026,” https://www.microsoft.com/en-us/microsoft-copilot/blog/copilot-studio/6-core-capabilities-to-scale-agent-adoption-in-2026/ ↩
-
Zapier, “AI agents survey,” https://zapier.com/blog/ai-agents-survey/ ↩
-
Lindy Agents, https://www.lindy.ai/agents ↩
-
Gumloop, https://www.gumloop.com/ ↩
-
Dust documentation, “Welcome to Dust,” https://docs.dust.tt/docs/welcome-to-dust ↩
-
Hebbia product, https://www.hebbia.com/product ↩
-
LangChain, “LangChain and LangGraph 1.0,” https://www.langchain.com/blog/langchain-langgraph-1dot0 ↩
-
LangSmith platform, https://www.langchain.com/langsmith-platform ↩ ↩2
-
LlamaIndex, “Introducing LlamaIndex 0.11,” https://www.llamaindex.ai/blog/introducing-llamaindex-0-11 ↩
-
Microsoft Research, AutoGen, https://www.microsoft.com/en-us/research/project/autogen/ ↩
-
CrewAI, “CrewAI OSS 1.0,” https://blog.crewai.com/crewai-oss-1-0-we-are-going-ga/ ↩
-
OpenAI Agents SDK, https://openai.github.io/openai-agents-python/ ↩
-
Vercel AI SDK documentation, https://ai-sdk.dev/docs/introduction ↩
-
Vercel, “Agentic infrastructure,” https://vercel.com/blog/agentic-infrastructure ↩
-
Mastra, https://mastra.ai/ ↩
-
PydanticAI documentation, https://pydantic.dev/docs/ai/ ↩
-
Agno documentation, https://docs.agno.com/introduction ↩
-
Letta, “Letta v1 agent,” https://www.letta.com/blog/letta-v1-agent ↩
-
Browserbase for AI, https://www.browserbase.com/industry/ai ↩ ↩2
-
Browserbase Stagehand, https://www.browserbase.com/stagehand ↩ ↩2
-
Microsoft Playwright MCP, https://github.com/microsoft/playwright-mcp ↩ ↩2
-
E2B Enterprise, https://e2b.dev/enterprise ↩ ↩2
-
Daytona sandboxes, https://www.daytona.io/docs/en/sandboxes/ ↩ ↩2
-
Temporal AI solutions, https://temporal.io/solutions/ai ↩
-
Arcade, https://www.arcade.dev/ ↩
-
Composio, https://composio.dev/ ↩
-
Langfuse documentation, https://langfuse.com/docs ↩
-
Helicone, https://www.helicone.ai/ ↩
-
Temporal, Agentic AI, https://temporal.io/ai/agentic-ai ↩
-
Anthropic, “Model Context Protocol,” https://www.anthropic.com/news/model-context-protocol ↩
-
Model Context Protocol, “2026 MCP Roadmap,” https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/ ↩
-
MCPlato, https://mcplato.com/en/ ↩
