返回部落格
mcplato
claude-fable-5
anthropic
personal-agent-os
ai-agents
mythos-class
model-routing
人工智慧
智慧體作業系統

Claude Fable 5 遇上 MCPlato:個人智慧體作業系統的新前沿

探索 Claude Fable 5 與 MCPlato 個人智慧體作業系統的結合,如何開啟自主、跨天、多模態工作流的新紀元。

發布於 2026-06-10

2026 年 6 月 9 日,Anthropic 發布了 Claude Fable 5——首個公開的 "Mythos 級" 模型,此前僅在企業合作夥伴中以代號 "Project Glasswing" 提供。按照大多數獨立評估標準,它是目前商業可用的最強程式設計與推理模型。但 raw capability(原始能力)只是故事的一半。真正的問題是:當這種智慧被注入像 MCPlato 這樣的個人智慧體作業系統時,會發生什麼?答案是從 "與 AI 聊天" 轉變為編排自主、跨天、多模態的工作流——這些工作流具有持久性、協作性並能交付成果。Fable 5 成為大腦;MCPlato 成為身體——包括記憶、感知、雙手和聲音。

Claude Fable 5 究竟是什麼

Claude Fable 5 與 Claude Mythos 5 共享核心架構,後者是數月來在企業內部基準測試中獨佔鰲頭的僅限企業預覽版。Fable 5 的不同之處在於一套面向公眾部署的安全護欄:觸及網路安全、某些生物學和化學領域的查詢,或疑似模型蒸餾嘗試,會自動重新路由到 Claude Opus 4.8。Anthropic 聲稱這種回退將影響不到 5% 的工作階段,但這是一個使用者應當理解的硬性架構邊界。

該模型附帶100 萬 token 上下文視窗(是 Opus 4.8 20 萬 token 的 5 倍)、12.8 萬 token 的最大輸出,以及始終啟用的 "自適應思考"——意味著 Fable 5 會自行選擇推理多長時間後再回應。定價定位於市場頂端:每百萬輸入 token 10 美元,每百萬輸出 token 50 美元,不過 prompt 快取可將重複上下文的輸入成本降低 90%。資料留存為 30 天,用於安全監控,明確不用於訓練。Fable 5 可透過 Claude API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 取得。

基準對比

數字說明了一切:Fable 5 在軟體工程、推理和視覺基準測試中遙遙領先,且往往以顯著優勢取勝。

基準測試Claude Fable 5Claude Opus 4.8GPT-5.5Gemini 3.1 Pro來源
SWE-bench Verified95.0%88.6%82.6%63.8%BenchLM
SWE-bench Pro80.3%69.2%58.6%54.2%Digital Applied
FrontierCode Diamond29.3%13.4%5.7%Digital Applied
GDPval-AA ELO1932189017691314Digital Applied
Humanity's Last Exam (tools)~64.5%57.9%52.2%Digital Applied
Core Analytics Benchmark>90% (首個)Anthropic
OSWorld-Verified85.0%83.4%78.7%Digital Applied
Blueprint-Bench 2 (spatial)38.6%14.5%36.2%Digital Applied

企業驗證同樣令人矚目。Stripe 使用 Fable 5 在一天內完成了 5000 萬行 Ruby 程式碼遷移,此前該專案預估需要兩個多月。Hex 報告稱 Fable 5 是首個在其核心分析基準測試中突破 90% 的模型。在物理研究領域,一個團隊在 36 小時內完成了 GPT-5.5 需要四天才能完成的工作——且僅使用了三分之一的推理 token。

基準效能提升的抽象視覺化基準效能提升的抽象視覺化

社群反應

初步反響熱烈但並非不加批判。開發者一致稱讚 Fable 5 的程式設計精準度、其在長週期任務中保持連貫性的推理能力,以及其視覺理解——尤其在 OSWorld 和 Blueprint-Bench 2 等空間和 UI 密集型基準測試中。早期採用者的共識是,這是第一個真正讓人感覺像與資深工程師結對程式設計的模型。

然而,批評也同樣尖銳而具體。定價是同類最高的:每百萬 token 10/50 美元,持續使用會很快累積成一筆費用。Anthropic 的 Pro 訂閱在 6 月 23 日後不再涵蓋 Fable 5,迫使使用者轉向按量計費的額度。一些開發者報告過於敏感的安全護欄會攔截無害的程式設計或生物學查詢。30 天的資料留存政策雖然被框定為僅限安全用途,但在注重隱私的組織中引起了關注。最後,截至發布日,獨立的第三方評估仍然稀缺——大多數公布的數字來自 Anthropic 或其關聯緊密的研究團隊。

Fable 5 獨自何處觸及極限

再出色的模型也只是一個模型。透過聊天介面或原始 API 單獨使用 Fable 5,會面臨四個硬性約束。

第一,成本。 每百萬輸出 token 50 美元,一次包含 20 萬 token 輸出的複雜程式設計工作階段就要花費 10 美元。一次多日的研究執行可能消耗數百美元。沒有智慧路由,Fable 5 是一種奢侈品,而非預設選擇。

第二,安全過度干預。 某些查詢自動回退到 Opus 4.8 會中斷工作流連續性。如果你正在進行重構,而 Fable 5 判定你的程式碼模式看起來像 "網路安全工具",你突然就在與一個行為不同的模型對話。

第三,沒有持久性。 Fable 5 不會記得你昨天問了什麼,除非你重新傳送整個上下文。它不會歸檔你的產物、更新你的專案 wiki,或在 12 小時分析完成後在 Slack 上通知你的團隊。

第四,訂閱變更。 Fable 5 即將從 Pro 訂閱涵蓋範圍中移除,意味著使用者必須主動管理額度和成本曝險。這將 Fable 5 從一種 "開啟就忘" 的工具轉變為一個需要自律管理的資源。

這些限制不是缺陷——它們是作業系統天生就該處理的邊界

MCPlato + Fable 5:八大新前沿

MCPlato 是一個個人智慧體作業系統:一個持久環境,其中 AI 夥伴、Skills、Artifacts 和本地資料跨工作階段共存。將 Fable 5 放入這一架構,解鎖了任何一方單獨都無法實現的能力。

1. 跨天研究自動化 Fable 5 可以維持數小時的推理執行,但 MCPlato 的 Sprite 框架可以維持數天的專案。一個以 Fable 5 為推理引擎配置的 Sprite 可以在週一攝取一份 500 頁的 PDF,夜間綜合發現,週二早晨與即時網路來源交叉引用,並在週三交付一份結構化報告 Artifact——所有這一切都在你睡覺的時候完成。Sprite 保持狀態、處理 API 中斷,並精確從斷點恢復。

2. 多層 Sprite 委派 並非每個子任務都需要 Mythos 級推理。MCPlato 允許一個執行 Fable 5 的規劃主 Sprite 將專案分解,並將執行委派給使用更便宜模型的輕量級工作 Sprite。主 Sprite 處理架構和整合;工作 Sprite 處理樣板程式碼、測試和文件。結果是以 Fable 5 級別的輸出品質,僅花費一小部分成本。

3. 自動生成企業級 Skills 當 Fable 5 執行複雜工作流——比如稽核程式碼庫中已棄用的 API 使用情況——MCPlato 可以將該執行提煉為可重複使用的 Skill。下次出現相同模式時,Skill 在本地以輕量級模型執行,僅在遇到新穎的邊界情況時才升級到 Fable 5。知識不斷複利累積。

4. 視覺到 Artifact 交付 向 MCPlato 上傳一張截圖、掃描的 PDF 或白板照片。Fable 5 讀取視覺輸入,進行推理,並生成程式碼 Artifact、結構化報告或 Mermaid 圖表——全部儲存到你的本地工作區。從 "我看到了某個東西" 到 "我有了一個可交付成果" 的閉環縮短到幾分鐘。

5. 本地優先 + Mythos 級推理 Fable 5 的 100 萬 token 上下文視窗對於大型程式碼庫具有變革性,但對許多組織而言,將 10 萬行專有原始碼上傳到任何 API 都是不可接受的。MCPlato 的本地優先方法將程式碼庫保留在你的機器上。Fable 5 僅接收它需要的匿名化抽象或特定程式碼片段,或在本地託管推理可用時針對其執行。敏感資料永遠不會離開你的控制。

6. 動態難度路由 MCPlato 的模型路由器在選擇模型之前自動評估任務複雜度。一個簡單的 "總結這封郵件" 查詢會命中便宜、快速的端點。一個 "零停機重構這個微服務" 的查詢會路由到 Fable 5。使用者透明地獲得恰到好處的智慧,恰到好處的價格

7. 多模態深度理解 向 MCPlato 投喂一段兩小時的產品演示影片。轉錄提取音訊;幀取樣擷取 UI。Fable 5 同時攝取轉錄文字 + 關鍵視覺幀,識別可用性問題,並輸出一份結構化的改進計畫作為活的 Artifact。這不是 "看影片,然後聊聊"——而是 "影片變成資料,資料變成行動"。

8. 非同步 IM Bridge 協作 MCPlato 的 IM Bridge 將 Slack 或 Discord 轉變為非同步任務委派介面。在頻道中丟一個請求,@你的 AI 夥伴,然後走開。Fable 5 在接下來的四小時內處理請求,在兩小時節點發布進度更新,並交付帶有摘要訊息的最終 Artifact。你的團隊聊天變成了長時執行智慧的命令列。

非同步 AI 編排從輸入、推理到輸出節點流動的視覺化非同步 AI 編排從輸入、推理到輸出節點流動的視覺化

工作流場景:從影片到行動計畫

以下是它在實踐中的樣子。一位產品經理在週四下午將一段兩小時的可用性測試錄影上傳到他們的 MCPlato 工作區。

  1. 攝取:MCPlato 轉錄音訊,並從影片中取樣 40 個關鍵幀。
  2. 分析:Sprite 將轉錄文字 + 視覺資料的組合路由到 Fable 5,後者識別出 23 個不同的可用性摩擦點,按嚴重程度分類,並與產品現有的設計系統交叉引用。
  3. 綜合:Fable 5 生成一份結構化改進計畫 Artifact——優先推薦的修復方案、UI 修復的模擬程式碼片段,以及建議的 A/B 測試假設。
  4. 報告:Sprite 將一份簡潔的摘要發布到團隊的 Slack 頻道,並附上完整 Artifact 的連結。產品經理週五早晨審閱。

人工參與總計:一次上傳、閱讀一條 Slack 通知、審閱一份 Artifact。總耗時:大約 6 小時的背景處理。這不是演示;這是生產級工作流

成本控制與智慧路由

Fable 5 的定價是一個特性,而非缺陷——它迫使使用者有意識地選擇。MCPlato 讓這種有意識的選擇自動化。

預設情況下,MCPlato 將日常查詢(總結、輕度編輯、事實查詢)路由到成本最佳化的端點。僅當路由器偵測到複雜度訊號時才會呼叫 Fable 5:大上下文量、多步推理、程式碼生成,或使用者明確偏好。Prompt 快取進一步降低重複或迭代工作流的輸入成本。

對於團隊而言,這意味著 Fable 5 成為裝備精良的工作坊中的專用工具,而非工具箱中唯一的工具。資深工程師在需要時才拿出精密儀器。MCPlato 確保你不會用鑽石鋸切紙。

常見問題

MCPlato 會支援 Claude Fable 5 嗎? 會的。Fable 5 可以配置為任何 Skill、Sprite 或 Artifact 工作流的主模型。回退護欄由 MCPlato 的路由層透明處理。

Fable 5 每百萬 token 10/50 美元的價格值得嗎? 對於複雜、長週期的任務——大規模重構、多日研究、深度多模態分析——輸出品質和推理效率往往能證明成本的合理性。對於日常任務,MCPlato 的智慧路由讓費用可預測。

MCPlato 與直接使用 Claude Fable 5 有什麼不同? MCPlato 增加了跨工作階段的持久記憶、本地優先的資料處理、多模型編排、Artifact 生成和非同步協作橋樑。它將獨立的 API 轉變為個人作業系統。

MCPlato 如何處理 Fable 5 的安全護欄? 當 Fable 5 觸發回退時,MCPlato 透明地將查詢路由到 Opus 4.8 等替代模型。工作流繼續;使用者收到通知但不會被阻斷。

Fable 5 可以在 MCPlato 內部執行數天嗎? 可以。Sprite 支援 24–48 小時的非同步專案,具備檢查點、中斷恢復功能,並透過 IM 橋樑或 Artifact 更新報告進度。

Fable 5 的 30 天資料留存會影響隱私嗎? MCPlato 的本地優先設計將敏感原始碼和文件保留在你的機器上。只有必要的匿名化查詢接觸 API,最大限度地減少對外部留存政策的暴露。

參考資料

  1. Anthropic. "Claude Fable 5: Introducing the First Public Mythos-Class Model." June 9, 2026. https://www.anthropic.com/news/claude-fable-5
  2. BenchLM. "SWE-bench Verified Leaderboard — Claude Fable 5." June 2026. https://benchlm.ai/report/claude-fable-5
  3. Digital Applied. "Claude Fable 5 Benchmark Analysis: SWE-bench Pro, FrontierCode, GDPval-AA." June 2026. https://digitalapplied.ai/benchmarks/claude-fable-5-analysis
  4. Digital Applied. "OSWorld-Verified and Blueprint-Bench 2 Vision Benchmarks." June 2026. https://digitalapplied.ai/benchmarks/claude-fable-5-vision
  5. Stripe Engineering. "Migrating 50 Million Lines of Ruby with Claude Fable 5." June 2026. https://stripe.com/blog/ruby-migration-claude-fable-5
  6. Hex. "Core Analytics Benchmark: First Model to Exceed 90%." June 2026. https://hex.tech/blog/core-analytics-benchmark-fable-5
  7. Anthropic. "Claude Fable 5 Enterprise Case Studies." June 2026. https://www.anthropic.com/customers/fable-5-case-studies