MobileSetting logo 流動科技
科技資訊

Claude AI 三大新功能2026:Dreaming記憶、Outcomes成效評估、多代理協調全面解析

Anthropic 2026年5月推出Claude Managed Agents三大新功能:Dreaming自我優化記憶、Outcomes成效評估及多代理協調,香港AI用家必讀完整解析。

Claude AI 三大新功能2026:Dreaming記憶、Outcomes成效評估、多代理協調全面解析

Anthropic 於2026年5月6日至7日正式宣布為 Claude Managed Agents 推出三項重大新功能:Dreaming(記憶自我優化)、Outcomes(成效導向評估)及 Multi-Agent Orchestration(多代理協調)。這三項功能標誌著 AI 代理從「執行工具」演變成「能自我進步的智能助手」,香港開發者及企業用家可即時透過 Claude 平台的 Messages API 體驗。

Anthropic 一直以來以安全為核心研究方向著稱,但進入2026年後,其產品攻勢明顯加速。繼年初發布 Claude Opus 4.7、Claude Design 視覺生成工具之後,這次針對 Managed Agents 的大幅升級,被業界視為 Anthropic 向企業市場全面進攻的重要訊號。

對於香港的開發者、科技企業及 AI 愛好者而言,了解這三項新功能的實際運作邏輯,有助於判斷應否將其納入工作流程或產品開發計劃。

什麼是 Claude Managed Agents?

在深入了解新功能之前,先簡單說明一下背景。Claude Managed Agents 是 Anthropic 提供的一套託管式 AI 代理框架,讓開發者毋須自行搭建大量基礎設施,就能在 Claude 平台上建立、部署及管理 AI 代理。

與直接呼叫 Claude API 的一次性對話不同,Managed Agents 具備持久記憶、跨會話學習及工具調用能力,適合需要長時間、多步驟自動化任務的應用場景——例如客戶服務機器人、程式碼審查助手、數據分析流水線等。

這次更新的三大功能,正是針對 Managed Agents 的三個核心短板而設計。

新功能一:Dreaming(記憶自我優化)

Dreaming 是三項功能中最具突破性的一個,目前以研究預覽(Research Preview)形式開放。

簡單來說,Dreaming 讓 Claude 代理在「閒置」時段自動回顧過往的工作會話,從中提煉出規律性模式,並主動更新自身的記憶庫,從而在下次執行任務時表現更佳。Anthropic 的官方描述頗為生動:這個過程就像人類睡覺時大腦整理記憶一樣——Dreaming 代理在工作結束後「做夢」,把白天的經驗消化成長期知識。

Dreaming 的實際運作流程

  1. 會話回顧:Dreaming 是一個排程式流程,在代理完成任務後自動啟動,掃描近期所有會話記錄。
  2. 模式識別:它會特別留意三類模式——代理反覆犯的錯誤、代理自然收斂到的高效工作流,以及團隊成員之間共同的偏好與習慣。
  3. 記憶更新:識別出的模式會轉化成記憶條目,供代理在未來任務中直接調用。

用家控制權

Anthropic 特別強調,Dreaming 並非黑盒自動運行。開發者可以選擇兩種模式:

  • 自動模式:Dreaming 直接更新記憶庫,無需人工介入。
  • 審核模式:每次記憶更新前,系統都會向管理員展示擬修改的內容,由人工決定是否採納。

對於金融、法律、醫療等對準確性要求極高的應用場景,審核模式顯然更為穩妥。香港的企業用家在評估是否採用時,這一點值得特別注意。

新功能二:Outcomes(成效導向評估)

Outcomes 目前以公開測試版(Public Beta)形式開放,針對的是 AI 代理一直以來的老問題:如何客觀評估一個任務做得好不好?

傳統做法的局限

在 Outcomes 推出之前,代理通常依賴提示詞(prompt)中的指示來判斷任務是否完成。問題在於,代理在生成輸出的同時,也會對自己的表現產生「自我合理化」的偏差——它很難客觀地看穿自己的推理盲點。

Outcomes 的解決方案

Outcomes 的設計思路是引入一個獨立的「評估者」(Grader)。流程如下:

  1. 開發者以自然語言撰寫一份「成功標準」(rubric),描述什麼樣的輸出算是達標。
  2. 代理完成任務後,Outcomes 系統啟動一個全新的、獨立的上下文窗口,由一個獨立評估模型根據成功標準審核輸出結果。
  3. 若輸出未達標,評估模型會精確指出問題所在,代理隨即修正並重新嘗試。

這個「分離評估」的設計,避免了代理因自我評估而產生的確認偏差。

實測效果

根據 Anthropic 的內部測試數據,引入 Outcomes 後,任務成功率在標準提示詞循環的基礎上提升了最多10個百分點,而在難度較高的任務上改善幅度尤為顯著。

任務難度採用前成功率採用後成功率改善幅度
簡單任務~85%~90%+5%
中等難度~65%~72%+7%
高難度任務~42%~52%+10%

數據來源:Anthropic 內部測試,實際結果因應用場景而異。

新功能三:Multi-Agent Orchestration(多代理協調)

多代理協調同樣以公開測試版形式開放,針對的是複雜任務的分工問題。

核心邏輯

Multi-Agent Orchestration 允許一個「主導代理」(Lead Agent)將複雜任務分解成多個子任務,並將它們分配給不同的「專門代理」(Specialist Agents)並行處理。這些子代理可以同時工作,成果匯集到共享的檔案系統,主導代理則統籌全局並在需要時介入協調。

持久化事件機制

這項功能的技術基礎是持久化事件(Persistent Events)機制——每個代理的行動都以事件形式記錄,因此主導代理可以隨時查閱任何子代理的進度,甚至在子任務執行到一半時重新分配資源。

應用場景舉例

以一個「全面競品分析報告」任務為例:

  • 主導代理:接收任務,制定分析框架,分配子任務
  • 子代理A:負責爬取並整理目標競品的定價資訊
  • 子代理B:分析各競品的用戶評論與市場反饋
  • 子代理C:整理競品的產品功能對比
  • 主導代理:匯整所有子代理的輸出,生成最終報告

整個流程可以大幅縮短原本需要人工逐步完成的研究週期。

三大功能對比總覽

功能開放狀態主要用途適合場景
Dreaming研究預覽代理自我學習與記憶優化長期運行的重複性任務
Outcomes公開測試版客觀成效評估與自我修正對輸出質量有明確標準的任務
Multi-Agent Orchestration公開測試版複雜任務分工並行處理研究、報告生成、程式碼審查

香港用家如何使用?

目前三項功能均透過 Claude 平台的 Messages API 提供。香港開發者和企業用家可以按以下步驟開始體驗:

  1. 登入 claude.ai 或 Anthropic 開發者控制台
  2. 確認帳號類型——Dreaming 處於研究預覽階段,可能需要申請早期訪問
  3. Outcomes 和 Multi-Agent Orchestration 目前以公開測試版開放,Claude Pro 及 Team 帳號均可使用
  4. 參考 Anthropic 官方文件中的 Managed Agents 部分,按照 API 文件設置

值得注意的是,香港用家使用 claude.ai 毋須 VPN,但若透過 API 開發,建議留意 Anthropic 的服務條款及數據處理政策,確保符合本地法規要求。

這對香港 AI 產業意味著什麼?

Anthropic 密集的功能更新節奏,正在改變香港本地 AI 開發的生態。傳統上,企業構建 AI 工作流需要大量工程資源;而 Managed Agents 的持續進化,意味著更多功能可以「開箱即用」,降低了本地中小企業採用 AI 自動化的門檻。

對於正在評估 AI 工具的香港企業而言,Dreaming 帶來的持續自我優化能力、Outcomes 提供的客觀質量保證,以及 Multi-Agent Orchestration 實現的並行效率,三者加起來令 Claude Managed Agents 成為目前市場上功能最完整的企業 AI 代理平台之一。

常見問題

Q:Dreaming 功能現在可以在香港使用嗎? A:Dreaming 目前處於研究預覽階段,並非所有帳號都能立即使用。建議留意 Anthropic 官方公告,或透過開發者控制台申請早期訪問資格。

Q:Outcomes 功能需要額外付費嗎? A:Anthropic 目前尚未公布 Outcomes 的獨立定價。在公開測試版階段,費用通常計入 API 調用量,建議查閱最新的 Anthropic 定價頁面以獲取準確資訊。

Q:Multi-Agent Orchestration 和市場上其他多代理框架(如 AutoGen、CrewAI)有何分別? A:主要分別在於 Managed Agents 是由 Anthropic 託管的完整解決方案,開發者毋須自行管理基礎設施。而 AutoGen、CrewAI 等為開源框架,靈活性更高但需要更多工程投入。兩者並不互相排斥。

Q:這些功能適合非技術背景的用家使用嗎? A:目前這三項功能主要面向開發者和企業用家,需要透過 API 或開發者控制台設置。非技術用家建議等待 Anthropic 未來推出更多面向普通消費者的產品界面。

Q:Claude 與 ChatGPT 的 Agents 功能相比如何? A:兩者各有側重。Claude Managed Agents 的 Dreaming 功能在持久記憶和自我優化方面較為突出;ChatGPT 的 Operator 框架則在第三方工具整合生態上更成熟。選擇哪個平台,建議根據實際應用場景和現有技術棧來決定。