網易首頁 > 網易號 > 正文申請入駐

來自中科院 AI 安全國家重點實驗室的反思，多智能體系統(tǒng)的工作流生成或許走錯了方向

2026-01-21 18:13:16　來源: 人工智能學家

北京舉報

分享至

如果說 2023–2025 是大模型狂飆的時代，那么 2025–2026 則是多智能體系統(tǒng)（Multi-Agent Systems, MAS）真正開始“長出骨骼”的階段。

大模型不再只是一個“回答問題的語言機器”，而是逐漸演化成一個能夠規(guī)劃、協(xié)作、執(zhí)行復雜任務的智能體系統(tǒng)。而在這些系統(tǒng)背后，有一個常被忽略卻至關重要的結構——工作流（Workflow）。

工作流是什么？它不是代碼，也不是 prompt，而是 Agentic System 的“認知骨架”。

它決定了一個多智能體系統(tǒng)如何分工、如何協(xié)作、如何調用工具、如何拆解任務、如何在復雜環(huán)境中保持穩(wěn)定的推理路徑?？梢哉f，工作流是智能體系統(tǒng)的“思維結構”。

隨著 MAS 的爆發(fā)，學界和工業(yè)界逐漸形成了兩種主流的工作流生成范式。一種是任務級工作流（Task-level Workflow），為整個任務生成一個統(tǒng)一的流程；另一種是查詢級工作流（Query-level Workflow），為每個 query 單獨生成一個工作流。

聽起來后者更靈活、更智能、更“個性化”，但代價也更高。于是一個關鍵問題浮現(xiàn)出來，我們是否真的需要為每個query都生成一個獨立的工作流？

這項來自中國科學院計算技術研究所（ICT）人工智能安全國家重點實驗室與中國科學院大學的研究團隊的研究，正是從這個問題切入，試圖重新定義 MAS 工作流生成的基本范式。

研究團隊的背景也讓這項工作顯得格外扎實。團隊成員來自國家級 AI 安全重點實驗室，長期深耕大模型推理優(yōu)化、多智能體協(xié)作、AI 安全與可控性等方向。他們既有理論深度，也有工程落地能力，擅長從系統(tǒng)層面重新審視大模型的行為模式。這項研究延續(xù)了他們一貫的風格，不追熱點、不堆花活，而是從根本問題入手，提出真正能改變系統(tǒng)設計范式的洞見。

研究的核心貢獻可以概括為兩句話，第一，查詢級工作流并非總是必要，少量任務級工作流就能覆蓋大部分query的需求。第二，任務級工作流的全量執(zhí)行評估既昂貴又不可靠，需要新的低成本評估范式。

這兩點看似簡單，卻直接挑戰(zhàn)了當前 MAS 工作流研究的主流假設，也為未來的 Agentic System 設計提供了新的方向。

01兩種工作流范式的長期爭論

在多智能體系統(tǒng)的世界里，工作流生成一直是一個繞不開的核心問題。但長期以來，研究者們似乎默認了兩種范式的合理性，卻很少有人真正去質疑它們背后的假設。

故事要從任務級工作流說起。

任務級工作流（Task-level Workflow）是最早被提出的范式。它的思路很直接，既然任務是固定的，那就為整個任務生成一個統(tǒng)一的工作流，讓所有 query 都按照同一套流程執(zhí)行。

圖1:Aflow和我們重新思考的任務級工作流生成框架的比較。左：工作流生成過程中的總令牌數(shù)（日志尺度軸）。右：最終測試性能。我們的方法SCALE在顯著減少令牌數(shù)量的同時實現(xiàn)了相當?shù)男阅堋?/p>

Aflow、GPTSwarm、AgentPrune 等方法都是這一范式的代表。它們的優(yōu)勢非常明顯，統(tǒng)一、穩(wěn)定、推理成本低。對于工業(yè)級系統(tǒng)來說，這種穩(wěn)定性尤其重要。

但問題也同樣明顯，評估成本極高。為了找到一個“最優(yōu)工作流”，這些方法往往需要對候選工作流進行全量執(zhí)行評估，也就是在整個驗證集上跑一遍。這意味著巨量的 token 消耗，甚至比訓練一個小模型還貴。

于是，查詢級工作流（Query-level Workflow）應運而生。

它的邏輯是，既然每個 query 都不同，那就為每個 query 單獨生成一個工作流，讓系統(tǒng)能夠更靈活、更個性化地處理任務。

MAS-GPT、ScoreFlow 等方法就是這一方向的代表。它們的優(yōu)勢也很誘人，高度適配每個query，理論上能獲得更高的性能。

但代價同樣巨大，推理成本爆炸、生成不穩(wěn)定、難以規(guī)?；渴稹?/p>

更關鍵的是，學界在這兩種范式之間爭論了兩年，卻很少有人真正問過兩個最根本的問題，

Query-level工作流真的必要嗎？Task-level的全量執(zhí)行評估真的合理嗎？

這項研究的價值就在于，它終于把這兩個問題擺到了臺面上，并給出了系統(tǒng)性的實驗分析與新的解決方案。

圖2：任務級與查詢級工作流生成及其流程反思。（1）任務級別生成。（1） A顯示搜索/訓練：生成器使用驗證查詢生成單個工作流；（1）B顯示推理：優(yōu)化的工作流被重用于所有測試查詢。（1）C-D展示了我們的反思：（1）C表明重復的全集評估成本非常高，（1）D表明top-k工作流具有非常相似的查詢級別排名。（2）查詢級別生成。（2）A表示訓練：每個查詢生成一個工作流；（2）B表示推理：為每個輸入生成定制的工作流程。（2）C1–C3總結了我們對查詢級工作流的反思：top-k任務級工作流、top-1工作流的repeat-k運行和真正的查詢級生成產生了相當?shù)母采w率/性能。

02重新思考之一，查詢級工作流真的必要嗎？

當我們談論“查詢級工作流”（Query-level Workflow）時，很多人腦海里浮現(xiàn)的都是一種“更聰明、更靈活、更個性化”的系統(tǒng)想象，每個 query 都能得到一條專屬的推理路徑，就像每個用戶都擁有一個私人助理。

但研究的實驗結果卻給這類想象潑了一盆冷水——至少在當前的多智能體系統(tǒng)中，這種“個性化”并沒有帶來想象中的巨大收益，甚至可能是被高估的。

為了驗證這一點，研究團隊設計了一套非常系統(tǒng)的對比實驗。他們把任務級工作流和查詢級工作流放在同一張桌子上，進行真正意義上的正面對決。

任務級工作流這邊，他們選取了三種典型方式， Top?1，即任務級搜索中得分最高的工作流； Top?5，即前五個最優(yōu)工作流的集合； Repeat?5，即對同一個工作流重復執(zhí)行五次，觀察執(zhí)行隨機性帶來的性能波動。

查詢級工作流這邊，則采用了當前最強的代表方法 ScoreFlow，它會為每個 query 單獨生成一個工作流，理論上能做到“按需定制”。

為了避免“單一任務偏差”，實驗覆蓋了多個主流benchmark，包括 DROP、HotpotQA、GSM8K、MATH 等，涵蓋了推理、閱讀理解、數(shù)學、多跳問答等不同類型的任務。

結果非常耐人尋味。

首先，Top?1 的表現(xiàn)就已經相當強勁。也就是說，一個任務只要找到一個足夠好的工作流，它就能覆蓋大量 query 的需求。這說明任務內部的結構共享度遠比我們想象得高，很多 query 并不需要“個性化流程”。

更令人意外的是 Top?5。當任務級工作流從一個擴展到五個時，它的 query 覆蓋率甚至超過了查詢級方法 ScoreFlow。換句話說，少量任務級工作流的多樣性，已經足以覆蓋查詢級工作流的“個性化優(yōu)勢”。

而 Repeat?5 的結果更是讓人反思。僅僅是對同一個工作流重復執(zhí)行五次，利用執(zhí)行過程中的隨機性，就能獲得接近查詢級工作流的覆蓋率。這說明查詢級方法的“優(yōu)勢”有相當一部分來自執(zhí)行隨機性，而不是結構本身的差異。

這些結果共同指向一個結論，查詢級工作流的必要性被高估了。

任務內部的結構共享度遠比我們以為的高，很多 query 并不需要獨立的工作流。而所謂的“個性化優(yōu)勢”，在實際系統(tǒng)中并沒有轉化為顯著的性能提升。更關鍵的是，查詢級工作流的成本極高，卻沒有帶來與之匹配的收益。

這意味著，在大多數(shù)實際應用場景中，少量任務級工作流就足以支撐系統(tǒng)的性能需求，而無需為每個 query 重新生成一條推理路徑。

03重新思考之二，任務級工作流的全量執(zhí)行評估是否合理？

如果說查詢級工作流的問題在于“過度個性化”，那么任務級工作流的問題則在于“過度評估”。

傳統(tǒng)的任務級工作流生成方法，如 Aflow，通常需要對候選工作流進行全量執(zhí)行評估，也就是在整個驗證集上跑一遍，才能判斷哪個工作流最優(yōu)。這種做法在早期模型規(guī)模較小時還能接受，但在大模型時代，它的成本已經高得離譜。

圖3:Aflow任務級工作流生成過程中的累積令牌數(shù)與性能。

研究給出的數(shù)據(jù)非常直觀，在多個 benchmark 上，任務級工作流的全量執(zhí)行評估需要消耗的token 數(shù)量達到了 10?到 10?級別。這是什么概念？這意味著評估一個工作流的成本，可能比生成這個工作流還要高。甚至在某些任務上，評估成本已經接近訓練一個小模型的量級。

更糟糕的是，這種高成本評估并不可靠。

研究團隊發(fā)現(xiàn)，在高性能區(qū)間內，不同工作流之間的性能差異極小，甚至小到無法穩(wěn)定排序。也就是說，即便你花了巨量 token 去評估，最終得到的排序也可能是不穩(wěn)定的，甚至是隨機的。

這就像你花了幾百萬做了一次體檢，結果醫(yī)生告訴你，“你身體挺好，但具體好多少我也說不清。”

圖4:Aflow在四個基準測試中生成的前5個任務級工作流的性能和排名統(tǒng)計。Perf表示平均測試性能。CR和DR分別表示通過測試查詢計算的平均競爭排名和密集排名。

更關鍵的是，評估結果的區(qū)分度極低。在多個任務上，Top?5 工作流的性能幾乎難以區(qū)分，評估結果的波動甚至超過了工作流本身的差異。這意味著全量執(zhí)行評估不僅昂貴，而且在高性能區(qū)間幾乎失去了意義。

這些發(fā)現(xiàn)共同指向一個結論，任務級工作流的全量執(zhí)行評估既昂貴又不可靠。

它無法支撐大規(guī)模系統(tǒng)的擴展，也無法提供穩(wěn)定的排序依據(jù)。在大模型時代，這種評估方式已經不再適用，需要新的范式來替代。

研究團隊在研究后續(xù)提出的 SCALE 框架，就是為了解決這一問題而設計的——用自預測和少量校準替代全量執(zhí)行，讓評估變得更輕、更快、更穩(wěn)定。

04SCALE：一種低成本、高性能的任務級工作流生成框架

當研究團隊意識到“查詢級工作流并非總是必要”以及“任務級工作流的全量執(zhí)行評估既昂貴又不可靠”之后，一個新的問題自然浮現(xiàn)出來，如果我們不想為每個 query 生成工作流，也不想為每個候選工作流做全量執(zhí)行，那有沒有一種更聰明、更經濟、更可擴展的方式來選擇最優(yōu)工作流？

SCALE 就是在這樣的背景下誕生的。

它的核心思想非常優(yōu)雅，甚至可以說是“反直覺的簡單”，讓LLM自己預測工作流的性能，再用少量真實執(zhí)行結果進行校準。

這句話背后隱藏著一個重要的理念轉變—— 過去我們總是把 LLM 當成一個“執(zhí)行者”，讓它按照工作流一步步推理；而 SCALE 則把 LLM 變成了一個“評估者”，讓它自己判斷一個工作流是否優(yōu)秀。

這就像從“讓學生做題”變成“讓學生自己判斷題目難度”，然后再抽幾道題驗證一下判斷是否準確。這種方式不僅更輕量，也更符合大模型的能力邊界。

SCALE的框架結構

SCALE 的整體結構分為兩個階段，Warm-up 和 Surrogate Evaluation。前者負責“打底”，后者負責“發(fā)力”。

Warm-up階段，用少量真實執(zhí)行建立經驗池

Warm-up 的目標不是找到最優(yōu)工作流，而是讓系統(tǒng)對任務有一個初步的“經驗認知”。

研究團隊采用少量 MCTS（蒙特卡洛樹搜索）來生成候選工作流。這些工作流會被完整地執(zhí)行一次，用于收集真實的性能數(shù)據(jù)。這些數(shù)據(jù)被存入經驗池，包括：

local experience，與具體 query 相關的執(zhí)行表現(xiàn)
global experience，與任務整體結構相關的統(tǒng)計特征

Warm-up 的成本遠低于傳統(tǒng) Aflow，因為它只執(zhí)行少量輪次，不追求最優(yōu)，只追求“有代表性”。

它的作用更像是給系統(tǒng)“上第一堂課”，讓它知道任務大概長什么樣。

Surrogate Evaluation階段，SCALE的核心創(chuàng)新

真正的魔法發(fā)生在第二階段。

這一階段的目標是，在不進行全量執(zhí)行的前提下，準確評估每個候選工作流的性能。

研究團隊提出了三步走策略。

自預測（Self Prediction），讓 LLM 自己判斷工作流好不好

LLM 會在一個專門設計的評估 prompt 下，對每個工作流進行性能預測。這個預測不是隨便猜，而是基于Warm-up 階段積累的經驗池進行類比推斷。

預測結果記為 Spred。

這一步的意義在于， LLM 的結構理解能力很強，它能看懂工作流的邏輯結構、步驟安排、工具調用順序，從而給出一個“結構性判斷”。

但結構判斷終究是判斷，仍然需要真實信號來校準。

少量執(zhí)行校準（Few-shot Calibration），抽取 1–3% 的 query 做真實執(zhí)行

為了讓預測不至于“飄”，SCALE 會從驗證集中抽取 1–3% 的 query，對每個候選工作流進行真實執(zhí)行。

這一步得到的分數(shù)記為 Sfew。

Few-shot 的作用是提供“真實世界的反饋”，讓系統(tǒng)知道哪些預測是偏高的，哪些是偏低的。

校準融合（Calibrated Score），預測 + 校準的加權組合

最終得分由以下公式給出

其中 α 會根據(jù)預測誤差和 few-shot 比例自適應調整。

這一步的意義在于讓結構判斷與真實信號結合，既不盲信LLM，也不依賴昂貴的全量執(zhí)行。

為什么 SCALE 有效？

SCALE 的有效性來自三個關鍵因素的協(xié)同作用。

自預測提供結構性判斷。 LLM 對工作流結構的理解能力遠比我們想象得強，它能看出流程是否合理、步驟是否冗余、工具調用是否匹配任務需求。

Few-shot 提供真實信號。少量真實執(zhí)行就足以讓系統(tǒng)知道預測偏差的方向。

校準機制彌補偏差。預測 + 校準的組合讓系統(tǒng)既輕量又可靠。

最終的效果是，SCALE的評估成本遠低于全量執(zhí)行，但評估質量卻幾乎不下降。

05實驗結果，性能幾乎不降，成本大幅下降

研究團隊在六大 benchmark 上驗證了 SCALE 的效果，結果非常亮眼。

與 Aflow 對比，SCALE 的性能下降僅 0.61%。這意味著它幾乎沒有犧牲性能。

但在成本方面，SCALE 的優(yōu)勢堪稱碾壓級別， Token 成本減少了 54–83%。這對任何需要規(guī)?；渴鸬?MAS 系統(tǒng)來說，都是巨大的工程價值。

更重要的是，SCALE 的表現(xiàn)非常穩(wěn)定。無論是 DROP、HotpotQA、GSM8K 還是MATH，它都能保持一致的性能優(yōu)勢。

表：六個基準測試的測試性能Perf和令牌數(shù)量成本比較。?報告SCALE相對于Aflow的性能變化和成本降低。

研究團隊還驗證了不同 surrogate score 的有效性。結果顯示，

校準分數(shù)最接近真實執(zhí)行
自信度評分完全不可靠
自預測 + 校準是最佳組合

這進一步證明了 SCALE 的設計是合理且必要的。

06對未來 Agentic Systems 的啟示

SCALE 的提出不僅僅是一個技術優(yōu)化，更像是對整個 Agentic System 設計范式的一次重新定義。

首先，Query-level 工作流不再是默認答案。未來的系統(tǒng)應該更多采用“任務級 + 多樣性”的策略，而不是為每個query 單獨規(guī)劃。

其次，工作流評估不應依賴全量執(zhí)行。 SCALE 展示了一種更智能、更經濟、更可擴展的評估方式。

第三，LLM 作為優(yōu)化器的潛力被嚴重低估。過去我們只讓 LLM 執(zhí)行任務，而 SCALE 證明它完全可以承擔“評估者”“規(guī)劃者”“優(yōu)化器”的角色。

最后，Agentic System 的設計范式將發(fā)生根本變化。從“每個 query 單獨規(guī)劃” 走向 “任務級共享 + 局部校準”。

這不僅更高效，也更符合大模型時代的系統(tǒng)工程邏輯。（END）

參考資料：https://arxiv.org/abs/2601.11147

關于波動智能——

波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系，融合人工智能與意識科學，構建覆蓋情緒識別、建模與推薦的智能引擎，自主研發(fā)面向社交、電商等場景的多模態(tài)意圖識別引擎、意圖標簽系統(tǒng)及意圖智能推薦算法，形成從情緒采集、意圖建模到商業(yè)轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”，其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優(yōu)化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構，賦能企業(yè)實現(xiàn)更高效的用戶洞察與精準情緒交互，推動從功能驅動到意圖驅動的產業(yè)范式升級。

親愛的人工智能研究者，為了確保您不會錯過*波動智能*的最新推送，請星標*波動智能*。我們傾心打造并精選每篇內容，只為為您帶來啟發(fā)和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.