釘釘發(fā)布DeepResearch多智能體框架，已在真實企業(yè)部署

2025-11-12 13:06:22　來源: 機器之心Pro

天津舉報

分享至

在數(shù)字經(jīng)濟(jì)浪潮中，企業(yè)對于高效、精準(zhǔn)的信息獲取與決策支持的需求日益迫切。從前沿科學(xué)探索到行業(yè)趨勢分析，再到企業(yè)級決策支持，一個能夠從海量異構(gòu)數(shù)據(jù)源中提取關(guān)鍵知識、執(zhí)行多步驟推理并生成結(jié)構(gòu)化或多模態(tài)輸出的「深度研究系統(tǒng)」正變得不可或缺。

然而，現(xiàn)有的研究系統(tǒng)，盡管各自在特定領(lǐng)域有所建樹，卻普遍面臨著難以適應(yīng)真實世界企業(yè)環(huán)境的挑戰(zhàn)：

靜態(tài)架構(gòu)與缺乏適應(yīng)性：多數(shù)系統(tǒng)依賴靜態(tài)提示或固定腳本，缺乏從真實世界反饋中學(xué)習(xí)和優(yōu)化的機制，難以適應(yīng)不斷變化的業(yè)務(wù)需求和數(shù)據(jù)分布。

私有數(shù)據(jù)集成與動態(tài)優(yōu)化不足：現(xiàn)有的研究型智能體，如 OpenAI 的 GPT 代理，在集成公共信息源方面表現(xiàn)出色，但往往難以安全、高效地整合企業(yè)私有數(shù)據(jù)，也缺乏動態(tài)優(yōu)化能力。

缺乏自動化評估與持續(xù)優(yōu)化：像 Anthropic 的 Claude Research Workbench 雖然強調(diào)安全性與人機協(xié)作，但缺少自動評估和連續(xù)優(yōu)化機制，難以在部署環(huán)境中實現(xiàn)持續(xù)改進(jìn)。

長短期記憶與動態(tài)演進(jìn)機制缺失：多數(shù)系統(tǒng)缺乏有效的長短期記憶能力，無法積累和重用歷史經(jīng)驗，導(dǎo)致智能體在處理復(fù)雜、長期任務(wù)時效率低下且無法持續(xù)進(jìn)步。

表格結(jié)構(gòu)化推理與文本合成的脫節(jié)：企業(yè)數(shù)據(jù)中包含大量半結(jié)構(gòu)化或復(fù)雜表格，但現(xiàn)有系統(tǒng)往往難以將表格的精確符號推理與非結(jié)構(gòu)化文本的生成合成有效結(jié)合。

缺乏評估驅(qū)動的閉環(huán)迭代：許多系統(tǒng)缺少一個評估驅(qū)動的閉環(huán)優(yōu)化流程，無法系統(tǒng)性地識別低性能案例、進(jìn)行有針對性的改進(jìn)并防止性能退化。

為了填補這些空白，阿里巴巴釘釘（Dingtalk）團(tuán)隊提出了Dingtalk-DeepResearch，一個為復(fù)雜、演進(jìn)的企業(yè)任務(wù)設(shè)計的統(tǒng)一多智能體智能框架，旨在整合深度研究生成、異構(gòu)表格推理和多模態(tài)報告合成，從而提供一個適應(yīng)性強、可部署、企業(yè)級的解決方案。

論文標(biāo)題：Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
論文地址：https://arxiv.org/abs/2510.24760

Dingtalk-DeepResearch 在國際權(quán)威深度研究評測 DeepResearch Bench 中取得48.49高分（全球第二、國內(nèi)第一），顯著超越包括 OpenAI、Claude 在內(nèi)的主流系統(tǒng)；并在 ResearcherBench 達(dá)到0.7032平均覆蓋率（全球第三、國內(nèi)第一）。

更關(guān)鍵的是，該框架已穩(wěn)定部署于制造業(yè)、供應(yīng)鏈等真實企業(yè)場景，能夠在復(fù)雜異構(gòu)表格、多階段推理與多模態(tài)生成任務(wù)中保持行業(yè)領(lǐng)先的準(zhǔn)確性和穩(wěn)健性，實現(xiàn)了國際頂級基準(zhǔn)與實際生產(chǎn)落地的雙重突破。

總體架構(gòu)：

構(gòu)建企業(yè)智能的大腦

Dingtalk-DeepResearch 框架采用分層設(shè)計，旨在為企業(yè)提供一個全面而靈活的智能中樞：

Dingtalk-DeepResearch Agent Studio：這一層提供了專業(yè)的智能體，專門用于深度研究、表格數(shù)據(jù)處理和數(shù)據(jù)分析。同時，它也支持可定制的個人智能體，以滿足不同用戶的特定需求。這體現(xiàn)了框架的 flexibility 和個性化能力。

Dingtalk-DeepResearch Core：這一層作為框架的「大腦」，它集成了上下文壓縮、推理與規(guī)劃、長短期記憶和人機協(xié)作控制等關(guān)鍵功能。該核心還包括一個自演進(jìn)引擎 (DingAutoEvaluator)和一套豐富的集成工具，支持代碼執(zhí)行、網(wǎng)絡(luò)搜索、文件與表格檢索及多模態(tài)處理。值得注意的是，它能與釘釘生態(tài)系統(tǒng)連接，并在用戶授權(quán)下安全訪問個人工作文檔。所有這些能力均由經(jīng)過 CPT、SFT 和 RL 訓(xùn)練的 LLM 驅(qū)動。

Dingtalk-DeepResearch Data Layer：這一層是一個統(tǒng)一的數(shù)據(jù)骨干。它整合了知識圖譜、數(shù)據(jù)庫、緩存以及包括對話、音視頻、圖、文本和表格在內(nèi)的多模態(tài)數(shù)據(jù)集。該層匯集了業(yè)務(wù)、行業(yè)、個人及合成數(shù)據(jù)，為智能體檢索和關(guān)聯(lián)多樣化的企業(yè)及行業(yè)數(shù)據(jù)提供了基礎(chǔ)。

詳細(xì)方法：

自適應(yīng)智能的核心機制

Dingtalk-DeepResearch 的創(chuàng)新之處在于其獨特的方法論，尤其是在文檔生成、在線學(xué)習(xí)和表格推理方面。

大規(guī)模多階段文檔強化學(xué)習(xí)：構(gòu)建文檔生成專家

為了賦予 Dingtalk-DeepResearch 強大的文檔生成能力，該框架設(shè)計了一個多階段訓(xùn)練管道，結(jié)合了大規(guī)模獎勵建模、結(jié)構(gòu)化查詢格式的監(jiān)督微調(diào)以及在靜態(tài)和實時內(nèi)容流上的強化學(xué)習(xí)，并通過真實用戶數(shù)據(jù)進(jìn)行在線偏好優(yōu)化。

階段 1：獎勵模型（Doc-RM）訓(xùn)練

此階段的目標(biāo)是訓(xùn)練一個文檔專屬的獎勵模型（Doc-RM）。團(tuán)隊使用了約 80 萬個人工標(biāo)注的正負(fù)樣本對，這些樣本根據(jù)事實準(zhǔn)確性、語義覆蓋、邏輯結(jié)構(gòu)和呈現(xiàn)清晰度進(jìn)行評估。該模型將作為后續(xù)強化學(xué)習(xí)階段的評分骨干。

階段 2：結(jié)構(gòu)化查詢格式的冷啟動監(jiān)督微調(diào) (SFT)

為使模型掌握特定的輸出格式，團(tuán)隊使用了 3,200 個精選樣本進(jìn)行 SFT 。這些樣本涵蓋四大類格式：視覺呈現(xiàn)生成（如 Markdown 格式的 PPT）、結(jié)構(gòu)化數(shù)據(jù)解釋（如表格解析）、綜合多章節(jié)敘述和領(lǐng)域特定模板。此階段會獎勵兼具內(nèi)容準(zhǔn)確性、邏輯結(jié)構(gòu)和美觀文本格式的輸出，為后續(xù) RL 調(diào)優(yōu)奠定基礎(chǔ) 。

階段 3：靜態(tài)文檔集合上的強化學(xué)習(xí) (RL)

利用訓(xùn)練好的 Doc-RM 作為獎勵函數(shù) ，智能體在大型離線文檔庫上進(jìn)行強化學(xué)習(xí)。它通過檢索靜態(tài)文檔、合成答案，并根據(jù)覆蓋范圍、事實正確性和連貫性獲得獎勵，從而在受控環(huán)境中建立穩(wěn)定的合成能力基線。

階段 4：實時文檔獲取上的強化學(xué)習(xí) (RL)

為處理時效性信息，RL 被擴展到實時內(nèi)容檢索。團(tuán)隊設(shè)計了 10,000 個時間敏感查詢，覆蓋了需要避免「事后偏見」的場景（如財務(wù)預(yù)測）和需要最新信息的「過時信息」場景（如突發(fā)新聞）。系統(tǒng)通過實時搜索獲取最新文檔，并由 Doc-RM 結(jié)合定制的獎懲結(jié)構(gòu)（強調(diào)時間正確性）進(jìn)行評分。

階段 5：基于 Copilot 的真實用戶交互在線直接偏好優(yōu)化 (DPO)

在實際部署中，系統(tǒng)作為用戶 Copilot 運行。通過收集模型的原始輸出和用戶的編輯版本，系統(tǒng)會提取高影響力的差異，并將其構(gòu)造成在線 DPO 數(shù)據(jù)集，從而持續(xù)向用戶的特定偏好進(jìn)行微調(diào) 。

通過這一多階段方法，Dingtalk-DeepResearch 不僅獲得了強大的文檔生成能力，還實現(xiàn)了對不斷變化的真實世界信息需求的自適應(yīng)響應(yīng)。

熵引導(dǎo)記憶檢索自適應(yīng)在線學(xué)習(xí)：無需微調(diào) LLM 的持續(xù)演進(jìn)

Dingtalk-DeepResearch 的一個顯著特點是其熵引導(dǎo)、記憶感知的在線學(xué)習(xí)機制。該機制允許智能體在不微調(diào)底層 LLM 參數(shù)的情況下，持續(xù)適應(yīng)不斷演變的任務(wù)。系統(tǒng)并非依賴靜態(tài)提示，而是從一個外部的 episodic memory bank 中動態(tài)選擇和重用先前的案例，平衡了對高價值經(jīng)驗的利用和對多樣化歷史情境的探索。

智能體會根據(jù)當(dāng)前任務(wù)狀態(tài)計算存儲案例的概率分布，該分布受其估計的 Q 值和溫度參數(shù)的調(diào)節(jié) 。這鼓勵了對替代案例的探索，減輕了對早期經(jīng)驗的過擬合。同時，記憶感知組件通過學(xué)習(xí)到的語義相似性來確保上下文相關(guān)性，從而準(zhǔn)確地重新應(yīng)用多步驟推理模式和工具調(diào)用序列。

該機制被集成到規(guī)劃器-執(zhí)行器循環(huán)中，每次執(zhí)行都會更新案例庫，在線重新訓(xùn)練檢索策略，并逐步提高推理性能。此外，該系統(tǒng)將這種記憶驅(qū)動的范式擴展到個性化層面，通過構(gòu)建用戶畫像、文檔交互歷史和先前工作流的長期結(jié)構(gòu)化記憶，智能體能夠更深入地理解用戶的工作風(fēng)格和需求，從而提供日益相關(guān)和高效的輔助。

結(jié)構(gòu)感知異構(gòu)表格解析、檢索與推理：企業(yè)級數(shù)據(jù)處理的利器

在企業(yè)環(huán)境中，表格數(shù)據(jù)往往與文本敘述混合，形式多樣且結(jié)構(gòu)復(fù)雜。Dingtalk-DeepResearch 的表格問答模塊通過結(jié)合布局感知表格建模和異構(gòu)檢索-執(zhí)行，實現(xiàn)了精確且可解釋的推理。

數(shù)據(jù)攝入 (Data Ingestion)

系統(tǒng)在攝入半結(jié)構(gòu)化表格時會保留其原始布局，而非扁平化為純文本。表格被解析為捕獲了標(biāo)題、合并單元格和嵌套關(guān)系的層次化表示。同時，表格也以標(biāo)準(zhǔn)化模式存儲在關(guān)系數(shù)據(jù)庫中，其 Markdown 渲染版本則加入文本知識庫。這種雙存儲方法保持了結(jié)構(gòu)完整性，并同時支持符號查詢和向量檢索。

結(jié)構(gòu)化解析 (Structural Parsing)

系統(tǒng)應(yīng)用多模態(tài)檢測器來區(qū)分標(biāo)題和內(nèi)容單元格，推斷列類型（如離散、連續(xù)），并分析布局以識別嵌入的子表。這些豐富的模式注解為精確推理奠定了基礎(chǔ) 。

語義理解 (Semantic Understanding)

系統(tǒng)會將用戶問題分解為感知文本和表格上下文的特定模態(tài)子查詢。查詢詞匯通過嵌入相似性和類型感知標(biāo)記與數(shù)據(jù)庫模式及文本實體對齊。這種分解能確保表格相關(guān)子查詢被直接用于符號執(zhí)行，而文本子查詢則交由文檔檢索器處理。

表格推理 (Tabular Reasoning)

對于表格子查詢，系統(tǒng)會調(diào)用 NL2SQL 生成器，在關(guān)系數(shù)據(jù)庫上生成可執(zhí)行的 SQL 語句，以執(zhí)行聚合、過濾或多跳連接。得益于評估驅(qū)動的開發(fā)范式，DingAutoEvaluator 會持續(xù)發(fā)現(xiàn)低準(zhǔn)確度的案例，并將其反饋到專用訓(xùn)練循環(huán)中以重新訓(xùn)練 NL2SQL 生成器，從而提高其魯棒性和執(zhí)行可靠性。

表格檢索 (Table Retrieval)

系統(tǒng)采用混合的自頂向下和自底向上檢索策略。檢索過程分兩階段：首先從文本知識庫和 Markdown 渲染的表格中進(jìn)行密集向量召回，然后使用模式感知的相關(guān)性模型進(jìn)行語義重排序。

這種緊密集成結(jié)構(gòu)保留攝入、精確解析、上下文感知分解、符號 SQL 推理和自適應(yīng)檢索的方法，使 Dingtalk-DeepResearch 能夠大規(guī)模處理真實世界中的異構(gòu)數(shù)據(jù)，提供穩(wěn)健的企業(yè)級表格問答能力。

DingAutoEvaluator：數(shù)據(jù)飛輪與持續(xù)優(yōu)化的核心驅(qū)動

DingAutoEvaluator 是 Dingtalk-DeepResearch 實現(xiàn)持續(xù)演進(jìn)的關(guān)鍵。它是一個自動化評估平臺，作為數(shù)據(jù)飛輪和性能演進(jìn)的核心驅(qū)動力，將開發(fā)范式從啟發(fā)式迭代和零星手動檢查轉(zhuǎn)變?yōu)橥耆u估驅(qū)動的方法。

該過程始于不確定性感知案例挖掘。系統(tǒng)會持續(xù)監(jiān)控模型在檢索和生成層面的認(rèn)知不確定性峰值，這些「灰色地帶」的輸出（即模型能力邊緣的推理）會被自動識別并優(yōu)先提交給專家標(biāo)注者。

隨后，平臺中精心策劃的多個「教師模型」會根據(jù)一系列多維度評估指標(biāo)全面檢查框架的輸出。這個統(tǒng)一的測量框架涵蓋了 RAG、LLM、推理、智能體框架和知識庫健康度等多個方面。關(guān)鍵指標(biāo)類別包括：

RAG 評估：如上下文精度和答案忠實度。

LLM 評估：如響應(yīng)準(zhǔn)確性和意圖識別。

推理評估：如邏輯連貫性和思維一致性。

智能體框架評估：如任務(wù)依從性和工具使用正確性。

知識庫評估：如知識過時率。

這些指標(biāo)不僅用于離線基準(zhǔn)測試，還作為在線監(jiān)控循環(huán)中的實時信號，為數(shù)據(jù)飛輪提供高價值案例，并為獎勵建模和持續(xù)優(yōu)化提供信號。

實驗結(jié)果與案例展示：

能力驗證與實際應(yīng)用

論文通過多個實際案例展示了 Dingtalk-DeepResearch 的端到端能力，特別是在復(fù)雜表格數(shù)據(jù)解析、檢索、推理以及多模態(tài)文檔生成方面。

復(fù)雜表格解析、檢索與推理案例

在案例 A中，系統(tǒng)處理了一個包含庫存、多周預(yù)測和多式聯(lián)運計劃的復(fù)雜表格。Dingtalk-DeepResearch 能夠準(zhǔn)確解析多節(jié)生產(chǎn)記錄、發(fā)貨計劃和物流說明，實現(xiàn)精確的信息檢索與合成。該方法可擴展到多個大型文件（如案例中 8 個相似的 1200 行文件），顯示了其魯棒性和實用性。

在案例 B中，系統(tǒng)處理了一個 1200 行的周生產(chǎn)記錄 103，并回答了關(guān)于 2025 年第一季度總產(chǎn)量的提問 104。系統(tǒng)清晰地展示了其端到端流程：

問題分解：將復(fù)雜問題分解為四個步驟，包括定位表格、識別時間范圍、提取數(shù)據(jù)和匯總。

表格檢索與模式鏈接：系統(tǒng)成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106，并將「Q1 2025」鏈接到 13 個具體的周次列。

SQL 生成與執(zhí)行：系統(tǒng)生成了精確的 SUM 聚合 SQL 語句 108，并成功執(zhí)行得出 total_production = 245036。

最終答案：基于執(zhí)行結(jié)果，系統(tǒng)給出了「...2025 年第一季度...所有產(chǎn)品的總產(chǎn)量為 245036 件」的準(zhǔn)確回答。

語義對齊的視覺-語言融合多模態(tài)文檔生成

該框架還展示了其在 Kaggle 競賽案例（厄瓜多爾超市銷售預(yù)測）中的端到端自動化能力。從源代碼、數(shù)據(jù)處理、統(tǒng)計可視化到最終的分析報告，全部由 Dingtalk-DeepResearch 自動生成和執(zhí)行，無需任何人工干預(yù) 。

這證明了系統(tǒng)在一個統(tǒng)一的深度研究工作流中，集成了代碼合成、執(zhí)行和多模態(tài)結(jié)果呈現(xiàn)的能力。

結(jié)論：

面向未來的企業(yè)級自適應(yīng)智能

Dingtalk-DeepResearch 提出了一種統(tǒng)一的多智能體智能框架，專為企業(yè)環(huán)境設(shè)計，其核心優(yōu)勢在于：

熵引導(dǎo)在線學(xué)習(xí)，實現(xiàn)無需頻繁微調(diào) LLM 的自適應(yīng)能力。
大規(guī)模多階段文檔強化學(xué)習(xí)，顯著提升文檔生成的事實準(zhǔn)確性、結(jié)構(gòu)質(zhì)量和用戶對齊度。
結(jié)構(gòu)感知異構(gòu)表格推理，能夠有效處理真實世界中復(fù)雜多樣的表格數(shù)據(jù)。
DingAutoEvaluator 自動化評估引擎，通過不確定性感知案例挖掘和多維度指標(biāo)，形成數(shù)據(jù)飛輪，驅(qū)動模型的持續(xù)優(yōu)化和防范性能退化。

Dingtalk-DeepResearch 已經(jīng)成功部署在企業(yè)內(nèi)部工作流程中，并即將作為釘釘?shù)姆?wù)對外開放，這將為更廣泛的企業(yè)用戶提供適應(yīng)性強、評估驅(qū)動、多模態(tài)推理的復(fù)雜任務(wù)解決方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.