国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

釘釘發(fā)布DeepResearch多智能體框架,已在真實企業(yè)部署

0
分享至



在數(shù)字經濟浪潮中,企業(yè)對于高效、精準的信息獲取與決策支持的需求日益迫切。從前沿科學探索到行業(yè)趨勢分析,再到企業(yè)級決策支持,一個能夠從海量異構數(shù)據(jù)源中提取關鍵知識、執(zhí)行多步驟推理并生成結構化或多模態(tài)輸出的「深度研究系統(tǒng)」正變得不可或缺。

然而,現(xiàn)有的研究系統(tǒng),盡管各自在特定領域有所建樹,卻普遍面臨著難以適應真實世界企業(yè)環(huán)境的挑戰(zhàn):

  • 靜態(tài)架構與缺乏適應性:多數(shù)系統(tǒng)依賴靜態(tài)提示或固定腳本,缺乏從真實世界反饋中學習和優(yōu)化的機制,難以適應不斷變化的業(yè)務需求和數(shù)據(jù)分布。

  • 私有數(shù)據(jù)集成與動態(tài)優(yōu)化不足:現(xiàn)有的研究型智能體,如 OpenAI 的 GPT 代理,在集成公共信息源方面表現(xiàn)出色,但往往難以安全、高效地整合企業(yè)私有數(shù)據(jù),也缺乏動態(tài)優(yōu)化能力。

  • 缺乏自動化評估與持續(xù)優(yōu)化:像 Anthropic 的 Claude Research Workbench 雖然強調安全性與人機協(xié)作,但缺少自動評估和連續(xù)優(yōu)化機制,難以在部署環(huán)境中實現(xiàn)持續(xù)改進。

  • 長短期記憶與動態(tài)演進機制缺失:多數(shù)系統(tǒng)缺乏有效的長短期記憶能力,無法積累和重用歷史經驗,導致智能體在處理復雜、長期任務時效率低下且無法持續(xù)進步。

  • 表格結構化推理與文本合成的脫節(jié):企業(yè)數(shù)據(jù)中包含大量半結構化或復雜表格,但現(xiàn)有系統(tǒng)往往難以將表格的精確符號推理與非結構化文本的生成合成有效結合。

  • 缺乏評估驅動的閉環(huán)迭代:許多系統(tǒng)缺少一個評估驅動的閉環(huán)優(yōu)化流程,無法系統(tǒng)性地識別低性能案例、進行有針對性的改進并防止性能退化。

為了填補這些空白,阿里巴巴釘釘(Dingtalk)團隊提出了Dingtalk-DeepResearch,一個為復雜、演進的企業(yè)任務設計的統(tǒng)一多智能體智能框架,旨在整合深度研究生成、異構表格推理和多模態(tài)報告合成,從而提供一個適應性強、可部署、企業(yè)級的解決方案。



  • 論文標題:Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
  • 論文地址:https://arxiv.org/abs/2510.24760

Dingtalk-DeepResearch 在國際權威深度研究評測 DeepResearch Bench 中取得48.49高分(全球第二、國內第一),顯著超越包括 OpenAI、Claude 在內的主流系統(tǒng);并在 ResearcherBench 達到0.7032平均覆蓋率(全球第三、國內第一)。





更關鍵的是,該框架已穩(wěn)定部署于制造業(yè)、供應鏈等真實企業(yè)場景,能夠在復雜異構表格、多階段推理與多模態(tài)生成任務中保持行業(yè)領先的準確性和穩(wěn)健性,實現(xiàn)了國際頂級基準與實際生產落地的雙重突破。

總體架構:

構建企業(yè)智能的大腦

Dingtalk-DeepResearch 框架采用分層設計,旨在為企業(yè)提供一個全面而靈活的智能中樞:



Dingtalk-DeepResearch Agent Studio:這一層提供了專業(yè)的智能體,專門用于深度研究、表格數(shù)據(jù)處理和數(shù)據(jù)分析。同時,它也支持可定制的個人智能體,以滿足不同用戶的特定需求。這體現(xiàn)了框架的 flexibility 和個性化能力。

Dingtalk-DeepResearch Core:這一層作為框架的「大腦」,它集成了上下文壓縮、推理與規(guī)劃、長短期記憶和人機協(xié)作控制等關鍵功能。該核心還包括一個自演進引擎 (DingAutoEvaluator)和一套豐富的集成工具,支持代碼執(zhí)行、網絡搜索、文件與表格檢索及多模態(tài)處理。值得注意的是,它能與釘釘生態(tài)系統(tǒng)連接,并在用戶授權下安全訪問個人工作文檔。所有這些能力均由經過 CPT、SFT 和 RL 訓練的 LLM 驅動。

Dingtalk-DeepResearch Data Layer:這一層是一個統(tǒng)一的數(shù)據(jù)骨干。它整合了知識圖譜、數(shù)據(jù)庫、緩存以及包括對話、音視頻、圖、文本和表格在內的多模態(tài)數(shù)據(jù)集。該層匯集了業(yè)務、行業(yè)、個人及合成數(shù)據(jù),為智能體檢索和關聯(lián)多樣化的企業(yè)及行業(yè)數(shù)據(jù)提供了基礎。

詳細方法:

自適應智能的核心機制

Dingtalk-DeepResearch 的創(chuàng)新之處在于其獨特的方法論,尤其是在文檔生成、在線學習和表格推理方面。

大規(guī)模多階段文檔強化學習:構建文檔生成專家

為了賦予 Dingtalk-DeepResearch 強大的文檔生成能力,該框架設計了一個多階段訓練管道,結合了大規(guī)模獎勵建模、結構化查詢格式的監(jiān)督微調以及在靜態(tài)和實時內容流上的強化學習,并通過真實用戶數(shù)據(jù)進行在線偏好優(yōu)化。

  • 階段 1:獎勵模型(Doc-RM)訓練

此階段的目標是訓練一個文檔專屬的獎勵模型(Doc-RM)。團隊使用了約 80 萬個人工標注的正負樣本對 ,這些樣本根據(jù)事實準確性、語義覆蓋、邏輯結構和呈現(xiàn)清晰度進行評估 。該模型將作為后續(xù)強化學習階段的評分骨干 。

  • 階段 2:結構化查詢格式的冷啟動監(jiān)督微調 (SFT)

為使模型掌握特定的輸出格式,團隊使用了 3,200 個精選樣本進行 SFT 。這些樣本涵蓋四大類格式:視覺呈現(xiàn)生成(如 Markdown 格式的 PPT)、結構化數(shù)據(jù)解釋(如表格解析)、綜合多章節(jié)敘述 和領域特定模板 。此階段會獎勵兼具內容準確性、邏輯結構和美觀文本格式的輸出 ,為后續(xù) RL 調優(yōu)奠定基礎 。

  • 階段 3:靜態(tài)文檔集合上的強化學習 (RL)

利用訓練好的 Doc-RM 作為獎勵函數(shù) ,智能體在大型離線文檔庫上進行強化學習。它通過檢索靜態(tài)文檔、合成答案,并根據(jù)覆蓋范圍、事實正確性和連貫性獲得獎勵 ,從而在受控環(huán)境中建立穩(wěn)定的合成能力基線 。

  • 階段 4:實時文檔獲取上的強化學習 (RL)

為處理時效性信息,RL 被擴展到實時內容檢索 。團隊設計了 10,000 個時間敏感查詢 ,覆蓋了需要避免「事后偏見」的場景(如財務預測)和需要最新信息的「過時信息」場景(如突發(fā)新聞)。系統(tǒng)通過實時搜索獲取最新文檔,并由 Doc-RM 結合定制的獎懲結構(強調時間正確性)進行評分 。

  • 階段 5:基于 Copilot 的真實用戶交互在線直接偏好優(yōu)化 (DPO)

在實際部署中,系統(tǒng)作為用戶 Copilot 運行 。通過收集模型的原始輸出和用戶的編輯版本,系統(tǒng)會提取高影響力的差異 ,并將其構造成在線 DPO 數(shù)據(jù)集,從而持續(xù)向用戶的特定偏好進行微調 。

通過這一多階段方法,Dingtalk-DeepResearch 不僅獲得了強大的文檔生成能力,還實現(xiàn)了對不斷變化的真實世界信息需求的自適應響應。

熵引導記憶檢索自適應在線學習:無需微調 LLM 的持續(xù)演進

Dingtalk-DeepResearch 的一個顯著特點是其熵引導、記憶感知的在線學習機制。該機制允許智能體在不微調底層 LLM 參數(shù)的情況下,持續(xù)適應不斷演變的任務。系統(tǒng)并非依賴靜態(tài)提示,而是從一個外部的 episodic memory bank 中動態(tài)選擇和重用先前的案例 ,平衡了對高價值經驗的利用和對多樣化歷史情境的探索。

智能體會根據(jù)當前任務狀態(tài)計算存儲案例的概率分布,該分布受其估計的 Q 值和溫度參數(shù)的調節(jié) 。這鼓勵了對替代案例的探索,減輕了對早期經驗的過擬合 。同時,記憶感知組件通過學習到的語義相似性來確保上下文相關性,從而準確地重新應用多步驟推理模式和工具調用序列 。

該機制被集成到規(guī)劃器-執(zhí)行器循環(huán)中 ,每次執(zhí)行都會更新案例庫,在線重新訓練檢索策略,并逐步提高推理性能 。此外,該系統(tǒng)將這種記憶驅動的范式擴展到個性化層面,通過構建用戶畫像、文檔交互歷史和先前工作流的長期結構化記憶 ,智能體能夠更深入地理解用戶的工作風格和需求,從而提供日益相關和高效的輔助。

結構感知異構表格解析、檢索與推理:企業(yè)級數(shù)據(jù)處理的利器

在企業(yè)環(huán)境中,表格數(shù)據(jù)往往與文本敘述混合,形式多樣且結構復雜。Dingtalk-DeepResearch 的表格問答模塊通過結合布局感知表格建模和異構檢索-執(zhí)行,實現(xiàn)了精確且可解釋的推理。

  • 數(shù)據(jù)攝入 (Data Ingestion)

系統(tǒng)在攝入半結構化表格時會保留其原始布局,而非扁平化為純文本。表格被解析為捕獲了標題、合并單元格和嵌套關系的層次化表示。同時,表格也以標準化模式存儲在關系數(shù)據(jù)庫中,其 Markdown 渲染版本則加入文本知識庫。這種雙存儲方法保持了結構完整性,并同時支持符號查詢和向量檢索。

  • 結構化解析 (Structural Parsing)

系統(tǒng)應用多模態(tài)檢測器來區(qū)分標題和內容單元格 ,推斷列類型(如離散、連續(xù)),并分析布局以識別嵌入的子表 。這些豐富的模式注解為精確推理奠定了基礎 。

  • 語義理解 (Semantic Understanding)

系統(tǒng)會將用戶問題分解為感知文本和表格上下文的特定模態(tài)子查詢 。查詢詞匯通過嵌入相似性和類型感知標記與數(shù)據(jù)庫模式及文本實體對齊 。這種分解能確保表格相關子查詢被直接用于符號執(zhí)行,而文本子查詢則交由文檔檢索器處理 。

  • 表格推理 (Tabular Reasoning)

對于表格子查詢,系統(tǒng)會調用 NL2SQL 生成器 ,在關系數(shù)據(jù)庫上生成可執(zhí)行的 SQL 語句,以執(zhí)行聚合、過濾或多跳連接 。得益于評估驅動的開發(fā)范式,DingAutoEvaluator 會持續(xù)發(fā)現(xiàn)低準確度的案例 ,并將其反饋到專用訓練循環(huán)中以重新訓練 NL2SQL 生成器 ,從而提高其魯棒性和執(zhí)行可靠性 。

  • 表格檢索 (Table Retrieval)

系統(tǒng)采用混合的自頂向下和自底向上檢索策略 。檢索過程分兩階段:首先從文本知識庫和 Markdown 渲染的表格中進行密集向量召回 ,然后使用模式感知的相關性模型進行語義重排序 。

這種緊密集成結構保留攝入、精確解析、上下文感知分解、符號 SQL 推理和自適應檢索的方法,使 Dingtalk-DeepResearch 能夠大規(guī)模處理真實世界中的異構數(shù)據(jù),提供穩(wěn)健的企業(yè)級表格問答能力。

DingAutoEvaluator:數(shù)據(jù)飛輪與持續(xù)優(yōu)化的核心驅動

DingAutoEvaluator 是 Dingtalk-DeepResearch 實現(xiàn)持續(xù)演進的關鍵。它是一個自動化評估平臺,作為數(shù)據(jù)飛輪和性能演進的核心驅動力,將開發(fā)范式從啟發(fā)式迭代和零星手動檢查轉變?yōu)橥耆u估驅動的方法。

該過程始于不確定性感知案例挖掘。系統(tǒng)會持續(xù)監(jiān)控模型在檢索和生成層面的認知不確定性峰值 ,這些「灰色地帶」的輸出(即模型能力邊緣的推理)會被自動識別并優(yōu)先提交給專家標注者 。

隨后,平臺中精心策劃的多個「教師模型」會根據(jù)一系列多維度評估指標全面檢查框架的輸出 。這個統(tǒng)一的測量框架 涵蓋了 RAG、LLM、推理、智能體框架和知識庫健康度等多個方面 。關鍵指標類別包括:

  • RAG 評估:如上下文精度和答案忠實度。

  • LLM 評估:如響應準確性和意圖識別。

  • 推理評估:如邏輯連貫性和思維一致性。

  • 智能體框架評估:如任務依從性和工具使用正確性。

  • 知識庫評估:如知識過時率 。

這些指標不僅用于離線基準測試,還作為在線監(jiān)控循環(huán)中的實時信號,為數(shù)據(jù)飛輪提供高價值案例,并為獎勵建模和持續(xù)優(yōu)化提供信號。

實驗結果與案例展示:

能力驗證與實際應用

論文通過多個實際案例展示了 Dingtalk-DeepResearch 的端到端能力,特別是在復雜表格數(shù)據(jù)解析、檢索、推理以及多模態(tài)文檔生成方面。

復雜表格解析、檢索與推理案例

在案例 A中,系統(tǒng)處理了一個包含庫存、多周預測和多式聯(lián)運計劃的復雜表格。Dingtalk-DeepResearch 能夠準確解析多節(jié)生產記錄、發(fā)貨計劃和物流說明,實現(xiàn)精確的信息檢索與合成。該方法可擴展到多個大型文件(如案例中 8 個相似的 1200 行文件),顯示了其魯棒性和實用性。



在案例 B中,系統(tǒng)處理了一個 1200 行的周生產記錄 103,并回答了關于 2025 年第一季度總產量的提問 104。系統(tǒng)清晰地展示了其端到端流程:

  • 問題分解:將復雜問題分解為四個步驟,包括定位表格、識別時間范圍、提取數(shù)據(jù)和匯總。

  • 表格檢索與模式鏈接:系統(tǒng)成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106,并將「Q1 2025」鏈接到 13 個具體的周次列。

  • SQL 生成與執(zhí)行:系統(tǒng)生成了精確的 SUM 聚合 SQL 語句 108,并成功執(zhí)行得出 total_production = 245036。



  • 最終答案:基于執(zhí)行結果,系統(tǒng)給出了「...2025 年第一季度...所有產品的總產量為 245036 件」的準確回答。



語義對齊的視覺-語言融合多模態(tài)文檔生成

該框架還展示了其在 Kaggle 競賽案例(厄瓜多爾超市銷售預測)中的端到端自動化能力 。從源代碼、數(shù)據(jù)處理、統(tǒng)計可視化到最終的分析報告,全部由 Dingtalk-DeepResearch 自動生成和執(zhí)行,無需任何人工干預 。

這證明了系統(tǒng)在一個統(tǒng)一的深度研究工作流中,集成了代碼合成、執(zhí)行和多模態(tài)結果呈現(xiàn)的能力 。





結論:

面向未來的企業(yè)級自適應智能

Dingtalk-DeepResearch 提出了一種統(tǒng)一的多智能體智能框架,專為企業(yè)環(huán)境設計,其核心優(yōu)勢在于:

  • 熵引導在線學習,實現(xiàn)無需頻繁微調 LLM 的自適應能力。
  • 大規(guī)模多階段文檔強化學習,顯著提升文檔生成的事實準確性、結構質量和用戶對齊度。
  • 結構感知異構表格推理,能夠有效處理真實世界中復雜多樣的表格數(shù)據(jù)。
  • DingAutoEvaluator 自動化評估引擎,通過不確定性感知案例挖掘和多維度指標,形成數(shù)據(jù)飛輪,驅動模型的持續(xù)優(yōu)化和防范性能退化。

Dingtalk-DeepResearch 已經成功部署在企業(yè)內部工作流程中,并即將作為釘釘?shù)姆諏ν忾_放,這將為更廣泛的企業(yè)用戶提供適應性強、評估驅動、多模態(tài)推理的復雜任務解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“重大作戰(zhàn)”,要打多久?

“重大作戰(zhàn)”,要打多久?

中國新聞周刊
2026-02-28 20:19:57
王毅同法國外長通電話:希望法方同中方一道推動局勢朝緩和方向發(fā)展

王毅同法國外長通電話:希望法方同中方一道推動局勢朝緩和方向發(fā)展

澎湃新聞
2026-03-02 21:09:24
劇變48小時:美以突襲伊朗,火線蔓延到了哪里?整個波斯灣被波及

劇變48小時:美以突襲伊朗,火線蔓延到了哪里?整個波斯灣被波及

紅星新聞
2026-03-02 18:39:13
五角大樓怒了!F-35首席教官去中國打工,難怪我軍總能逮個正著

五角大樓怒了!F-35首席教官去中國打工,難怪我軍總能逮個正著

書紀文譚
2026-02-28 16:48:05
贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

贏球僅1天,中國男籃壞消息傳來:將失去1個主場,沖4連勝難了

墨印齋
2026-03-02 19:24:09
中東打完就認慫?特朗普呼吁對話,美媒慌問:中美沖突怎么打?

中東打完就認慫?特朗普呼吁對話,美媒慌問:中美沖突怎么打?

我是孤獨的小船
2026-03-03 05:39:03
美經濟學家:美國出現(xiàn)了嚴重戰(zhàn)略誤判,壓根沒料到中國會這么強大

美經濟學家:美國出現(xiàn)了嚴重戰(zhàn)略誤判,壓根沒料到中國會這么強大

樂天閑聊
2025-12-01 10:29:34
咸魚還是太全面了,怪不得人稱國內黑市

咸魚還是太全面了,怪不得人稱國內黑市

另子維愛讀史
2025-12-20 17:07:20
有消息稱“美軍戰(zhàn)機系被友軍誤擊”

有消息稱“美軍戰(zhàn)機系被友軍誤擊”

南方都市報
2026-03-02 14:50:40
縣政府投書人民日報稱“讀者反映情況不屬實”,記者兩赴調查:自來水確實時有時無

縣政府投書人民日報稱“讀者反映情況不屬實”,記者兩赴調查:自來水確實時有時無

上觀新聞
2026-03-02 09:40:04
徹底告別!品冠爆料大S女兒轉學內幕,馬筱梅的負面新聞是導火索

徹底告別!品冠爆料大S女兒轉學內幕,馬筱梅的負面新聞是導火索

小樾說歷史
2026-03-01 14:50:10
沙特堅決否認:我們沒有!

沙特堅決否認:我們沒有!

環(huán)球時報國際
2026-03-02 13:33:37
又有兩國參戰(zhàn)中東!關鍵時刻,美媒曝出消息:沙特把中國也騙了?

又有兩國參戰(zhàn)中東!關鍵時刻,美媒曝出消息:沙特把中國也騙了?

東極妙嚴
2026-03-02 12:27:01
美股三大指數(shù)收盤漲跌不一,英偉達漲約3%

美股三大指數(shù)收盤漲跌不一,英偉達漲約3%

每日經濟新聞
2026-03-03 05:11:05
比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

齋戒期間突尼斯聯(lián)賽下午一點比賽,終場哨響兩隊球員體力不支均趴窩

懂球帝
2026-03-02 22:29:12
多名市民稱,自己遭行政執(zhí)法人員索要現(xiàn)金

多名市民稱,自己遭行政執(zhí)法人員索要現(xiàn)金

北京鄭律師
2026-03-02 16:39:09
體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

體制內情商高能帶來啥意外驚喜?網友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
阿里的復仇:一場遲到了十年的清算

阿里的復仇:一場遲到了十年的清算

快消經緯
2026-02-28 18:58:05
離岸人民幣兌美元跌破6.88

離岸人民幣兌美元跌破6.88

每日經濟新聞
2026-03-02 08:44:35
2026-03-03 06:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

油價飆升 美伊沖突將如何攪動全球經濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術
教育
游戲
旅游
公開課

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

教育要聞

畢業(yè)大游戲-譚劍-2026年3月2日 (游戲AI設計第1次課第1節(jié))

魔獸時光服:玩家怒懟,裝備暴跌全因版本規(guī)劃問題,真相是什么?

旅游要聞

尋禮曲阜感受年味(新春走基層)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版