国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

經(jīng)驗記憶黑科技,LightSearcher讓AI工具調(diào)用減39.6%、推理快48.6%

0
分享至

以DeepSeek-R1為代表的深度思考大模型能夠處理復雜的推理任務,DeepSearch作為深度思考大模型的核心搜索器,在推理過程中通過迭代調(diào)用外部搜索工具,訪問參數(shù)邊界之外的最新、領域特定知識,從而提升推理的深度和事實可靠性。然而,現(xiàn)有的RL驅動的深度思考大模型系統(tǒng)常常面臨準確率與效率的“蹺蹺板”困境:頻繁調(diào)用搜索工具提升準確性,卻帶來計算開銷和效率低下。具體而言,高頻調(diào)用外部搜索工具雖能補充實時信息、提升推理準確率,但使得推理延遲大幅升高,等待時間可達幾十秒至幾分鐘,從用戶體驗角度來看,若信息加載時間超過10秒,50%的移動用戶會放棄訪問。深度思考大模型系統(tǒng)的長時推理等待無疑會帶來類似的用戶流失風險。反之,減少工具調(diào)用以提升效率,則會因大語言模型內(nèi)部知識局限,導致推理結果準確性與完整性不足。

北郵百家AI團隊提出LightSearcher框架,首創(chuàng)基于經(jīng)驗記憶的高效RL優(yōu)化技術,通過引入文本化經(jīng)驗記憶和自適應獎勵塑造機制,巧妙解決了這一痛點。在保持與SOTA基線ReSearch相當準確率的同時,搜索工具調(diào)用和模型回復時間顯著縮短,搜索工具調(diào)用次數(shù)減少 39.6%,推理時間縮短 48.6%,Token消耗降低 21.2%,在保持模型效果的同時顯著提升了工具調(diào)用效率。


論文標題: LightSearcher: Efficient DeepSearch via Experiential Memory 論文鏈接: https://arxiv.org/abs/2512.06653 百家AI 主頁: https://baijia.online/homepage/index

一、引言

如何教會深度思考大模型策略性地控制搜索工具的使用,優(yōu)化何時以及如何查詢外部知識源,是深度思考大模型亟待解決的問題,現(xiàn)有方法存在顯著缺陷:

  1. 提示工程或監(jiān)督學習方法依賴人工標注,成本高且泛化差;RL驅動方法雖能自主優(yōu)化,但獎勵偏重準確性,導致模型為確保正確而頻繁調(diào)用工具,造成冗余開銷。

  2. 工具調(diào)用“過度依賴”,現(xiàn)有模型往往不分難易,對簡單查詢也反復檢索,導致推理時間延長、token消耗激增;

  3. 準確性與效率失衡,部分方法雖提升準確率,但犧牲效率;另一些雖減少調(diào)用,卻降低答案質(zhì)量,無法兼顧雙重目標。

這些問題導致現(xiàn)有模型要么要么答案不準、可靠性差,要么工具調(diào)用過多、效率低下,難以同時滿足推理準確和高效執(zhí)行的核心需求。

二、LightSearcher框架

為解決上述缺陷,北郵百家AI團隊提出基于經(jīng)驗記憶的高效DeepSearch框架(LightSearcher),核心思路是在大模型強化推理過程中,通過“對比經(jīng)驗學習”將隱性推理軌跡轉化為顯性指導經(jīng)驗,并結合自適應獎勵優(yōu)化工具調(diào)用,具體包含三大關鍵組件:

  1. 對比經(jīng)驗推理機制(Contrastive Experiential Reasoning):收集高低質(zhì)量推理軌跡,通過LLM生成成功模式的自然語言總結(如“簡單查詢優(yōu)先用內(nèi)部知識”),構建動態(tài)經(jīng)驗記憶庫;

  2. 自適應獎勵塑造機制(Adaptive Reward Shaping):引入最小工具調(diào)用基準,僅在答案正確時懲罰冗余調(diào)用,使用指數(shù)衰減函數(shù)動態(tài)平衡準確性和效率,避免盲目優(yōu)化;

  3. 基于經(jīng)驗的RL訓練機制:采用GRPO算法,將積累經(jīng)驗和少樣本示例融入提示模板,指導模型生成高效軌跡,確保探索與利用的均衡。

模型最終優(yōu)化目標為多目標獎勵函數(shù)的加權和,確保工具調(diào)用精簡與答案質(zhì)量的協(xié)同提升。

三、實驗

研究團隊在四個多跳QA基準數(shù)據(jù)集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進行了全面評估,對比了多種主流DeepSearch方法。

3.1 主實驗結果

實驗結果顯示:

  1. 模型準確性保持頂尖: LightSearcher在F1分數(shù)和LLM評判上與SOTA基線ReSearch相當,甚至在部分數(shù)據(jù)集上優(yōu)于ReSearch;

  2. 效率顯著提升: 工具調(diào)用減少39.6%,推理時間縮短48.6%,token消耗降低21.2%;

  3. 泛化能力強:在不同難度的查詢(易/難)上均表現(xiàn)穩(wěn)定,即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經(jīng)驗導致F1下降7.2%,證明其核心作用。


LightSearcher框架通過“經(jīng)驗記憶”這一核心理念,為構建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳QA,未來可擴展到代碼合成、策略規(guī)劃等領域。論成功解決了現(xiàn)有DeepSearch的關鍵痛點:

  • 從隱性到顯性:將對比軌跡轉化為可解釋的推理指導

  • 精準平衡:通過自適應獎勵確保工具調(diào)用最小化

  • 效率優(yōu)先:利用RL訓練維持準確與開銷的連貫性

  • 雙重優(yōu)化:同時提升推理質(zhì)量和執(zhí)行效率,而非顧此失彼

最后,大模型的DeepSearch能力需設計有效的經(jīng)驗機制。相比于復雜的手動標注, LightSearcher通過其“對比經(jīng)驗”的設計思想, 在推理過程依賴可靠的外部知識調(diào)用,為構建更加高效、可靠的AI深度思考系統(tǒng)提供了重要的技術路徑。

llustration From IconScout By IconScout Store

-The End-

本周上新!


掃碼觀看!

“AI技術流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情



關于我“門”

將門是一家以專注于數(shù)智核心科技領域新型創(chuàng)投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。

如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗全球首次超重型高超音速子母彈實戰(zhàn),其性能世界排名如何?

伊朗全球首次超重型高超音速子母彈實戰(zhàn),其性能世界排名如何?

止戈軍是我
2026-03-14 19:46:09
4-2進半決賽!國乒19歲1米86新星崛起大閃耀:王楚欽終于不孤單

4-2進半決賽!國乒19歲1米86新星崛起大閃耀:王楚欽終于不孤單

李喜林籃球絕殺
2026-03-14 15:05:42
率隊進世界杯 曝51歲女足洋帥仍或被解雇 續(xù)約門檻是進亞洲杯決賽

率隊進世界杯 曝51歲女足洋帥仍或被解雇 續(xù)約門檻是進亞洲杯決賽

我愛英超
2026-03-14 16:50:53
投資39億!螞蟻集團全球總部(二期),施工規(guī)模顯現(xiàn)!

投資39億!螞蟻集團全球總部(二期),施工規(guī)模顯現(xiàn)!

GA環(huán)球建筑
2026-03-14 18:15:59
萬億資金哄搶,光模塊之后又一AI核心賽道爆發(fā),核心龍頭鎖定!

萬億資金哄搶,光模塊之后又一AI核心賽道爆發(fā),核心龍頭鎖定!

價值事務所所長
2026-03-14 21:00:58
就在伊朗隔壁,富得流油,卻比朝鮮還封閉,入境仍要核酸!

就在伊朗隔壁,富得流油,卻比朝鮮還封閉,入境仍要核酸!

走吧自駕游
2026-03-09 15:33:17
對判罰不滿,國米戰(zhàn)平亞特蘭大之后決定新聞沉默

對判罰不滿,國米戰(zhàn)平亞特蘭大之后決定新聞沉默

懂球帝
2026-03-15 01:30:50
中國工程院撤下吳曼青、魏毅寅、趙憲庚三位院士名單

中國工程院撤下吳曼青、魏毅寅、趙憲庚三位院士名單

TOP大學來了
2026-03-14 21:15:49
離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

離婚率居高不下!長沙男子測試搭訕,49個女生41個留電話再被提及

火山詩話
2026-03-12 08:48:15
霍爾木茲海峽上周末僅4艘船通過,全球部分海運繞行好望角,多走5500余公里

霍爾木茲海峽上周末僅4艘船通過,全球部分海運繞行好望角,多走5500余公里

紅星新聞
2026-03-14 14:01:47
周末兩大消息解讀,來了個大利好!

周末兩大消息解讀,來了個大利好!

風風順
2026-03-15 00:00:06
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權先生
2026-01-26 15:41:26
山姆超市最值得買的10樣美食,基本都口碑封神,性價比拉滿

山姆超市最值得買的10樣美食,基本都口碑封神,性價比拉滿

市井覓食記
2026-03-09 00:59:33
24小時內(nèi),美國喊話中俄,普京憋了一肚子火,幸虧中國留了一手

24小時內(nèi),美國喊話中俄,普京憋了一肚子火,幸虧中國留了一手

知鑒明史
2026-03-14 06:40:06
川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

就一點
2026-03-08 10:54:42
法比奧隱身獲評低分!8分大腿帶不動御林軍 18歲小將差點兒被打哭

法比奧隱身獲評低分!8分大腿帶不動御林軍 18歲小將差點兒被打哭

刀鋒體育
2026-03-14 21:44:32
現(xiàn)實中的大齡剩女會不會妥協(xié)呢?網(wǎng)友:三年前我追她,現(xiàn)在她追我

現(xiàn)實中的大齡剩女會不會妥協(xié)呢?網(wǎng)友:三年前我追她,現(xiàn)在她追我

另子維愛讀史
2026-03-14 21:07:51
江蘇天氣大反轉!降雨降溫齊登場,濕冷感回歸

江蘇天氣大反轉!降雨降溫齊登場,濕冷感回歸

揚子晚報
2026-03-14 20:57:51
國家終于出手!2026年起,4層以上老房子,電梯補貼這樣領

國家終于出手!2026年起,4層以上老房子,電梯補貼這樣領

離離言幾許
2026-03-14 16:44:29
特朗普稱必要時美軍會護航霍爾木茲海峽 美軍:護不了 日本計劃釋放國家石油儲備

特朗普稱必要時美軍會護航霍爾木茲海峽 美軍:護不了 日本計劃釋放國家石油儲備

每日經(jīng)濟新聞
2026-03-11 21:55:53
2026-03-15 06:36:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術驅動型初創(chuàng)企業(yè)
2310文章數(shù) 596關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩寧孕期出軌 AI反轉引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

游戲
手機
數(shù)碼
公開課
軍事航空

FS社新作終于有新消息!NS2獨占 多人在線

手機要聞

折痕沒了!OPPO Find N6登陸線下門店 網(wǎng)友:這才叫無印良品

數(shù)碼要聞

AWE洗衣機觀察:卷烘干、卷AI,「無感」洗衣才是未來?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關懷版