国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

華人團隊提出智能體自我進化框架,無需人類標注,大幅提升通用推理能力

0
分享至


來源:DeepTech深科技

運營/排版:何晨龍

大語言模型可以從互聯網上海量的文本中學習,但當這些模型需要進化成能夠自主行動的智能體(Agent)時,數據問題變得完全不同。Agent 需要的不是簡單的文本序列,而是包含“觀察-行動-反饋”完整循環(huán)的交互軌跡(trajectory)數據。

相關研究顯示,這類數據的收集正成為 Agent 開發(fā)的最大瓶頸:人工標注成本高昂,合成數據質量難以保證,而記錄現有 Agent 的軌跡又受限于其能力上限。

雖然已有一些自我進化(self-evolution)方法試圖讓模型自己生成訓練數據,但這些方法普遍面臨兩個困境:模型只能生成不超出自身知識范圍的任務,以及僅支持單輪交互而無法處理復雜的多步推理。

面對這個困境,近期,由北卡羅來納大學教堂山分校(UNC)助理教授姚驊修領導的聯合團隊提出了 Agent0 框架,試圖通過引入外部工具和多輪交互來打破這些局限。


圖丨相關論文(來源:arXiv)

Agent0 的核心是一個雙智能體協同進化系統。系統包含兩個從同一基礎模型初始化的 Agent:課程智能體(Curriculum Agent)負責生成問題,執(zhí)行智能體(Executor Agent)則嘗試解決這些問題。

但課程智能體不是隨意出題,而是通過強化學習(Reinforcement Learning,RL)優(yōu)化,專門生成那些恰好處于執(zhí)行智能體能力邊界的任務。

這個邊界如何界定?研究團隊用了一個巧妙的方法:讓執(zhí)行智能體對同一問題生成多個答案,如果答案不一致,說明這個問題正好在它能力的邊緣。

他們將這種不確定性量化為一個獎勵函數,當執(zhí)行智能體的答案分布接近 50% 一致時,也就是最糾結的時候,獎勵最高。這種設計確保了生成的任務既不會太簡單讓模型學不到東西,也不會難到完全無法入手。


圖丨Agent0 自主共演化框架。(來源:arXiv)

但這樣還不夠。如果只靠模型自己的知識生成和解決問題,很快就會陷入停滯,模型不可能憑空創(chuàng)造出超出自己理解范圍的任務。研究團隊的方法是引入外部工具,具體來說是一個 Python 代碼解釋器。

這個工具可以執(zhí)行代碼、進行復雜計算、驗證數學結果。不僅執(zhí)行智能體可以使用這個工具,課程智能體也配備了同樣的能力。

這就形成了一個獨特的協同進化機制。執(zhí)行智能體有了代碼解釋器后,可以解決需要復雜計算的問題,能力邊界向外擴展。這時課程智能體發(fā)現,原來能難倒執(zhí)行智能體的問題現在變簡單了,不確定性獎勵下降。

為了維持獎勵水平,課程智能體被迫生成更復雜的、需要更多工具調用的問題。研究團隊在獎勵函數中特意加入了工具使用頻率的獎勵項,進一步推動這個螺旋上升的過程。


圖丨Agent0 的協同進化循環(huán)(來源:arXiv)

實驗數據驗證了這個機制的有效性。在三輪迭代中,課程智能體生成的任務里平均工具調用次數從 1.65 次增加到 2.60 次,任務難度也確實在上升,用第一輪的執(zhí)行智能體去測試后續(xù)生成的任務,通過率從 64% 持續(xù)下降到 51%。

研究團隊手工檢查了生成的問題樣本:第一輪的問題相對直接,比如“正方形內至少需要多少個點才能保證有兩個點距離不超過 0.25 單位”;到了第三輪,問題演化為“一個滿足特定遞推關系的正整數序列,求第 2024 項除以 1,000 的余數”,這需要設計算法、編寫代碼、處理大數運算。

執(zhí)行智能體的訓練面臨另一個挑戰(zhàn):沒有人工標注,怎么知道答案對不對?系統采用的是多數投票機制,讓執(zhí)行智能體對每個問題生成 10 個答案,把得票最多的答案當作“正確答案”。

但研究團隊意識到這種偽標簽(pseudo-label)的可靠性參差不齊。對于執(zhí)行智能體回答高度一致的簡單任務,多數投票結果可信;對于回答分散的困難任務,偽標簽可能就是錯的。

他們?yōu)榇碎_發(fā)了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動態(tài)策略優(yōu)化)算法。這個算法的核心思路是“看菜下碟”,根據任務的歧義程度動態(tài)調整訓練策略。對于高歧義任務,降低訓練信號的權重,避免模型在可能錯誤的標簽上過度學習。

同時還放寬策略更新的約束,給模型更大的探索空間。標準的強化學習算法為了穩(wěn)定性會嚴格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對困難任務反而不利。

執(zhí)行智能體的訓練還包含一個關鍵設計:多輪交互。不同于傳統的單次輸入-輸出,執(zhí)行代理會進行多步推理:先生成自然語言推理,識別需要計算的部分,生成 Python 代碼,執(zhí)行代碼獲得結果,將結果融入推理過程,必要時進行多輪代碼調用,最終給出答案。這模擬了人類解決復雜問題時“嘗試-反饋-修正”的過程。

當然,不是課程智能體生成的所有任務都適合拿來訓練。系統會根據自洽性分數篩選,只保留那些執(zhí)行智能體自洽性在 0.3 到 0.8 之間的任務——太簡單(接近 1)學不到東西,太難(接近 0)偽標簽不可靠。

在 Qwen3-8B 基礎模型上的測試結果相當可觀。經過三輪迭代,數學推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競賽數學)、GSM8K(小學應用題)、2024 和 2025 年美國數學邀請賽等多個基準上,模型表現也都有穩(wěn)定提升。


圖丨數學推理基準的綜合結果(來源:arXiv)

更重要的是這種方法所表現出的泛化能力。雖然訓練聚焦在數學問題上,但模型在通用推理任務上的表現也提升了約 24%。SuperGPQA(研究生水平的跨學科問題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務語言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說明通過工具輔助培養(yǎng)的多步推理能力確實可以遷移到其他領域。

對比其他無需外部數據的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執(zhí)行器的 Absolute Zero 提升了 10.6%,甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。

消融實驗進一步證明去掉任何一個核心組件都會導致性能下降:如果移除課程智能體的訓練,性能將大幅下跌 9.3%;若不給予工具使用獎勵,則下降 7.2%。

不過,團隊表示這一方法更適合有明確驗證標準的任務,比如數學、編程、邏輯推理。對于創(chuàng)意寫作、風格設計這類主觀性強的任務,多數投票機制就不太管用了。

而且雖然省去了人工標注,但同時訓練兩個 Agent、每個任務生成 10 個候選答案,計算開銷也不小??蚣苣壳耙蕾嚹芴峁┛陀^反饋的工具,對純語言推理或需要人類主觀判斷的任務適用性有限。

但 Agent0 展示的方向值得關注。隨著 Agent 應用越來越廣,軌跡數據需求會持續(xù)增長,完全依賴人工標注顯然不可持續(xù)。Agent0 證明了 AI 系統可以在沒有人類直接監(jiān)督的情況下,通過精心設計的自我博弈和工具輔助實現能力的螺旋式上升。

目前,研究團隊已經將相關代碼開源。

參考資料:

相關論文:https://arxiv.org/pdf/2511.16043

項目地址:https://github.com/aiming-lab/Agent0

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
還差3個罰球!哈登將超越科比,如果能罰進1萬球將成歷史第一人?

還差3個罰球!哈登將超越科比,如果能罰進1萬球將成歷史第一人?

田先生籃球
2025-12-27 22:58:37
每體:巴薩想簽下阿克必須至少報價2500萬,球隊補強選擇有限

每體:巴薩想簽下阿克必須至少報價2500萬,球隊補強選擇有限

懂球帝
2025-12-28 19:35:10
被敲打后,高市果然不敢“拜鬼”,可沒想到她竟扭頭去了這個地方

被敲打后,高市果然不敢“拜鬼”,可沒想到她竟扭頭去了這個地方

諦聽骨語本尊
2025-12-27 23:20:02
葉珂自稱中國人不過洋節(jié)!卻被身后圣誕樹“打臉”,網友怒罵虛偽

葉珂自稱中國人不過洋節(jié)!卻被身后圣誕樹“打臉”,網友怒罵虛偽

春若秋水
2025-12-26 18:35:24
俄主動歸還北方四島!僅提一個條件,日本為啥死活不答應?

俄主動歸還北方四島!僅提一個條件,日本為啥死活不答應?

小雪的運動之心
2025-12-26 11:04:14
為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

為啥"唐氏兒"都長著同一張臉?醫(yī)生一般不說,父母最好要知道

大果小果媽媽
2025-12-28 11:33:24
1953年,王震突然被撤職,毛主席拍桌子:你知不知道,你把中央的大事給搞砸了!

1953年,王震突然被撤職,毛主席拍桌子:你知不知道,你把中央的大事給搞砸了!

桃煙讀史
2025-12-14 18:02:22
甚至來不及準備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

甚至來不及準備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

懂球帝
2025-12-28 16:35:07
中俄為啥不結盟?俄專家:中國拒絕與俄羅斯結盟,原因有3個

中俄為啥不結盟?俄專家:中國拒絕與俄羅斯結盟,原因有3個

博覽歷史
2025-12-26 06:40:03
Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

芊手若
2025-12-26 15:32:19
32歲女老師突發(fā)腦梗去世,校方稱遺體已安葬,同行感嘆口才教育不易

32歲女老師突發(fā)腦梗去世,校方稱遺體已安葬,同行感嘆口才教育不易

極目新聞
2025-12-28 13:48:03
雖然毛主席活了83歲,保健醫(yī)生卻說:其實主席不具備長壽條件

雖然毛主席活了83歲,保健醫(yī)生卻說:其實主席不具備長壽條件

芊芊之言
2025-11-25 00:28:46
他無顯赫出身,靠4任妻子成為知名人物,活到97歲

他無顯赫出身,靠4任妻子成為知名人物,活到97歲

古書記史
2025-12-19 18:18:41
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說
2025-12-28 00:07:11
曝3大瓜!索賠4000萬、婚內出軌生娃、陳坤雙胞胎男孩,個個離譜

曝3大瓜!索賠4000萬、婚內出軌生娃、陳坤雙胞胎男孩,個個離譜

娛說瑜悅
2025-12-05 19:11:08
韓國網友:申真谞被淘汰令人失望 希望樸廷桓芝野虎丸會師決賽

韓國網友:申真谞被淘汰令人失望 希望樸廷桓芝野虎丸會師決賽

勁爆體壇
2025-12-28 19:46:04
李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

娛樂圈圈圓
2025-12-27 10:37:31
哭了!原來有錢人冬天過得這么舒服!網友:不像我一身塑料

哭了!原來有錢人冬天過得這么舒服!網友:不像我一身塑料

另子維愛讀史
2025-12-27 18:24:20
宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應過,要和她葬在一起。”

史海孤雁
2025-12-27 20:40:17

任副省長期間,葉寒冰長期出入私人會所聚餐飲酒

任副省長期間,葉寒冰長期出入私人會所聚餐飲酒

極目新聞
2025-12-27 19:52:27
2025-12-28 20:24:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4426文章數 37358關注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現身冰雪大世界 拍視頻還翻車了

財經要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
健康
時尚
房產
親子

家居要聞

格調時尚 智慧品質居所

這些新療法,讓化療不再那么痛苦

瑞典拉普蘭:凜冽北境的萬物平衡之道

房產要聞

降維打擊!三亞CBD驚現“豪宅新王”,高端局要變天了!

親子要聞

原來真的有學霸父母“學渣”娃的情況!網友:看完瞬間心理平衡!

無障礙瀏覽 進入關懷版