国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

QwenLong-L1.5發(fā)布:讓30B MoE模型長文本推理能力媲美GPT-5

0
分享至



作為大模型從業(yè)者或研究員的你,是否也曾為一個模型的 “長文本能力” 而興奮,卻在實際應用中發(fā)現(xiàn)它并沒有想象中那么智能?

你大概率也遇到過以下困境之一:

虛假的繁榮: 模型在 “大海撈針” (Needle-in-a-Haystack) 測試中輕松取得高分,營造了一種長文本能力已經(jīng)解決的 “虛假繁榮”。但一旦任務從簡單的信息定位,升級為需要串聯(lián)分散證據(jù)、整合全局信息的多跳推理 (multi-hop reasoning) 時,模型的表現(xiàn)便會急轉(zhuǎn)直下,難以構(gòu)建起完整的邏輯鏈條,暴露出其在深度理解上的真實短板。

訓練的噩夢: 長文本、多任務的訓練數(shù)據(jù)就像一個成分復雜的 “大雜燴”,其多源、多域的特性,讓標準的 RL 算法嚴重 “水土不服”。你精心設計的獎勵函數(shù)(Reward Function)很可能因為數(shù)據(jù)分布的劇烈變化而產(chǎn)生偏差,導致模型性能不升反降。最終,監(jiān)控圖上那劇烈震蕩的獎勵和熵(Entropy)曲線,無情地宣告著訓練過程的 “翻車” 與崩潰。

窗口的天花板: 即使上下文窗口被擴展到 256K,1M 甚至更長,它也終究是一個有限的 “物理內(nèi)存”。然而,現(xiàn)實世界的知識流 —— 分析整個代碼倉庫、研讀一份完整的年度財報、或是精讀一部專業(yè)巨著 —— 其信息量輕易就能突破這個上限。這使得模型在處理這些 “超框”(Out-of-Window)任務時,不得不依賴分塊處理等妥協(xié)方案,最終導致關(guān)鍵全局信息的丟失和端到端推理能力的降級。

如果這些場景讓你倍感熟悉,那么問題很可能不在于你不夠努力,而在于業(yè)界缺少一套完整、端到端的長文本推理后訓練 “配方”(Post-training Recipe)。

針對這一系列挑戰(zhàn),通義文檔智能團隊正式推出QwenLong-L1.5—— 一個基于 Qwen3-30B-A3B 打造的長文本推理專家。我們的核心貢獻,正是提供了這套缺失的 “配方”,它系統(tǒng)性地統(tǒng)一了:

  • 可擴展的高質(zhì)量數(shù)據(jù)合成管線
  • 為長文本定制的強化學習方法
  • 突破物理窗口的智能體架構(gòu)

這套組合拳,旨在一次性解決從 “學不好” 到 “用不了” 的全鏈路難題。



  • 技術(shù)報告: https://huggingface.co/papers/2512.12967
  • GitHub 倉庫: https://github.com/Tongyi-Zhiwen/Qwen-Doc

深入拆解:我們的三大「法寶」

要讓模型真正掌握長文本推理,零敲碎打的優(yōu)化是遠遠不夠的。我們提出了一套系統(tǒng)性的 “組合拳”,包含三大核心法寶,從根本上重塑模型的學習與思考方式。

法寶一:高質(zhì)量 “精神食糧” —— 多跳推理數(shù)據(jù)合成流水線

模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡單的 “大海撈針” 式任務,就如同只讓學生做單選題,卻期望他能寫出長篇論述文。

為了教會模型真正的 “思考”,我們打造了一條新穎的數(shù)據(jù)合成流水線。其核心思想是 “先拆解,后組合”,專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂高積木拼城堡:我們先把一本巨著拆解成一個個知識 “積木”(原子事實),再根據(jù)復雜的 “圖紙”(如知識圖譜、多文檔表格),把這些分布在不同章節(jié)的積木拼成一個宏偉的 “城堡”(復雜問題)。



這條流水線由三大 “出題引擎” 驅(qū)動,能程序化地生成無窮無盡的高質(zhì)量挑戰(zhàn):

  • 知識圖譜引導 (KG-Guided): 自動挖掘文檔間的深層邏輯鏈,生成環(huán)環(huán)相扣的多跳推理題,強制模型進行跨段落、跨文檔的關(guān)聯(lián)思考。
  • 跨文檔表格引擎 (Cross-document Table Engine): 從多個非結(jié)構(gòu)化文檔中自動抽取出數(shù)據(jù),整合成統(tǒng)一的結(jié)構(gòu)化表格,據(jù)此生成需要聚合、統(tǒng)計與復雜計算的數(shù)值推理題。
  • 多智能體自我進化 (MASE): 設計一個由 “出題者”、“解題者”、“檢驗者” 組成的多智能體框架,基于無標簽文檔自動合成通用長文本任務,通過 “出題 - 解題 - 檢驗” 的循環(huán),結(jié)合歷史合成任務提升任務難度和廣度。

法寶二:穩(wěn)定高效的 RL 優(yōu)化策略

強化學習(RL)是提升模型推理能力的關(guān)鍵,但在長文本、多任務場景下,標準的 RL 方法會面臨兩大嚴峻挑戰(zhàn),極易導致訓練崩潰。

第一個挑戰(zhàn)源于數(shù)據(jù)分布的異構(gòu)性。我們的長文本訓練數(shù)據(jù)來自代碼、學術(shù)文獻、財報等多個領(lǐng)域,任務類型也涵蓋了問答、計算、分析等。這種復雜性導致在訓練的每個批次(mini-batch)內(nèi),數(shù)據(jù)分布都會發(fā)生劇烈偏移(distributional drift)。



這種偏移會嚴重干擾獎勵信號(reward)的穩(wěn)定性,并對優(yōu)勢函數(shù)(advantage function)的估計引入巨大噪聲,使得梯度更新方向變得極不可靠。為解決此問題,我們采取了雙重策略:

任務均衡采樣(Task-balanced Sampling): 在構(gòu)建每個訓練批次時,強制從不同的任務類型(如多跳推理、數(shù)值計算、對話記憶等)中均勻抽取樣本,從源頭上保證了批次內(nèi)數(shù)據(jù)分布的相對均衡。

任務專屬優(yōu)勢估計(Task-specific Advantage Estimation): 在計算優(yōu)勢函數(shù)時,我們不再對整個批次的獎勵進行標準化,而是在每個任務類型內(nèi)部獨立進行。這能有效隔離不同任務間迥異的獎勵分布(如 0/1 的稀疏獎勵與 0-1 的密集獎勵),從而為每個任務提供更準確、更穩(wěn)定的優(yōu)勢信號。

第二個挑戰(zhàn)是長文本推理中的信用分配難題(Credit Assignment Problem)。在生成式任務中,一個最終錯誤的答案(negative response)往往包含了大量完全正確的中間推理步驟。傳統(tǒng)的 RL 算法通過一個單一的負向獎勵來懲罰整個序列,這種 “一刀切” 的做法會錯誤地懲罰那些正確的、具有探索價值的步驟,不僅壓制了模型的探索能力,甚至可能導致 “熵坍塌”(entropy collapse)和訓練早停。



為此,我們提出了自適應熵控制策略優(yōu)化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一種基于模型自身不確定性(以策略熵衡量)的動態(tài)梯度屏蔽機制:

當模型在高不確定性(高熵)狀態(tài)下生成了錯誤答案時,AEPO 會主動屏蔽(mask)其負向梯度。這保護了模型的探索性行為,避免因懲罰不成熟的嘗試而喪失學習潛力。

反之,當模型在高置信度(低熵)狀態(tài)下依然犯錯時,負向梯度會被正常施加,以堅決糾正這些高置信度的錯誤。

通過這種動態(tài)的、智能的梯度控制,AEPO 將模型策略的熵穩(wěn)定在一個健康的區(qū)間,完美平衡了探索與利用,從根本上解決了長文本 RL 中的不穩(wěn)定性問題。

法寶三:突破極限的 “外置大腦”—— 記憶管理框架

256K 的上下文窗口,本質(zhì)上是一種有限的 “短期記憶”。當面對浩如煙海的真實世界知識流時,我們需要的不是一個更大的窗口,而是一個全新的工作模式。

為此,我們?yōu)槟P驮O計了一套記憶管理框架 (Memory Management Framework),這相當于給了它一個可無限擴展的 “智能筆記本”。在閱讀超長文檔時,模型不再試圖將所有內(nèi)容硬塞進 “短期記憶”,而是學會了邊讀邊記要點(迭代式記憶更新),形成結(jié)構(gòu)化的記憶,并在需要時高效檢索和利用這些 “筆記”。

但這并非一個孤立的工具。通過巧妙的多階段融合 RL 訓練 (multi-stage fusion RL training),我們將這種 “筆記能力” 與模型與生俱來的 “過目不忘”(窗口內(nèi)推理)能力無縫地融合在了一起。最終得到的,是一個統(tǒng)一的模型 —— 一個既能 “深思” 又能 “博覽” 的全能選手,真正突破了物理窗口的束縛。

效果展示

性能全面飛躍,30B moe 模型實現(xiàn)媲美頂級旗艦的效果!



QwenLong-L1.5 在多個權(quán)威長文本推理基準上取得了令人矚目的成績,其表現(xiàn)可以總結(jié)為:

  • 整體性能飛躍: 相比基線模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴漲 9.9 分!這證明了我們?nèi)缀笥柧?“配方” 的巨大成功。
  • 比肩頂級旗艦: 在多個權(quán)威長文本榜單上,我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業(yè)界頂級閉源模型相媲美的性能,展現(xiàn)了極強的競爭力。
  • 精準的能力躍升: 更值得注意的是,我們的性能提升精準地體現(xiàn)在了最能考驗深度推理能力的復雜任務上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準上,我們分別取得了+31.72、+9.69 和 +6.16 的性能增長!

這并非巧合,而是精準地驗證了我們 “高質(zhì)量精神食糧”(可編程數(shù)據(jù)合成)的有效性 —— 我們專門為模型打造了什么樣的難題,它就在解決這些難題上獲得了最強的能力!

意外之喜:通用能力不降反升!

訓練 “專才” 是否會犧牲 “通才” 能力?這是大模型微調(diào)中常見的 “蹺蹺板” 難題。

我們的答案是:不僅不會,反而會相互促進!



實驗結(jié)果顯示,經(jīng)過長文本強化訓練后,QwenLong-L1.5 不僅沒有出現(xiàn) “偏科” 或 “遺忘”,反而在一系列通用能力上也獲得了顯著提升:

  • 在數(shù)學推理 (AIME25) 任務上表現(xiàn)更優(yōu);
  • 在智能體記憶 (BFCL) 任務中展現(xiàn)出更強的狀態(tài)追蹤能力;
  • 在長對話 (LongMemEval) 場景下,記憶和理解能力大幅增強。

這有力地證明了,提升長程信息整合能力,是一種基礎(chǔ)性的 “認知升級”,其收益會輻射到模型的各項核心能力之中。

挑戰(zhàn)極限:征服 1M~4M Token 超長文本!

當任務長度遠超物理上下文窗口時,模型真正的擴展能力才得以體現(xiàn)。

借助我們的 “外置大腦”(記憶管理框架),QwenLong-L1.5 在處理百萬、甚至四百萬級別的超長任務時,展現(xiàn)出了卓越的性能。



結(jié)果顯示,QwenLong-L1.5 在這些極限挑戰(zhàn)中,性能遠超同類智能體方法,充分驗證了我們框架強大的可擴展性。這表明,我們不僅提升了模型在窗口內(nèi)的能力,更賦予了它突破物理窗口限制、處理無限信息流的巨大潛力。

總結(jié)


總結(jié):我們提出的 QwenLong-L1.5 及其背后的 “數(shù)據(jù)合成 + RL 優(yōu)化 + 記憶管理” 三位一體的后訓練框架,為解決大模型長文本推理難題提供了一條經(jīng)過驗證的、可復現(xiàn)的路徑。

開源呼吁:我們相信開放與共享的力量。相關(guān)技術(shù)細節(jié)已在論文中公布,代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開源。歡迎大家下載使用、交流探討,共同推動長文本技術(shù)的發(fā)展!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
你老公“免死金牌”怎么來的?網(wǎng)友:跟婆婆吵多兇 都感恩一輩子

你老公“免死金牌”怎么來的?網(wǎng)友:跟婆婆吵多兇 都感恩一輩子

夜深愛雜談
2025-12-24 16:45:13
美國“斬殺線”斬落知名童星?

美國“斬殺線”斬落知名童星?

新民晚報
2025-12-28 12:48:10
僅僅第二個賽季,24狀元里薩謝就被探花謝潑德甩開了差距!

僅僅第二個賽季,24狀元里薩謝就被探花謝潑德甩開了差距!

田先生籃球
2025-12-28 19:39:43
山東14歲跆拳道男孩龔泉金去世,多次獲冠軍,姐索賠200萬惹爭議

山東14歲跆拳道男孩龔泉金去世,多次獲冠軍,姐索賠200萬惹爭議

裕豐娛間說
2025-12-28 23:50:31
“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

洲洲影視娛評
2025-12-08 19:52:00
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

鋭娛之樂
2025-12-28 08:48:03
美方終于承認,佩洛西竄臺是步臭棋,臺海環(huán)境已發(fā)生不可逆改變!

美方終于承認,佩洛西竄臺是步臭棋,臺海環(huán)境已發(fā)生不可逆改變!

博覽歷史
2025-12-28 17:40:52
著名材料科學家、教育家吳鋒院士逝世,享年74歲

著名材料科學家、教育家吳鋒院士逝世,享年74歲

澎湃新聞
2025-12-29 14:24:26
官媒曝宗慶后私生活,72歲色心不改,網(wǎng)友:被4房姨太太掏空身體

官媒曝宗慶后私生活,72歲色心不改,網(wǎng)友:被4房姨太太掏空身體

妙知
2025-07-18 09:13:12
60歲多少天吃一次西地那非?怎么吃?一文講清楚

60歲多少天吃一次西地那非?怎么吃?一文講清楚

四度酒話
2025-12-29 13:02:29
成都高新警方通報:男子因糾紛在一店門外引燃易燃物品,其本人當場死亡,并致現(xiàn)場4人受傷

成都高新警方通報:男子因糾紛在一店門外引燃易燃物品,其本人當場死亡,并致現(xiàn)場4人受傷

環(huán)球網(wǎng)資訊
2025-12-28 18:21:22
48歲袁泉素顏逛商場被拍,口罩遮半臉仍一眼認出,眼角細紋搶鏡

48歲袁泉素顏逛商場被拍,口罩遮半臉仍一眼認出,眼角細紋搶鏡

小徐講八卦
2025-12-29 08:25:36
百萬積蓄被妻子偷給兒子男子發(fā)聲:一萬多的“救命錢”也被偷拿給兒子,他一點悔過都沒有

百萬積蓄被妻子偷給兒子男子發(fā)聲:一萬多的“救命錢”也被偷拿給兒子,他一點悔過都沒有

觀威海
2025-12-28 10:42:07
美國人為啥不愛存錢!不是因為他們不想存,而是因為他們不能存

美國人為啥不愛存錢!不是因為他們不想存,而是因為他們不能存

西樓知趣雜談
2025-12-28 11:28:55
槍炮一響黃金萬兩,泰國將成東南亞新王,新加坡躺賺時代要涼

槍炮一響黃金萬兩,泰國將成東南亞新王,新加坡躺賺時代要涼

華山穹劍
2025-12-20 20:03:41
鄭爽在美國越混越差!打官司訴訟費都掏不起,前夫張恒比她還淪落

鄭爽在美國越混越差!打官司訴訟費都掏不起,前夫張恒比她還淪落

心靜物娛
2025-12-29 10:24:28
遼寧省退休人員超916萬,支出養(yǎng)老金3924.3億,人均能領(lǐng)多少錢?

遼寧省退休人員超916萬,支出養(yǎng)老金3924.3億,人均能領(lǐng)多少錢?

云鵬敘事
2025-12-29 05:00:10
SOD旗下十大頂級女老師

SOD旗下十大頂級女老師

孤獨的獨角獸影視
2025-12-29 10:00:08
“怎樣能阻止兒子長高”,母親曬出照片很崩潰:15歲已經(jīng)這樣了

“怎樣能阻止兒子長高”,母親曬出照片很崩潰:15歲已經(jīng)這樣了

卷史
2025-12-28 21:05:14
這8種東西不能用酒精擦,一擦就壞,再也修復不回來了!

這8種東西不能用酒精擦,一擦就壞,再也修復不回來了!

裝修秀
2025-11-13 11:50:03
2025-12-29 17:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12016文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當個賣手機的

頭條要聞

"最快女護士"被指遭中國田協(xié)除名 官方發(fā)聲

頭條要聞

"最快女護士"被指遭中國田協(xié)除名 官方發(fā)聲

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

譚松韻扛劇能力被質(zhì)疑 趙麗穎成女主?

財經(jīng)要聞

翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時代來了

態(tài)度原創(chuàng)

房產(chǎn)
手機
數(shù)碼
旅游
公開課

房產(chǎn)要聞

中旅?三亞藍灣展示中心璀璨綻放,共鑒灣心孤品傳奇

手機要聞

從迭代到蛻變 vivo S50 Pro mini 全面評測:小屏黨的終極答案

數(shù)碼要聞

華為FreeClip 2耳機開啟星閃體驗官招募

旅游要聞

瞰中國|福建周寧:山水為畫

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版