国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

QwenLong-L1.5發(fā)布:讓30B MoE模型長文本推理能力媲美GPT-5

0
分享至



作為大模型從業(yè)者或研究員的你,是否也曾為一個模型的 “長文本能力” 而興奮,卻在實(shí)際應(yīng)用中發(fā)現(xiàn)它并沒有想象中那么智能?

你大概率也遇到過以下困境之一:

虛假的繁榮: 模型在 “大海撈針” (Needle-in-a-Haystack) 測試中輕松取得高分,營造了一種長文本能力已經(jīng)解決的 “虛假繁榮”。但一旦任務(wù)從簡單的信息定位,升級為需要串聯(lián)分散證據(jù)、整合全局信息的多跳推理 (multi-hop reasoning) 時(shí),模型的表現(xiàn)便會急轉(zhuǎn)直下,難以構(gòu)建起完整的邏輯鏈條,暴露出其在深度理解上的真實(shí)短板。

訓(xùn)練的噩夢: 長文本、多任務(wù)的訓(xùn)練數(shù)據(jù)就像一個成分復(fù)雜的 “大雜燴”,其多源、多域的特性,讓標(biāo)準(zhǔn)的 RL 算法嚴(yán)重 “水土不服”。你精心設(shè)計(jì)的獎勵函數(shù)(Reward Function)很可能因?yàn)閿?shù)據(jù)分布的劇烈變化而產(chǎn)生偏差,導(dǎo)致模型性能不升反降。最終,監(jiān)控圖上那劇烈震蕩的獎勵和熵(Entropy)曲線,無情地宣告著訓(xùn)練過程的 “翻車” 與崩潰。

窗口的天花板: 即使上下文窗口被擴(kuò)展到 256K,1M 甚至更長,它也終究是一個有限的 “物理內(nèi)存”。然而,現(xiàn)實(shí)世界的知識流 —— 分析整個代碼倉庫、研讀一份完整的年度財(cái)報(bào)、或是精讀一部專業(yè)巨著 —— 其信息量輕易就能突破這個上限。這使得模型在處理這些 “超框”(Out-of-Window)任務(wù)時(shí),不得不依賴分塊處理等妥協(xié)方案,最終導(dǎo)致關(guān)鍵全局信息的丟失和端到端推理能力的降級。

如果這些場景讓你倍感熟悉,那么問題很可能不在于你不夠努力,而在于業(yè)界缺少一套完整、端到端的長文本推理后訓(xùn)練 “配方”(Post-training Recipe)。

針對這一系列挑戰(zhàn),通義文檔智能團(tuán)隊(duì)正式推出QwenLong-L1.5—— 一個基于 Qwen3-30B-A3B 打造的長文本推理專家。我們的核心貢獻(xiàn),正是提供了這套缺失的 “配方”,它系統(tǒng)性地統(tǒng)一了:

  • 可擴(kuò)展的高質(zhì)量數(shù)據(jù)合成管線
  • 為長文本定制的強(qiáng)化學(xué)習(xí)方法
  • 突破物理窗口的智能體架構(gòu)

這套組合拳,旨在一次性解決從 “學(xué)不好” 到 “用不了” 的全鏈路難題。



  • 技術(shù)報(bào)告: https://huggingface.co/papers/2512.12967
  • GitHub 倉庫: https://github.com/Tongyi-Zhiwen/Qwen-Doc

深入拆解:我們的三大「法寶」

要讓模型真正掌握長文本推理,零敲碎打的優(yōu)化是遠(yuǎn)遠(yuǎn)不夠的。我們提出了一套系統(tǒng)性的 “組合拳”,包含三大核心法寶,從根本上重塑模型的學(xué)習(xí)與思考方式。

法寶一:高質(zhì)量 “精神食糧” —— 多跳推理數(shù)據(jù)合成流水線

模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡單的 “大海撈針” 式任務(wù),就如同只讓學(xué)生做單選題,卻期望他能寫出長篇論述文。

為了教會模型真正的 “思考”,我們打造了一條新穎的數(shù)據(jù)合成流水線。其核心思想是 “先拆解,后組合”,專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂高積木拼城堡:我們先把一本巨著拆解成一個個知識 “積木”(原子事實(shí)),再根據(jù)復(fù)雜的 “圖紙”(如知識圖譜、多文檔表格),把這些分布在不同章節(jié)的積木拼成一個宏偉的 “城堡”(復(fù)雜問題)。



這條流水線由三大 “出題引擎” 驅(qū)動,能程序化地生成無窮無盡的高質(zhì)量挑戰(zhàn):

  • 知識圖譜引導(dǎo) (KG-Guided): 自動挖掘文檔間的深層邏輯鏈,生成環(huán)環(huán)相扣的多跳推理題,強(qiáng)制模型進(jìn)行跨段落、跨文檔的關(guān)聯(lián)思考。
  • 跨文檔表格引擎 (Cross-document Table Engine): 從多個非結(jié)構(gòu)化文檔中自動抽取出數(shù)據(jù),整合成統(tǒng)一的結(jié)構(gòu)化表格,據(jù)此生成需要聚合、統(tǒng)計(jì)與復(fù)雜計(jì)算的數(shù)值推理題。
  • 多智能體自我進(jìn)化 (MASE): 設(shè)計(jì)一個由 “出題者”、“解題者”、“檢驗(yàn)者” 組成的多智能體框架,基于無標(biāo)簽文檔自動合成通用長文本任務(wù),通過 “出題 - 解題 - 檢驗(yàn)” 的循環(huán),結(jié)合歷史合成任務(wù)提升任務(wù)難度和廣度。

法寶二:穩(wěn)定高效的 RL 優(yōu)化策略

強(qiáng)化學(xué)習(xí)(RL)是提升模型推理能力的關(guān)鍵,但在長文本、多任務(wù)場景下,標(biāo)準(zhǔn)的 RL 方法會面臨兩大嚴(yán)峻挑戰(zhàn),極易導(dǎo)致訓(xùn)練崩潰。

第一個挑戰(zhàn)源于數(shù)據(jù)分布的異構(gòu)性。我們的長文本訓(xùn)練數(shù)據(jù)來自代碼、學(xué)術(shù)文獻(xiàn)、財(cái)報(bào)等多個領(lǐng)域,任務(wù)類型也涵蓋了問答、計(jì)算、分析等。這種復(fù)雜性導(dǎo)致在訓(xùn)練的每個批次(mini-batch)內(nèi),數(shù)據(jù)分布都會發(fā)生劇烈偏移(distributional drift)。



這種偏移會嚴(yán)重干擾獎勵信號(reward)的穩(wěn)定性,并對優(yōu)勢函數(shù)(advantage function)的估計(jì)引入巨大噪聲,使得梯度更新方向變得極不可靠。為解決此問題,我們采取了雙重策略:

任務(wù)均衡采樣(Task-balanced Sampling): 在構(gòu)建每個訓(xùn)練批次時(shí),強(qiáng)制從不同的任務(wù)類型(如多跳推理、數(shù)值計(jì)算、對話記憶等)中均勻抽取樣本,從源頭上保證了批次內(nèi)數(shù)據(jù)分布的相對均衡。

任務(wù)專屬優(yōu)勢估計(jì)(Task-specific Advantage Estimation): 在計(jì)算優(yōu)勢函數(shù)時(shí),我們不再對整個批次的獎勵進(jìn)行標(biāo)準(zhǔn)化,而是在每個任務(wù)類型內(nèi)部獨(dú)立進(jìn)行。這能有效隔離不同任務(wù)間迥異的獎勵分布(如 0/1 的稀疏獎勵與 0-1 的密集獎勵),從而為每個任務(wù)提供更準(zhǔn)確、更穩(wěn)定的優(yōu)勢信號。

第二個挑戰(zhàn)是長文本推理中的信用分配難題(Credit Assignment Problem)。在生成式任務(wù)中,一個最終錯誤的答案(negative response)往往包含了大量完全正確的中間推理步驟。傳統(tǒng)的 RL 算法通過一個單一的負(fù)向獎勵來懲罰整個序列,這種 “一刀切” 的做法會錯誤地懲罰那些正確的、具有探索價(jià)值的步驟,不僅壓制了模型的探索能力,甚至可能導(dǎo)致 “熵坍塌”(entropy collapse)和訓(xùn)練早停。



為此,我們提出了自適應(yīng)熵控制策略優(yōu)化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一種基于模型自身不確定性(以策略熵衡量)的動態(tài)梯度屏蔽機(jī)制:

當(dāng)模型在高不確定性(高熵)狀態(tài)下生成了錯誤答案時(shí),AEPO 會主動屏蔽(mask)其負(fù)向梯度。這保護(hù)了模型的探索性行為,避免因懲罰不成熟的嘗試而喪失學(xué)習(xí)潛力。

反之,當(dāng)模型在高置信度(低熵)狀態(tài)下依然犯錯時(shí),負(fù)向梯度會被正常施加,以堅(jiān)決糾正這些高置信度的錯誤。

通過這種動態(tài)的、智能的梯度控制,AEPO 將模型策略的熵穩(wěn)定在一個健康的區(qū)間,完美平衡了探索與利用,從根本上解決了長文本 RL 中的不穩(wěn)定性問題。

法寶三:突破極限的 “外置大腦”—— 記憶管理框架

256K 的上下文窗口,本質(zhì)上是一種有限的 “短期記憶”。當(dāng)面對浩如煙海的真實(shí)世界知識流時(shí),我們需要的不是一個更大的窗口,而是一個全新的工作模式。

為此,我們?yōu)槟P驮O(shè)計(jì)了一套記憶管理框架 (Memory Management Framework),這相當(dāng)于給了它一個可無限擴(kuò)展的 “智能筆記本”。在閱讀超長文檔時(shí),模型不再試圖將所有內(nèi)容硬塞進(jìn) “短期記憶”,而是學(xué)會了邊讀邊記要點(diǎn)(迭代式記憶更新),形成結(jié)構(gòu)化的記憶,并在需要時(shí)高效檢索和利用這些 “筆記”。

但這并非一個孤立的工具。通過巧妙的多階段融合 RL 訓(xùn)練 (multi-stage fusion RL training),我們將這種 “筆記能力” 與模型與生俱來的 “過目不忘”(窗口內(nèi)推理)能力無縫地融合在了一起。最終得到的,是一個統(tǒng)一的模型 —— 一個既能 “深思” 又能 “博覽” 的全能選手,真正突破了物理窗口的束縛。

效果展示

性能全面飛躍,30B moe 模型實(shí)現(xiàn)媲美頂級旗艦的效果!



QwenLong-L1.5 在多個權(quán)威長文本推理基準(zhǔn)上取得了令人矚目的成績,其表現(xiàn)可以總結(jié)為:

  • 整體性能飛躍: 相比基線模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴漲 9.9 分!這證明了我們?nèi)缀笥?xùn)練 “配方” 的巨大成功。
  • 比肩頂級旗艦: 在多個權(quán)威長文本榜單上,我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業(yè)界頂級閉源模型相媲美的性能,展現(xiàn)了極強(qiáng)的競爭力。
  • 精準(zhǔn)的能力躍升: 更值得注意的是,我們的性能提升精準(zhǔn)地體現(xiàn)在了最能考驗(yàn)深度推理能力的復(fù)雜任務(wù)上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準(zhǔn)上,我們分別取得了+31.72、+9.69 和 +6.16 的性能增長!

這并非巧合,而是精準(zhǔn)地驗(yàn)證了我們 “高質(zhì)量精神食糧”(可編程數(shù)據(jù)合成)的有效性 —— 我們專門為模型打造了什么樣的難題,它就在解決這些難題上獲得了最強(qiáng)的能力!

意外之喜:通用能力不降反升!

訓(xùn)練 “專才” 是否會犧牲 “通才” 能力?這是大模型微調(diào)中常見的 “蹺蹺板” 難題。

我們的答案是:不僅不會,反而會相互促進(jìn)!



實(shí)驗(yàn)結(jié)果顯示,經(jīng)過長文本強(qiáng)化訓(xùn)練后,QwenLong-L1.5 不僅沒有出現(xiàn) “偏科” 或 “遺忘”,反而在一系列通用能力上也獲得了顯著提升:

  • 在數(shù)學(xué)推理 (AIME25) 任務(wù)上表現(xiàn)更優(yōu);
  • 在智能體記憶 (BFCL) 任務(wù)中展現(xiàn)出更強(qiáng)的狀態(tài)追蹤能力;
  • 在長對話 (LongMemEval) 場景下,記憶和理解能力大幅增強(qiáng)。

這有力地證明了,提升長程信息整合能力,是一種基礎(chǔ)性的 “認(rèn)知升級”,其收益會輻射到模型的各項(xiàng)核心能力之中。

挑戰(zhàn)極限:征服 1M~4M Token 超長文本!

當(dāng)任務(wù)長度遠(yuǎn)超物理上下文窗口時(shí),模型真正的擴(kuò)展能力才得以體現(xiàn)。

借助我們的 “外置大腦”(記憶管理框架),QwenLong-L1.5 在處理百萬、甚至四百萬級別的超長任務(wù)時(shí),展現(xiàn)出了卓越的性能。



結(jié)果顯示,QwenLong-L1.5 在這些極限挑戰(zhàn)中,性能遠(yuǎn)超同類智能體方法,充分驗(yàn)證了我們框架強(qiáng)大的可擴(kuò)展性。這表明,我們不僅提升了模型在窗口內(nèi)的能力,更賦予了它突破物理窗口限制、處理無限信息流的巨大潛力。

總結(jié)


總結(jié):我們提出的 QwenLong-L1.5 及其背后的 “數(shù)據(jù)合成 + RL 優(yōu)化 + 記憶管理” 三位一體的后訓(xùn)練框架,為解決大模型長文本推理難題提供了一條經(jīng)過驗(yàn)證的、可復(fù)現(xiàn)的路徑。

開源呼吁:我們相信開放與共享的力量。相關(guān)技術(shù)細(xì)節(jié)已在論文中公布,代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開源。歡迎大家下載使用、交流探討,共同推動長文本技術(shù)的發(fā)展!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
汽油用量暴跌得嚇人,數(shù)據(jù)出來大家都驚了!未來油價(jià)會大幅降嗎?

汽油用量暴跌得嚇人,數(shù)據(jù)出來大家都驚了!未來油價(jià)會大幅降嗎?

小李子體育
2026-02-28 19:06:52
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
伊朗革命衛(wèi)隊(duì)最新聲明!

伊朗革命衛(wèi)隊(duì)最新聲明!

占豪
2026-03-01 00:35:19
主人開出服務(wù)區(qū)40公里后才發(fā)現(xiàn)沒帶狗, 回去找時(shí)看到難忘的一幕

主人開出服務(wù)區(qū)40公里后才發(fā)現(xiàn)沒帶狗, 回去找時(shí)看到難忘的一幕

觀察鑒娛
2026-02-28 10:20:09
一旦爆發(fā)世界大戰(zhàn),誰敢直接攻擊美國本土,美上將:只有一個國家

一旦爆發(fā)世界大戰(zhàn),誰敢直接攻擊美國本土,美上將:只有一個國家

風(fēng)流女漢
2026-02-09 23:23:10
蔚來李斌罕見出現(xiàn)在高規(guī)格政治場合

蔚來李斌罕見出現(xiàn)在高規(guī)格政治場合

一見財(cái)經(jīng)
2026-02-28 10:50:47
美以襲擊造成伊朗一學(xué)校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

美以襲擊造成伊朗一學(xué)校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

新華社
2026-02-28 21:03:12
大連男子把車停在路邊,行車記錄儀拍下令人作嘔一幕……

大連男子把車停在路邊,行車記錄儀拍下令人作嘔一幕……

環(huán)球網(wǎng)資訊
2026-03-01 07:57:05
美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實(shí)很簡單

美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實(shí)很簡單

剛哥說法365
2026-02-28 18:42:47
杜聿明晚年談孫立人,直言:賣主求榮的小人,根本不是民族英雄

杜聿明晚年談孫立人,直言:賣主求榮的小人,根本不是民族英雄

阿光的技巧課堂
2026-02-26 18:02:39
“00后”陳某某被押赴刑場 執(zhí)行死刑

“00后”陳某某被押赴刑場 執(zhí)行死刑

閃電新聞
2026-02-07 16:53:35
任弼時(shí)46歲時(shí)猝然離世,毛主席為黨中央定下一條規(guī)矩,用意深遠(yuǎn)

任弼時(shí)46歲時(shí)猝然離世,毛主席為黨中央定下一條規(guī)矩,用意深遠(yuǎn)

寄史言志
2026-02-15 15:07:08
一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一口娛樂
2026-02-28 00:25:03
白馬會所一夜覆滅

白馬會所一夜覆滅

來科點(diǎn)譜
2026-02-28 07:45:18
給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

百態(tài)人間
2026-02-28 15:31:33
87分鐘絕殺!凱恩雙響刷爆紀(jì)錄,3-2雙殺多特,拜仁11分領(lǐng)跑

87分鐘絕殺!凱恩雙響刷爆紀(jì)錄,3-2雙殺多特,拜仁11分領(lǐng)跑

我的護(hù)球最獨(dú)特
2026-03-01 03:33:52
29萬人逃離湖南,22萬出走吉林!人口遷徙洗牌,真正贏家非北上廣

29萬人逃離湖南,22萬出走吉林!人口遷徙洗牌,真正贏家非北上廣

通文知史
2026-02-27 00:00:04
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
小米巴塞羅那炸場!真徠卡手機(jī)1.6萬元開賣,VGT超跑等9大新品齊發(fā)

小米巴塞羅那炸場!真徠卡手機(jī)1.6萬元開賣,VGT超跑等9大新品齊發(fā)

智東西
2026-03-01 02:11:29
元朝僅存97年,卻改寫中國千年國運(yùn)!

元朝僅存97年,卻改寫中國千年國運(yùn)!

沒有偏旁的常慶
2026-02-28 08:00:16
2026-03-01 10:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

家居
旅游
教育
本地
數(shù)碼

家居要聞

素色肌理 品意式格調(diào)

旅游要聞

春晚一鳴,“爾濱”“燃”冬!百萬人潮涌入中央大街,道里區(qū)交出開年最“熱”文旅答卷

教育要聞

專業(yè)排名百分比揭秘!別再理解錯了

本地新聞

津南好·四時(shí)總相宜

數(shù)碼要聞

小米Watch 5智能手表海外發(fā)布,搭載谷歌Wear OS系統(tǒng)

無障礙瀏覽 進(jìn)入關(guān)懷版