通義千問2.5大模型再升級：18萬億字符訓(xùn)練打造的中英文AI助手

2026-03-09 16:35:13　來源: 科技行者

北京舉報

分享至

如果說人工智能是當(dāng)今科技發(fā)展的明珠，那么大語言模型就是這顆明珠上最璀璨的光芒。來自阿里巴巴集團的研究團隊最近發(fā)布了他們的最新成果——通義千問2.5技術(shù)報告，這項研究于2025年1月發(fā)表，論文編號為arXiv:2412.15115v2。這不僅僅是一次技術(shù)升級，更像是給AI助手來了一次全身改造手術(shù)。

通義千問2.5就像是一位經(jīng)過精心培訓(xùn)的多語言翻譯官，不但能說會道，還能寫能算。與之前版本相比，這次升級可謂脫胎換骨。研究團隊將訓(xùn)練數(shù)據(jù)從原來的7萬億字符大幅擴展到18萬億字符，這就好比一個人的閱讀量從幾千本書增加到幾萬本書，知識儲備自然更加豐富。更重要的是，他們還引入了多階段強化學(xué)習(xí)技術(shù)，讓這個AI助手不僅知識淵博，還更懂得如何與人交流。

這個新版本的通義千問2.5家族成員眾多，從最小的5億參數(shù)版本到最大的720億參數(shù)版本應(yīng)有盡有，就像汽車有經(jīng)濟型、舒適型和豪華型一樣，滿足不同用戶的需求。對于普通用戶來說，最令人興奮的是，這個AI助手現(xiàn)在能夠生成長達8000字的文章，相當(dāng)于一篇小論文的長度，而且在數(shù)學(xué)計算、編程和邏輯推理方面的能力都有了顯著提升。

一、訓(xùn)練數(shù)據(jù)的革命性擴展

在人工智能的世界里，數(shù)據(jù)就像是營養(yǎng)豐富的食材，而模型訓(xùn)練則像是烹飪過程。通義千問2.5的一大突破在于他們準(zhǔn)備了前所未有的豐富食材。研究團隊將預(yù)訓(xùn)練數(shù)據(jù)從7萬億字符擴展到18萬億字符，這相當(dāng)于讓AI閱讀了整個圖書館的藏書。

這些數(shù)據(jù)并不是簡單的堆積，而是經(jīng)過精心篩選和處理的。研究團隊使用了先進的數(shù)據(jù)過濾技術(shù)，就像廚師挑選最好的食材一樣，他們用通義千問2系列模型作為"質(zhì)檢員"，對所有訓(xùn)練數(shù)據(jù)進行多維度評估和篩選。這種方法比之前的篩選技術(shù)更加智能，能夠更準(zhǔn)確地識別高質(zhì)量內(nèi)容，同時過濾掉低質(zhì)量的信息。

在數(shù)學(xué)和編程領(lǐng)域的數(shù)據(jù)方面，研究團隊特別加強了投入。他們整合了通義千問數(shù)學(xué)版和編程版的訓(xùn)練數(shù)據(jù)，讓新模型在這兩個重要領(lǐng)域有了更扎實的基礎(chǔ)。此外，他們還大量使用了合成數(shù)據(jù)，這就像是在真實食材的基礎(chǔ)上，用精湛的廚藝創(chuàng)造出新的美味佳肴。

數(shù)據(jù)配比的優(yōu)化也是一個重要創(chuàng)新。研究團隊發(fā)現(xiàn)，網(wǎng)絡(luò)數(shù)據(jù)中電商、社交媒體和娛樂內(nèi)容往往過多，而科技、學(xué)術(shù)和研究類內(nèi)容相對較少。于是他們采取了"減肥增肌"的策略：減少重復(fù)性強、價值較低的內(nèi)容比例，增加高價值領(lǐng)域的內(nèi)容比重。這種平衡讓模型既能理解日常對話，又能處理專業(yè)問題。

二、模型架構(gòu)的精心設(shè)計

通義千問2.5的架構(gòu)設(shè)計就像一套精密的工具箱，每個工具都有其特定用途。整個系列包含了七個不同規(guī)模的密集模型，參數(shù)量從5億到720億不等，還有兩個混合專家模型用于在線服務(wù)。

在密集模型方面，研究團隊繼續(xù)采用了基于Transformer的解碼器架構(gòu)，這就像是使用經(jīng)過驗證的建筑框架來建造房子。他們集成了多項先進技術(shù)：分組查詢注意力機制讓模型在處理長文本時更高效，SwiGLU激活函數(shù)提供了更好的非線性處理能力，旋轉(zhuǎn)位置編碼技術(shù)幫助模型理解文本中詞匯的相對位置關(guān)系。

混合專家模型的設(shè)計更加巧妙，就像是在標(biāo)準(zhǔn)工具箱的基礎(chǔ)上增加了一套專業(yè)工具。他們將標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)層替換為混合專家層，每一層都包含多個專家網(wǎng)絡(luò)和一個路由機制。這種設(shè)計讓模型能夠根據(jù)輸入內(nèi)容的特點，自動選擇最合適的"專家"來處理，既提高了效率，又保持了性能。

詞匯表的擴展也值得一提。從之前的3個控制標(biāo)記增加到22個，新增的標(biāo)記主要用于工具調(diào)用和其他模型功能。這就像是給工具箱增加了更多專用工具，讓模型能夠處理更復(fù)雜的任務(wù)。

三、預(yù)訓(xùn)練過程的全面優(yōu)化

通義千問2.5的預(yù)訓(xùn)練過程就像是精心安排的學(xué)習(xí)課程，分為幾個階段循序漸進。整個過程不僅規(guī)模龐大，而且精心設(shè)計了各種技術(shù)細(xì)節(jié)來確保最佳效果。

超參數(shù)優(yōu)化是預(yù)訓(xùn)練的核心環(huán)節(jié)。研究團隊建立了專門的縮放定律，用來確定不同規(guī)模模型的最優(yōu)訓(xùn)練參數(shù)。這就像是為不同年齡段的學(xué)生制定不同的學(xué)習(xí)計劃，確保每個模型都能在其規(guī)模下達到最佳性能。他們系統(tǒng)性地研究了學(xué)習(xí)率和批次大小與模型規(guī)模的關(guān)系，涵蓋了從4400萬到140億參數(shù)的密集模型，以及從4400萬到10億激活參數(shù)的混合專家模型。

長文本預(yù)訓(xùn)練采用了分階段策略。初始階段使用4096個字符的上下文長度進行訓(xùn)練，然后逐步擴展到32768個字符。對于通義千問2.5-Turbo版本，他們甚至實施了四階段擴展策略，最終支持高達100萬字符的上下文長度。這種漸進式訓(xùn)練就像學(xué)習(xí)游泳，先在淺水區(qū)練習(xí)基本動作，再逐步挑戰(zhàn)深水區(qū)。

為了提升長文本處理能力，研究團隊還引入了YARN和雙塊注意力機制等技術(shù)。這些技術(shù)讓模型能夠?qū)⑿蛄虚L度擴展到原來的四倍，同時保持在短序列上的優(yōu)秀表現(xiàn)。

四、后訓(xùn)練技術(shù)的雙重革新

通義千問2.5的后訓(xùn)練過程就像是給一個知識淵博的學(xué)者進行社交禮儀和溝通技巧的培訓(xùn)，讓它不僅有知識，還能很好地與人交流。這個過程包含了監(jiān)督微調(diào)和強化學(xué)習(xí)兩大核心技術(shù)。

監(jiān)督微調(diào)階段使用了超過100萬個高質(zhì)量樣本，涵蓋了多個重要領(lǐng)域。在長文本生成方面，他們專門開發(fā)了長回答數(shù)據(jù)集，讓模型能夠生成長達8192字符的高質(zhì)量內(nèi)容。數(shù)學(xué)能力的提升通過整合通義千問數(shù)學(xué)版的鏈?zhǔn)剿季S數(shù)據(jù)來實現(xiàn)，這些數(shù)據(jù)包含了從公開數(shù)據(jù)集到合成問題的多樣化來源。編程能力的增強則依靠通義千問編程版的多語言編程數(shù)據(jù)，支持近40種編程語言。

指令遵循能力的訓(xùn)練采用了基于代碼的驗證框架。這種方法讓大語言模型生成指令和相應(yīng)的驗證代碼，然后通過執(zhí)行反饋進行篩選，確保模型能夠準(zhǔn)確理解和執(zhí)行用戶指令。結(jié)構(gòu)化數(shù)據(jù)理解能力的培訓(xùn)包含了傳統(tǒng)的表格問答、事實驗證等任務(wù)，以及涉及結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜任務(wù)。

強化學(xué)習(xí)階段分為離線和在線兩個部分。離線強化學(xué)習(xí)專注于那些難以用獎勵模型評估的能力，如推理、事實性和指令遵循。研究團隊通過精心構(gòu)建和驗證訓(xùn)練數(shù)據(jù)，確保離線強化學(xué)習(xí)信號既可學(xué)習(xí)又可靠。在線強化學(xué)習(xí)則利用獎勵模型檢測輸出質(zhì)量的細(xì)微差別，包括真實性、有用性、簡潔性、相關(guān)性、無害性和去偏見等方面。

五、全方位性能評估

通義千問2.5的性能評估就像是一場全面的綜合考試，涵蓋了從基礎(chǔ)知識到專業(yè)技能的各個方面。評估結(jié)果顯示，這個新版本在多個關(guān)鍵指標(biāo)上都取得了顯著進步。

基礎(chǔ)模型的評估重點關(guān)注自然語言理解、數(shù)學(xué)、編程、科學(xué)知識、推理和多語言能力。在MMLU基準(zhǔn)測試中，通義千問2.5-72B取得了86.1分的優(yōu)異成績，超越了許多同規(guī)模的競爭對手。在數(shù)學(xué)能力方面，MATH基準(zhǔn)測試的62.1分成績展示了其強大的數(shù)學(xué)推理能力。編程能力在MBPP測試中達到了84.7分，顯著超越了前一版本。

指令調(diào)優(yōu)模型的評估更加全面，包括了開放基準(zhǔn)測試和內(nèi)部評估。在數(shù)學(xué)推理方面，通義千問2.5-72B-Instruct在MATH測試中取得了83.1分，展現(xiàn)出了卓越的數(shù)學(xué)問題解決能力。編程能力在HumanEval測試中達到86.6分，在MBPP測試中取得88.2分，都超越了大多數(shù)競爭對手。

人類偏好對齊的評估結(jié)果同樣令人印象深刻。在Arena-Hard測試中，通義千問2.5-72B-Instruct取得了81.2分，顯著超越了之前版本的48.1分。MTBench評分達到9.35分，也超越了多數(shù)競爭模型。

多語言能力的評估覆蓋了指令遵循、知識利用、數(shù)學(xué)推理和文化理解等多個維度。結(jié)果顯示，通義千問2.5在各個語言和任務(wù)上都表現(xiàn)出了競爭力，特別是在一些傳統(tǒng)上被認(rèn)為是挑戰(zhàn)性的低資源語言上。

六、長文本處理能力的突破

長文本處理能力是通義千問2.5的一大亮點，就像給AI裝上了"超級記憶"。這種能力讓模型能夠理解和生成更長的內(nèi)容，處理更復(fù)雜的任務(wù)。

在RULER基準(zhǔn)測試中，通義千問2.5-72B-Instruct取得了95.1分的優(yōu)異成績，在各個上下文長度上都表現(xiàn)出色。特別值得注意的是，即使在128K字符的長文本處理中，模型仍然能夠保持88.4分的高分。通義千問2.5-Turbo更是實現(xiàn)了對100萬字符上下文的支持，并在1M令牌的密鑰檢索任務(wù)中達到了100%的準(zhǔn)確率。

LV-Eval和LongBench-Chat的測試結(jié)果進一步驗證了模型的長文本處理能力。通義千問2.5-72B-Instruct在256K上下文長度下仍能保持45.2分的性能，遠超其他開源模型。這種能力對于處理長篇文檔、進行深度對話和完成復(fù)雜任務(wù)具有重要意義。

為了提升長文本處理的效率，研究團隊還開發(fā)了基于稀疏注意力的推理優(yōu)化技術(shù)。這種技術(shù)能夠?qū)⒆⒁饬C制的計算負(fù)載減少12.5倍，同時將首字符生成時間縮短3.2到4.3倍，大大提升了用戶體驗。

七、技術(shù)創(chuàng)新與未來展望

通義千問2.5的技術(shù)創(chuàng)新體現(xiàn)在多個方面，每一項都像是精密機器上的關(guān)鍵零件。數(shù)據(jù)質(zhì)量控制技術(shù)讓模型能夠從海量信息中篩選出最有價值的內(nèi)容，混合專家架構(gòu)提高了計算效率，多階段強化學(xué)習(xí)確保了與人類偏好的對齊。

獎勵模型的評估也是一個重要創(chuàng)新。研究團隊發(fā)現(xiàn)，傳統(tǒng)的單一基準(zhǔn)測試可能無法全面反映獎勵模型的真實性能，于是他們開發(fā)了多維度評估框架，包括RewardBench、RMB、PPE和內(nèi)部中文人類偏好基準(zhǔn)等。結(jié)果顯示，通義千問2.5-RM-72B在多個評估維度上都表現(xiàn)出色。

展望未來，研究團隊計劃在三個方向繼續(xù)深化研究。首先是繼續(xù)改進基礎(chǔ)模型，通過整合更廣泛、更多樣化的高質(zhì)量數(shù)據(jù)來提升性能。其次是發(fā)展多模態(tài)能力，將文本、視覺和聽覺等多種模態(tài)整合到統(tǒng)一框架中。最后是增強推理能力，通過推理時計算資源的戰(zhàn)略性擴展來突破當(dāng)前的技術(shù)限制。

這些技術(shù)突破不僅推動了大語言模型領(lǐng)域的發(fā)展，也為人工智能在各個應(yīng)用場景中的部署提供了新的可能性。通義千問2.5強大的性能、靈活的架構(gòu)和廣泛的可用性，使其成為學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的重要資源。

說到底，通義千問2.5的發(fā)布標(biāo)志著大語言模型技術(shù)的又一次重大進步。從18萬億字符的訓(xùn)練數(shù)據(jù)到多階段強化學(xué)習(xí)的應(yīng)用，從5億到720億參數(shù)的全系列覆蓋到100萬字符的長文本支持，每一項技術(shù)細(xì)節(jié)都體現(xiàn)了研究團隊的匠心獨運。對于普通用戶而言，這意味著更智能、更有用的AI助手即將走進我們的日常生活。對于研究者和開發(fā)者來說，這個開源的模型家族提供了強大的工具和靈感源泉。隨著這類技術(shù)的不斷成熟，我們有理由相信，人工智能將在更多領(lǐng)域發(fā)揮重要作用，為人類社會帶來更多便利和可能性。

Q&A

Q1：通義千問2.5相比之前版本有哪些主要改進？

A：主要有三大改進：訓(xùn)練數(shù)據(jù)從7萬億字符擴展到18萬億字符，大幅提升了知識儲備；引入多階段強化學(xué)習(xí)技術(shù)，讓AI更懂得與人交流；支持生成長達8000字的文章，并在數(shù)學(xué)計算和編程能力上顯著提升。

Q2：通義千問2.5能處理多長的文本內(nèi)容？

A：不同版本的處理能力不同，標(biāo)準(zhǔn)版本支持最長128K字符的上下文，而通義千問2.5-Turbo更是支持高達100萬字符的上下文長度，在1M令牌的密鑰檢索任務(wù)中準(zhǔn)確率達到100%。

Q3：普通用戶如何使用通義千問2.5？

A：通義千問2.5提供了從5億到720億參數(shù)的多個版本，開源版本可通過Hugging Face、ModelScope等平臺獲取，商用版本包括通義千問2.5-Turbo和通義千問2.5-Plus可通過阿里云模型工作室使用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.