国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

通義千問2.5大模型再升級:18萬億字符訓(xùn)練打造的中英文AI助手

0
分享至


如果說人工智能是當(dāng)今科技發(fā)展的明珠,那么大語言模型就是這顆明珠上最璀璨的光芒。來自阿里巴巴集團的研究團隊最近發(fā)布了他們的最新成果——通義千問2.5技術(shù)報告,這項研究于2025年1月發(fā)表,論文編號為arXiv:2412.15115v2。這不僅僅是一次技術(shù)升級,更像是給AI助手來了一次全身改造手術(shù)。

通義千問2.5就像是一位經(jīng)過精心培訓(xùn)的多語言翻譯官,不但能說會道,還能寫能算。與之前版本相比,這次升級可謂脫胎換骨。研究團隊將訓(xùn)練數(shù)據(jù)從原來的7萬億字符大幅擴展到18萬億字符,這就好比一個人的閱讀量從幾千本書增加到幾萬本書,知識儲備自然更加豐富。更重要的是,他們還引入了多階段強化學(xué)習(xí)技術(shù),讓這個AI助手不僅知識淵博,還更懂得如何與人交流。

這個新版本的通義千問2.5家族成員眾多,從最小的5億參數(shù)版本到最大的720億參數(shù)版本應(yīng)有盡有,就像汽車有經(jīng)濟型、舒適型和豪華型一樣,滿足不同用戶的需求。對于普通用戶來說,最令人興奮的是,這個AI助手現(xiàn)在能夠生成長達8000字的文章,相當(dāng)于一篇小論文的長度,而且在數(shù)學(xué)計算、編程和邏輯推理方面的能力都有了顯著提升。

一、訓(xùn)練數(shù)據(jù)的革命性擴展

在人工智能的世界里,數(shù)據(jù)就像是營養(yǎng)豐富的食材,而模型訓(xùn)練則像是烹飪過程。通義千問2.5的一大突破在于他們準(zhǔn)備了前所未有的豐富食材。研究團隊將預(yù)訓(xùn)練數(shù)據(jù)從7萬億字符擴展到18萬億字符,這相當(dāng)于讓AI閱讀了整個圖書館的藏書。

這些數(shù)據(jù)并不是簡單的堆積,而是經(jīng)過精心篩選和處理的。研究團隊使用了先進的數(shù)據(jù)過濾技術(shù),就像廚師挑選最好的食材一樣,他們用通義千問2系列模型作為"質(zhì)檢員",對所有訓(xùn)練數(shù)據(jù)進行多維度評估和篩選。這種方法比之前的篩選技術(shù)更加智能,能夠更準(zhǔn)確地識別高質(zhì)量內(nèi)容,同時過濾掉低質(zhì)量的信息。

在數(shù)學(xué)和編程領(lǐng)域的數(shù)據(jù)方面,研究團隊特別加強了投入。他們整合了通義千問數(shù)學(xué)版和編程版的訓(xùn)練數(shù)據(jù),讓新模型在這兩個重要領(lǐng)域有了更扎實的基礎(chǔ)。此外,他們還大量使用了合成數(shù)據(jù),這就像是在真實食材的基礎(chǔ)上,用精湛的廚藝創(chuàng)造出新的美味佳肴。

數(shù)據(jù)配比的優(yōu)化也是一個重要創(chuàng)新。研究團隊發(fā)現(xiàn),網(wǎng)絡(luò)數(shù)據(jù)中電商、社交媒體和娛樂內(nèi)容往往過多,而科技、學(xué)術(shù)和研究類內(nèi)容相對較少。于是他們采取了"減肥增肌"的策略:減少重復(fù)性強、價值較低的內(nèi)容比例,增加高價值領(lǐng)域的內(nèi)容比重。這種平衡讓模型既能理解日常對話,又能處理專業(yè)問題。

二、模型架構(gòu)的精心設(shè)計

通義千問2.5的架構(gòu)設(shè)計就像一套精密的工具箱,每個工具都有其特定用途。整個系列包含了七個不同規(guī)模的密集模型,參數(shù)量從5億到720億不等,還有兩個混合專家模型用于在線服務(wù)。

在密集模型方面,研究團隊繼續(xù)采用了基于Transformer的解碼器架構(gòu),這就像是使用經(jīng)過驗證的建筑框架來建造房子。他們集成了多項先進技術(shù):分組查詢注意力機制讓模型在處理長文本時更高效,SwiGLU激活函數(shù)提供了更好的非線性處理能力,旋轉(zhuǎn)位置編碼技術(shù)幫助模型理解文本中詞匯的相對位置關(guān)系。

混合專家模型的設(shè)計更加巧妙,就像是在標(biāo)準(zhǔn)工具箱的基礎(chǔ)上增加了一套專業(yè)工具。他們將標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)層替換為混合專家層,每一層都包含多個專家網(wǎng)絡(luò)和一個路由機制。這種設(shè)計讓模型能夠根據(jù)輸入內(nèi)容的特點,自動選擇最合適的"專家"來處理,既提高了效率,又保持了性能。

詞匯表的擴展也值得一提。從之前的3個控制標(biāo)記增加到22個,新增的標(biāo)記主要用于工具調(diào)用和其他模型功能。這就像是給工具箱增加了更多專用工具,讓模型能夠處理更復(fù)雜的任務(wù)。

三、預(yù)訓(xùn)練過程的全面優(yōu)化

通義千問2.5的預(yù)訓(xùn)練過程就像是精心安排的學(xué)習(xí)課程,分為幾個階段循序漸進。整個過程不僅規(guī)模龐大,而且精心設(shè)計了各種技術(shù)細(xì)節(jié)來確保最佳效果。

超參數(shù)優(yōu)化是預(yù)訓(xùn)練的核心環(huán)節(jié)。研究團隊建立了專門的縮放定律,用來確定不同規(guī)模模型的最優(yōu)訓(xùn)練參數(shù)。這就像是為不同年齡段的學(xué)生制定不同的學(xué)習(xí)計劃,確保每個模型都能在其規(guī)模下達到最佳性能。他們系統(tǒng)性地研究了學(xué)習(xí)率和批次大小與模型規(guī)模的關(guān)系,涵蓋了從4400萬到140億參數(shù)的密集模型,以及從4400萬到10億激活參數(shù)的混合專家模型。

長文本預(yù)訓(xùn)練采用了分階段策略。初始階段使用4096個字符的上下文長度進行訓(xùn)練,然后逐步擴展到32768個字符。對于通義千問2.5-Turbo版本,他們甚至實施了四階段擴展策略,最終支持高達100萬字符的上下文長度。這種漸進式訓(xùn)練就像學(xué)習(xí)游泳,先在淺水區(qū)練習(xí)基本動作,再逐步挑戰(zhàn)深水區(qū)。

為了提升長文本處理能力,研究團隊還引入了YARN和雙塊注意力機制等技術(shù)。這些技術(shù)讓模型能夠?qū)⑿蛄虚L度擴展到原來的四倍,同時保持在短序列上的優(yōu)秀表現(xiàn)。

四、后訓(xùn)練技術(shù)的雙重革新

通義千問2.5的后訓(xùn)練過程就像是給一個知識淵博的學(xué)者進行社交禮儀和溝通技巧的培訓(xùn),讓它不僅有知識,還能很好地與人交流。這個過程包含了監(jiān)督微調(diào)和強化學(xué)習(xí)兩大核心技術(shù)。

監(jiān)督微調(diào)階段使用了超過100萬個高質(zhì)量樣本,涵蓋了多個重要領(lǐng)域。在長文本生成方面,他們專門開發(fā)了長回答數(shù)據(jù)集,讓模型能夠生成長達8192字符的高質(zhì)量內(nèi)容。數(shù)學(xué)能力的提升通過整合通義千問數(shù)學(xué)版的鏈?zhǔn)剿季S數(shù)據(jù)來實現(xiàn),這些數(shù)據(jù)包含了從公開數(shù)據(jù)集到合成問題的多樣化來源。編程能力的增強則依靠通義千問編程版的多語言編程數(shù)據(jù),支持近40種編程語言。

指令遵循能力的訓(xùn)練采用了基于代碼的驗證框架。這種方法讓大語言模型生成指令和相應(yīng)的驗證代碼,然后通過執(zhí)行反饋進行篩選,確保模型能夠準(zhǔn)確理解和執(zhí)行用戶指令。結(jié)構(gòu)化數(shù)據(jù)理解能力的培訓(xùn)包含了傳統(tǒng)的表格問答、事實驗證等任務(wù),以及涉及結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜任務(wù)。

強化學(xué)習(xí)階段分為離線和在線兩個部分。離線強化學(xué)習(xí)專注于那些難以用獎勵模型評估的能力,如推理、事實性和指令遵循。研究團隊通過精心構(gòu)建和驗證訓(xùn)練數(shù)據(jù),確保離線強化學(xué)習(xí)信號既可學(xué)習(xí)又可靠。在線強化學(xué)習(xí)則利用獎勵模型檢測輸出質(zhì)量的細(xì)微差別,包括真實性、有用性、簡潔性、相關(guān)性、無害性和去偏見等方面。

五、全方位性能評估

通義千問2.5的性能評估就像是一場全面的綜合考試,涵蓋了從基礎(chǔ)知識到專業(yè)技能的各個方面。評估結(jié)果顯示,這個新版本在多個關(guān)鍵指標(biāo)上都取得了顯著進步。

基礎(chǔ)模型的評估重點關(guān)注自然語言理解、數(shù)學(xué)、編程、科學(xué)知識、推理和多語言能力。在MMLU基準(zhǔn)測試中,通義千問2.5-72B取得了86.1分的優(yōu)異成績,超越了許多同規(guī)模的競爭對手。在數(shù)學(xué)能力方面,MATH基準(zhǔn)測試的62.1分成績展示了其強大的數(shù)學(xué)推理能力。編程能力在MBPP測試中達到了84.7分,顯著超越了前一版本。

指令調(diào)優(yōu)模型的評估更加全面,包括了開放基準(zhǔn)測試和內(nèi)部評估。在數(shù)學(xué)推理方面,通義千問2.5-72B-Instruct在MATH測試中取得了83.1分,展現(xiàn)出了卓越的數(shù)學(xué)問題解決能力。編程能力在HumanEval測試中達到86.6分,在MBPP測試中取得88.2分,都超越了大多數(shù)競爭對手。

人類偏好對齊的評估結(jié)果同樣令人印象深刻。在Arena-Hard測試中,通義千問2.5-72B-Instruct取得了81.2分,顯著超越了之前版本的48.1分。MTBench評分達到9.35分,也超越了多數(shù)競爭模型。

多語言能力的評估覆蓋了指令遵循、知識利用、數(shù)學(xué)推理和文化理解等多個維度。結(jié)果顯示,通義千問2.5在各個語言和任務(wù)上都表現(xiàn)出了競爭力,特別是在一些傳統(tǒng)上被認(rèn)為是挑戰(zhàn)性的低資源語言上。

六、長文本處理能力的突破

長文本處理能力是通義千問2.5的一大亮點,就像給AI裝上了"超級記憶"。這種能力讓模型能夠理解和生成更長的內(nèi)容,處理更復(fù)雜的任務(wù)。

在RULER基準(zhǔn)測試中,通義千問2.5-72B-Instruct取得了95.1分的優(yōu)異成績,在各個上下文長度上都表現(xiàn)出色。特別值得注意的是,即使在128K字符的長文本處理中,模型仍然能夠保持88.4分的高分。通義千問2.5-Turbo更是實現(xiàn)了對100萬字符上下文的支持,并在1M令牌的密鑰檢索任務(wù)中達到了100%的準(zhǔn)確率。

LV-Eval和LongBench-Chat的測試結(jié)果進一步驗證了模型的長文本處理能力。通義千問2.5-72B-Instruct在256K上下文長度下仍能保持45.2分的性能,遠超其他開源模型。這種能力對于處理長篇文檔、進行深度對話和完成復(fù)雜任務(wù)具有重要意義。

為了提升長文本處理的效率,研究團隊還開發(fā)了基于稀疏注意力的推理優(yōu)化技術(shù)。這種技術(shù)能夠?qū)⒆⒁饬C制的計算負(fù)載減少12.5倍,同時將首字符生成時間縮短3.2到4.3倍,大大提升了用戶體驗。

七、技術(shù)創(chuàng)新與未來展望

通義千問2.5的技術(shù)創(chuàng)新體現(xiàn)在多個方面,每一項都像是精密機器上的關(guān)鍵零件。數(shù)據(jù)質(zhì)量控制技術(shù)讓模型能夠從海量信息中篩選出最有價值的內(nèi)容,混合專家架構(gòu)提高了計算效率,多階段強化學(xué)習(xí)確保了與人類偏好的對齊。

獎勵模型的評估也是一個重要創(chuàng)新。研究團隊發(fā)現(xiàn),傳統(tǒng)的單一基準(zhǔn)測試可能無法全面反映獎勵模型的真實性能,于是他們開發(fā)了多維度評估框架,包括RewardBench、RMB、PPE和內(nèi)部中文人類偏好基準(zhǔn)等。結(jié)果顯示,通義千問2.5-RM-72B在多個評估維度上都表現(xiàn)出色。

展望未來,研究團隊計劃在三個方向繼續(xù)深化研究。首先是繼續(xù)改進基礎(chǔ)模型,通過整合更廣泛、更多樣化的高質(zhì)量數(shù)據(jù)來提升性能。其次是發(fā)展多模態(tài)能力,將文本、視覺和聽覺等多種模態(tài)整合到統(tǒng)一框架中。最后是增強推理能力,通過推理時計算資源的戰(zhàn)略性擴展來突破當(dāng)前的技術(shù)限制。

這些技術(shù)突破不僅推動了大語言模型領(lǐng)域的發(fā)展,也為人工智能在各個應(yīng)用場景中的部署提供了新的可能性。通義千問2.5強大的性能、靈活的架構(gòu)和廣泛的可用性,使其成為學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的重要資源。

說到底,通義千問2.5的發(fā)布標(biāo)志著大語言模型技術(shù)的又一次重大進步。從18萬億字符的訓(xùn)練數(shù)據(jù)到多階段強化學(xué)習(xí)的應(yīng)用,從5億到720億參數(shù)的全系列覆蓋到100萬字符的長文本支持,每一項技術(shù)細(xì)節(jié)都體現(xiàn)了研究團隊的匠心獨運。對于普通用戶而言,這意味著更智能、更有用的AI助手即將走進我們的日常生活。對于研究者和開發(fā)者來說,這個開源的模型家族提供了強大的工具和靈感源泉。隨著這類技術(shù)的不斷成熟,我們有理由相信,人工智能將在更多領(lǐng)域發(fā)揮重要作用,為人類社會帶來更多便利和可能性。

Q&A

Q1:通義千問2.5相比之前版本有哪些主要改進?

A:主要有三大改進:訓(xùn)練數(shù)據(jù)從7萬億字符擴展到18萬億字符,大幅提升了知識儲備;引入多階段強化學(xué)習(xí)技術(shù),讓AI更懂得與人交流;支持生成長達8000字的文章,并在數(shù)學(xué)計算和編程能力上顯著提升。

Q2:通義千問2.5能處理多長的文本內(nèi)容?

A:不同版本的處理能力不同,標(biāo)準(zhǔn)版本支持最長128K字符的上下文,而通義千問2.5-Turbo更是支持高達100萬字符的上下文長度,在1M令牌的密鑰檢索任務(wù)中準(zhǔn)確率達到100%。

Q3:普通用戶如何使用通義千問2.5?

A:通義千問2.5提供了從5億到720億參數(shù)的多個版本,開源版本可通過Hugging Face、ModelScope等平臺獲取,商用版本包括通義千問2.5-Turbo和通義千問2.5-Plus可通過阿里云模型工作室使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
6999元!新機官宣:3月20日,正式開售!

6999元!新機官宣:3月20日,正式開售!

科技堡壘
2026-03-14 11:48:32
伊朗軍方宣布打擊美國多處基地

伊朗軍方宣布打擊美國多處基地

參考消息
2026-03-13 21:22:35
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強韌,也脆弱

紅星新聞
2026-03-14 15:58:37
順產(chǎn)分娩手術(shù)時直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實,追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

順產(chǎn)分娩手術(shù)時直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實,追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

極目新聞
2026-03-14 17:27:32
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

鞭牛士
2026-03-14 12:04:14
隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊負(fù)分

隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊負(fù)分

側(cè)身凌空斬
2026-03-14 17:48:06
伊朗稱哈爾克島局勢已得到控制

伊朗稱哈爾克島局勢已得到控制

界面新聞
2026-03-14 18:35:14
河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

臺州交通廣播
2026-03-14 08:59:12
外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時間

外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時間

牛鍋巴小釩
2026-03-14 09:52:49
無錫至成都航班在地面滑行時,一旅客隨身充電寶突發(fā)自燃

無錫至成都航班在地面滑行時,一旅客隨身充電寶突發(fā)自燃

都市快報橙柿互動
2026-03-14 13:18:38
主動辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

主動辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

萌蘭聊個球
2026-03-14 14:28:11
其實人根本不用養(yǎng)老,為什么呢?看到此文,你就會豁然開朗

其實人根本不用養(yǎng)老,為什么呢?看到此文,你就會豁然開朗

暖風(fēng)吹過竹林
2026-03-14 10:23:30
日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

GA環(huán)球建筑
2026-03-13 17:27:01
鎮(zhèn)江市委常委會召開會議 堅決擁護省委對許文涉嫌嚴(yán)重違紀(jì)違法進行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會召開會議 堅決擁護省委對許文涉嫌嚴(yán)重違紀(jì)違法進行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

籃球快餐車
2026-03-14 16:48:34
中國女足為何戰(zhàn)勝中國臺北賽后王霜毫不客氣說出原因 說的很實在

中國女足為何戰(zhàn)勝中國臺北賽后王霜毫不客氣說出原因 說的很實在

籃球看比賽
2026-03-14 17:06:54
中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

奧拜爾
2026-03-14 17:40:57
馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺,以方應(yīng)“抓住機會”

馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺,以方應(yīng)“抓住機會”

環(huán)球網(wǎng)資訊
2026-03-14 19:42:07
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
王霜停賽!中國女足3月17日18點對陣東道主澳大利亞 勝者將進決賽

王霜停賽!中國女足3月17日18點對陣東道主澳大利亞 勝者將進決賽

風(fēng)過鄉(xiāng)
2026-03-14 16:00:51
2026-03-14 20:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
游戲
親子
家居
公開課

藝術(shù)要聞

李建鵬:90后第四屆“中國美術(shù)獎”銅獎獲得者

《GTA》歷代開發(fā)成本對比:25年來暴增上百倍!

親子要聞

萌娃為何覺得自己和大人一樣?聽到答案的大人們繃不住了

家居要聞

藝術(shù)之家 法式優(yōu)雅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版