網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人民大學(xué)團(tuán)隊(duì)1.08萬億訓(xùn)練數(shù)據(jù)打造2.4B小模型

2026-03-11 16:35:38　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由中國人民大學(xué)高瓴人工智能學(xué)院主導(dǎo)的研究發(fā)表于2024年12月，論文編號(hào)為arXiv:2412.17743v2，該研究詳細(xì)闡述了YuLan-Mini語言模型的完整技術(shù)方案。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查詢完整論文。

在人工智能飛速發(fā)展的今天，大型語言模型已經(jīng)成為科技界的明星。然而，這些模型往往需要消耗巨大的計(jì)算資源和訓(xùn)練數(shù)據(jù)，就像建造一座摩天大樓需要無數(shù)鋼筋混凝土一樣。對(duì)于大多數(shù)研究機(jī)構(gòu)和企業(yè)來說，訓(xùn)練這樣的模型幾乎是不可能完成的任務(wù)。正是在這樣的背景下，中國人民大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)頗具挑戰(zhàn)性的問題：能否用相對(duì)較少的資源，訓(xùn)練出一個(gè)性能卓越的小型語言模型？

這個(gè)問題就像是在問：能否用一個(gè)小餐廳的食材和設(shè)備，做出米其林三星餐廳水準(zhǔn)的菜肴？聽起來幾乎不可能，但研究團(tuán)隊(duì)偏偏做到了。他們開發(fā)的YuLan-Mini模型只有24億個(gè)參數(shù)，相比之下，許多主流模型都有數(shù)百億甚至數(shù)千億參數(shù)。然而，這個(gè)"小個(gè)子"卻在多項(xiàng)測(cè)試中表現(xiàn)出色，甚至能夠與那些體型大它數(shù)倍的模型一較高下。

更令人驚訝的是，YuLan-Mini只用了1.08萬億個(gè)訓(xùn)練樣本就達(dá)到了這樣的效果。要知道，許多同行業(yè)的模型需要消耗18萬億甚至更多的訓(xùn)練數(shù)據(jù)。這就好比用一半的食材做出了同樣美味的菜肴，其中的秘訣究竟在哪里？

研究團(tuán)隊(duì)的答案是：精工細(xì)作。他們沒有簡(jiǎn)單粗暴地堆砌數(shù)據(jù)，而是像一位經(jīng)驗(yàn)豐富的廚師一樣，精心挑選每一種"食材"，巧妙搭配每一道"工序"。他們開發(fā)了一套完整的數(shù)據(jù)處理流程，就像建立了一條精密的生產(chǎn)線，每個(gè)環(huán)節(jié)都經(jīng)過精心設(shè)計(jì)和優(yōu)化。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。對(duì)于那些沒有巨大計(jì)算資源的研究機(jī)構(gòu)和初創(chuàng)企業(yè)來說，YuLan-Mini提供了一個(gè)可行的替代方案。它證明了在人工智能的世界里，"小而精"同樣可以戰(zhàn)勝"大而全"。這就像是證明了一位技藝精湛的工匠，完全可以用簡(jiǎn)單的工具制作出精美的藝術(shù)品，不一定需要最昂貴的設(shè)備。

研究團(tuán)隊(duì)不僅公開了模型本身，還詳細(xì)披露了整個(gè)訓(xùn)練過程的技術(shù)細(xì)節(jié)，包括數(shù)據(jù)的具體配比、訓(xùn)練的每個(gè)階段、甚至是如何應(yīng)對(duì)訓(xùn)練過程中的各種技術(shù)難題。這種開放的態(tài)度就像是一位大廚毫無保留地分享自己的秘方，讓整個(gè)行業(yè)都能從中受益。

一、數(shù)據(jù)就是食材：精挑細(xì)選的1.08萬億訓(xùn)練樣本

任何一道美味的菜肴都離不開優(yōu)質(zhì)的食材，而對(duì)于語言模型來說，訓(xùn)練數(shù)據(jù)就是這些關(guān)鍵的"食材"。YuLan-Mini的成功很大程度上歸功于研究團(tuán)隊(duì)對(duì)數(shù)據(jù)的精心處理，這個(gè)過程就像是一位頂級(jí)廚師在菜市場(chǎng)精挑細(xì)選食材一樣嚴(yán)謹(jǐn)。

在開始訓(xùn)練之前，研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是如何從浩如煙海的互聯(lián)網(wǎng)數(shù)據(jù)中篩選出真正有價(jià)值的內(nèi)容?；ヂ?lián)網(wǎng)上的信息就像一個(gè)巨大的雜貨鋪，里面既有珍貴的寶藏，也有無用的垃圾。團(tuán)隊(duì)需要建立一套完整的篩選機(jī)制，確保進(jìn)入模型的每一條數(shù)據(jù)都是高質(zhì)量的。

整個(gè)數(shù)據(jù)收集過程涵蓋了多個(gè)不同的領(lǐng)域。英文網(wǎng)頁數(shù)據(jù)占了最大的比重，達(dá)到4810億個(gè)訓(xùn)練樣本，這些數(shù)據(jù)主要來自教育性質(zhì)的網(wǎng)站內(nèi)容。此外還包括1380億個(gè)一般英文知識(shí)樣本、2270億個(gè)代碼訓(xùn)練數(shù)據(jù)、167億個(gè)代碼指令數(shù)據(jù)、938億個(gè)數(shù)學(xué)訓(xùn)練數(shù)據(jù)、155億個(gè)數(shù)學(xué)指令數(shù)據(jù)，以及1080億個(gè)中文數(shù)據(jù)樣本。

數(shù)據(jù)篩選的第一步是去重處理。研究團(tuán)隊(duì)使用了一種叫做MinHash的算法，這就像是給每條數(shù)據(jù)生成一個(gè)獨(dú)特的"指紋"。通過比較這些"指紋"，系統(tǒng)可以快速識(shí)別出重復(fù)或高度相似的內(nèi)容并將其剔除。這個(gè)過程就像是在整理圖書館時(shí)，發(fā)現(xiàn)有多本相同的書籍，只保留其中一本即可。

接下來是啟發(fā)式過濾，這個(gè)過程更像是一位經(jīng)驗(yàn)豐富的編輯在審閱稿件。系統(tǒng)會(huì)自動(dòng)檢查每條數(shù)據(jù)的質(zhì)量指標(biāo)，比如長(zhǎng)度是否合適、語言是否規(guī)范、內(nèi)容是否有意義等。對(duì)于不同類型的數(shù)據(jù)，篩選標(biāo)準(zhǔn)也有所不同。比如對(duì)于代碼數(shù)據(jù)，系統(tǒng)會(huì)檢查代碼的平均行長(zhǎng)度、字母字符比例等技術(shù)指標(biāo)。對(duì)于數(shù)學(xué)文本，系統(tǒng)會(huì)確保內(nèi)容包含有意義的數(shù)學(xué)表達(dá)式，而不是亂碼或無關(guān)內(nèi)容。

為了進(jìn)一步提升數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還開發(fā)了一套基于機(jī)器學(xué)習(xí)的質(zhì)量評(píng)分系統(tǒng)。這就像是請(qǐng)了一位專業(yè)的品酒師來為每瓶酒打分一樣。系統(tǒng)會(huì)根據(jù)內(nèi)容的教育價(jià)值、語言質(zhì)量、信息密度等多個(gè)維度給每條數(shù)據(jù)打分，然后只選擇高分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

特別值得一提的是，團(tuán)隊(duì)還進(jìn)行了主題導(dǎo)向的文本召回。他們訓(xùn)練了專門的分類器來識(shí)別與數(shù)學(xué)、代碼、推理相關(guān)的高質(zhì)量文檔。這就像是在海量的圖書中，專門尋找與特定主題相關(guān)的珍貴資料。通過這種方式，他們從FineWeb-Edu和DCLM等大型數(shù)據(jù)集中提取了104億個(gè)數(shù)學(xué)文本、11.1億個(gè)代碼文本和10.1億個(gè)推理文本。

為了確保評(píng)估的公平性，研究團(tuán)隊(duì)還進(jìn)行了去污染處理。這個(gè)過程就像是確?？荚嚂r(shí)學(xué)生沒有提前看到答案一樣重要。他們將訓(xùn)練數(shù)據(jù)與測(cè)試基準(zhǔn)進(jìn)行對(duì)比，如果發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中包含了測(cè)試題目或答案，就會(huì)將這些內(nèi)容剔除，確保模型的性能評(píng)估結(jié)果真實(shí)可靠。

數(shù)據(jù)預(yù)處理的最后一步是詞元化處理。研究團(tuán)隊(duì)選擇了大約9.9萬個(gè)詞匯量的分詞器，這就像是為一門語言制定標(biāo)準(zhǔn)的"詞典"。他們還采用了BPE-dropout技術(shù)，這種方法可以幫助模型更好地理解詞匯的內(nèi)部結(jié)構(gòu)，就像是教會(huì)模型如何拆解和理解復(fù)合詞一樣。對(duì)于數(shù)字的處理，團(tuán)隊(duì)選擇將每個(gè)數(shù)字拆分成單獨(dú)的字符，這樣可以提高模型在數(shù)學(xué)計(jì)算方面的準(zhǔn)確性。

通過這樣精心的數(shù)據(jù)準(zhǔn)備過程，YuLan-Mini最終使用的1.08萬億訓(xùn)練樣本不僅數(shù)量適中，質(zhì)量也達(dá)到了很高的水準(zhǔn)。這就像是一位頂級(jí)廚師用精選的食材制作料理，雖然分量不大，但每一樣都是精品。

二、訓(xùn)練穩(wěn)定性：解決模型訓(xùn)練中的"情緒波動(dòng)"

在訓(xùn)練大型語言模型的過程中，經(jīng)常會(huì)遇到一個(gè)令工程師們頭疼的問題：訓(xùn)練不穩(wěn)定。這就像是在駕駛一輛性能車時(shí)，車子突然開始劇烈抖動(dòng)或者失控，讓人既緊張又困惑。對(duì)于語言模型來說，訓(xùn)練不穩(wěn)定表現(xiàn)為損失值突然飆升、梯度爆炸或者訓(xùn)練過程完全崩潰。

研究團(tuán)隊(duì)在開發(fā)YuLan-Mini的過程中，深入研究了這個(gè)問題的根本原因。他們發(fā)現(xiàn)，傳統(tǒng)的觀點(diǎn)往往只關(guān)注表面現(xiàn)象，比如損失值的波動(dòng)，但真正的問題其實(shí)隱藏得更深。通過大量的實(shí)驗(yàn)和理論分析，他們發(fā)現(xiàn)了一個(gè)重要的規(guī)律：模型內(nèi)部的"隱藏狀態(tài)"就像是訓(xùn)練過程的"情緒指標(biāo)"，能夠提前預(yù)警即將到來的不穩(wěn)定。

這個(gè)發(fā)現(xiàn)可以用一個(gè)生動(dòng)的比喻來理解。設(shè)想你在觀察一個(gè)人的情緒變化，表面上看起來這個(gè)人很平靜，但如果你仔細(xì)觀察他的微表情、肌肉緊張程度等細(xì)微信號(hào)，你可能會(huì)發(fā)現(xiàn)他內(nèi)心其實(shí)已經(jīng)開始焦慮了。同樣，模型的損失值可能看起來還正常，但內(nèi)部的隱藏狀態(tài)已經(jīng)開始出現(xiàn)異常波動(dòng)，預(yù)示著即將到來的訓(xùn)練崩潰。

為了驗(yàn)證這個(gè)理論，研究團(tuán)隊(duì)進(jìn)行了精心設(shè)計(jì)的對(duì)比實(shí)驗(yàn)。他們訓(xùn)練了兩個(gè)配置相似的小模型，一個(gè)采用了穩(wěn)定化技術(shù)，另一個(gè)沒有。結(jié)果發(fā)現(xiàn)，在不穩(wěn)定的模型中，各層的隱藏狀態(tài)方差呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì)，就像滾雪球一樣越來越大。而在穩(wěn)定的模型中，這些數(shù)值保持在合理范圍內(nèi)。

通過深入的數(shù)學(xué)分析，團(tuán)隊(duì)識(shí)別出了導(dǎo)致訓(xùn)練不穩(wěn)定的三個(gè)主要因素。第一個(gè)是殘差連接導(dǎo)致的方差累積。在深度神經(jīng)網(wǎng)絡(luò)中，每一層都會(huì)在前一層的輸出基礎(chǔ)上添加新的信息，這就像是在一張紙上不斷疊加新的涂料。如果處理不當(dāng)，這種累積效應(yīng)會(huì)導(dǎo)致數(shù)值越來越大，最終失控。

第二個(gè)因素是層歸一化在輸入偏離正常范圍時(shí)的異常行為。層歸一化本來是為了保持?jǐn)?shù)據(jù)分布穩(wěn)定而設(shè)計(jì)的，就像是一個(gè)自動(dòng)調(diào)節(jié)器。但當(dāng)輸入數(shù)據(jù)的分布過于極端時(shí)，這個(gè)調(diào)節(jié)器本身可能成為問題的一部分，反而加劇了不穩(wěn)定性。

第三個(gè)因素是注意力分?jǐn)?shù)的異常增長(zhǎng)。在Transformer架構(gòu)中，注意力機(jī)制負(fù)責(zé)決定模型應(yīng)該關(guān)注輸入的哪些部分。但如果注意力分?jǐn)?shù)變得過大，就像是一個(gè)人過度專注某件事而忽略了周圍的一切，這種極端行為會(huì)導(dǎo)致整個(gè)系統(tǒng)失衡。

基于這些發(fā)現(xiàn)，研究團(tuán)隊(duì)開發(fā)了一套綜合的穩(wěn)定化解決方案。首先，他們采用了類似μP（Maximal Update Parametrization）的參數(shù)初始化方法。這種方法的核心思想是根據(jù)模型的規(guī)模來調(diào)整參數(shù)的初始值，確保不同大小的模型都能保持類似的訓(xùn)練動(dòng)態(tài)。這就像是為不同身高的人定制合適的服裝，確保每個(gè)人都能穿得合身舒適。

接著，他們引入了WeSaR重參數(shù)化技術(shù)。這種技術(shù)通過為每個(gè)權(quán)重矩陣添加一個(gè)額外的可學(xué)習(xí)參數(shù)，將梯度的更新分散到更多的參數(shù)上。這就像是將一個(gè)重物的重量分散到多個(gè)支點(diǎn)上，降低了單點(diǎn)故障的風(fēng)險(xiǎn)。

為了處理注意力分?jǐn)?shù)的異常增長(zhǎng)，團(tuán)隊(duì)還探索了QK層歸一化等技術(shù)。雖然這種方法在理論上很有效，但會(huì)顯著增加計(jì)算開銷。經(jīng)過權(quán)衡，他們最終選擇了其他更加高效的解決方案。

在學(xué)習(xí)率調(diào)度方面，團(tuán)隊(duì)采用了WSD（Warmup-Stable-Decay）策略，這種方法包括三個(gè)階段：預(yù)熱、穩(wěn)定和衰減。預(yù)熱階段就像是讓發(fā)動(dòng)機(jī)慢慢熱身，學(xué)習(xí)率從很小的值逐漸增加到目標(biāo)值。穩(wěn)定階段保持學(xué)習(xí)率不變，讓模型充分學(xué)習(xí)。最后的衰減階段則逐漸降低學(xué)習(xí)率，幫助模型收斂到更好的解。

通過這套綜合方案，YuLan-Mini在整個(gè)訓(xùn)練過程中保持了良好的穩(wěn)定性。訓(xùn)練曲線顯示，模型的損失值平穩(wěn)下降，沒有出現(xiàn)劇烈波動(dòng)或崩潰現(xiàn)象。這為后續(xù)的性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

三、數(shù)據(jù)調(diào)度：如何安排1080億個(gè)"學(xué)習(xí)課程"

訓(xùn)練一個(gè)語言模型就像是設(shè)計(jì)一套完整的教育課程，需要合理安排學(xué)習(xí)內(nèi)容的順序和比例。研究團(tuán)隊(duì)將YuLan-Mini的整個(gè)訓(xùn)練過程分為三個(gè)主要階段，每個(gè)階段都有不同的學(xué)習(xí)重點(diǎn)和數(shù)據(jù)配比，這種精心設(shè)計(jì)的安排被稱為數(shù)據(jù)調(diào)度。

整個(gè)訓(xùn)練過程就像是一個(gè)學(xué)生從小學(xué)到大學(xué)的學(xué)習(xí)歷程。預(yù)熱階段使用了100億個(gè)樣本，就像是幼兒園和小學(xué)階段，主要目的是讓模型熟悉基本的語言規(guī)律和表達(dá)方式。在這個(gè)階段，模型學(xué)習(xí)的內(nèi)容相對(duì)基礎(chǔ)，涵蓋了各種類型的文本，但重點(diǎn)是建立對(duì)語言結(jié)構(gòu)的基本理解。

穩(wěn)定訓(xùn)練階段是整個(gè)過程的核心，使用了9900億個(gè)樣本，相當(dāng)于中學(xué)和大學(xué)階段的深入學(xué)習(xí)。在這個(gè)階段，模型需要掌握更復(fù)雜的語言技能，包括推理、代碼編寫、數(shù)學(xué)計(jì)算等高級(jí)能力。為了更好地管理這個(gè)龐大的學(xué)習(xí)過程，研究團(tuán)隊(duì)將穩(wěn)定訓(xùn)練階段細(xì)分為25個(gè)連續(xù)的課程階段，每個(gè)階段包含400億個(gè)樣本。

每個(gè)課程階段就像是一個(gè)學(xué)期的學(xué)習(xí)計(jì)劃，有著明確的學(xué)習(xí)目標(biāo)和內(nèi)容配比。在課程設(shè)計(jì)時(shí)，團(tuán)隊(duì)會(huì)根據(jù)模型在各項(xiàng)基準(zhǔn)測(cè)試上的表現(xiàn)以及驗(yàn)證文本的困惑度來微調(diào)下一個(gè)階段的數(shù)據(jù)比例。這就像是老師根據(jù)學(xué)生的考試成績(jī)來調(diào)整教學(xué)計(jì)劃，哪門課程需要加強(qiáng)，哪些內(nèi)容已經(jīng)掌握得不錯(cuò)。

數(shù)據(jù)配比的基本原則是保持相對(duì)穩(wěn)定，同時(shí)根據(jù)模型的學(xué)習(xí)進(jìn)度進(jìn)行微調(diào)。整體而言，英文網(wǎng)頁和通用內(nèi)容占60%，其中網(wǎng)頁內(nèi)容占45%，書籍、論文等其他資源占15%。代碼相關(guān)數(shù)據(jù)占20%，數(shù)學(xué)相關(guān)數(shù)據(jù)占10%，中文數(shù)據(jù)占10%。這種配比就像是為學(xué)生安排的課程表，確保各個(gè)學(xué)科都有適當(dāng)?shù)膶W(xué)習(xí)時(shí)間。

隨著訓(xùn)練的深入，數(shù)據(jù)配比會(huì)進(jìn)行細(xì)微的調(diào)整。比如在穩(wěn)定訓(xùn)練的后期，團(tuán)隊(duì)會(huì)逐漸增加指令數(shù)據(jù)的比例，但始終控制在5%以內(nèi)。這就像是在學(xué)生接近畢業(yè)時(shí)，增加實(shí)習(xí)和實(shí)踐課程的比重，幫助他們更好地應(yīng)用所學(xué)知識(shí)。

在課程階段的轉(zhuǎn)換過程中，研究團(tuán)隊(duì)特別注意避免數(shù)據(jù)分布的劇烈變化。相鄰兩個(gè)階段之間的數(shù)據(jù)比例變化被嚴(yán)格控制在3%以內(nèi)，這樣可以避免模型的學(xué)習(xí)過程出現(xiàn)突然的"震蕩"。這就像是學(xué)校在調(diào)整課程安排時(shí)，不會(huì)一下子完全改變時(shí)間表，而是漸進(jìn)式地進(jìn)行調(diào)整，讓學(xué)生有適應(yīng)的時(shí)間。

課程內(nèi)容的難度安排也經(jīng)過了精心設(shè)計(jì)。對(duì)于數(shù)學(xué)和代碼數(shù)據(jù)，研究團(tuán)隊(duì)使用質(zhì)量分類器對(duì)內(nèi)容進(jìn)行評(píng)分，然后按照從易到難的順序進(jìn)行訓(xùn)練。這種方法被稱為課程學(xué)習(xí)，就像是數(shù)學(xué)教學(xué)中先學(xué)加減法，再學(xué)乘除法，最后學(xué)微積分的漸進(jìn)過程。

特別值得一提的是，團(tuán)隊(duì)在訓(xùn)練過程中大量使用了合成數(shù)據(jù)。這些合成數(shù)據(jù)包括各種類型的推理樣本，從基礎(chǔ)的數(shù)學(xué)計(jì)算到復(fù)雜的邏輯推理，從簡(jiǎn)單的代碼練習(xí)到高級(jí)的算法實(shí)現(xiàn)。這就像是為學(xué)生準(zhǔn)備了各種類型的練習(xí)題，確保他們能夠全面掌握所學(xué)的知識(shí)。

數(shù)學(xué)推理數(shù)據(jù)的生成特別精細(xì)，包括了多種不同的類型。有基礎(chǔ)的計(jì)算練習(xí)，也有需要多步推理的復(fù)雜問題。團(tuán)隊(duì)甚至生成了類似o1模型那樣的長(zhǎng)思考鏈數(shù)據(jù)，讓模型學(xué)會(huì)在回答問題之前進(jìn)行深入的思考。這就像是教會(huì)學(xué)生不僅要知道答案，還要理解解題的思路和過程。

代碼相關(guān)的合成數(shù)據(jù)同樣豐富多樣，包括編程競(jìng)賽題目、開源項(xiàng)目指令、以及各種實(shí)際應(yīng)用場(chǎng)景的代碼示例。這些數(shù)據(jù)幫助模型不僅能夠編寫正確的代碼，還能理解代碼的應(yīng)用場(chǎng)景和最佳實(shí)踐。

通過這樣精心設(shè)計(jì)的數(shù)據(jù)調(diào)度策略，YuLan-Mini在訓(xùn)練過程中能夠逐步建立起全面而深入的語言理解能力。每個(gè)階段都為下一個(gè)階段的學(xué)習(xí)奠定基礎(chǔ)，最終形成了一個(gè)知識(shí)結(jié)構(gòu)完整、能力均衡的語言模型。

四、模型架構(gòu)：打造2.4B參數(shù)的"精密機(jī)器"

YuLan-Mini的架構(gòu)設(shè)計(jì)就像是建造一座精密的機(jī)械表，每個(gè)部件都經(jīng)過精心設(shè)計(jì)和調(diào)校，確保整體性能達(dá)到最優(yōu)狀態(tài)。這個(gè)模型總共包含24.2億個(gè)參數(shù)，其中22.3億個(gè)是非嵌入?yún)?shù)，相比那些動(dòng)輒數(shù)百億參數(shù)的大模型，YuLan-Mini選擇了"小而精"的設(shè)計(jì)理念。

整個(gè)模型采用了解碼器型的Transformer架構(gòu)，這是目前語言模型的主流設(shè)計(jì)。但在具體的細(xì)節(jié)設(shè)計(jì)上，研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)創(chuàng)新和優(yōu)化。模型包含56層，每層的隱藏維度是1920，這種"高瘦型"的設(shè)計(jì)就像是建造一座細(xì)長(zhǎng)但結(jié)構(gòu)堅(jiān)固的塔樓，能夠在有限的參數(shù)預(yù)算內(nèi)獲得更深的網(wǎng)絡(luò)層次。

在注意力機(jī)制的設(shè)計(jì)上，團(tuán)隊(duì)采用了分組查詢注意力（GQA）技術(shù)。這種設(shè)計(jì)使用30個(gè)查詢頭和6個(gè)鍵值組，就像是在一個(gè)會(huì)議室中安排30個(gè)提問者，但只需要6個(gè)回答者來處理所有問題。這種不對(duì)稱的設(shè)計(jì)既保證了模型的表達(dá)能力，又顯著降低了計(jì)算開銷，特別是在推理階段的內(nèi)存占用。

位置編碼采用了旋轉(zhuǎn)位置嵌入（RoPE）技術(shù)，這種方法能夠更好地處理不同長(zhǎng)度的文本序列。在基礎(chǔ)訓(xùn)練階段，RoPE的基頻參數(shù)設(shè)置為10000，支持4096個(gè)標(biāo)記的上下文長(zhǎng)度。在退火階段，這個(gè)參數(shù)被調(diào)整為490000，使模型能夠處理長(zhǎng)達(dá)28672個(gè)標(biāo)記的長(zhǎng)文本，這就像是給望遠(yuǎn)鏡更換了更強(qiáng)大的鏡頭，能夠看得更遠(yuǎn)更清楚。

激活函數(shù)選擇了SwiGLU，這是一種門控線性單元，能夠更好地捕捉復(fù)雜的數(shù)據(jù)關(guān)系。研究表明，這種激活函數(shù)在相對(duì)較小的語言模型中表現(xiàn)特別出色，就像是為精密儀器選擇了最適合的傳動(dòng)機(jī)構(gòu)。

層標(biāo)準(zhǔn)化方面，模型使用了Pre-RMSNorm，這種配置將標(biāo)準(zhǔn)化操作放在每個(gè)子層的前面，而不是后面。這樣的設(shè)計(jì)能夠提高訓(xùn)練的穩(wěn)定性和收斂速度，同時(shí)RMSNorm相比傳統(tǒng)的LayerNorm能夠節(jié)省計(jì)算資源，就像是選擇了更高效的潤滑系統(tǒng)。

嵌入層設(shè)計(jì)采用了權(quán)重共享策略，將輸入嵌入和輸出嵌入使用相同的參數(shù)矩陣。這種設(shè)計(jì)不僅減少了參數(shù)數(shù)量，還提高了訓(xùn)練的穩(wěn)定性，就像是在機(jī)械設(shè)計(jì)中使用通用部件，既節(jié)省了材料又提高了可靠性。

詞匯表大小設(shè)定為99000，這個(gè)數(shù)字經(jīng)過了精心計(jì)算和權(quán)衡。研究團(tuán)隊(duì)采用了三種不同的方法來確定最優(yōu)的詞匯表大小，確保在計(jì)算效率和表達(dá)能力之間找到最佳平衡點(diǎn)。他們復(fù)用了MiniCPM的字節(jié)對(duì)編碼（BPE）分詞器，但進(jìn)行了適當(dāng)?shù)男藜艉蛢?yōu)化，移除了一些罕見的領(lǐng)域特定詞匯，同時(shí)添加了一些保留詞匯。

為了提高模型對(duì)數(shù)字的處理能力，團(tuán)隊(duì)采用了數(shù)字分解策略，將多位數(shù)分解為單個(gè)數(shù)字字符。這種方法雖然會(huì)稍微增加序列長(zhǎng)度，但能顯著提高數(shù)學(xué)計(jì)算的準(zhǔn)確性，就像是教會(huì)計(jì)算器更仔細(xì)地處理每一位數(shù)字。

模型還引入了BPE-dropout技術(shù)，使用0.2的dropout率。這種技術(shù)能夠幫助模型更好地理解詞匯的內(nèi)部結(jié)構(gòu)，學(xué)會(huì)處理未見過的詞匯組合，就像是教會(huì)學(xué)生不僅認(rèn)識(shí)整個(gè)單詞，還能理解單詞的構(gòu)成部分。

在參數(shù)初始化方面，團(tuán)隊(duì)采用了改進(jìn)的初始化策略，結(jié)合了類μP初始化和WeSaR重參數(shù)化技術(shù)。每個(gè)權(quán)重矩陣都添加了額外的可學(xué)習(xí)縮放參數(shù)，這種設(shè)計(jì)能夠更好地控制梯度流動(dòng)，提高訓(xùn)練穩(wěn)定性。

整個(gè)架構(gòu)的設(shè)計(jì)理念是在有限的參數(shù)預(yù)算內(nèi)最大化模型能力。通過精心的組件選擇和參數(shù)調(diào)優(yōu)，YuLan-Mini在保持緊湊體積的同時(shí)，實(shí)現(xiàn)了與更大模型相媲美的性能表現(xiàn)。

五、退火訓(xùn)練：最后沖刺的"精雕細(xì)琢"

訓(xùn)練語言模型的最后階段被稱為退火，這個(gè)名詞來源于金屬加工中的退火工藝。在金屬加工中，退火是指將金屬加熱后緩慢冷卻，以消除內(nèi)應(yīng)力，提高材料的韌性和加工性能。對(duì)于語言模型來說，退火階段同樣是一個(gè)精細(xì)化調(diào)整的過程，目的是在已有基礎(chǔ)上進(jìn)一步提升模型的性能。

YuLan-Mini的退火訓(xùn)練使用了800億個(gè)高質(zhì)量樣本，相當(dāng)于整個(gè)訓(xùn)練數(shù)據(jù)量的8%。雖然數(shù)據(jù)量看起來不大，但這個(gè)階段的作用卻至關(guān)重要，就像是雕刻師對(duì)作品進(jìn)行最后的精雕細(xì)琢，每一刀都要格外謹(jǐn)慎和精確。

在退火階段，學(xué)習(xí)率的調(diào)整策略發(fā)生了重要變化。研究團(tuán)隊(duì)采用了1-sqrt退火函數(shù)，這種函數(shù)能夠讓學(xué)習(xí)率從訓(xùn)練階段的峰值平滑地下降到一個(gè)很小的值。這個(gè)過程就像是讓一輛高速行駛的汽車逐漸減速停靠，既要保持穩(wěn)定，又要確保能夠精確到達(dá)目標(biāo)位置。

具體來說，學(xué)習(xí)率從0.01逐漸降低到5.22×10^-5，整個(gè)過程持續(xù)18802步，然后在最后的772步中保持這個(gè)較低的學(xué)習(xí)率不變。這種設(shè)計(jì)讓模型有充分的時(shí)間來微調(diào)參數(shù)，同時(shí)避免了過度調(diào)整導(dǎo)致的性能退化。

退火階段的另一個(gè)重要改變是上下文長(zhǎng)度的擴(kuò)展。通過將RoPE的基頻從10000調(diào)整到490000，模型的上下文處理能力從4096個(gè)標(biāo)記擴(kuò)展到28672個(gè)標(biāo)記，增長(zhǎng)了近7倍。這就像是給望遠(yuǎn)鏡更換了更強(qiáng)大的鏡頭，能夠看到更遠(yuǎn)、更詳細(xì)的景象。

為了實(shí)現(xiàn)這種上下文擴(kuò)展，研究團(tuán)隊(duì)采用了調(diào)整基頻（ABF）的方法。這種方法通過修改位置編碼的參數(shù)，讓模型能夠理解和處理更長(zhǎng)的文本序列，而不需要從零開始重新訓(xùn)練。這個(gè)過程需要在長(zhǎng)文本訓(xùn)練中進(jìn)行，讓模型逐漸適應(yīng)新的上下文長(zhǎng)度。

退火階段的數(shù)據(jù)選擇極為嚴(yán)格，研究團(tuán)隊(duì)采用了多種策略來確保數(shù)據(jù)質(zhì)量。首先，他們?cè)黾恿烁鞣N高質(zhì)量數(shù)據(jù)源的比例，特別是合成推理數(shù)據(jù)。其次，他們使用了基于梯度的數(shù)據(jù)選擇方法，這種方法能夠識(shí)別出對(duì)模型性能提升最有幫助的樣本。

數(shù)據(jù)組成方面，退火階段包含了646.5億的混合預(yù)訓(xùn)練數(shù)據(jù)，作為基礎(chǔ)內(nèi)容。數(shù)學(xué)相關(guān)數(shù)據(jù)占了重要比重，其中包括3.07億的鏈?zhǔn)剿季S數(shù)據(jù)、6100萬的長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)、1000萬的形式數(shù)學(xué)數(shù)據(jù)，以及14.2億的精選數(shù)學(xué)數(shù)據(jù)。代碼方面有66.6億的鏈?zhǔn)剿季S數(shù)據(jù)和23.9億的精選代碼數(shù)據(jù)。科學(xué)領(lǐng)域也有相應(yīng)的配置，包括400萬的長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)和10.6億的精選科學(xué)數(shù)據(jù)。

特別值得注意的是，退火階段大幅增加了指令數(shù)據(jù)的比例，達(dá)到19.19%。這些指令數(shù)據(jù)包括代碼相關(guān)指令約11%、數(shù)學(xué)相關(guān)指令約7%、通用指令約1%。這種調(diào)整讓模型更好地學(xué)會(huì)如何響應(yīng)用戶的指令和問題。

長(zhǎng)上下文數(shù)據(jù)在退火階段也占據(jù)了重要地位，約占14.21%的比例。研究團(tuán)隊(duì)特別選擇了書籍內(nèi)容和連接的GitHub代碼文本作為長(zhǎng)上下文數(shù)據(jù)，這些內(nèi)容具有天然的長(zhǎng)程依賴關(guān)系，能夠幫助模型學(xué)會(huì)處理復(fù)雜的上下文信息。

為了在增強(qiáng)長(zhǎng)文本能力的同時(shí)保持短文本性能，團(tuán)隊(duì)還采用了掩碼交叉文檔注意力機(jī)制。這種技術(shù)防止注意力跨越不同文檔，確保模型在處理長(zhǎng)文本時(shí)不會(huì)影響對(duì)短文本的理解能力。

數(shù)據(jù)打包策略也進(jìn)行了特殊設(shè)計(jì)。對(duì)于預(yù)訓(xùn)練數(shù)據(jù)，系統(tǒng)會(huì)直接進(jìn)行拼接；但對(duì)于指令數(shù)據(jù)，如果被分割到兩個(gè)序列中，系統(tǒng)會(huì)對(duì)前一個(gè)序列的剩余部分進(jìn)行填充，確保指令數(shù)據(jù)的完整性。這種處理方式就像是在包裝易碎品時(shí)，對(duì)每件物品都進(jìn)行專門的保護(hù)措施。

退火階段結(jié)束時(shí)，研究團(tuán)隊(duì)還采用了檢查點(diǎn)合并策略，將最后幾個(gè)檢查點(diǎn)進(jìn)行平均，產(chǎn)生最終的預(yù)訓(xùn)練模型。這種做法雖然可能會(huì)在某些特定能力上有輕微下降，但能夠獲得更加均衡和魯棒的整體性能。

通過這樣精心設(shè)計(jì)的退火過程，YuLan-Mini在保持原有優(yōu)勢(shì)的基礎(chǔ)上，進(jìn)一步提升了數(shù)學(xué)推理、代碼生成和長(zhǎng)文本理解等關(guān)鍵能力，最終成為一個(gè)性能全面、能力均衡的語言模型。

六、性能表現(xiàn)：小模型的大能耐

經(jīng)過精心訓(xùn)練的YuLan-Mini在各項(xiàng)測(cè)試中展現(xiàn)出了令人印象深刻的性能表現(xiàn)，這就像是一位體重較輕的運(yùn)動(dòng)員在各項(xiàng)比賽中都能與重量級(jí)選手一較高下。通過與同規(guī)模和更大規(guī)模模型的全面對(duì)比，YuLan-Mini證明了"小而精"設(shè)計(jì)理念的有效性。

在數(shù)學(xué)推理能力方面，YuLan-Mini表現(xiàn)尤為突出。在MATH-500基準(zhǔn)測(cè)試中，28K版本的模型達(dá)到了37.80分的成績(jī)，在GSM8K測(cè)試中獲得了68.46分。這些成績(jī)不僅在同規(guī)模模型中名列前茅，甚至能夠與一些更大的模型相媲美。這就像是一位輕量級(jí)拳手在重量級(jí)比賽中也能打出漂亮的組合拳。

代碼生成能力同樣表現(xiàn)出色，在HumanEval基準(zhǔn)中達(dá)到64.00分，在MBPP測(cè)試中獲得65.90分。這些成績(jī)說明YuLan-Mini不僅能夠理解編程問題，還能生成高質(zhì)量的代碼解決方案?？紤]到模型的規(guī)模限制，這樣的表現(xiàn)可以說是相當(dāng)優(yōu)異的。

在通用語言理解方面，YuLan-Mini在MMLU測(cè)試中取得了49.10分的成績(jī)。雖然這個(gè)分?jǐn)?shù)看起來可能不如一些專門優(yōu)化的大模型，但考慮到Y(jié)uLan-Mini只有24億參數(shù)，這個(gè)表現(xiàn)已經(jīng)相當(dāng)不錯(cuò)。在中文理解能力方面，模型在CEval測(cè)試中獲得48.23分，顯示出良好的多語言處理能力。

長(zhǎng)文本理解能力的測(cè)試結(jié)果顯示了模型在上下文擴(kuò)展方面的成功。在RULER基準(zhǔn)測(cè)試中，28K版本的YuLan-Mini取得了51.48分的成績(jī)。雖然由于計(jì)算資源限制，模型的上下文長(zhǎng)度只擴(kuò)展到28K，但這已經(jīng)足以處理大多數(shù)實(shí)際應(yīng)用場(chǎng)景的需求。

特別值得關(guān)注的是訓(xùn)練效率方面的表現(xiàn)。YuLan-Mini僅使用1.08萬億訓(xùn)練樣本就達(dá)到了這樣的性能水平，而許多同行模型需要消耗18萬億甚至更多的訓(xùn)練數(shù)據(jù)。這種數(shù)據(jù)效率的提升就像是用一半的油耗跑出了同樣的里程，體現(xiàn)了整個(gè)訓(xùn)練流程優(yōu)化的價(jià)值。

從計(jì)算效率的角度來看，YuLan-Mini的FLOPs（浮點(diǎn)運(yùn)算次數(shù)）相比其他模型有明顯優(yōu)勢(shì)。通過使用Kaplan等人提出的縮放律公式計(jì)算，YuLan-Mini在達(dá)到相似性能的情況下，所需的計(jì)算資源顯著少于同類模型。這種效率優(yōu)勢(shì)在實(shí)際部署和應(yīng)用中具有重要意義。

在與工業(yè)界主流模型的對(duì)比中，YuLan-Mini顯示出了強(qiáng)勁的競(jìng)爭(zhēng)力。雖然在某些單項(xiàng)測(cè)試中可能不是最高分，但在綜合性能和訓(xùn)練效率的平衡上，YuLan-Mini展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。這就像是一位全能運(yùn)動(dòng)員，雖然在單項(xiàng)上可能不是世界紀(jì)錄保持者，但在綜合得分上能夠獲得很好的名次。

模型在不同版本之間的性能對(duì)比也很有啟發(fā)性。4K版本在短文本任務(wù)上表現(xiàn)穩(wěn)定，而28K版本在保持短文本性能的同時(shí)，顯著提升了長(zhǎng)文本處理能力。這種漸進(jìn)式的能力擴(kuò)展證明了訓(xùn)練策略的有效性。

訓(xùn)練過程中的性能監(jiān)控?cái)?shù)據(jù)顯示，模型的各項(xiàng)能力發(fā)展比較均衡。數(shù)學(xué)能力、代碼能力和通用理解能力都呈現(xiàn)出穩(wěn)步提升的趨勢(shì)，沒有出現(xiàn)某項(xiàng)能力過度發(fā)展而其他能力滯后的情況。這種均衡發(fā)展對(duì)于實(shí)際應(yīng)用來說非常重要。

研究團(tuán)隊(duì)還公布了詳細(xì)的評(píng)估設(shè)置和結(jié)果，包括不同測(cè)試場(chǎng)景下的表現(xiàn)對(duì)比。他們采用了多種不同的提示策略，包括零樣本、少樣本和鏈?zhǔn)剿季S等，確保評(píng)估結(jié)果的全面性和可靠性。

總的來說，YuLan-Mini的性能表現(xiàn)證明了在有限資源約束下，通過精心的設(shè)計(jì)和優(yōu)化，完全可以訓(xùn)練出具有強(qiáng)競(jìng)爭(zhēng)力的語言模型。這為資源受限的研究機(jī)構(gòu)和企業(yè)提供了一個(gè)可行的技術(shù)路徑，也為整個(gè)行業(yè)探索更高效的模型訓(xùn)練方法提供了有價(jià)值的參考。

七、開源貢獻(xiàn)：讓技術(shù)惠及更多人

YuLan-Mini項(xiàng)目最令人欽佩的一點(diǎn)是研究團(tuán)隊(duì)的開放態(tài)度，他們不僅公開了模型本身，還詳細(xì)披露了整個(gè)訓(xùn)練過程的技術(shù)細(xì)節(jié)。這種做法就像是一位經(jīng)驗(yàn)豐富的工匠毫無保留地傳授自己的技藝，讓整個(gè)行業(yè)都能從中受益。

研究團(tuán)隊(duì)公開的內(nèi)容包括了模型的完整架構(gòu)參數(shù)、訓(xùn)練數(shù)據(jù)的詳細(xì)組成、每個(gè)訓(xùn)練階段的具體配置，甚至連遇到的技術(shù)難題和解決方案都進(jìn)行了詳細(xì)記錄。這種透明度在當(dāng)前的人工智能領(lǐng)域并不常見，許多公司和機(jī)構(gòu)往往會(huì)將這些關(guān)鍵技術(shù)作為商業(yè)秘密加以保護(hù)。

為了方便其他研究者復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果，團(tuán)隊(duì)提供了27個(gè)訓(xùn)練階段的詳細(xì)數(shù)據(jù)配比信息。每個(gè)階段使用了哪些數(shù)據(jù)源、各占多少比例、是如何進(jìn)行數(shù)據(jù)處理的，這些信息都被完整地記錄和公開。這就像是提供了一份詳細(xì)的菜譜，包括每種食材的用量、處理方法和烹飪時(shí)間。

在數(shù)據(jù)處理方面，研究團(tuán)隊(duì)不僅公開了使用的開源數(shù)據(jù)集列表，還詳細(xì)說明了數(shù)據(jù)清洗、去重、質(zhì)量篩選的具體方法。他們使用的合成數(shù)據(jù)生成方法、提示詞模板、質(zhì)量評(píng)估標(biāo)準(zhǔn)等技術(shù)細(xì)節(jié)也都進(jìn)行了公開。這種程度的開放讓其他研究者能夠在相同的基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。

訓(xùn)練穩(wěn)定性問題的研究成果也被完全公開。團(tuán)隊(duì)不僅分享了成功的解決方案，還詳細(xì)分析了各種失敗的嘗試和經(jīng)驗(yàn)教訓(xùn)。他們公開了大量的實(shí)驗(yàn)數(shù)據(jù)和分析圖表，讓其他研究者能夠深入理解訓(xùn)練不穩(wěn)定問題的根本原因和有效對(duì)策。

技術(shù)實(shí)現(xiàn)方面的細(xì)節(jié)也得到了充分的分享。從模型架構(gòu)的具體參數(shù)設(shè)置，到訓(xùn)練基礎(chǔ)設(shè)施的配置，再到各種優(yōu)化技術(shù)的實(shí)現(xiàn)方法，研究團(tuán)隊(duì)都提供了詳細(xì)的文檔和代碼。這種程度的技術(shù)分享讓其他研究者能夠直接使用和改進(jìn)這些方法。

為了降低復(fù)現(xiàn)門檻，團(tuán)隊(duì)還提供了不同規(guī)模的代理模型實(shí)驗(yàn)結(jié)果。這些小規(guī)模實(shí)驗(yàn)?zāi)軌驇椭Y源有限的研究者快速驗(yàn)證方法的有效性，然后再?zèng)Q定是否投入更多資源進(jìn)行大規(guī)模實(shí)驗(yàn)。這種設(shè)計(jì)考慮體現(xiàn)了團(tuán)隊(duì)對(duì)實(shí)際應(yīng)用場(chǎng)景的深入理解。

評(píng)估方法和基準(zhǔn)測(cè)試的詳細(xì)信息也被公開，包括使用的評(píng)估框架、具體的測(cè)試設(shè)置、結(jié)果分析方法等。這種透明度有助于確保實(shí)驗(yàn)結(jié)果的可重復(fù)性和可比較性，這對(duì)于科學(xué)研究來說極其重要。

研究團(tuán)隊(duì)還特別關(guān)注了工程實(shí)現(xiàn)的可操作性。他們提供的代碼和配置文件都經(jīng)過了精心整理，包含了詳細(xì)的注釋和使用說明。這種考慮讓其他研究者能夠更容易地理解和使用這些技術(shù)成果。

項(xiàng)目的開源不僅僅是技術(shù)層面的分享，更體現(xiàn)了一種學(xué)術(shù)精神和社會(huì)責(zé)任。在人工智能技術(shù)快速發(fā)展的今天，技術(shù)的民主化和普及變得越來越重要。YuLan-Mini項(xiàng)目的開源貢獻(xiàn)為那些沒有巨大計(jì)算資源的研究機(jī)構(gòu)、初創(chuàng)企業(yè)和個(gè)人研究者提供了寶貴的參考和起點(diǎn)。

這種開放態(tài)度也推動(dòng)了整個(gè)領(lǐng)域的技術(shù)進(jìn)步。當(dāng)技術(shù)細(xì)節(jié)被公開分享時(shí)，更多的研究者能夠在此基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新，從而加速整個(gè)領(lǐng)域的發(fā)展。這就像是科學(xué)研究中的同行評(píng)議制度，通過開放透明的交流來推動(dòng)知識(shí)的進(jìn)步。

研究團(tuán)隊(duì)表示，他們將繼續(xù)維護(hù)和更新項(xiàng)目的開源內(nèi)容，包括可能的模型改進(jìn)、新的實(shí)驗(yàn)結(jié)果和技術(shù)優(yōu)化。這種持續(xù)的維護(hù)承諾確保了項(xiàng)目的長(zhǎng)期價(jià)值和可用性。

通過這樣全方位的開源貢獻(xiàn)，YuLan-Mini項(xiàng)目不僅僅是一個(gè)成功的技術(shù)研究案例，更成為了推動(dòng)整個(gè)人工智能領(lǐng)域開放協(xié)作和技術(shù)普及的重要力量。

八、技術(shù)挑戰(zhàn)與解決方案：攻堅(jiān)克難的創(chuàng)新歷程

在開發(fā)YuLan-Mini的過程中，研究團(tuán)隊(duì)遇到了許多技術(shù)挑戰(zhàn)，每一個(gè)問題的解決都需要深入的研究和創(chuàng)新性的思考。這些挑戰(zhàn)就像是攀登高峰時(shí)遇到的各種險(xiǎn)阻，需要團(tuán)隊(duì)運(yùn)用智慧和毅力來逐一克服。

首先面臨的重大挑戰(zhàn)是如何在有限的參數(shù)預(yù)算內(nèi)最大化模型性能。傳統(tǒng)的做法往往是簡(jiǎn)單地增加模型規(guī)模，但這種方法對(duì)計(jì)算資源的需求極高。研究團(tuán)隊(duì)選擇了"精工細(xì)作"的路線，通過優(yōu)化每一個(gè)設(shè)計(jì)細(xì)節(jié)來提升效率。他們深入研究了不同架構(gòu)配置的性能影響，最終選擇了高瘦型的網(wǎng)絡(luò)結(jié)構(gòu)，用56層相對(duì)較深的網(wǎng)絡(luò)來換取更強(qiáng)的表達(dá)能力。

第二個(gè)重大挑戰(zhàn)是訓(xùn)練穩(wěn)定性問題。在使用較大學(xué)習(xí)率訓(xùn)練小模型時(shí)，經(jīng)常會(huì)出現(xiàn)梯度爆炸或訓(xùn)練發(fā)散的情況。這個(gè)問題就像是駕駛一輛高性能跑車，需要在保持高速的同時(shí)確保不會(huì)失控。團(tuán)隊(duì)通過大量的實(shí)驗(yàn)發(fā)現(xiàn)了隱藏狀態(tài)方差增長(zhǎng)的規(guī)律，并基于這個(gè)發(fā)現(xiàn)開發(fā)了一套綜合的穩(wěn)定化方案。

訓(xùn)練數(shù)據(jù)的質(zhì)量控制是另一個(gè)關(guān)鍵挑戰(zhàn)?；ヂ?lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊，如何從海量數(shù)據(jù)中篩選出真正有價(jià)值的內(nèi)容，是一個(gè)既需要技術(shù)手段又需要領(lǐng)域知識(shí)的復(fù)雜問題。研究團(tuán)隊(duì)開發(fā)了多層次的數(shù)據(jù)篩選流程，結(jié)合了自動(dòng)化工具和專業(yè)判斷，確保每一條進(jìn)入訓(xùn)練的數(shù)據(jù)都符合質(zhì)量要求。

合成數(shù)據(jù)的生成是項(xiàng)目中的一個(gè)創(chuàng)新亮點(diǎn)，同時(shí)也帶來了新的技術(shù)挑戰(zhàn)。如何生成既多樣化又高質(zhì)量的合成數(shù)據(jù)，如何確保這些數(shù)據(jù)能夠真正提升模型性能而不是引入噪聲，這些都需要精心設(shè)計(jì)和反復(fù)實(shí)驗(yàn)。團(tuán)隊(duì)開發(fā)了多種不同類型的合成數(shù)據(jù)生成方法，包括數(shù)學(xué)推理、代碼生成、科學(xué)問答等，每種方法都經(jīng)過了嚴(yán)格的質(zhì)量驗(yàn)證。

上下文長(zhǎng)度的擴(kuò)展也面臨著技術(shù)難題。傳統(tǒng)的位置編碼方法在處理超長(zhǎng)序列時(shí)會(huì)遇到性能下降的問題，而重新訓(xùn)練整個(gè)模型又不現(xiàn)實(shí)。研究團(tuán)隊(duì)采用了調(diào)整基頻的方法，通過修改RoPE參數(shù)來實(shí)現(xiàn)上下文擴(kuò)展，這種方法既高效又有效，但需要精確的參數(shù)調(diào)整和充分的驗(yàn)證。

計(jì)算資源的優(yōu)化利用是貫穿整個(gè)項(xiàng)目的挑戰(zhàn)。如何在有限的GPU集群上高效地訓(xùn)練如此規(guī)模的模型，需要在算法優(yōu)化、系統(tǒng)配置、資源調(diào)度等多個(gè)層面進(jìn)行協(xié)調(diào)。團(tuán)隊(duì)采用了多種優(yōu)化技術(shù)，包括混合精度訓(xùn)練、梯度累積、模型并行等，最終實(shí)現(xiàn)了51.57%的模型FLOPs利用率。

評(píng)估和驗(yàn)證也帶來了獨(dú)特的挑戰(zhàn)。如何公平地比較不同規(guī)模和架構(gòu)的模型，如何設(shè)計(jì)全面而有效的測(cè)試基準(zhǔn)，如何確保實(shí)驗(yàn)結(jié)果的可重復(fù)性，這些都需要精心的設(shè)計(jì)和嚴(yán)格的執(zhí)行。團(tuán)隊(duì)采用了多種不同的評(píng)估設(shè)置，包括零樣本、少樣本、鏈?zhǔn)剿季S等，并對(duì)所有實(shí)驗(yàn)進(jìn)行了詳細(xì)的記錄和分析。

在解決這些挑戰(zhàn)的過程中，研究團(tuán)隊(duì)展現(xiàn)出了強(qiáng)大的創(chuàng)新能力和執(zhí)行力。他們不僅借鑒了現(xiàn)有的先進(jìn)方法，更重要的是針對(duì)具體問題開發(fā)了創(chuàng)新的解決方案。比如在訓(xùn)練穩(wěn)定性方面，他們提出的基于隱藏狀態(tài)監(jiān)控的預(yù)警機(jī)制就是一個(gè)原創(chuàng)性的貢獻(xiàn)。

團(tuán)隊(duì)還特別注重實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和結(jié)果的可靠性。他們進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和消融研究，確保每個(gè)技術(shù)決策都有充分的實(shí)驗(yàn)證據(jù)支持。這種科學(xué)嚴(yán)謹(jǐn)?shù)膽B(tài)度不僅保證了研究結(jié)果的質(zhì)量，也為其他研究者提供了寶貴的經(jīng)驗(yàn)參考。

項(xiàng)目管理和團(tuán)隊(duì)協(xié)作也是成功的關(guān)鍵因素。在如此復(fù)雜的技術(shù)項(xiàng)目中，需要協(xié)調(diào)數(shù)據(jù)處理、模型訓(xùn)練、系統(tǒng)優(yōu)化、實(shí)驗(yàn)評(píng)估等多個(gè)方面的工作。團(tuán)隊(duì)建立了有效的工作流程和溝通機(jī)制，確保各個(gè)環(huán)節(jié)能夠協(xié)調(diào)配合，最終實(shí)現(xiàn)了項(xiàng)目目標(biāo)。

通過克服這些挑戰(zhàn)，YuLan-Mini項(xiàng)目不僅成功開發(fā)出了高性能的語言模型，更為整個(gè)領(lǐng)域積累了寶貴的技術(shù)經(jīng)驗(yàn)和方法論。這些經(jīng)驗(yàn)對(duì)于后續(xù)的研究工作具有重要的指導(dǎo)意義。

九、未來展望：小模型的大未來

YuLan-Mini項(xiàng)目的成功不僅僅是一個(gè)技術(shù)成就，更重要的是它為人工智能領(lǐng)域的未來發(fā)展指出了一個(gè)新的方向。這個(gè)項(xiàng)目證明了在資源約束的條件下，通過精心的設(shè)計(jì)和優(yōu)化，完全可以開發(fā)出具有強(qiáng)競(jìng)爭(zhēng)力的人工智能系統(tǒng)。

從技術(shù)發(fā)展的角度來看，YuLan-Mini開創(chuàng)了一種新的模型設(shè)計(jì)理念。傳統(tǒng)的做法往往是通過增加模型規(guī)模來提升性能，這種"大力出奇跡"的方法雖然有效，但對(duì)計(jì)算資源的需求極高，限制了技術(shù)的普及和應(yīng)用。YuLan-Mini證明了"小而精"的設(shè)計(jì)同樣可以取得優(yōu)異的性能，這為整個(gè)行業(yè)提供了一個(gè)新的思路。

這種設(shè)計(jì)理念的意義不僅在于節(jié)省計(jì)算資源，更在于讓更多的機(jī)構(gòu)和個(gè)人能夠參與到人工智能技術(shù)的發(fā)展中來。當(dāng)訓(xùn)練一個(gè)高性能語言模型不再需要巨大的計(jì)算集群和海量的數(shù)據(jù)時(shí)，更多的研究者就能夠在這個(gè)領(lǐng)域進(jìn)行創(chuàng)新和探索。這種技術(shù)民主化的趨勢(shì)對(duì)整個(gè)行業(yè)的長(zhǎng)遠(yuǎn)發(fā)展具有重要意義。

從實(shí)際應(yīng)用的角度來看，小模型有著獨(dú)特的優(yōu)勢(shì)。它們部署成本低、推理速度快、能耗較少，特別適合在邊緣設(shè)備和資源受限的環(huán)境中使用。隨著物聯(lián)網(wǎng)、移動(dòng)設(shè)備和邊緣計(jì)算的快速發(fā)展，這種優(yōu)勢(shì)將變得越來越重要。YuLan-Mini為這些應(yīng)用場(chǎng)景提供了技術(shù)可行性的證明。

數(shù)據(jù)效率的提升是另一個(gè)重要的發(fā)展方向。YuLan-Mini僅使用1.08萬億訓(xùn)練樣本就達(dá)到了與使用更多數(shù)據(jù)的模型相媲美的性能，這種數(shù)據(jù)效率的提升具有重要的現(xiàn)實(shí)意義。在數(shù)據(jù)獲取成本越來越高、數(shù)據(jù)隱私保護(hù)要求越來越嚴(yán)格的今天，如何更高效地利用有限的數(shù)據(jù)資源成為一個(gè)關(guān)鍵問題。

訓(xùn)練方法的創(chuàng)新也為未來發(fā)展提供了啟示。YuLan-Mini項(xiàng)目中使用的數(shù)據(jù)調(diào)度、合成數(shù)據(jù)生成、訓(xùn)練穩(wěn)定性優(yōu)化等方法，都可以應(yīng)用到其他模型的訓(xùn)練中。這些方法論的貢獻(xiàn)可能比單個(gè)模型的成功更有價(jià)值，因?yàn)樗鼈兛梢詭椭麄€(gè)領(lǐng)域提升技術(shù)水平。

開源文化的推廣是項(xiàng)目的另一個(gè)重要貢獻(xiàn)。在商業(yè)競(jìng)爭(zhēng)日益激烈的人工智能領(lǐng)域，愿意完全開放技術(shù)細(xì)節(jié)的研究團(tuán)隊(duì)并不多見。YuLan-Mini項(xiàng)目的開源不僅讓其他研究者受益，也推動(dòng)了整個(gè)領(lǐng)域向更加開放、合作的方向發(fā)展。

從教育和人才培養(yǎng)的角度來看，YuLan-Mini項(xiàng)目也具有重要意義。它為學(xué)生和初學(xué)者提供了一個(gè)完整的學(xué)習(xí)案例，從數(shù)據(jù)處理到模型訓(xùn)練，從技術(shù)實(shí)現(xiàn)到性能評(píng)估，每個(gè)環(huán)節(jié)都有詳細(xì)的文檔和代碼。這種完整性讓它成為了一個(gè)極好的教學(xué)資源。

技術(shù)標(biāo)準(zhǔn)化和規(guī)范化也是未來發(fā)展的重要方向。YuLan-Mini項(xiàng)目在實(shí)驗(yàn)設(shè)計(jì)、性能評(píng)估、結(jié)果報(bào)告等方面都體現(xiàn)了較高的科學(xué)標(biāo)準(zhǔn)，這種嚴(yán)謹(jǐn)性為建立行業(yè)標(biāo)準(zhǔn)提供了參考。隨著更多類似項(xiàng)目的出現(xiàn)，整個(gè)領(lǐng)域的研究質(zhì)量和可信度都會(huì)得到提升。

當(dāng)然，小模型的發(fā)展也面臨著一些挑戰(zhàn)。如何在保持模型緊湊的同時(shí)進(jìn)一步提升性能，如何處理更加復(fù)雜和多樣化的任務(wù)需求，如何與大模型形成良性的生態(tài)共存，這些都是需要持續(xù)探索的問題。

研究團(tuán)隊(duì)已經(jīng)表示將繼續(xù)在這個(gè)方向上進(jìn)行深入研究，包括開發(fā)YuLan-Mini的指令微調(diào)版本，探索在其他架構(gòu)和訓(xùn)練方法上的應(yīng)用，以及針對(duì)特定領(lǐng)域的專業(yè)化版本。這些后續(xù)工作將進(jìn)一步驗(yàn)證和擴(kuò)展項(xiàng)目的技術(shù)貢獻(xiàn)。

從更廣闊的視角來看，YuLan-Mini項(xiàng)目體現(xiàn)了科技發(fā)展的一個(gè)重要趨勢(shì)：從簡(jiǎn)單的規(guī)模擴(kuò)張向精細(xì)化優(yōu)化轉(zhuǎn)變。這種轉(zhuǎn)變不僅在人工智能領(lǐng)域有所體現(xiàn)，在其他技術(shù)領(lǐng)域也有類似的趨勢(shì)。它反映了技術(shù)發(fā)展從粗放式向集約式轉(zhuǎn)變的必然過程。

總的來說，YuLan-Mini項(xiàng)目為人工智能領(lǐng)域的未來發(fā)展提供了新的思路和方向。它證明了小模型同樣可以有大作為，資源效率和性能表現(xiàn)可以同時(shí)兼顧。這種技術(shù)路徑的成功將鼓勵(lì)更多研究者在這個(gè)方向上進(jìn)行探索，推動(dòng)整個(gè)領(lǐng)域向更加高效、普惠、可持續(xù)的方向發(fā)展。

說到底，YuLan-Mini項(xiàng)目的真正價(jià)值不僅在于它創(chuàng)造了一個(gè)優(yōu)秀的語言模型，更在于它展示了一種新的可能性：在人工智能技術(shù)快速發(fā)展的時(shí)代，我們不必被資源限制所束縛，而可以通過創(chuàng)新思維和精心設(shè)計(jì)來實(shí)現(xiàn)技術(shù)突破。這種精神和方法論對(duì)于推動(dòng)整個(gè)行業(yè)的健康發(fā)展具有深遠(yuǎn)的意義。無論是對(duì)于那些希望在人工智能領(lǐng)域有所作為的研究者，還是對(duì)于想要應(yīng)用這些技術(shù)的企業(yè)和組織來說，YuLan-Mini都提供了一個(gè)寶貴的參考案例和技術(shù)基礎(chǔ)。隨著更多類似項(xiàng)目的出現(xiàn)和技術(shù)的不斷完善，我們有理由相信，人工智能技術(shù)將變得更加普惠和實(shí)用，真正造福于人類社會(huì)的發(fā)展。

Q&A

Q1：YuLan-Mini只有2.4B參數(shù)，為什么能與大模型競(jìng)爭(zhēng)？

A：YuLan-Mini采用了"精工細(xì)作"的設(shè)計(jì)理念，通過精心的數(shù)據(jù)篩選、優(yōu)化的模型架構(gòu)和創(chuàng)新的訓(xùn)練方法來最大化性能。就像一位技藝精湛的工匠用簡(jiǎn)單工具制作精美藝術(shù)品，YuLan-Mini用高瘦型的56層網(wǎng)絡(luò)結(jié)構(gòu)、精選的1.08萬億高質(zhì)量訓(xùn)練樣本，以及專門的穩(wěn)定化訓(xùn)練技術(shù)，在有限參數(shù)下實(shí)現(xiàn)了與更大模型相媲美的表現(xiàn)。

Q2：YuLan-Mini的數(shù)據(jù)效率為什么這么高？

A：研究團(tuán)隊(duì)開發(fā)了完整的數(shù)據(jù)處理流程，包括多層次篩選、去重處理、質(zhì)量評(píng)分和主題導(dǎo)向的文本召回。他們還大量使用合成數(shù)據(jù)，生成各種推理樣本來增強(qiáng)模型能力。整個(gè)過程就像精選食材制作料理，每一條數(shù)據(jù)都經(jīng)過嚴(yán)格把關(guān)，確保質(zhì)量而非數(shù)量。相比其他模型需要18萬億樣本，YuLan-Mini僅用1.08萬億就達(dá)到同等效果。

Q3：普通研究機(jī)構(gòu)能復(fù)現(xiàn)YuLan-Mini嗎？

A：完全可以。研究團(tuán)隊(duì)公開了所有技術(shù)細(xì)節(jié)，包括27個(gè)訓(xùn)練階段的數(shù)據(jù)配比、完整的代碼實(shí)現(xiàn)、訓(xùn)練基礎(chǔ)設(shè)施配置，甚至提供了小規(guī)模的代理模型實(shí)驗(yàn)方法。這種開放程度就像提供了詳細(xì)菜譜，其他研究者可以根據(jù)自己的資源情況進(jìn)行調(diào)整和優(yōu)化。團(tuán)隊(duì)特別考慮了資源受限場(chǎng)景，讓大學(xué)實(shí)驗(yàn)室也能參與這類研究。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.