国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人民大學(xué)團(tuán)隊(duì)1.08萬億訓(xùn)練數(shù)據(jù)打造2.4B小模型

0
分享至


這項(xiàng)由中國人民大學(xué)高瓴人工智能學(xué)院主導(dǎo)的研究發(fā)表于2024年12月,論文編號(hào)為arXiv:2412.17743v2,該研究詳細(xì)闡述了YuLan-Mini語言模型的完整技術(shù)方案。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查詢完整論文。

在人工智能飛速發(fā)展的今天,大型語言模型已經(jīng)成為科技界的明星。然而,這些模型往往需要消耗巨大的計(jì)算資源和訓(xùn)練數(shù)據(jù),就像建造一座摩天大樓需要無數(shù)鋼筋混凝土一樣。對(duì)于大多數(shù)研究機(jī)構(gòu)和企業(yè)來說,訓(xùn)練這樣的模型幾乎是不可能完成的任務(wù)。正是在這樣的背景下,中國人民大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)頗具挑戰(zhàn)性的問題:能否用相對(duì)較少的資源,訓(xùn)練出一個(gè)性能卓越的小型語言模型?

這個(gè)問題就像是在問:能否用一個(gè)小餐廳的食材和設(shè)備,做出米其林三星餐廳水準(zhǔn)的菜肴?聽起來幾乎不可能,但研究團(tuán)隊(duì)偏偏做到了。他們開發(fā)的YuLan-Mini模型只有24億個(gè)參數(shù),相比之下,許多主流模型都有數(shù)百億甚至數(shù)千億參數(shù)。然而,這個(gè)"小個(gè)子"卻在多項(xiàng)測(cè)試中表現(xiàn)出色,甚至能夠與那些體型大它數(shù)倍的模型一較高下。

更令人驚訝的是,YuLan-Mini只用了1.08萬億個(gè)訓(xùn)練樣本就達(dá)到了這樣的效果。要知道,許多同行業(yè)的模型需要消耗18萬億甚至更多的訓(xùn)練數(shù)據(jù)。這就好比用一半的食材做出了同樣美味的菜肴,其中的秘訣究竟在哪里?

研究團(tuán)隊(duì)的答案是:精工細(xì)作。他們沒有簡(jiǎn)單粗暴地堆砌數(shù)據(jù),而是像一位經(jīng)驗(yàn)豐富的廚師一樣,精心挑選每一種"食材",巧妙搭配每一道"工序"。他們開發(fā)了一套完整的數(shù)據(jù)處理流程,就像建立了一條精密的生產(chǎn)線,每個(gè)環(huán)節(jié)都經(jīng)過精心設(shè)計(jì)和優(yōu)化。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。對(duì)于那些沒有巨大計(jì)算資源的研究機(jī)構(gòu)和初創(chuàng)企業(yè)來說,YuLan-Mini提供了一個(gè)可行的替代方案。它證明了在人工智能的世界里,"小而精"同樣可以戰(zhàn)勝"大而全"。這就像是證明了一位技藝精湛的工匠,完全可以用簡(jiǎn)單的工具制作出精美的藝術(shù)品,不一定需要最昂貴的設(shè)備。

研究團(tuán)隊(duì)不僅公開了模型本身,還詳細(xì)披露了整個(gè)訓(xùn)練過程的技術(shù)細(xì)節(jié),包括數(shù)據(jù)的具體配比、訓(xùn)練的每個(gè)階段、甚至是如何應(yīng)對(duì)訓(xùn)練過程中的各種技術(shù)難題。這種開放的態(tài)度就像是一位大廚毫無保留地分享自己的秘方,讓整個(gè)行業(yè)都能從中受益。

一、數(shù)據(jù)就是食材:精挑細(xì)選的1.08萬億訓(xùn)練樣本

任何一道美味的菜肴都離不開優(yōu)質(zhì)的食材,而對(duì)于語言模型來說,訓(xùn)練數(shù)據(jù)就是這些關(guān)鍵的"食材"。YuLan-Mini的成功很大程度上歸功于研究團(tuán)隊(duì)對(duì)數(shù)據(jù)的精心處理,這個(gè)過程就像是一位頂級(jí)廚師在菜市場(chǎng)精挑細(xì)選食材一樣嚴(yán)謹(jǐn)。

在開始訓(xùn)練之前,研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是如何從浩如煙海的互聯(lián)網(wǎng)數(shù)據(jù)中篩選出真正有價(jià)值的內(nèi)容?;ヂ?lián)網(wǎng)上的信息就像一個(gè)巨大的雜貨鋪,里面既有珍貴的寶藏,也有無用的垃圾。團(tuán)隊(duì)需要建立一套完整的篩選機(jī)制,確保進(jìn)入模型的每一條數(shù)據(jù)都是高質(zhì)量的。

整個(gè)數(shù)據(jù)收集過程涵蓋了多個(gè)不同的領(lǐng)域。英文網(wǎng)頁數(shù)據(jù)占了最大的比重,達(dá)到4810億個(gè)訓(xùn)練樣本,這些數(shù)據(jù)主要來自教育性質(zhì)的網(wǎng)站內(nèi)容。此外還包括1380億個(gè)一般英文知識(shí)樣本、2270億個(gè)代碼訓(xùn)練數(shù)據(jù)、167億個(gè)代碼指令數(shù)據(jù)、938億個(gè)數(shù)學(xué)訓(xùn)練數(shù)據(jù)、155億個(gè)數(shù)學(xué)指令數(shù)據(jù),以及1080億個(gè)中文數(shù)據(jù)樣本。

數(shù)據(jù)篩選的第一步是去重處理。研究團(tuán)隊(duì)使用了一種叫做MinHash的算法,這就像是給每條數(shù)據(jù)生成一個(gè)獨(dú)特的"指紋"。通過比較這些"指紋",系統(tǒng)可以快速識(shí)別出重復(fù)或高度相似的內(nèi)容并將其剔除。這個(gè)過程就像是在整理圖書館時(shí),發(fā)現(xiàn)有多本相同的書籍,只保留其中一本即可。

接下來是啟發(fā)式過濾,這個(gè)過程更像是一位經(jīng)驗(yàn)豐富的編輯在審閱稿件。系統(tǒng)會(huì)自動(dòng)檢查每條數(shù)據(jù)的質(zhì)量指標(biāo),比如長(zhǎng)度是否合適、語言是否規(guī)范、內(nèi)容是否有意義等。對(duì)于不同類型的數(shù)據(jù),篩選標(biāo)準(zhǔn)也有所不同。比如對(duì)于代碼數(shù)據(jù),系統(tǒng)會(huì)檢查代碼的平均行長(zhǎng)度、字母字符比例等技術(shù)指標(biāo)。對(duì)于數(shù)學(xué)文本,系統(tǒng)會(huì)確保內(nèi)容包含有意義的數(shù)學(xué)表達(dá)式,而不是亂碼或無關(guān)內(nèi)容。

為了進(jìn)一步提升數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還開發(fā)了一套基于機(jī)器學(xué)習(xí)的質(zhì)量評(píng)分系統(tǒng)。這就像是請(qǐng)了一位專業(yè)的品酒師來為每瓶酒打分一樣。系統(tǒng)會(huì)根據(jù)內(nèi)容的教育價(jià)值、語言質(zhì)量、信息密度等多個(gè)維度給每條數(shù)據(jù)打分,然后只選擇高分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

特別值得一提的是,團(tuán)隊(duì)還進(jìn)行了主題導(dǎo)向的文本召回。他們訓(xùn)練了專門的分類器來識(shí)別與數(shù)學(xué)、代碼、推理相關(guān)的高質(zhì)量文檔。這就像是在海量的圖書中,專門尋找與特定主題相關(guān)的珍貴資料。通過這種方式,他們從FineWeb-Edu和DCLM等大型數(shù)據(jù)集中提取了104億個(gè)數(shù)學(xué)文本、11.1億個(gè)代碼文本和10.1億個(gè)推理文本。

為了確保評(píng)估的公平性,研究團(tuán)隊(duì)還進(jìn)行了去污染處理。這個(gè)過程就像是確??荚嚂r(shí)學(xué)生沒有提前看到答案一樣重要。他們將訓(xùn)練數(shù)據(jù)與測(cè)試基準(zhǔn)進(jìn)行對(duì)比,如果發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中包含了測(cè)試題目或答案,就會(huì)將這些內(nèi)容剔除,確保模型的性能評(píng)估結(jié)果真實(shí)可靠。

數(shù)據(jù)預(yù)處理的最后一步是詞元化處理。研究團(tuán)隊(duì)選擇了大約9.9萬個(gè)詞匯量的分詞器,這就像是為一門語言制定標(biāo)準(zhǔn)的"詞典"。他們還采用了BPE-dropout技術(shù),這種方法可以幫助模型更好地理解詞匯的內(nèi)部結(jié)構(gòu),就像是教會(huì)模型如何拆解和理解復(fù)合詞一樣。對(duì)于數(shù)字的處理,團(tuán)隊(duì)選擇將每個(gè)數(shù)字拆分成單獨(dú)的字符,這樣可以提高模型在數(shù)學(xué)計(jì)算方面的準(zhǔn)確性。

通過這樣精心的數(shù)據(jù)準(zhǔn)備過程,YuLan-Mini最終使用的1.08萬億訓(xùn)練樣本不僅數(shù)量適中,質(zhì)量也達(dá)到了很高的水準(zhǔn)。這就像是一位頂級(jí)廚師用精選的食材制作料理,雖然分量不大,但每一樣都是精品。

二、訓(xùn)練穩(wěn)定性:解決模型訓(xùn)練中的"情緒波動(dòng)"

在訓(xùn)練大型語言模型的過程中,經(jīng)常會(huì)遇到一個(gè)令工程師們頭疼的問題:訓(xùn)練不穩(wěn)定。這就像是在駕駛一輛性能車時(shí),車子突然開始劇烈抖動(dòng)或者失控,讓人既緊張又困惑。對(duì)于語言模型來說,訓(xùn)練不穩(wěn)定表現(xiàn)為損失值突然飆升、梯度爆炸或者訓(xùn)練過程完全崩潰。

研究團(tuán)隊(duì)在開發(fā)YuLan-Mini的過程中,深入研究了這個(gè)問題的根本原因。他們發(fā)現(xiàn),傳統(tǒng)的觀點(diǎn)往往只關(guān)注表面現(xiàn)象,比如損失值的波動(dòng),但真正的問題其實(shí)隱藏得更深。通過大量的實(shí)驗(yàn)和理論分析,他們發(fā)現(xiàn)了一個(gè)重要的規(guī)律:模型內(nèi)部的"隱藏狀態(tài)"就像是訓(xùn)練過程的"情緒指標(biāo)",能夠提前預(yù)警即將到來的不穩(wěn)定。

這個(gè)發(fā)現(xiàn)可以用一個(gè)生動(dòng)的比喻來理解。設(shè)想你在觀察一個(gè)人的情緒變化,表面上看起來這個(gè)人很平靜,但如果你仔細(xì)觀察他的微表情、肌肉緊張程度等細(xì)微信號(hào),你可能會(huì)發(fā)現(xiàn)他內(nèi)心其實(shí)已經(jīng)開始焦慮了。同樣,模型的損失值可能看起來還正常,但內(nèi)部的隱藏狀態(tài)已經(jīng)開始出現(xiàn)異常波動(dòng),預(yù)示著即將到來的訓(xùn)練崩潰。

為了驗(yàn)證這個(gè)理論,研究團(tuán)隊(duì)進(jìn)行了精心設(shè)計(jì)的對(duì)比實(shí)驗(yàn)。他們訓(xùn)練了兩個(gè)配置相似的小模型,一個(gè)采用了穩(wěn)定化技術(shù),另一個(gè)沒有。結(jié)果發(fā)現(xiàn),在不穩(wěn)定的模型中,各層的隱藏狀態(tài)方差呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),就像滾雪球一樣越來越大。而在穩(wěn)定的模型中,這些數(shù)值保持在合理范圍內(nèi)。

通過深入的數(shù)學(xué)分析,團(tuán)隊(duì)識(shí)別出了導(dǎo)致訓(xùn)練不穩(wěn)定的三個(gè)主要因素。第一個(gè)是殘差連接導(dǎo)致的方差累積。在深度神經(jīng)網(wǎng)絡(luò)中,每一層都會(huì)在前一層的輸出基礎(chǔ)上添加新的信息,這就像是在一張紙上不斷疊加新的涂料。如果處理不當(dāng),這種累積效應(yīng)會(huì)導(dǎo)致數(shù)值越來越大,最終失控。

第二個(gè)因素是層歸一化在輸入偏離正常范圍時(shí)的異常行為。層歸一化本來是為了保持?jǐn)?shù)據(jù)分布穩(wěn)定而設(shè)計(jì)的,就像是一個(gè)自動(dòng)調(diào)節(jié)器。但當(dāng)輸入數(shù)據(jù)的分布過于極端時(shí),這個(gè)調(diào)節(jié)器本身可能成為問題的一部分,反而加劇了不穩(wěn)定性。

第三個(gè)因素是注意力分?jǐn)?shù)的異常增長(zhǎng)。在Transformer架構(gòu)中,注意力機(jī)制負(fù)責(zé)決定模型應(yīng)該關(guān)注輸入的哪些部分。但如果注意力分?jǐn)?shù)變得過大,就像是一個(gè)人過度專注某件事而忽略了周圍的一切,這種極端行為會(huì)導(dǎo)致整個(gè)系統(tǒng)失衡。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一套綜合的穩(wěn)定化解決方案。首先,他們采用了類似μP(Maximal Update Parametrization)的參數(shù)初始化方法。這種方法的核心思想是根據(jù)模型的規(guī)模來調(diào)整參數(shù)的初始值,確保不同大小的模型都能保持類似的訓(xùn)練動(dòng)態(tài)。這就像是為不同身高的人定制合適的服裝,確保每個(gè)人都能穿得合身舒適。

接著,他們引入了WeSaR重參數(shù)化技術(shù)。這種技術(shù)通過為每個(gè)權(quán)重矩陣添加一個(gè)額外的可學(xué)習(xí)參數(shù),將梯度的更新分散到更多的參數(shù)上。這就像是將一個(gè)重物的重量分散到多個(gè)支點(diǎn)上,降低了單點(diǎn)故障的風(fēng)險(xiǎn)。

為了處理注意力分?jǐn)?shù)的異常增長(zhǎng),團(tuán)隊(duì)還探索了QK層歸一化等技術(shù)。雖然這種方法在理論上很有效,但會(huì)顯著增加計(jì)算開銷。經(jīng)過權(quán)衡,他們最終選擇了其他更加高效的解決方案。

在學(xué)習(xí)率調(diào)度方面,團(tuán)隊(duì)采用了WSD(Warmup-Stable-Decay)策略,這種方法包括三個(gè)階段:預(yù)熱、穩(wěn)定和衰減。預(yù)熱階段就像是讓發(fā)動(dòng)機(jī)慢慢熱身,學(xué)習(xí)率從很小的值逐漸增加到目標(biāo)值。穩(wěn)定階段保持學(xué)習(xí)率不變,讓模型充分學(xué)習(xí)。最后的衰減階段則逐漸降低學(xué)習(xí)率,幫助模型收斂到更好的解。

通過這套綜合方案,YuLan-Mini在整個(gè)訓(xùn)練過程中保持了良好的穩(wěn)定性。訓(xùn)練曲線顯示,模型的損失值平穩(wěn)下降,沒有出現(xiàn)劇烈波動(dòng)或崩潰現(xiàn)象。這為后續(xù)的性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

三、數(shù)據(jù)調(diào)度:如何安排1080億個(gè)"學(xué)習(xí)課程"

訓(xùn)練一個(gè)語言模型就像是設(shè)計(jì)一套完整的教育課程,需要合理安排學(xué)習(xí)內(nèi)容的順序和比例。研究團(tuán)隊(duì)將YuLan-Mini的整個(gè)訓(xùn)練過程分為三個(gè)主要階段,每個(gè)階段都有不同的學(xué)習(xí)重點(diǎn)和數(shù)據(jù)配比,這種精心設(shè)計(jì)的安排被稱為數(shù)據(jù)調(diào)度。

整個(gè)訓(xùn)練過程就像是一個(gè)學(xué)生從小學(xué)到大學(xué)的學(xué)習(xí)歷程。預(yù)熱階段使用了100億個(gè)樣本,就像是幼兒園和小學(xué)階段,主要目的是讓模型熟悉基本的語言規(guī)律和表達(dá)方式。在這個(gè)階段,模型學(xué)習(xí)的內(nèi)容相對(duì)基礎(chǔ),涵蓋了各種類型的文本,但重點(diǎn)是建立對(duì)語言結(jié)構(gòu)的基本理解。

穩(wěn)定訓(xùn)練階段是整個(gè)過程的核心,使用了9900億個(gè)樣本,相當(dāng)于中學(xué)和大學(xué)階段的深入學(xué)習(xí)。在這個(gè)階段,模型需要掌握更復(fù)雜的語言技能,包括推理、代碼編寫、數(shù)學(xué)計(jì)算等高級(jí)能力。為了更好地管理這個(gè)龐大的學(xué)習(xí)過程,研究團(tuán)隊(duì)將穩(wěn)定訓(xùn)練階段細(xì)分為25個(gè)連續(xù)的課程階段,每個(gè)階段包含400億個(gè)樣本。

每個(gè)課程階段就像是一個(gè)學(xué)期的學(xué)習(xí)計(jì)劃,有著明確的學(xué)習(xí)目標(biāo)和內(nèi)容配比。在課程設(shè)計(jì)時(shí),團(tuán)隊(duì)會(huì)根據(jù)模型在各項(xiàng)基準(zhǔn)測(cè)試上的表現(xiàn)以及驗(yàn)證文本的困惑度來微調(diào)下一個(gè)階段的數(shù)據(jù)比例。這就像是老師根據(jù)學(xué)生的考試成績(jī)來調(diào)整教學(xué)計(jì)劃,哪門課程需要加強(qiáng),哪些內(nèi)容已經(jīng)掌握得不錯(cuò)。

數(shù)據(jù)配比的基本原則是保持相對(duì)穩(wěn)定,同時(shí)根據(jù)模型的學(xué)習(xí)進(jìn)度進(jìn)行微調(diào)。整體而言,英文網(wǎng)頁和通用內(nèi)容占60%,其中網(wǎng)頁內(nèi)容占45%,書籍、論文等其他資源占15%。代碼相關(guān)數(shù)據(jù)占20%,數(shù)學(xué)相關(guān)數(shù)據(jù)占10%,中文數(shù)據(jù)占10%。這種配比就像是為學(xué)生安排的課程表,確保各個(gè)學(xué)科都有適當(dāng)?shù)膶W(xué)習(xí)時(shí)間。

隨著訓(xùn)練的深入,數(shù)據(jù)配比會(huì)進(jìn)行細(xì)微的調(diào)整。比如在穩(wěn)定訓(xùn)練的后期,團(tuán)隊(duì)會(huì)逐漸增加指令數(shù)據(jù)的比例,但始終控制在5%以內(nèi)。這就像是在學(xué)生接近畢業(yè)時(shí),增加實(shí)習(xí)和實(shí)踐課程的比重,幫助他們更好地應(yīng)用所學(xué)知識(shí)。

在課程階段的轉(zhuǎn)換過程中,研究團(tuán)隊(duì)特別注意避免數(shù)據(jù)分布的劇烈變化。相鄰兩個(gè)階段之間的數(shù)據(jù)比例變化被嚴(yán)格控制在3%以內(nèi),這樣可以避免模型的學(xué)習(xí)過程出現(xiàn)突然的"震蕩"。這就像是學(xué)校在調(diào)整課程安排時(shí),不會(huì)一下子完全改變時(shí)間表,而是漸進(jìn)式地進(jìn)行調(diào)整,讓學(xué)生有適應(yīng)的時(shí)間。

課程內(nèi)容的難度安排也經(jīng)過了精心設(shè)計(jì)。對(duì)于數(shù)學(xué)和代碼數(shù)據(jù),研究團(tuán)隊(duì)使用質(zhì)量分類器對(duì)內(nèi)容進(jìn)行評(píng)分,然后按照從易到難的順序進(jìn)行訓(xùn)練。這種方法被稱為課程學(xué)習(xí),就像是數(shù)學(xué)教學(xué)中先學(xué)加減法,再學(xué)乘除法,最后學(xué)微積分的漸進(jìn)過程。

特別值得一提的是,團(tuán)隊(duì)在訓(xùn)練過程中大量使用了合成數(shù)據(jù)。這些合成數(shù)據(jù)包括各種類型的推理樣本,從基礎(chǔ)的數(shù)學(xué)計(jì)算到復(fù)雜的邏輯推理,從簡(jiǎn)單的代碼練習(xí)到高級(jí)的算法實(shí)現(xiàn)。這就像是為學(xué)生準(zhǔn)備了各種類型的練習(xí)題,確保他們能夠全面掌握所學(xué)的知識(shí)。

數(shù)學(xué)推理數(shù)據(jù)的生成特別精細(xì),包括了多種不同的類型。有基礎(chǔ)的計(jì)算練習(xí),也有需要多步推理的復(fù)雜問題。團(tuán)隊(duì)甚至生成了類似o1模型那樣的長(zhǎng)思考鏈數(shù)據(jù),讓模型學(xué)會(huì)在回答問題之前進(jìn)行深入的思考。這就像是教會(huì)學(xué)生不僅要知道答案,還要理解解題的思路和過程。

代碼相關(guān)的合成數(shù)據(jù)同樣豐富多樣,包括編程競(jìng)賽題目、開源項(xiàng)目指令、以及各種實(shí)際應(yīng)用場(chǎng)景的代碼示例。這些數(shù)據(jù)幫助模型不僅能夠編寫正確的代碼,還能理解代碼的應(yīng)用場(chǎng)景和最佳實(shí)踐。

通過這樣精心設(shè)計(jì)的數(shù)據(jù)調(diào)度策略,YuLan-Mini在訓(xùn)練過程中能夠逐步建立起全面而深入的語言理解能力。每個(gè)階段都為下一個(gè)階段的學(xué)習(xí)奠定基礎(chǔ),最終形成了一個(gè)知識(shí)結(jié)構(gòu)完整、能力均衡的語言模型。

四、模型架構(gòu):打造2.4B參數(shù)的"精密機(jī)器"

YuLan-Mini的架構(gòu)設(shè)計(jì)就像是建造一座精密的機(jī)械表,每個(gè)部件都經(jīng)過精心設(shè)計(jì)和調(diào)校,確保整體性能達(dá)到最優(yōu)狀態(tài)。這個(gè)模型總共包含24.2億個(gè)參數(shù),其中22.3億個(gè)是非嵌入?yún)?shù),相比那些動(dòng)輒數(shù)百億參數(shù)的大模型,YuLan-Mini選擇了"小而精"的設(shè)計(jì)理念。

整個(gè)模型采用了解碼器型的Transformer架構(gòu),這是目前語言模型的主流設(shè)計(jì)。但在具體的細(xì)節(jié)設(shè)計(jì)上,研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)創(chuàng)新和優(yōu)化。模型包含56層,每層的隱藏維度是1920,這種"高瘦型"的設(shè)計(jì)就像是建造一座細(xì)長(zhǎng)但結(jié)構(gòu)堅(jiān)固的塔樓,能夠在有限的參數(shù)預(yù)算內(nèi)獲得更深的網(wǎng)絡(luò)層次。

在注意力機(jī)制的設(shè)計(jì)上,團(tuán)隊(duì)采用了分組查詢注意力(GQA)技術(shù)。這種設(shè)計(jì)使用30個(gè)查詢頭和6個(gè)鍵值組,就像是在一個(gè)會(huì)議室中安排30個(gè)提問者,但只需要6個(gè)回答者來處理所有問題。這種不對(duì)稱的設(shè)計(jì)既保證了模型的表達(dá)能力,又顯著降低了計(jì)算開銷,特別是在推理階段的內(nèi)存占用。

位置編碼采用了旋轉(zhuǎn)位置嵌入(RoPE)技術(shù),這種方法能夠更好地處理不同長(zhǎng)度的文本序列。在基礎(chǔ)訓(xùn)練階段,RoPE的基頻參數(shù)設(shè)置為10000,支持4096個(gè)標(biāo)記的上下文長(zhǎng)度。在退火階段,這個(gè)參數(shù)被調(diào)整為490000,使模型能夠處理長(zhǎng)達(dá)28672個(gè)標(biāo)記的長(zhǎng)文本,這就像是給望遠(yuǎn)鏡更換了更強(qiáng)大的鏡頭,能夠看得更遠(yuǎn)更清楚。

激活函數(shù)選擇了SwiGLU,這是一種門控線性單元,能夠更好地捕捉復(fù)雜的數(shù)據(jù)關(guān)系。研究表明,這種激活函數(shù)在相對(duì)較小的語言模型中表現(xiàn)特別出色,就像是為精密儀器選擇了最適合的傳動(dòng)機(jī)構(gòu)。

層標(biāo)準(zhǔn)化方面,模型使用了Pre-RMSNorm,這種配置將標(biāo)準(zhǔn)化操作放在每個(gè)子層的前面,而不是后面。這樣的設(shè)計(jì)能夠提高訓(xùn)練的穩(wěn)定性和收斂速度,同時(shí)RMSNorm相比傳統(tǒng)的LayerNorm能夠節(jié)省計(jì)算資源,就像是選擇了更高效的潤滑系統(tǒng)。

嵌入層設(shè)計(jì)采用了權(quán)重共享策略,將輸入嵌入和輸出嵌入使用相同的參數(shù)矩陣。這種設(shè)計(jì)不僅減少了參數(shù)數(shù)量,還提高了訓(xùn)練的穩(wěn)定性,就像是在機(jī)械設(shè)計(jì)中使用通用部件,既節(jié)省了材料又提高了可靠性。

詞匯表大小設(shè)定為99000,這個(gè)數(shù)字經(jīng)過了精心計(jì)算和權(quán)衡。研究團(tuán)隊(duì)采用了三種不同的方法來確定最優(yōu)的詞匯表大小,確保在計(jì)算效率和表達(dá)能力之間找到最佳平衡點(diǎn)。他們復(fù)用了MiniCPM的字節(jié)對(duì)編碼(BPE)分詞器,但進(jìn)行了適當(dāng)?shù)男藜艉蛢?yōu)化,移除了一些罕見的領(lǐng)域特定詞匯,同時(shí)添加了一些保留詞匯。

為了提高模型對(duì)數(shù)字的處理能力,團(tuán)隊(duì)采用了數(shù)字分解策略,將多位數(shù)分解為單個(gè)數(shù)字字符。這種方法雖然會(huì)稍微增加序列長(zhǎng)度,但能顯著提高數(shù)學(xué)計(jì)算的準(zhǔn)確性,就像是教會(huì)計(jì)算器更仔細(xì)地處理每一位數(shù)字。

模型還引入了BPE-dropout技術(shù),使用0.2的dropout率。這種技術(shù)能夠幫助模型更好地理解詞匯的內(nèi)部結(jié)構(gòu),學(xué)會(huì)處理未見過的詞匯組合,就像是教會(huì)學(xué)生不僅認(rèn)識(shí)整個(gè)單詞,還能理解單詞的構(gòu)成部分。

在參數(shù)初始化方面,團(tuán)隊(duì)采用了改進(jìn)的初始化策略,結(jié)合了類μP初始化和WeSaR重參數(shù)化技術(shù)。每個(gè)權(quán)重矩陣都添加了額外的可學(xué)習(xí)縮放參數(shù),這種設(shè)計(jì)能夠更好地控制梯度流動(dòng),提高訓(xùn)練穩(wěn)定性。

整個(gè)架構(gòu)的設(shè)計(jì)理念是在有限的參數(shù)預(yù)算內(nèi)最大化模型能力。通過精心的組件選擇和參數(shù)調(diào)優(yōu),YuLan-Mini在保持緊湊體積的同時(shí),實(shí)現(xiàn)了與更大模型相媲美的性能表現(xiàn)。

五、退火訓(xùn)練:最后沖刺的"精雕細(xì)琢"

訓(xùn)練語言模型的最后階段被稱為退火,這個(gè)名詞來源于金屬加工中的退火工藝。在金屬加工中,退火是指將金屬加熱后緩慢冷卻,以消除內(nèi)應(yīng)力,提高材料的韌性和加工性能。對(duì)于語言模型來說,退火階段同樣是一個(gè)精細(xì)化調(diào)整的過程,目的是在已有基礎(chǔ)上進(jìn)一步提升模型的性能。

YuLan-Mini的退火訓(xùn)練使用了800億個(gè)高質(zhì)量樣本,相當(dāng)于整個(gè)訓(xùn)練數(shù)據(jù)量的8%。雖然數(shù)據(jù)量看起來不大,但這個(gè)階段的作用卻至關(guān)重要,就像是雕刻師對(duì)作品進(jìn)行最后的精雕細(xì)琢,每一刀都要格外謹(jǐn)慎和精確。

在退火階段,學(xué)習(xí)率的調(diào)整策略發(fā)生了重要變化。研究團(tuán)隊(duì)采用了1-sqrt退火函數(shù),這種函數(shù)能夠讓學(xué)習(xí)率從訓(xùn)練階段的峰值平滑地下降到一個(gè)很小的值。這個(gè)過程就像是讓一輛高速行駛的汽車逐漸減速停靠,既要保持穩(wěn)定,又要確保能夠精確到達(dá)目標(biāo)位置。

具體來說,學(xué)習(xí)率從0.01逐漸降低到5.22×10^-5,整個(gè)過程持續(xù)18802步,然后在最后的772步中保持這個(gè)較低的學(xué)習(xí)率不變。這種設(shè)計(jì)讓模型有充分的時(shí)間來微調(diào)參數(shù),同時(shí)避免了過度調(diào)整導(dǎo)致的性能退化。

退火階段的另一個(gè)重要改變是上下文長(zhǎng)度的擴(kuò)展。通過將RoPE的基頻從10000調(diào)整到490000,模型的上下文處理能力從4096個(gè)標(biāo)記擴(kuò)展到28672個(gè)標(biāo)記,增長(zhǎng)了近7倍。這就像是給望遠(yuǎn)鏡更換了更強(qiáng)大的鏡頭,能夠看到更遠(yuǎn)、更詳細(xì)的景象。

為了實(shí)現(xiàn)這種上下文擴(kuò)展,研究團(tuán)隊(duì)采用了調(diào)整基頻(ABF)的方法。這種方法通過修改位置編碼的參數(shù),讓模型能夠理解和處理更長(zhǎng)的文本序列,而不需要從零開始重新訓(xùn)練。這個(gè)過程需要在長(zhǎng)文本訓(xùn)練中進(jìn)行,讓模型逐漸適應(yīng)新的上下文長(zhǎng)度。

退火階段的數(shù)據(jù)選擇極為嚴(yán)格,研究團(tuán)隊(duì)采用了多種策略來確保數(shù)據(jù)質(zhì)量。首先,他們?cè)黾恿烁鞣N高質(zhì)量數(shù)據(jù)源的比例,特別是合成推理數(shù)據(jù)。其次,他們使用了基于梯度的數(shù)據(jù)選擇方法,這種方法能夠識(shí)別出對(duì)模型性能提升最有幫助的樣本。

數(shù)據(jù)組成方面,退火階段包含了646.5億的混合預(yù)訓(xùn)練數(shù)據(jù),作為基礎(chǔ)內(nèi)容。數(shù)學(xué)相關(guān)數(shù)據(jù)占了重要比重,其中包括3.07億的鏈?zhǔn)剿季S數(shù)據(jù)、6100萬的長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)、1000萬的形式數(shù)學(xué)數(shù)據(jù),以及14.2億的精選數(shù)學(xué)數(shù)據(jù)。代碼方面有66.6億的鏈?zhǔn)剿季S數(shù)據(jù)和23.9億的精選代碼數(shù)據(jù)。科學(xué)領(lǐng)域也有相應(yīng)的配置,包括400萬的長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)和10.6億的精選科學(xué)數(shù)據(jù)。

特別值得注意的是,退火階段大幅增加了指令數(shù)據(jù)的比例,達(dá)到19.19%。這些指令數(shù)據(jù)包括代碼相關(guān)指令約11%、數(shù)學(xué)相關(guān)指令約7%、通用指令約1%。這種調(diào)整讓模型更好地學(xué)會(huì)如何響應(yīng)用戶的指令和問題。

長(zhǎng)上下文數(shù)據(jù)在退火階段也占據(jù)了重要地位,約占14.21%的比例。研究團(tuán)隊(duì)特別選擇了書籍內(nèi)容和連接的GitHub代碼文本作為長(zhǎng)上下文數(shù)據(jù),這些內(nèi)容具有天然的長(zhǎng)程依賴關(guān)系,能夠幫助模型學(xué)會(huì)處理復(fù)雜的上下文信息。

為了在增強(qiáng)長(zhǎng)文本能力的同時(shí)保持短文本性能,團(tuán)隊(duì)還采用了掩碼交叉文檔注意力機(jī)制。這種技術(shù)防止注意力跨越不同文檔,確保模型在處理長(zhǎng)文本時(shí)不會(huì)影響對(duì)短文本的理解能力。

數(shù)據(jù)打包策略也進(jìn)行了特殊設(shè)計(jì)。對(duì)于預(yù)訓(xùn)練數(shù)據(jù),系統(tǒng)會(huì)直接進(jìn)行拼接;但對(duì)于指令數(shù)據(jù),如果被分割到兩個(gè)序列中,系統(tǒng)會(huì)對(duì)前一個(gè)序列的剩余部分進(jìn)行填充,確保指令數(shù)據(jù)的完整性。這種處理方式就像是在包裝易碎品時(shí),對(duì)每件物品都進(jìn)行專門的保護(hù)措施。

退火階段結(jié)束時(shí),研究團(tuán)隊(duì)還采用了檢查點(diǎn)合并策略,將最后幾個(gè)檢查點(diǎn)進(jìn)行平均,產(chǎn)生最終的預(yù)訓(xùn)練模型。這種做法雖然可能會(huì)在某些特定能力上有輕微下降,但能夠獲得更加均衡和魯棒的整體性能。

通過這樣精心設(shè)計(jì)的退火過程,YuLan-Mini在保持原有優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步提升了數(shù)學(xué)推理、代碼生成和長(zhǎng)文本理解等關(guān)鍵能力,最終成為一個(gè)性能全面、能力均衡的語言模型。

六、性能表現(xiàn):小模型的大能耐

經(jīng)過精心訓(xùn)練的YuLan-Mini在各項(xiàng)測(cè)試中展現(xiàn)出了令人印象深刻的性能表現(xiàn),這就像是一位體重較輕的運(yùn)動(dòng)員在各項(xiàng)比賽中都能與重量級(jí)選手一較高下。通過與同規(guī)模和更大規(guī)模模型的全面對(duì)比,YuLan-Mini證明了"小而精"設(shè)計(jì)理念的有效性。

在數(shù)學(xué)推理能力方面,YuLan-Mini表現(xiàn)尤為突出。在MATH-500基準(zhǔn)測(cè)試中,28K版本的模型達(dá)到了37.80分的成績(jī),在GSM8K測(cè)試中獲得了68.46分。這些成績(jī)不僅在同規(guī)模模型中名列前茅,甚至能夠與一些更大的模型相媲美。這就像是一位輕量級(jí)拳手在重量級(jí)比賽中也能打出漂亮的組合拳。

代碼生成能力同樣表現(xiàn)出色,在HumanEval基準(zhǔn)中達(dá)到64.00分,在MBPP測(cè)試中獲得65.90分。這些成績(jī)說明YuLan-Mini不僅能夠理解編程問題,還能生成高質(zhì)量的代碼解決方案??紤]到模型的規(guī)模限制,這樣的表現(xiàn)可以說是相當(dāng)優(yōu)異的。

在通用語言理解方面,YuLan-Mini在MMLU測(cè)試中取得了49.10分的成績(jī)。雖然這個(gè)分?jǐn)?shù)看起來可能不如一些專門優(yōu)化的大模型,但考慮到Y(jié)uLan-Mini只有24億參數(shù),這個(gè)表現(xiàn)已經(jīng)相當(dāng)不錯(cuò)。在中文理解能力方面,模型在CEval測(cè)試中獲得48.23分,顯示出良好的多語言處理能力。

長(zhǎng)文本理解能力的測(cè)試結(jié)果顯示了模型在上下文擴(kuò)展方面的成功。在RULER基準(zhǔn)測(cè)試中,28K版本的YuLan-Mini取得了51.48分的成績(jī)。雖然由于計(jì)算資源限制,模型的上下文長(zhǎng)度只擴(kuò)展到28K,但這已經(jīng)足以處理大多數(shù)實(shí)際應(yīng)用場(chǎng)景的需求。

特別值得關(guān)注的是訓(xùn)練效率方面的表現(xiàn)。YuLan-Mini僅使用1.08萬億訓(xùn)練樣本就達(dá)到了這樣的性能水平,而許多同行模型需要消耗18萬億甚至更多的訓(xùn)練數(shù)據(jù)。這種數(shù)據(jù)效率的提升就像是用一半的油耗跑出了同樣的里程,體現(xiàn)了整個(gè)訓(xùn)練流程優(yōu)化的價(jià)值。

從計(jì)算效率的角度來看,YuLan-Mini的FLOPs(浮點(diǎn)運(yùn)算次數(shù))相比其他模型有明顯優(yōu)勢(shì)。通過使用Kaplan等人提出的縮放律公式計(jì)算,YuLan-Mini在達(dá)到相似性能的情況下,所需的計(jì)算資源顯著少于同類模型。這種效率優(yōu)勢(shì)在實(shí)際部署和應(yīng)用中具有重要意義。

在與工業(yè)界主流模型的對(duì)比中,YuLan-Mini顯示出了強(qiáng)勁的競(jìng)爭(zhēng)力。雖然在某些單項(xiàng)測(cè)試中可能不是最高分,但在綜合性能和訓(xùn)練效率的平衡上,YuLan-Mini展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。這就像是一位全能運(yùn)動(dòng)員,雖然在單項(xiàng)上可能不是世界紀(jì)錄保持者,但在綜合得分上能夠獲得很好的名次。

模型在不同版本之間的性能對(duì)比也很有啟發(fā)性。4K版本在短文本任務(wù)上表現(xiàn)穩(wěn)定,而28K版本在保持短文本性能的同時(shí),顯著提升了長(zhǎng)文本處理能力。這種漸進(jìn)式的能力擴(kuò)展證明了訓(xùn)練策略的有效性。

訓(xùn)練過程中的性能監(jiān)控?cái)?shù)據(jù)顯示,模型的各項(xiàng)能力發(fā)展比較均衡。數(shù)學(xué)能力、代碼能力和通用理解能力都呈現(xiàn)出穩(wěn)步提升的趨勢(shì),沒有出現(xiàn)某項(xiàng)能力過度發(fā)展而其他能力滯后的情況。這種均衡發(fā)展對(duì)于實(shí)際應(yīng)用來說非常重要。

研究團(tuán)隊(duì)還公布了詳細(xì)的評(píng)估設(shè)置和結(jié)果,包括不同測(cè)試場(chǎng)景下的表現(xiàn)對(duì)比。他們采用了多種不同的提示策略,包括零樣本、少樣本和鏈?zhǔn)剿季S等,確保評(píng)估結(jié)果的全面性和可靠性。

總的來說,YuLan-Mini的性能表現(xiàn)證明了在有限資源約束下,通過精心的設(shè)計(jì)和優(yōu)化,完全可以訓(xùn)練出具有強(qiáng)競(jìng)爭(zhēng)力的語言模型。這為資源受限的研究機(jī)構(gòu)和企業(yè)提供了一個(gè)可行的技術(shù)路徑,也為整個(gè)行業(yè)探索更高效的模型訓(xùn)練方法提供了有價(jià)值的參考。

七、開源貢獻(xiàn):讓技術(shù)惠及更多人

YuLan-Mini項(xiàng)目最令人欽佩的一點(diǎn)是研究團(tuán)隊(duì)的開放態(tài)度,他們不僅公開了模型本身,還詳細(xì)披露了整個(gè)訓(xùn)練過程的技術(shù)細(xì)節(jié)。這種做法就像是一位經(jīng)驗(yàn)豐富的工匠毫無保留地傳授自己的技藝,讓整個(gè)行業(yè)都能從中受益。

研究團(tuán)隊(duì)公開的內(nèi)容包括了模型的完整架構(gòu)參數(shù)、訓(xùn)練數(shù)據(jù)的詳細(xì)組成、每個(gè)訓(xùn)練階段的具體配置,甚至連遇到的技術(shù)難題和解決方案都進(jìn)行了詳細(xì)記錄。這種透明度在當(dāng)前的人工智能領(lǐng)域并不常見,許多公司和機(jī)構(gòu)往往會(huì)將這些關(guān)鍵技術(shù)作為商業(yè)秘密加以保護(hù)。

為了方便其他研究者復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果,團(tuán)隊(duì)提供了27個(gè)訓(xùn)練階段的詳細(xì)數(shù)據(jù)配比信息。每個(gè)階段使用了哪些數(shù)據(jù)源、各占多少比例、是如何進(jìn)行數(shù)據(jù)處理的,這些信息都被完整地記錄和公開。這就像是提供了一份詳細(xì)的菜譜,包括每種食材的用量、處理方法和烹飪時(shí)間。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)不僅公開了使用的開源數(shù)據(jù)集列表,還詳細(xì)說明了數(shù)據(jù)清洗、去重、質(zhì)量篩選的具體方法。他們使用的合成數(shù)據(jù)生成方法、提示詞模板、質(zhì)量評(píng)估標(biāo)準(zhǔn)等技術(shù)細(xì)節(jié)也都進(jìn)行了公開。這種程度的開放讓其他研究者能夠在相同的基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。

訓(xùn)練穩(wěn)定性問題的研究成果也被完全公開。團(tuán)隊(duì)不僅分享了成功的解決方案,還詳細(xì)分析了各種失敗的嘗試和經(jīng)驗(yàn)教訓(xùn)。他們公開了大量的實(shí)驗(yàn)數(shù)據(jù)和分析圖表,讓其他研究者能夠深入理解訓(xùn)練不穩(wěn)定問題的根本原因和有效對(duì)策。

技術(shù)實(shí)現(xiàn)方面的細(xì)節(jié)也得到了充分的分享。從模型架構(gòu)的具體參數(shù)設(shè)置,到訓(xùn)練基礎(chǔ)設(shè)施的配置,再到各種優(yōu)化技術(shù)的實(shí)現(xiàn)方法,研究團(tuán)隊(duì)都提供了詳細(xì)的文檔和代碼。這種程度的技術(shù)分享讓其他研究者能夠直接使用和改進(jìn)這些方法。

為了降低復(fù)現(xiàn)門檻,團(tuán)隊(duì)還提供了不同規(guī)模的代理模型實(shí)驗(yàn)結(jié)果。這些小規(guī)模實(shí)驗(yàn)?zāi)軌驇椭Y源有限的研究者快速驗(yàn)證方法的有效性,然后再?zèng)Q定是否投入更多資源進(jìn)行大規(guī)模實(shí)驗(yàn)。這種設(shè)計(jì)考慮體現(xiàn)了團(tuán)隊(duì)對(duì)實(shí)際應(yīng)用場(chǎng)景的深入理解。

評(píng)估方法和基準(zhǔn)測(cè)試的詳細(xì)信息也被公開,包括使用的評(píng)估框架、具體的測(cè)試設(shè)置、結(jié)果分析方法等。這種透明度有助于確保實(shí)驗(yàn)結(jié)果的可重復(fù)性和可比較性,這對(duì)于科學(xué)研究來說極其重要。

研究團(tuán)隊(duì)還特別關(guān)注了工程實(shí)現(xiàn)的可操作性。他們提供的代碼和配置文件都經(jīng)過了精心整理,包含了詳細(xì)的注釋和使用說明。這種考慮讓其他研究者能夠更容易地理解和使用這些技術(shù)成果。

項(xiàng)目的開源不僅僅是技術(shù)層面的分享,更體現(xiàn)了一種學(xué)術(shù)精神和社會(huì)責(zé)任。在人工智能技術(shù)快速發(fā)展的今天,技術(shù)的民主化和普及變得越來越重要。YuLan-Mini項(xiàng)目的開源貢獻(xiàn)為那些沒有巨大計(jì)算資源的研究機(jī)構(gòu)、初創(chuàng)企業(yè)和個(gè)人研究者提供了寶貴的參考和起點(diǎn)。

這種開放態(tài)度也推動(dòng)了整個(gè)領(lǐng)域的技術(shù)進(jìn)步。當(dāng)技術(shù)細(xì)節(jié)被公開分享時(shí),更多的研究者能夠在此基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新,從而加速整個(gè)領(lǐng)域的發(fā)展。這就像是科學(xué)研究中的同行評(píng)議制度,通過開放透明的交流來推動(dòng)知識(shí)的進(jìn)步。

研究團(tuán)隊(duì)表示,他們將繼續(xù)維護(hù)和更新項(xiàng)目的開源內(nèi)容,包括可能的模型改進(jìn)、新的實(shí)驗(yàn)結(jié)果和技術(shù)優(yōu)化。這種持續(xù)的維護(hù)承諾確保了項(xiàng)目的長(zhǎng)期價(jià)值和可用性。

通過這樣全方位的開源貢獻(xiàn),YuLan-Mini項(xiàng)目不僅僅是一個(gè)成功的技術(shù)研究案例,更成為了推動(dòng)整個(gè)人工智能領(lǐng)域開放協(xié)作和技術(shù)普及的重要力量。

八、技術(shù)挑戰(zhàn)與解決方案:攻堅(jiān)克難的創(chuàng)新歷程

在開發(fā)YuLan-Mini的過程中,研究團(tuán)隊(duì)遇到了許多技術(shù)挑戰(zhàn),每一個(gè)問題的解決都需要深入的研究和創(chuàng)新性的思考。這些挑戰(zhàn)就像是攀登高峰時(shí)遇到的各種險(xiǎn)阻,需要團(tuán)隊(duì)運(yùn)用智慧和毅力來逐一克服。

首先面臨的重大挑戰(zhàn)是如何在有限的參數(shù)預(yù)算內(nèi)最大化模型性能。傳統(tǒng)的做法往往是簡(jiǎn)單地增加模型規(guī)模,但這種方法對(duì)計(jì)算資源的需求極高。研究團(tuán)隊(duì)選擇了"精工細(xì)作"的路線,通過優(yōu)化每一個(gè)設(shè)計(jì)細(xì)節(jié)來提升效率。他們深入研究了不同架構(gòu)配置的性能影響,最終選擇了高瘦型的網(wǎng)絡(luò)結(jié)構(gòu),用56層相對(duì)較深的網(wǎng)絡(luò)來換取更強(qiáng)的表達(dá)能力。

第二個(gè)重大挑戰(zhàn)是訓(xùn)練穩(wěn)定性問題。在使用較大學(xué)習(xí)率訓(xùn)練小模型時(shí),經(jīng)常會(huì)出現(xiàn)梯度爆炸或訓(xùn)練發(fā)散的情況。這個(gè)問題就像是駕駛一輛高性能跑車,需要在保持高速的同時(shí)確保不會(huì)失控。團(tuán)隊(duì)通過大量的實(shí)驗(yàn)發(fā)現(xiàn)了隱藏狀態(tài)方差增長(zhǎng)的規(guī)律,并基于這個(gè)發(fā)現(xiàn)開發(fā)了一套綜合的穩(wěn)定化方案。

訓(xùn)練數(shù)據(jù)的質(zhì)量控制是另一個(gè)關(guān)鍵挑戰(zhàn)?;ヂ?lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊,如何從海量數(shù)據(jù)中篩選出真正有價(jià)值的內(nèi)容,是一個(gè)既需要技術(shù)手段又需要領(lǐng)域知識(shí)的復(fù)雜問題。研究團(tuán)隊(duì)開發(fā)了多層次的數(shù)據(jù)篩選流程,結(jié)合了自動(dòng)化工具和專業(yè)判斷,確保每一條進(jìn)入訓(xùn)練的數(shù)據(jù)都符合質(zhì)量要求。

合成數(shù)據(jù)的生成是項(xiàng)目中的一個(gè)創(chuàng)新亮點(diǎn),同時(shí)也帶來了新的技術(shù)挑戰(zhàn)。如何生成既多樣化又高質(zhì)量的合成數(shù)據(jù),如何確保這些數(shù)據(jù)能夠真正提升模型性能而不是引入噪聲,這些都需要精心設(shè)計(jì)和反復(fù)實(shí)驗(yàn)。團(tuán)隊(duì)開發(fā)了多種不同類型的合成數(shù)據(jù)生成方法,包括數(shù)學(xué)推理、代碼生成、科學(xué)問答等,每種方法都經(jīng)過了嚴(yán)格的質(zhì)量驗(yàn)證。

上下文長(zhǎng)度的擴(kuò)展也面臨著技術(shù)難題。傳統(tǒng)的位置編碼方法在處理超長(zhǎng)序列時(shí)會(huì)遇到性能下降的問題,而重新訓(xùn)練整個(gè)模型又不現(xiàn)實(shí)。研究團(tuán)隊(duì)采用了調(diào)整基頻的方法,通過修改RoPE參數(shù)來實(shí)現(xiàn)上下文擴(kuò)展,這種方法既高效又有效,但需要精確的參數(shù)調(diào)整和充分的驗(yàn)證。

計(jì)算資源的優(yōu)化利用是貫穿整個(gè)項(xiàng)目的挑戰(zhàn)。如何在有限的GPU集群上高效地訓(xùn)練如此規(guī)模的模型,需要在算法優(yōu)化、系統(tǒng)配置、資源調(diào)度等多個(gè)層面進(jìn)行協(xié)調(diào)。團(tuán)隊(duì)采用了多種優(yōu)化技術(shù),包括混合精度訓(xùn)練、梯度累積、模型并行等,最終實(shí)現(xiàn)了51.57%的模型FLOPs利用率。

評(píng)估和驗(yàn)證也帶來了獨(dú)特的挑戰(zhàn)。如何公平地比較不同規(guī)模和架構(gòu)的模型,如何設(shè)計(jì)全面而有效的測(cè)試基準(zhǔn),如何確保實(shí)驗(yàn)結(jié)果的可重復(fù)性,這些都需要精心的設(shè)計(jì)和嚴(yán)格的執(zhí)行。團(tuán)隊(duì)采用了多種不同的評(píng)估設(shè)置,包括零樣本、少樣本、鏈?zhǔn)剿季S等,并對(duì)所有實(shí)驗(yàn)進(jìn)行了詳細(xì)的記錄和分析。

在解決這些挑戰(zhàn)的過程中,研究團(tuán)隊(duì)展現(xiàn)出了強(qiáng)大的創(chuàng)新能力和執(zhí)行力。他們不僅借鑒了現(xiàn)有的先進(jìn)方法,更重要的是針對(duì)具體問題開發(fā)了創(chuàng)新的解決方案。比如在訓(xùn)練穩(wěn)定性方面,他們提出的基于隱藏狀態(tài)監(jiān)控的預(yù)警機(jī)制就是一個(gè)原創(chuàng)性的貢獻(xiàn)。

團(tuán)隊(duì)還特別注重實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和結(jié)果的可靠性。他們進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和消融研究,確保每個(gè)技術(shù)決策都有充分的實(shí)驗(yàn)證據(jù)支持。這種科學(xué)嚴(yán)謹(jǐn)?shù)膽B(tài)度不僅保證了研究結(jié)果的質(zhì)量,也為其他研究者提供了寶貴的經(jīng)驗(yàn)參考。

項(xiàng)目管理和團(tuán)隊(duì)協(xié)作也是成功的關(guān)鍵因素。在如此復(fù)雜的技術(shù)項(xiàng)目中,需要協(xié)調(diào)數(shù)據(jù)處理、模型訓(xùn)練、系統(tǒng)優(yōu)化、實(shí)驗(yàn)評(píng)估等多個(gè)方面的工作。團(tuán)隊(duì)建立了有效的工作流程和溝通機(jī)制,確保各個(gè)環(huán)節(jié)能夠協(xié)調(diào)配合,最終實(shí)現(xiàn)了項(xiàng)目目標(biāo)。

通過克服這些挑戰(zhàn),YuLan-Mini項(xiàng)目不僅成功開發(fā)出了高性能的語言模型,更為整個(gè)領(lǐng)域積累了寶貴的技術(shù)經(jīng)驗(yàn)和方法論。這些經(jīng)驗(yàn)對(duì)于后續(xù)的研究工作具有重要的指導(dǎo)意義。

九、未來展望:小模型的大未來

YuLan-Mini項(xiàng)目的成功不僅僅是一個(gè)技術(shù)成就,更重要的是它為人工智能領(lǐng)域的未來發(fā)展指出了一個(gè)新的方向。這個(gè)項(xiàng)目證明了在資源約束的條件下,通過精心的設(shè)計(jì)和優(yōu)化,完全可以開發(fā)出具有強(qiáng)競(jìng)爭(zhēng)力的人工智能系統(tǒng)。

從技術(shù)發(fā)展的角度來看,YuLan-Mini開創(chuàng)了一種新的模型設(shè)計(jì)理念。傳統(tǒng)的做法往往是通過增加模型規(guī)模來提升性能,這種"大力出奇跡"的方法雖然有效,但對(duì)計(jì)算資源的需求極高,限制了技術(shù)的普及和應(yīng)用。YuLan-Mini證明了"小而精"的設(shè)計(jì)同樣可以取得優(yōu)異的性能,這為整個(gè)行業(yè)提供了一個(gè)新的思路。

這種設(shè)計(jì)理念的意義不僅在于節(jié)省計(jì)算資源,更在于讓更多的機(jī)構(gòu)和個(gè)人能夠參與到人工智能技術(shù)的發(fā)展中來。當(dāng)訓(xùn)練一個(gè)高性能語言模型不再需要巨大的計(jì)算集群和海量的數(shù)據(jù)時(shí),更多的研究者就能夠在這個(gè)領(lǐng)域進(jìn)行創(chuàng)新和探索。這種技術(shù)民主化的趨勢(shì)對(duì)整個(gè)行業(yè)的長(zhǎng)遠(yuǎn)發(fā)展具有重要意義。

從實(shí)際應(yīng)用的角度來看,小模型有著獨(dú)特的優(yōu)勢(shì)。它們部署成本低、推理速度快、能耗較少,特別適合在邊緣設(shè)備和資源受限的環(huán)境中使用。隨著物聯(lián)網(wǎng)、移動(dòng)設(shè)備和邊緣計(jì)算的快速發(fā)展,這種優(yōu)勢(shì)將變得越來越重要。YuLan-Mini為這些應(yīng)用場(chǎng)景提供了技術(shù)可行性的證明。

數(shù)據(jù)效率的提升是另一個(gè)重要的發(fā)展方向。YuLan-Mini僅使用1.08萬億訓(xùn)練樣本就達(dá)到了與使用更多數(shù)據(jù)的模型相媲美的性能,這種數(shù)據(jù)效率的提升具有重要的現(xiàn)實(shí)意義。在數(shù)據(jù)獲取成本越來越高、數(shù)據(jù)隱私保護(hù)要求越來越嚴(yán)格的今天,如何更高效地利用有限的數(shù)據(jù)資源成為一個(gè)關(guān)鍵問題。

訓(xùn)練方法的創(chuàng)新也為未來發(fā)展提供了啟示。YuLan-Mini項(xiàng)目中使用的數(shù)據(jù)調(diào)度、合成數(shù)據(jù)生成、訓(xùn)練穩(wěn)定性優(yōu)化等方法,都可以應(yīng)用到其他模型的訓(xùn)練中。這些方法論的貢獻(xiàn)可能比單個(gè)模型的成功更有價(jià)值,因?yàn)樗鼈兛梢詭椭麄€(gè)領(lǐng)域提升技術(shù)水平。

開源文化的推廣是項(xiàng)目的另一個(gè)重要貢獻(xiàn)。在商業(yè)競(jìng)爭(zhēng)日益激烈的人工智能領(lǐng)域,愿意完全開放技術(shù)細(xì)節(jié)的研究團(tuán)隊(duì)并不多見。YuLan-Mini項(xiàng)目的開源不僅讓其他研究者受益,也推動(dòng)了整個(gè)領(lǐng)域向更加開放、合作的方向發(fā)展。

從教育和人才培養(yǎng)的角度來看,YuLan-Mini項(xiàng)目也具有重要意義。它為學(xué)生和初學(xué)者提供了一個(gè)完整的學(xué)習(xí)案例,從數(shù)據(jù)處理到模型訓(xùn)練,從技術(shù)實(shí)現(xiàn)到性能評(píng)估,每個(gè)環(huán)節(jié)都有詳細(xì)的文檔和代碼。這種完整性讓它成為了一個(gè)極好的教學(xué)資源。

技術(shù)標(biāo)準(zhǔn)化和規(guī)范化也是未來發(fā)展的重要方向。YuLan-Mini項(xiàng)目在實(shí)驗(yàn)設(shè)計(jì)、性能評(píng)估、結(jié)果報(bào)告等方面都體現(xiàn)了較高的科學(xué)標(biāo)準(zhǔn),這種嚴(yán)謹(jǐn)性為建立行業(yè)標(biāo)準(zhǔn)提供了參考。隨著更多類似項(xiàng)目的出現(xiàn),整個(gè)領(lǐng)域的研究質(zhì)量和可信度都會(huì)得到提升。

當(dāng)然,小模型的發(fā)展也面臨著一些挑戰(zhàn)。如何在保持模型緊湊的同時(shí)進(jìn)一步提升性能,如何處理更加復(fù)雜和多樣化的任務(wù)需求,如何與大模型形成良性的生態(tài)共存,這些都是需要持續(xù)探索的問題。

研究團(tuán)隊(duì)已經(jīng)表示將繼續(xù)在這個(gè)方向上進(jìn)行深入研究,包括開發(fā)YuLan-Mini的指令微調(diào)版本,探索在其他架構(gòu)和訓(xùn)練方法上的應(yīng)用,以及針對(duì)特定領(lǐng)域的專業(yè)化版本。這些后續(xù)工作將進(jìn)一步驗(yàn)證和擴(kuò)展項(xiàng)目的技術(shù)貢獻(xiàn)。

從更廣闊的視角來看,YuLan-Mini項(xiàng)目體現(xiàn)了科技發(fā)展的一個(gè)重要趨勢(shì):從簡(jiǎn)單的規(guī)模擴(kuò)張向精細(xì)化優(yōu)化轉(zhuǎn)變。這種轉(zhuǎn)變不僅在人工智能領(lǐng)域有所體現(xiàn),在其他技術(shù)領(lǐng)域也有類似的趨勢(shì)。它反映了技術(shù)發(fā)展從粗放式向集約式轉(zhuǎn)變的必然過程。

總的來說,YuLan-Mini項(xiàng)目為人工智能領(lǐng)域的未來發(fā)展提供了新的思路和方向。它證明了小模型同樣可以有大作為,資源效率和性能表現(xiàn)可以同時(shí)兼顧。這種技術(shù)路徑的成功將鼓勵(lì)更多研究者在這個(gè)方向上進(jìn)行探索,推動(dòng)整個(gè)領(lǐng)域向更加高效、普惠、可持續(xù)的方向發(fā)展。

說到底,YuLan-Mini項(xiàng)目的真正價(jià)值不僅在于它創(chuàng)造了一個(gè)優(yōu)秀的語言模型,更在于它展示了一種新的可能性:在人工智能技術(shù)快速發(fā)展的時(shí)代,我們不必被資源限制所束縛,而可以通過創(chuàng)新思維和精心設(shè)計(jì)來實(shí)現(xiàn)技術(shù)突破。這種精神和方法論對(duì)于推動(dòng)整個(gè)行業(yè)的健康發(fā)展具有深遠(yuǎn)的意義。無論是對(duì)于那些希望在人工智能領(lǐng)域有所作為的研究者,還是對(duì)于想要應(yīng)用這些技術(shù)的企業(yè)和組織來說,YuLan-Mini都提供了一個(gè)寶貴的參考案例和技術(shù)基礎(chǔ)。隨著更多類似項(xiàng)目的出現(xiàn)和技術(shù)的不斷完善,我們有理由相信,人工智能技術(shù)將變得更加普惠和實(shí)用,真正造福于人類社會(huì)的發(fā)展。

Q&A

Q1:YuLan-Mini只有2.4B參數(shù),為什么能與大模型競(jìng)爭(zhēng)?

A:YuLan-Mini采用了"精工細(xì)作"的設(shè)計(jì)理念,通過精心的數(shù)據(jù)篩選、優(yōu)化的模型架構(gòu)和創(chuàng)新的訓(xùn)練方法來最大化性能。就像一位技藝精湛的工匠用簡(jiǎn)單工具制作精美藝術(shù)品,YuLan-Mini用高瘦型的56層網(wǎng)絡(luò)結(jié)構(gòu)、精選的1.08萬億高質(zhì)量訓(xùn)練樣本,以及專門的穩(wěn)定化訓(xùn)練技術(shù),在有限參數(shù)下實(shí)現(xiàn)了與更大模型相媲美的表現(xiàn)。

Q2:YuLan-Mini的數(shù)據(jù)效率為什么這么高?

A:研究團(tuán)隊(duì)開發(fā)了完整的數(shù)據(jù)處理流程,包括多層次篩選、去重處理、質(zhì)量評(píng)分和主題導(dǎo)向的文本召回。他們還大量使用合成數(shù)據(jù),生成各種推理樣本來增強(qiáng)模型能力。整個(gè)過程就像精選食材制作料理,每一條數(shù)據(jù)都經(jīng)過嚴(yán)格把關(guān),確保質(zhì)量而非數(shù)量。相比其他模型需要18萬億樣本,YuLan-Mini僅用1.08萬億就達(dá)到同等效果。

Q3:普通研究機(jī)構(gòu)能復(fù)現(xiàn)YuLan-Mini嗎?

A:完全可以。研究團(tuán)隊(duì)公開了所有技術(shù)細(xì)節(jié),包括27個(gè)訓(xùn)練階段的數(shù)據(jù)配比、完整的代碼實(shí)現(xiàn)、訓(xùn)練基礎(chǔ)設(shè)施配置,甚至提供了小規(guī)模的代理模型實(shí)驗(yàn)方法。這種開放程度就像提供了詳細(xì)菜譜,其他研究者可以根據(jù)自己的資源情況進(jìn)行調(diào)整和優(yōu)化。團(tuán)隊(duì)特別考慮了資源受限場(chǎng)景,讓大學(xué)實(shí)驗(yàn)室也能參與這類研究。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6999元!新機(jī)官宣:3月20日,正式開售!

6999元!新機(jī)官宣:3月20日,正式開售!

科技堡壘
2026-03-14 11:48:32
伊朗軍方宣布打擊美國多處基地

伊朗軍方宣布打擊美國多處基地

參考消息
2026-03-13 21:22:35
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

紅星新聞
2026-03-14 15:58:37
順產(chǎn)分娩手術(shù)時(shí)直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

順產(chǎn)分娩手術(shù)時(shí)直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

極目新聞
2026-03-14 17:27:32
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

鞭牛士
2026-03-14 12:04:14
隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊(duì)負(fù)分

隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊(duì)負(fù)分

側(cè)身凌空斬
2026-03-14 17:48:06
伊朗稱哈爾克島局勢(shì)已得到控制

伊朗稱哈爾克島局勢(shì)已得到控制

界面新聞
2026-03-14 18:35:14
河南女子拍到大雁排成“ETC”陣型遷徙,場(chǎng)面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

河南女子拍到大雁排成“ETC”陣型遷徙,場(chǎng)面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

臺(tái)州交通廣播
2026-03-14 08:59:12
外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時(shí)間

外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時(shí)間

牛鍋巴小釩
2026-03-14 09:52:49
無錫至成都航班在地面滑行時(shí),一旅客隨身充電寶突發(fā)自燃

無錫至成都航班在地面滑行時(shí),一旅客隨身充電寶突發(fā)自燃

都市快報(bào)橙柿互動(dòng)
2026-03-14 13:18:38
主動(dòng)辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

主動(dòng)辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

萌蘭聊個(gè)球
2026-03-14 14:28:11
其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會(huì)豁然開朗

其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會(huì)豁然開朗

暖風(fēng)吹過竹林
2026-03-14 10:23:30
日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

GA環(huán)球建筑
2026-03-13 17:27:01
鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對(duì)許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對(duì)許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級(jí)世界杯穩(wěn)了

84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級(jí)世界杯穩(wěn)了

籃球快餐車
2026-03-14 16:48:34
中國女足為何戰(zhàn)勝中國臺(tái)北賽后王霜毫不客氣說出原因 說的很實(shí)在

中國女足為何戰(zhàn)勝中國臺(tái)北賽后王霜毫不客氣說出原因 說的很實(shí)在

籃球看比賽
2026-03-14 17:06:54
中超巨大爭(zhēng)議!楊皓宇染紅離場(chǎng),媒體人集體開炮:主裁莫名其妙

中超巨大爭(zhēng)議!楊皓宇染紅離場(chǎng),媒體人集體開炮:主裁莫名其妙

奧拜爾
2026-03-14 17:40:57
馬克龍:黎巴嫩稱愿與以色列直接對(duì)話,法國愿提供平臺(tái),以方應(yīng)“抓住機(jī)會(huì)”

馬克龍:黎巴嫩稱愿與以色列直接對(duì)話,法國愿提供平臺(tái),以方應(yīng)“抓住機(jī)會(huì)”

環(huán)球網(wǎng)資訊
2026-03-14 19:42:07
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
王霜停賽!中國女足3月17日18點(diǎn)對(duì)陣東道主澳大利亞 勝者將進(jìn)決賽

王霜停賽!中國女足3月17日18點(diǎn)對(duì)陣東道主澳大利亞 勝者將進(jìn)決賽

風(fēng)過鄉(xiāng)
2026-03-14 16:00:51
2026-03-14 20:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

房產(chǎn)
游戲
親子
本地
公開課

房產(chǎn)要聞

不容易??!??诮K于又要賣地了!

《GTA》歷代開發(fā)成本對(duì)比:25年來暴增上百倍!

親子要聞

萌娃為何覺得自己和大人一樣?聽到答案的大人們繃不住了

本地新聞

坐標(biāo)北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版