国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

新方法大幅提升大語言模型訓(xùn)練效率

0
分享至


推理大語言模型通過將復(fù)雜問題分解為一系列較小步驟來解決難題。這些強(qiáng)大的模型在高級編程和多步規(guī)劃等具有挑戰(zhàn)性的任務(wù)上表現(xiàn)出色。

但是,開發(fā)推理模型需要巨大的計算量和能耗,這是由于訓(xùn)練過程中的低效率造成的。當(dāng)少數(shù)高性能處理器持續(xù)處理復(fù)雜查詢時,群組中的其他處理器卻處于閑置狀態(tài)。

來自MIT等機(jī)構(gòu)的研究人員找到了一種利用這些計算空閑時間來有效加速推理模型訓(xùn)練的方法。

他們的新方法能夠自動訓(xùn)練一個更小、更快的模型來預(yù)測較大推理大語言模型的輸出,然后由較大模型進(jìn)行驗證。這減少了推理模型必須完成的工作量,從而加速了訓(xùn)練過程。

該系統(tǒng)的關(guān)鍵在于能夠自適應(yīng)地訓(xùn)練和部署較小的模型,使其僅在某些處理器空閑時才介入工作。通過利用原本會被浪費的計算資源,它在不產(chǎn)生額外開銷的情況下加速了訓(xùn)練。

在多個推理大語言模型上進(jìn)行測試時,該方法在保持準(zhǔn)確性的同時將訓(xùn)練速度提高了一倍。這可以降低成本并提高開發(fā)高級大語言模型的能源效率,這些模型可應(yīng)用于金融趨勢預(yù)測或電網(wǎng)風(fēng)險檢測等領(lǐng)域。

MIT博士后、該技術(shù)論文的共同第一作者胡慶豪表示:"人們希望模型能夠處理更復(fù)雜的任務(wù)。但如果這是模型開發(fā)的目標(biāo),那么我們需要優(yōu)先考慮效率。我們找到了這個問題的無損解決方案,然后開發(fā)了一個能夠在實踐中實現(xiàn)相當(dāng)顯著加速的全棧系統(tǒng)。"

該論文的其他作者包括共同第一作者、電子工程與計算機(jī)科學(xué)研究生楊尚;電子工程與計算機(jī)科學(xué)研究生郭俊賢;資深作者、電子工程與計算機(jī)科學(xué)副教授、電子研究實驗室成員及NVIDIA杰出科學(xué)家韓松,以及來自NVIDIA、蘇黎世聯(lián)邦理工學(xué)院、MIT-IBM Watson人工智能實驗室和馬薩諸塞大學(xué)阿默斯特分校的其他研究人員。該研究將在ACM編程語言和操作系統(tǒng)架構(gòu)支持國際會議上發(fā)表。

訓(xùn)練瓶頸

開發(fā)人員希望推理大語言模型能夠識別并糾正其批判性思維過程中的錯誤。這種能力使它們能夠處理會困擾標(biāo)準(zhǔn)大語言模型的復(fù)雜查詢。

為了教授這項技能,開發(fā)人員使用一種稱為強(qiáng)化學(xué)習(xí)的技術(shù)來訓(xùn)練推理大語言模型。模型為查詢生成多個潛在答案,為最佳候選答案獲得獎勵,并根據(jù)最佳答案進(jìn)行更新。這些步驟重復(fù)數(shù)千次,模型在此過程中學(xué)習(xí)。

但研究人員發(fā)現(xiàn),生成多個答案的過程(稱為rollout)可能消耗強(qiáng)化學(xué)習(xí)訓(xùn)練所需執(zhí)行時間的多達(dá)85%。

胡慶豪說:"相比之下,更新模型——這才是實際的'訓(xùn)練'部分——消耗的時間很少。"

這個瓶頸出現(xiàn)在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法中,因為訓(xùn)練組中的所有處理器必須完成其響應(yīng)后才能進(jìn)入下一步。由于某些處理器可能正在處理很長的響應(yīng),而生成較短響應(yīng)的其他處理器則等待它們完成。

胡慶豪補(bǔ)充說:"我們的目標(biāo)是將這種空閑時間轉(zhuǎn)化為加速,而不產(chǎn)生任何浪費的成本。"

他們試圖使用一種稱為推測解碼的現(xiàn)有技術(shù)來加速過程。推測解碼涉及訓(xùn)練一個稱為草案模型的較小模型來快速猜測較大模型的未來輸出。

較大模型驗證草案模型的猜測,其接受的響應(yīng)用于訓(xùn)練。

因為較大模型可以一次驗證草案模型的所有猜測,而不是按順序生成每個輸出,所以它加速了過程。

自適應(yīng)解決方案

但在推測解碼中,草案模型通常只訓(xùn)練一次并保持靜態(tài)。這使得該技術(shù)對強(qiáng)化學(xué)習(xí)不可行,因為推理模型在訓(xùn)練期間會更新數(shù)千次。

靜態(tài)草案模型在幾步之后很快就會變得過時和無用。

為了克服這個問題,研究人員創(chuàng)建了一個名為"馴服長尾"(TLT)的靈活系統(tǒng)。

TLT的第一部分是自適應(yīng)草案訓(xùn)練器,它利用空閑處理器的空閑時間來動態(tài)訓(xùn)練草案模型,使其與目標(biāo)模型保持良好對齊,而不使用額外的計算資源。

第二個組件是自適應(yīng)rollout引擎,管理推測解碼以自動為每批新輸入選擇最優(yōu)策略。該機(jī)制根據(jù)訓(xùn)練工作負(fù)載特征改變推測解碼配置,如草案模型處理的輸入數(shù)量和驗證期間目標(biāo)模型接受的輸入數(shù)量。

此外,研究人員將草案模型設(shè)計得輕量化,以便可以快速訓(xùn)練。TLT重用推理模型訓(xùn)練過程的一些組件來訓(xùn)練草案模型,從而獲得額外的加速收益。

胡慶豪說:"一旦某些處理器完成了短查詢并變得空閑,我們立即切換它們使用相同的數(shù)據(jù)進(jìn)行草案模型訓(xùn)練,這些數(shù)據(jù)也用于rollout過程。關(guān)鍵機(jī)制是我們的自適應(yīng)推測解碼——沒有它這些收益是不可能的。"

他們在使用真實世界數(shù)據(jù)集訓(xùn)練的多個推理大語言模型上測試了TLT。該系統(tǒng)在保持每個模型準(zhǔn)確性的同時,將訓(xùn)練速度提高了70%到210%。

作為額外的好處,小型草案模型可以作為免費副產(chǎn)品用于高效部署。

未來,研究人員希望將TLT集成到更多類型的訓(xùn)練和推理框架中,并找到可以使用這種方法加速的新強(qiáng)化學(xué)習(xí)應(yīng)用。

韓松說:"隨著推理繼續(xù)成為驅(qū)動推理需求的主要工作負(fù)載,慶豪的TLT是應(yīng)對訓(xùn)練這些推理模型計算瓶頸的出色工作。我認(rèn)為這種方法在高效AI計算的背景下將非常有用。"

這項工作由MIT-IBM Watson人工智能實驗室、MIT AI硬件項目、MIT亞馬遜科學(xué)中心、現(xiàn)代汽車公司和美國國家科學(xué)基金會資助。

Q&A

Q1:TLT方法是什么?它如何提升大語言模型訓(xùn)練效率?

A:TLT(馴服長尾)是MIT研究人員開發(fā)的新方法,它通過訓(xùn)練一個較小的草案模型來預(yù)測大語言模型的輸出,然后由大模型驗證。關(guān)鍵是利用空閑處理器的計算時間來自適應(yīng)訓(xùn)練草案模型,將原本浪費的計算資源轉(zhuǎn)化為訓(xùn)練加速,在不增加額外開銷的情況下將訓(xùn)練速度提高70%到210%。

Q2:為什么推理大語言模型訓(xùn)練會出現(xiàn)效率瓶頸?

A:瓶頸主要出現(xiàn)在強(qiáng)化學(xué)習(xí)的rollout過程中,這個過程需要生成多個潛在答案,可能消耗高達(dá)85%的執(zhí)行時間。由于所有處理器必須等待最慢的處理器完成長響應(yīng)后才能進(jìn)入下一步,導(dǎo)致處理短響應(yīng)的處理器長時間閑置,造成計算資源浪費。

Q3:TLT方法與傳統(tǒng)推測解碼有什么不同?

A:傳統(tǒng)推測解碼中的草案模型是靜態(tài)的,只訓(xùn)練一次,在強(qiáng)化學(xué)習(xí)中會快速變得過時無用。TLT的創(chuàng)新在于自適應(yīng)特性:它包含自適應(yīng)草案訓(xùn)練器,能在訓(xùn)練過程中動態(tài)更新草案模型;還有自適應(yīng)rollout引擎,能根據(jù)工作負(fù)載特征自動選擇最優(yōu)策略配置。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深圳發(fā)布以舊換新方案:汽車、家電、數(shù)碼、智能產(chǎn)品均有補(bǔ)貼

深圳發(fā)布以舊換新方案:汽車、家電、數(shù)碼、智能產(chǎn)品均有補(bǔ)貼

南方都市報
2026-02-28 16:38:04
伊朗稱摧毀美軍戰(zhàn)略預(yù)警雷達(dá),探測距離5000公里,系美軍戰(zhàn)略級裝備

伊朗稱摧毀美軍戰(zhàn)略預(yù)警雷達(dá),探測距離5000公里,系美軍戰(zhàn)略級裝備

澎湃新聞
2026-02-28 21:22:26
張元英辱華升級!在港參加活動發(fā)言挑釁,相關(guān)代言被抵制連夜捂嘴

張元英辱華升級!在港參加活動發(fā)言挑釁,相關(guān)代言被抵制連夜捂嘴

瓜農(nóng)娟姐
2026-01-03 15:15:00
250架戰(zhàn)機(jī)集結(jié)中國大西北!美媒驚呼:中國最大規(guī)模空戰(zhàn)演習(xí)來了

250架戰(zhàn)機(jī)集結(jié)中國大西北!美媒驚呼:中國最大規(guī)模空戰(zhàn)演習(xí)來了

壹知眠羊
2026-02-28 09:37:22
《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

銀河史記
2026-02-28 13:17:46
踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

靜夜史君
2026-02-27 23:56:22
去政府部門借廁所,被懟“我還把你當(dāng)神敬嘞”

去政府部門借廁所,被懟“我還把你當(dāng)神敬嘞”

中國新聞周刊
2026-02-27 21:04:19
美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實很簡單

美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實很簡單

剛哥說法365
2026-02-28 18:42:47
新華社快訊:以色列特拉維夫一建筑冒起濃煙

新華社快訊:以色列特拉維夫一建筑冒起濃煙

極目新聞
2026-02-28 15:48:43
春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

阿龍美食記
2026-02-26 19:13:38
太憋屈!昔日王牌自曝曼聯(lián)噩夢:滕哈格毀了他的職業(yè)生涯

太憋屈!昔日王牌自曝曼聯(lián)噩夢:滕哈格毀了他的職業(yè)生涯

瀾歸序
2026-02-28 04:57:16
張洪福母親感謝恒大足校:樹高千尺不忘根,人行千里莫忘本

張洪福母親感謝恒大足校:樹高千尺不忘根,人行千里莫忘本

懂球帝
2026-02-28 10:47:21
特朗普怒了:拉入黑名單

特朗普怒了:拉入黑名單

環(huán)球時報國際
2026-02-28 23:36:00
“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

室內(nèi)設(shè)計師有料兒
2026-02-19 11:17:18
慘烈的仗,要打到2030年?

慘烈的仗,要打到2030年?

中國新聞周刊
2026-02-26 22:44:14
游客吐槽“杭州西湖景區(qū)停車費30元一小時”,官方回應(yīng):節(jié)假日差別化收費,倡導(dǎo)公交出行,日常收費10元一小時

游客吐槽“杭州西湖景區(qū)停車費30元一小時”,官方回應(yīng):節(jié)假日差別化收費,倡導(dǎo)公交出行,日常收費10元一小時

大象新聞
2026-02-27 15:45:09
81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

攬星河的筆記
2025-11-12 12:36:17
俄媒突發(fā)警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

俄媒突發(fā)警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

剛哥說法365
2026-02-28 21:07:26
高市破防了,中國剛重拳出擊,日本喊話“無法容忍”,求中方收手

高市破防了,中國剛重拳出擊,日本喊話“無法容忍”,求中方收手

通文知史
2026-02-28 00:00:04
大消息!美的集團(tuán)出手,“加倉”300048

大消息!美的集團(tuán)出手,“加倉”300048

中國基金報
2026-02-28 14:29:49
2026-03-01 00:44:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
16420文章數(shù) 49692關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

媒體:美以的真實目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

頭條要聞

媒體:美以的真實目標(biāo)已經(jīng)擺上臺面 不達(dá)目的不罷休

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

游戲
本地
教育
健康
公開課

所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點

本地新聞

津南好·四時總相宜

教育要聞

“比預(yù)估高了20多分,激動得有點想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版