国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

天下苦「調(diào)參」久矣!MIT師生推出全新RandOpt算法

0
分享至

只需向模型添加高斯噪聲,性能就能比肩甚至超越GRPO/PPO等經(jīng)典調(diào)參算法。

MIT新論文向大家都在頭疼的“調(diào)參”開炮了!

為了將預(yù)訓(xùn)練模型變成某一任務(wù)領(lǐng)域?qū)<?,無(wú)數(shù)人夜以繼日,紛紛掉發(fā)。

然而現(xiàn)在,一對(duì)來(lái)自MIT的師生用一篇新論文告訴大家:

不用復(fù)雜調(diào)參,隨機(jī)改改參數(shù)再整合結(jié)果,模型效果就能和GRPO/PPO等專業(yè)調(diào)參方法差不多。



在這篇論文誕生前,我們熟悉的論調(diào)是:專家模型是訓(xùn)練出來(lái)的。

甭管是靠梯度下降還是強(qiáng)化學(xué)習(xí),都得一步一個(gè)腳印慢慢優(yōu)化參數(shù)。

但這篇論文卻揭示,專家模型早就存在,只是藏在權(quán)重空間里,預(yù)訓(xùn)練模型的真實(shí)形態(tài)be like:

專家模型像灌木一樣密密麻麻長(zhǎng)在周圍。(即論文提到的“Neural Thickets(神經(jīng)叢林)”現(xiàn)象)



△注:以上為AI生成,非論文內(nèi)容

就是說(shuō),只要在預(yù)訓(xùn)練權(quán)重附近稍微擾動(dòng)一下參數(shù),就可能“碰到”一個(gè)新的任務(wù)專家。

基于此,作者進(jìn)一步提出了一種非常簡(jiǎn)單的方法RandOpt

  • 只需向大語(yǔ)言模型添加高斯噪聲(單步操作——無(wú)需迭代、無(wú)需學(xué)習(xí)率、無(wú)需梯度),然后將它們集成起來(lái),就能在數(shù)學(xué)推理、編程、寫作和化學(xué)任務(wù)上取得與標(biāo)準(zhǔn)GRPO/PPO相當(dāng)甚至更優(yōu)的性能。



而且作者發(fā)現(xiàn),模型越大,效果越好

預(yù)訓(xùn)練模型周圍藏著“神經(jīng)叢林”

簡(jiǎn)單來(lái)說(shuō),論文給出了一個(gè)反直覺(jué)的結(jié)論——

預(yù)訓(xùn)練模型周圍早就存在大量“專家模型”。

在權(quán)重空間里,能解決不同任務(wù)的模型并不是零散分布的,而是密集地“長(zhǎng)”在預(yù)訓(xùn)練權(quán)重附近。

所以理論上,并不一定需要復(fù)雜的訓(xùn)練過(guò)程,只要在這片區(qū)域里多試幾次,就有機(jī)會(huì)找到表現(xiàn)不錯(cuò)的任務(wù)專家。

聽到這里,估計(jì)很多人的反應(yīng)是:啊這,難道這不就是靠猜、靠試嗎?

沒(méi)錯(cuò),還真就是靠猜。

一直以來(lái),隨機(jī)猜測(cè)都被認(rèn)為是不夠靠譜的機(jī)器學(xué)習(xí)算法,比如隨機(jī)猜出ChatGPT的參數(shù)向量,概率幾乎為零。

但論文發(fā)現(xiàn),到了預(yù)訓(xùn)練模型這里情況就變了——

模型權(quán)重周圍,能提升任務(wù)表現(xiàn)的參數(shù)擾動(dòng)變得很密集,所以隨機(jī)猜測(cè)也能找到有效改進(jìn)方案



在論文中,作者對(duì)預(yù)訓(xùn)練的Qwen2.5模型(0.5B~32B)施加了1000次隨機(jī)權(quán)重?cái)_動(dòng),并通過(guò)隨機(jī)投影將其投影到二維平面。

結(jié)果發(fā)現(xiàn),模型越大,周圍“高精度區(qū)域”越密集;小模型擾動(dòng)后大多性能下降(藍(lán)色區(qū)域),而大模型周圍隨處可見(jiàn)性能提升的“專家”(紅色區(qū)域)。

換言之,模型越大,這種擾動(dòng)效果越明顯、越起作用。



而且需要注意,這些隨機(jī)擾動(dòng)最后帶來(lái)的不是“全能選手”,而是“偏科戰(zhàn)神”

實(shí)驗(yàn)顯示,沒(méi)有任何一個(gè)隨機(jī)改動(dòng)能讓模型在所有任務(wù)上都實(shí)現(xiàn)提升。例如,某一個(gè)改動(dòng)能讓模型數(shù)學(xué)算得更準(zhǔn),但寫代碼會(huì)變菜;另一個(gè)改動(dòng)能讓模型化學(xué)題做得好,但寫故事不行。

并且同樣的,模型越大,這種偏科越明顯。



至于模型為啥會(huì)出現(xiàn)這種“周圍偷偷藏一堆高手”的現(xiàn)象,論文也通過(guò)一個(gè)極簡(jiǎn)實(shí)驗(yàn)給出了初步解釋。

他們選用了結(jié)構(gòu)最簡(jiǎn)單、最容易看懂的1D信號(hào)自回歸模型,讓其學(xué)習(xí)預(yù)測(cè)一段時(shí)間序列信號(hào)的下一個(gè)數(shù)值。

結(jié)果出現(xiàn)了三種情況:

  • 無(wú)預(yù)訓(xùn)練:不論怎么添加擾動(dòng),模型周圍都完全找不到可以提升性能的改動(dòng),隨機(jī)猜測(cè)無(wú)意義;
  • 單一任務(wù)預(yù)訓(xùn)練:模型只能把經(jīng)過(guò)預(yù)訓(xùn)練的任務(wù)做到極致,參數(shù)周圍不會(huì)冒出其他優(yōu)質(zhì)改動(dòng);
  • 多任務(wù)混合預(yù)訓(xùn)練:模型參數(shù)周圍瞬間布滿能提升性能的擾動(dòng),隨便加個(gè)小改動(dòng),就能解鎖擅長(zhǎng)某類信號(hào)預(yù)測(cè)的專項(xiàng)能力,成功復(fù)刻“神經(jīng)叢林”的密集狀態(tài)。



由此論文得出核心結(jié)論,“神經(jīng)叢林”現(xiàn)象的誕生,關(guān)鍵就在于大模型的海量多任務(wù)預(yù)訓(xùn)練。

換言之,正因?yàn)榈鬃訅蜃?,所以周圍很容易找到可以隨機(jī)擾動(dòng)的“專家”。

啟發(fā)了RandOpt算法

而上述研究,也啟發(fā)論文作者提出了一種新的算法,RandOpt。

RandOpt的運(yùn)行機(jī)制可以分成簡(jiǎn)單兩步:隨機(jī)找高手+組隊(duì)投票。

“隨機(jī)找高手”就和前面提到的類似,給預(yù)訓(xùn)練模型的參數(shù)隨機(jī)做N次擾動(dòng),然后就會(huì)得到N個(gè)“新版本模型”。

再用少量驗(yàn)證數(shù)據(jù)簡(jiǎn)單測(cè)一測(cè)這些模型,我們就能找出其中表現(xiàn)最好的K個(gè)。

拿到這K個(gè)模型后,接下來(lái)進(jìn)入實(shí)戰(zhàn)推理階段——

讓這K個(gè)“高手”各自回答問(wèn)題,最后按“少數(shù)服從多數(shù)”的原則決定最終結(jié)果。

整個(gè)過(guò)程有兩個(gè)值得注意的點(diǎn):

一是在添加擾動(dòng)sigmas(即噪聲強(qiáng)度)時(shí),RandOpt會(huì)嘗試不同強(qiáng)度的噪聲(比如小擾動(dòng)、中擾動(dòng)、大擾動(dòng)),以確保能找到各種類型的專家。

二是這N個(gè)模型可以同時(shí)在多塊GPU上運(yùn)行,速度很快。



當(dāng)然了,論文也試著用不同模型測(cè)試了這一新算法。

初步結(jié)果顯示,對(duì)于純語(yǔ)言大模型,在數(shù)學(xué)、編程、寫故事、化學(xué)等任務(wù)上,RandOpt的準(zhǔn)確率和現(xiàn)在主流的專業(yè)調(diào)參方法(PPO/GRPO/ES)差不多,有的甚至更高。



而對(duì)視覺(jué)-語(yǔ)言模型來(lái)說(shuō), RandOpt的提升作用則更加明顯,準(zhǔn)確率直接從56.6%漲到69.0%。



與此同時(shí),除了語(yǔ)言和視覺(jué)-語(yǔ)言模型,論文也在圖像擴(kuò)散模型中觀察到了類似的“神經(jīng)叢林”現(xiàn)象——

參數(shù)空間的某些特定區(qū)域會(huì)傾向于生成具有特定色調(diào)或視覺(jué)風(fēng)格的圖像。



以及論文作者提醒,RandOp在以下情況下效果更佳:

  • 隨機(jī)改的次數(shù)越多,挑的“高手”越厲害。
  • 模型越大,RandOpt效果越好。

論文作者介紹

最后介紹一下這項(xiàng)研究的兩位作者。



Yulu Gan,北大工程碩士,目前是MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的博士生。

此前曾在微軟實(shí)習(xí),研究方向主要為多模態(tài)大語(yǔ)言模型、推理、多智能體系統(tǒng)以及AI for science。



另一位作者Phillip Isola是他的導(dǎo)師,現(xiàn)任MIT電子工程與計(jì)算機(jī)科學(xué)系副教授。

Phillip Isola在加州大學(xué)伯克利分校做完博士后研究后,曾在2017年以技術(shù)人員的身份加入OpenAI。

不過(guò)干了不到一年,后面又去谷歌當(dāng)了一年訪問(wèn)學(xué)者。

再然后就是回到讀研時(shí)的母校MIT,任教至今。

Phillip Isola的主要研究方向?yàn)锳I基礎(chǔ)理論和計(jì)算機(jī)視覺(jué),曾參與提出pix2pix、LPIPS感知損失等經(jīng)典工作,谷歌學(xué)術(shù)論文被引量超10w+。



通過(guò)本次研究,師徒二人想重新告訴大家:

是時(shí)候重新認(rèn)識(shí)預(yù)訓(xùn)練模型了,它不只是“一個(gè)能用的模型”,更是“一堆高手的集合”。

只要預(yù)訓(xùn)練做得足夠好,后續(xù)想讓模型干好具體任務(wù),根本不用復(fù)雜調(diào)參,像RandOpt這樣隨機(jī)改改、組隊(duì)投票就行,省時(shí)間省算力。



不過(guò)缺點(diǎn)也很明顯,大致呢有下面這幾個(gè):

  • 依賴優(yōu)質(zhì)預(yù)訓(xùn)練,這是一個(gè)基本大前提。
  • 模型只能基于預(yù)訓(xùn)練數(shù)據(jù)找改進(jìn),無(wú)法讓模型學(xué)會(huì)新技能。
  • K越大效果越好,但推理時(shí)要跑K個(gè)模型,雖然蒸餾能緩解,但蒸餾不適用于所有場(chǎng)景(比如生成式任務(wù))。
  • 只適合有明確答案的任務(wù),像寫故事、設(shè)計(jì)分子這種結(jié)構(gòu)化生成任務(wù),還需要進(jìn)一步改進(jìn)集成方式。



目前相關(guān)論文和代碼已公開,感興趣可以繼續(xù)關(guān)注。

論文:
https://arxiv.org/pdf/2603.12228
GitHub:
https://github.com/sunrainyg/RandOpt
項(xiàng)目主頁(yè):
https://thickets.mit.edu/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

黯泉
2026-03-25 21:36:39
“中園石化”被立案調(diào)查

“中園石化”被立案調(diào)查

每日經(jīng)濟(jì)新聞
2026-03-25 11:13:18
2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

2026QS世界大學(xué)學(xué)科排名正式發(fā)布!

雙一流高校
2026-03-26 00:11:50
最近全網(wǎng)都在夸陳若琳長(zhǎng)得好看,我真的想說(shuō):別光看臉啊

最近全網(wǎng)都在夸陳若琳長(zhǎng)得好看,我真的想說(shuō):別光看臉啊

小光侃娛樂(lè)
2026-03-26 06:55:03
多名大學(xué)校長(zhǎng)炮轟機(jī)器人跳舞是嘩眾取寵

多名大學(xué)校長(zhǎng)炮轟機(jī)器人跳舞是嘩眾取寵

上峰視點(diǎn)
2026-03-25 19:07:57
中國(guó)最“尷尬”的5個(gè)地級(jí)市:它們根本不該在本省,應(yīng)該“改嫁”

中國(guó)最“尷尬”的5個(gè)地級(jí)市:它們根本不該在本省,應(yīng)該“改嫁”

好笑娛樂(lè)君每一天
2026-03-26 01:22:35
懷孕傳聞?wù)嫦啻蟀缀?,翁帆突傳“喜訊”,楊振寧終于可以放心了!

懷孕傳聞?wù)嫦啻蟀缀?,翁帆突傳“喜訊”,楊振寧終于可以放心了!

丁丁鯉史紀(jì)
2026-03-25 16:35:13
白宮:美國(guó)總統(tǒng)特朗普將于5月訪華

白宮:美國(guó)總統(tǒng)特朗普將于5月訪華

輦轂
2026-03-26 05:18:40
清純得不像動(dòng)作片女一號(hào)!

清純得不像動(dòng)作片女一號(hào)!

貴圈真亂
2026-03-26 11:33:33
張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

界面新聞
2026-03-26 07:04:27
你見(jiàn)過(guò)哪些悶聲發(fā)大財(cái)?shù)娜耍烤W(wǎng)友:干這個(gè)買三套房子,兩個(gè)門面

你見(jiàn)過(guò)哪些悶聲發(fā)大財(cái)?shù)娜??網(wǎng)友:干這個(gè)買三套房子,兩個(gè)門面

夜深愛(ài)雜談
2026-02-01 18:57:04
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來(lái)她從未變過(guò)!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來(lái)她從未變過(guò)!

社會(huì)醬
2026-03-23 17:34:19
狂賺18億!比愛(ài)馬仕還狠的運(yùn)動(dòng)奢侈品,正在掏空中產(chǎn)的錢包

狂賺18億!比愛(ài)馬仕還狠的運(yùn)動(dòng)奢侈品,正在掏空中產(chǎn)的錢包

青眼財(cái)經(jīng)
2026-03-17 16:03:09
哈薩克斯坦也沒(méi)想到,跟著中國(guó)混來(lái)混去,結(jié)果自己也混成了個(gè)霸主

哈薩克斯坦也沒(méi)想到,跟著中國(guó)混來(lái)混去,結(jié)果自己也混成了個(gè)霸主

小樾說(shuō)歷史
2026-03-25 12:16:16
東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一群沒(méi)有素質(zhì)的人混在一起.....

張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一群沒(méi)有素質(zhì)的人混在一起.....

山東教育
2026-01-27 11:38:18
炸鍋!利物浦 1.25 億標(biāo)王主動(dòng)申請(qǐng)離隊(duì),首選下家完全出乎意料

炸鍋!利物浦 1.25 億標(biāo)王主動(dòng)申請(qǐng)離隊(duì),首選下家完全出乎意料

瀾歸序
2026-03-26 06:08:07
國(guó)家出手逮捕的3名華人首富,瘋狂斂財(cái)坑害百姓,每個(gè)都罪有應(yīng)得

國(guó)家出手逮捕的3名華人首富,瘋狂斂財(cái)坑害百姓,每個(gè)都罪有應(yīng)得

林輕吟
2026-03-25 07:15:32
日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

有范又有料
2026-03-25 14:08:39
9中9轟20+9+5!楊瀚森付出一切遭庫(kù)克坑苦 G聯(lián)賽首次百分百命中率

9中9轟20+9+5!楊瀚森付出一切遭庫(kù)克坑苦 G聯(lián)賽首次百分百命中率

顏小白的籃球夢(mèng)
2026-03-26 10:15:13
2026-03-26 15:43:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12347文章數(shù) 176424關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
藝術(shù)
健康
手機(jī)
公開課

家居要聞

傍海而居 靜觀蝴蝶海

藝術(shù)要聞

哪一座橋不是風(fēng)景?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

蘋果回應(yīng)iPhone自動(dòng)打電話 升級(jí)系統(tǒng)可解決

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版