国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI學(xué)習(xí)效率飆升50倍的秘密:在線策略蒸餾

0
分享至


想象一下,你在教一個(gè)學(xué)生寫作文。

傳統(tǒng)做法是:你給他十篇范文,讓他照著學(xué)。

這叫“模仿學(xué)習(xí)”。

但很快你發(fā)現(xiàn)——當(dāng)他真正面對(duì)一個(gè)沒見過(guò)的題目時(shí),立刻就懵了。

于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個(gè)句子的優(yōu)劣、邏輯是否通順、語(yǔ)氣是否合適。

這種“邊寫邊教”的方式,更像真正的學(xué)習(xí)。

這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓(xùn)練方式——讓模型在“自己行動(dòng)”的軌跡上,被實(shí)時(shí)指導(dǎo)、被動(dòng)態(tài)優(yōu)化。
這聽起來(lái)簡(jiǎn)單,卻可能改寫整個(gè)大模型的訓(xùn)練范式。

一、為什么是他們:從 OpenAI 走出的“思考機(jī)器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實(shí)驗(yàn)室。
她和團(tuán)隊(duì)成員 John Schulman、Barret Zoph 都是推動(dòng) ChatGPT 與強(qiáng)化學(xué)習(xí)革命的關(guān)鍵人物。
他們的研究方向有一個(gè)共同點(diǎn):讓模型更懂得“如何學(xué)習(xí)”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們?cè)?RLHF(人類反饋強(qiáng)化學(xué)習(xí))和蒸餾訓(xùn)練上的積累。

他們?cè)趩?wèn)一個(gè)根本問(wèn)題——

“AI的學(xué)習(xí)方式是不是錯(cuò)了?”

二、舊方法的瓶頸:AI其實(shí)是在“死記硬背”

當(dāng)我們說(shuō)“訓(xùn)練一個(gè)大模型”,其實(shí)是兩步:

讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。

再通過(guò)RLHF(強(qiáng)化學(xué)習(xí))讓它學(xué)會(huì)“人類喜歡的回答方式”。

問(wèn)題在于——這兩步并不協(xié)調(diào)。

SFT 教的是“模仿舊答案”;RLHF 強(qiáng)調(diào)“探索新答案”。

前者像“死記硬背”,后者像“自我實(shí)踐”。

模型經(jīng)常在兩者之間搖擺:要么過(guò)度順從人類樣本,要么冒進(jìn)地亂試。

三、新方法:讓模型“邊干邊學(xué)”

Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾),
是想把這兩種學(xué)習(xí)方式“融合”成一種更自然的狀態(tài)。

傳統(tǒng)蒸餾(Distillation)是:

老師(大模型)寫出一份完美答案,學(xué)生照著學(xué)。

而他們的新方法是:

學(xué)生自己先寫一遍,老師實(shí)時(shí)給出每一步的分?jǐn)?shù)、建議、改進(jìn)方向。

這個(gè)過(guò)程在強(qiáng)化學(xué)習(xí)里叫On-Policy——模型在“自己生成的軌跡”上學(xué)習(xí),而不是在別人給的現(xiàn)成答案上學(xué)習(xí)。
于是,模型學(xué)到的不再是“理想的句子”,而是“如何自己到達(dá)理想的句子”。

可以把它理解為:

不再教模型“結(jié)論”,而是教它“思考的路徑”。

四、核心創(chuàng)新:從“獎(jiǎng)勵(lì)”到“打分”

RLHF 的本質(zhì)是“獎(jiǎng)勵(lì)”(Reward):模型生成一整段答案,評(píng)審模型給它一個(gè)分。

但這有個(gè)問(wèn)題——只有整段結(jié)束后才能反饋,太慢了。

On-Policy Distillation把反饋粒度縮小到“每個(gè)token”(每一個(gè)生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標(biāo)注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”(dense supervision)方式讓學(xué)習(xí)效率成倍提升。

論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過(guò)程”。

五、結(jié)果:更快、更穩(wěn)、更便宜

他們用這個(gè)方法訓(xùn)練模型后,

在 AIME’24 數(shù)學(xué)基準(zhǔn)測(cè)試上,性能超過(guò)了傳統(tǒng) RLHF 模型。

同時(shí)算力需求更低、訓(xùn)練更穩(wěn)定、結(jié)果更可復(fù)現(xiàn)。

一句話總結(jié)就是:

以前我們靠“懲罰與獎(jiǎng)勵(lì)”教AI做人,
現(xiàn)在我們靠“示范與糾錯(cuò)”教AI成長(zhǎng)。

六、為什么重要:AI 訓(xùn)練的“學(xué)習(xí)論轉(zhuǎn)向”

在更宏觀的層面,這篇論文揭示的是AI學(xué)習(xí)方式的哲學(xué)轉(zhuǎn)折。
過(guò)去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計(jì)規(guī)律“模仿人類”。
但 Thinking Machines 團(tuán)隊(duì)認(rèn)為,真正的智能不在模仿,而在于反思自己的行為

“On-Policy Distillation” 讓 AI 有機(jī)會(huì)在自己的軌跡上打磨自己——

這讓“自我改進(jìn)型智能體”(self-improving agent)成為現(xiàn)實(shí)的一步。

未來(lái),當(dāng)你的AI助手能在每天的任務(wù)中積累經(jīng)驗(yàn)、吸收教訓(xùn)、變得越來(lái)越懂你,

也許正是這種“on-policy”學(xué)習(xí)在默默起作用。

七、所以呢?

在AI訓(xùn)練的世界里,思維方式的改變往往比算力更值錢
Thinking Machines Lab 的這篇論文不是在造一個(gè)更大的模型,
而是在重新定義“學(xué)習(xí)”這件事的意義。

當(dāng)AI開始自己教自己,

我們也許正見證著“智能的第二次覺醒”——

第一次是機(jī)器學(xué)會(huì)說(shuō)話,

第二次,是它學(xué)會(huì)思考“我為什么這么說(shuō)”。

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
湘江慘敗后,毛主席在擔(dān)架上幡然醒悟,一個(gè)“世界巨人”從此蘇醒

湘江慘敗后,毛主席在擔(dān)架上幡然醒悟,一個(gè)“世界巨人”從此蘇醒

老謝談史
2026-03-01 17:07:26
美國(guó)被爆警告敘利亞別用中國(guó)電信技術(shù) 敘通信部回應(yīng)

美國(guó)被爆警告敘利亞別用中國(guó)電信技術(shù) 敘通信部回應(yīng)

財(cái)聯(lián)社
2026-02-28 08:19:04
真動(dòng)手了?156克拉鉆石刷新紀(jì)錄,美國(guó)向河南鉆石出手:全面禁止

真動(dòng)手了?156克拉鉆石刷新紀(jì)錄,美國(guó)向河南鉆石出手:全面禁止

金哥說(shuō)新能源車
2026-03-01 17:52:06
成都部分中小學(xué)已公布2026年春假放假時(shí)間

成都部分中小學(xué)已公布2026年春假放假時(shí)間

愛看頭條
2026-03-01 16:42:03
1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

南權(quán)先生
2026-02-26 15:38:59
國(guó)際金價(jià)飆升,國(guó)內(nèi)品牌金飾突破1600元大關(guān)

國(guó)際金價(jià)飆升,國(guó)內(nèi)品牌金飾突破1600元大關(guān)

現(xiàn)代快報(bào)
2026-03-01 18:41:07
椰樹工廠開放參觀,炸出一堆猛料。。

椰樹工廠開放參觀,炸出一堆猛料。。

4A廣告網(wǎng)
2026-02-28 20:45:41
第94分鐘絕殺!西蒙尼狂歡,1億巨星立大功:終結(jié)14輪進(jìn)球荒

第94分鐘絕殺!西蒙尼狂歡,1億巨星立大功:終結(jié)14輪進(jìn)球荒

足球狗說(shuō)
2026-03-01 05:58:12
大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

通文知史
2026-02-26 22:00:04
伊朗終于發(fā)狠了,打擊力度升級(jí),關(guān)鍵時(shí)刻,掏出中國(guó)一王牌武器

伊朗終于發(fā)狠了,打擊力度升級(jí),關(guān)鍵時(shí)刻,掏出中國(guó)一王牌武器

史智文道
2026-02-28 16:27:37
哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

紅星新聞
2026-03-01 11:51:17
踏俄之土,充俄之軍?俄羅斯要求18至65歲外國(guó)男性服兵役,到底意味著什么?

踏俄之土,充俄之軍?俄羅斯要求18至65歲外國(guó)男性服兵役,到底意味著什么?

靜夜史君
2026-02-27 23:56:22
好險(xiǎn)!網(wǎng)友差點(diǎn)拿40萬(wàn)接盤小區(qū)超市,評(píng)論區(qū)高手仗義挽救一個(gè)家庭

好險(xiǎn)!網(wǎng)友差點(diǎn)拿40萬(wàn)接盤小區(qū)超市,評(píng)論區(qū)高手仗義挽救一個(gè)家庭

另子維愛讀史
2025-10-11 22:40:25
美專家:中國(guó)人不可怕,可怕的是他們買了光刻機(jī),卻不用來(lái)造芯片

美專家:中國(guó)人不可怕,可怕的是他們買了光刻機(jī),卻不用來(lái)造芯片

世界有奇事
2026-01-13 16:34:40
42歲王冠定居上海,住800平獨(dú)棟別墅穿188拖鞋,老公手上紋她名字

42歲王冠定居上海,住800平獨(dú)棟別墅穿188拖鞋,老公手上紋她名字

攬星河的筆記
2026-02-19 17:15:17
黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

新游戲大妹子
2026-02-18 09:18:57
人到晚年才醒悟:跟兄弟姐妹斷親,是你這輩子最貴的一筆賬

人到晚年才醒悟:跟兄弟姐妹斷親,是你這輩子最貴的一筆賬

孤酒老巷QA
2026-03-01 09:55:04
大S終于沒遺憾了!具俊曄清空賬號(hào)返回韓國(guó),小玥兒姐弟回北京

大S終于沒遺憾了!具俊曄清空賬號(hào)返回韓國(guó),小玥兒姐弟回北京

娛塘主呱呱
2026-03-01 17:42:01
孫穎莎4比1戰(zhàn)勝陳熠,前國(guó)手郭焱表示孫穎莎讓球,要不然就是4比0

孫穎莎4比1戰(zhàn)勝陳熠,前國(guó)手郭焱表示孫穎莎讓球,要不然就是4比0

鳳幻洋
2026-03-01 16:37:31
淡季不淡,2月吉利又賣了20.61萬(wàn)輛新車

淡季不淡,2月吉利又賣了20.61萬(wàn)輛新車

汽車公社
2026-03-01 19:09:03
2026-03-01 19:51:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

中國(guó)游客遭遇航班熔斷 轉(zhuǎn)機(jī)四趟耗時(shí)48小時(shí)回國(guó)

頭條要聞

中國(guó)游客遭遇航班熔斷 轉(zhuǎn)機(jī)四趟耗時(shí)48小時(shí)回國(guó)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

本地
家居
旅游
藝術(shù)
軍事航空

本地新聞

津南好·四時(shí)總相宜

家居要聞

素色肌理 品意式格調(diào)

旅游要聞

膠香燈影傳非遺 文旅新春?jiǎn)⑿鲁獭獤|阿文旅與非遺深度融合的新春實(shí)踐

藝術(shù)要聞

2025年第二屆少兒美術(shù)教師作品展 | 油畫選刊

軍事要聞

美國(guó)以色列聯(lián)合襲擊伊朗 實(shí)時(shí)戰(zhàn)況

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版