国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

算力救不了AI智商?谷歌新大招終結(jié)「隨機(jī)鸚鵡」?fàn)幷摚?/h1>
0
分享至


新智元報(bào)道

編輯:peter東

【新智元導(dǎo)讀】傳統(tǒng)AI模型在稀疏獎勵環(huán)境中,往往會找不到激勵難以學(xué)會層次化思考。如今,谷歌團(tuán)隊(duì)通過引入元控制器操控模型內(nèi)部殘差流,讓智能體學(xué)會了「跳躍式思考」。該研究揭示了大模型內(nèi)部可自發(fā)形成了類似人腦的層次化決策機(jī)制,為AI在需要多步的復(fù)雜任務(wù)提供了全新的訓(xùn)練范式。

AI智能體最大的「硬傷」,是算力不夠?

并不是,獎勵太少、路太長才是。

在稀疏獎勵的長序列任務(wù)里,傳統(tǒng)token-by-token探索像蒙眼走迷宮:沒有路標(biāo)、沒有提示,只有走到終點(diǎn)才知道對不對。

結(jié)果就是一個尷尬現(xiàn)實(shí):想讓智能體做點(diǎn)復(fù)雜事,往往必須外掛規(guī)劃器「扶著走」。

而谷歌這項(xiàng)研究直接換打法:在迷宮里要求智能體按順序踏過一串彩色子目標(biāo),且只有全程無誤才給獎勵——用最殘酷的稀疏獎勵,逼出真正的層次化決策能力。

真正的突破在于:他們不再只優(yōu)化輸出,而是開始操控模型內(nèi)部的「認(rèn)知過程」。

在稀疏獎勵下,

智能體如何高效探索

傳統(tǒng)的大模型,依賴逐詞生成(token-by-token)的探索方式,而這對于需要多個正確步驟才能獲得獎勵的復(fù)雜任務(wù),由于獎勵稀疏,導(dǎo)致智能體難以完成需要層次化決策的長序列任務(wù)。

這好比讓一個人蒙著眼睛走迷宮,只有到達(dá)終點(diǎn)才能獲得反饋,期間沒有任何指引,不論這個人嘗試多少次也找不到出口。

這導(dǎo)致當(dāng)下的大模型智能體需要外帶一個規(guī)劃器,才能完成復(fù)雜的,需要多步才能完成的任務(wù)。而谷歌這項(xiàng)研究做的,就是讓智能體在迷宮中,按特定順序訪問一系列彩色位置(子目標(biāo)),且只有在完全正確的序列完成后才能獲得獎勵。


圖1:智能體需要在迷宮中按順序走過不同顏色的方塊

這種「組合式任務(wù)」要求智能體必須掌握層次化解決問題的能力,不止需要低級的運(yùn)動控制技能,又需要高級的時序規(guī)劃能力。

這就如同人類搬運(yùn)水杯的任務(wù),相當(dāng)于執(zhí)行「拿起水杯→走到桌前→放下水杯」這樣的連貫動作。

「大腦中的大腦」

AI自我發(fā)現(xiàn)抽象動作

那谷歌團(tuán)隊(duì)是如何解決稀疏獎勵帶來的問題的?

答案是元控制器(Metacontroller)。

元控制器通過接收基模型的殘差流,能夠生成一系列簡單的內(nèi)部控制器。

每個控制器對應(yīng)一個時序抽象動作,每個時序抽象動作對應(yīng)一個時間軸,并附帶終止條件。通過按時間組合多個控制器,智能體能夠在新任務(wù)上實(shí)現(xiàn)高效探索。


圖2:元控制器引導(dǎo)預(yù)訓(xùn)練自回歸模型的殘差流激活。

通過自監(jiān)督的下一步動作預(yù)測,元控制器發(fā)現(xiàn)如何生成時間上稀疏變化的簡單內(nèi)部控制器序列 。

在分層結(jié)構(gòu)任務(wù)中,每個內(nèi)部控制器對應(yīng)一個時序抽象動作,引導(dǎo)基礎(chǔ)自回歸模型實(shí)現(xiàn)一個有意義的初級目標(biāo)。


圖3:元控制器的架構(gòu)

經(jīng)由強(qiáng)化學(xué)習(xí),研究者發(fā)現(xiàn)元控制器能夠通過變分推理自動識別有意義的行為模塊,這相當(dāng)于無監(jiān)督發(fā)現(xiàn)抽象動作該怎么完成。

用上元控制器,訓(xùn)練機(jī)器人給人泡茶,就不必由手工編碼將任務(wù)拆解成多步了。

此外,元控制器還能動態(tài)時間整合,它能通過開關(guān)單元控制抽象每一步動作的持續(xù)時間。并且能組合泛化,將學(xué)到的抽象動作重新組合解決新任務(wù)。


圖4:自監(jiān)督元控制器在預(yù)訓(xùn)練的自回歸模型中發(fā)現(xiàn)時序抽象動作。

元控制器學(xué)習(xí)到的開關(guān)模式還能與真實(shí)子目標(biāo)切換完美對齊,盡管模型從未接收過子目標(biāo)標(biāo)簽。這種根據(jù)環(huán)境,切換使用那個子目標(biāo)的方式是涌現(xiàn)產(chǎn)生的,表明模型內(nèi)部形成了類似「選項(xiàng)」的分層結(jié)構(gòu)。

內(nèi)部強(qiáng)化學(xué)習(xí)

提效數(shù)個量級的新訓(xùn)練范式

該研究最令人驚訝的,是使用元控制器后的內(nèi)部強(qiáng)化學(xué)習(xí),與傳統(tǒng)強(qiáng)化學(xué)習(xí)在原始動作空間進(jìn)行微調(diào)不同,內(nèi)部強(qiáng)化學(xué)習(xí)在發(fā)現(xiàn)的抽象動作空間中進(jìn)行學(xué)習(xí),搜索空間大幅減小。在需要組合泛化的任務(wù)中,內(nèi)部強(qiáng)化學(xué)習(xí)的成功率顯著高于所有基線方法,包括先前最先進(jìn)的分層強(qiáng)化學(xué)習(xí)方法CompILE。


圖5:不同強(qiáng)化學(xué)習(xí)方式的成功率

之所以智能體能夠以更大的可能性,學(xué)會某一個需要多步驟才能完成的任務(wù),是因?yàn)橛辛嗽刂破?,模型隱含地學(xué)會了將長序列任務(wù)分解為可重用的子程序(如「移動到某色塊」),這就讓搜索空間變小,獎勵也不再稀疏。

相當(dāng)于通過對動作空間降維,將高維殘差流空間壓縮到低維抽象空間。再加上在抽象時間尺度上操作,縮短有效時間跨度。使得在抽象層面進(jìn)行獎勵分配更加高效。

「覺醒-睡眠」訓(xùn)練循環(huán)的具體實(shí)現(xiàn)

在2015年的論文[2]中,Jürgen Schmidhuber提出了「覺醒-睡眠」訓(xùn)練循環(huán)的理論框架。

其核心思想是構(gòu)建一個迭代的、自我改進(jìn)的循環(huán),兩個階段交替執(zhí)行,旨在構(gòu)建能夠形成并利用時間抽象和計(jì)劃能力的自主智能系統(tǒng)。

睡眠階段智能體回顧其過往的經(jīng)歷(觀察和行動序列),通過自監(jiān)督學(xué)習(xí)訓(xùn)練一個內(nèi)部世界模型。

「覺醒」階段智能體利用在「睡眠」階段學(xué)到的世界模型內(nèi)部表征,進(jìn)行強(qiáng)化學(xué)習(xí)和規(guī)劃,以發(fā)現(xiàn)新的、有價值的行為。在「覺醒」階段獲得的新經(jīng)驗(yàn)數(shù)據(jù),又會被加入到經(jīng)驗(yàn)庫中,用于下一輪的「睡眠」階段,以改進(jìn)世界模型。

而谷歌的這項(xiàng)研究,可看成是「覺醒-睡眠」訓(xùn)練循環(huán)的具體實(shí)現(xiàn),自回歸基礎(chǔ)模型預(yù)訓(xùn)練對應(yīng)睡眠階段。模型通過下一個token(此處是下一動作或觀察)預(yù)測的目標(biāo),在大量未標(biāo)注的行為數(shù)據(jù)上進(jìn)行訓(xùn)練。

這個過程正是自監(jiān)督學(xué)習(xí),模型學(xué)會了推斷智能體的潛在目標(biāo)(如子目標(biāo)),并在其殘差流激活中形成了時間抽象的表征。

覺醒階段則是元控制器及其驅(qū)動的內(nèi)部強(qiáng)化學(xué)習(xí)。它學(xué)習(xí)如何操控基礎(chǔ)模型(世界模型)的內(nèi)部殘差流激活,從而生成有意義的、持續(xù)多個時間步的抽象動作(如「前往藍(lán)色位置」)。

這相當(dāng)于在世界模型的內(nèi)部狀態(tài)空間中進(jìn)行規(guī)劃和控制。


圖6:在發(fā)現(xiàn)時序抽象動作時,預(yù)訓(xùn)練的自回歸模型被凍結(jié)的重要性。

而只有如圖6所示,當(dāng)基礎(chǔ)自回歸模型在元控制器訓(xùn)練期間被凍結(jié)時,才會涌現(xiàn)出與子目標(biāo)對齊的正確切換表征。

這一發(fā)現(xiàn)強(qiáng)烈支持了「覺醒-睡眠」循環(huán)的分階段迭代思想:首先通過預(yù)訓(xùn)練建立一個高質(zhì)量、穩(wěn)定的世界模型(基礎(chǔ)模型)。

然后,在此基礎(chǔ)上,再通過元控制器學(xué)習(xí)驅(qū)動內(nèi)部強(qiáng)化學(xué)習(xí),從而學(xué)到控制策略。

如果兩者同時訓(xùn)練(共訓(xùn)練),模型會收斂到一個退化的解決方案,無法發(fā)現(xiàn)有意義的時間抽象。

這印證了分階段、迭代式訓(xùn)練的理論優(yōu)越性。而這符合Jürgen Schmidhuber提出的「先睡眠(構(gòu)建模型)、后覺醒(學(xué)習(xí)控制)」的循環(huán)訓(xùn)練方案。

終結(jié)隨機(jī)鸚鵡爭論

在大模型研究中,一直有批評人士認(rèn)為自回歸模型無論參數(shù)量多大,都不過是「隨機(jī)鸚鵡」,難以形成一致的時間抽象和規(guī)劃。

而該研究表明,預(yù)測下一個詞的訓(xùn)練方式,只要結(jié)合元控制器,就能夠誘導(dǎo)出層次化的時間抽象,這與人類的問題解決方式高度相似。

在不依賴手動獎勵塑形的情況下解決需要多步才能完成的任務(wù),是邁向能夠?qū)Ш綇?fù)雜、開放式搜索空間的自主智能體的關(guān)鍵一步,在這些空間中,中間進(jìn)度的定義往往未知。

谷歌團(tuán)隊(duì)的這項(xiàng)研究標(biāo)志著AI研究從單純優(yōu)化模型輸出,轉(zhuǎn)向理解和操控模型內(nèi)部認(rèn)知過程,為開發(fā)具有真正層次化推理能力的通用AI系統(tǒng)提供了堅(jiān)實(shí)的實(shí)踐基礎(chǔ),說明了模仿人類睡眠,才能夠?qū)崿F(xiàn)復(fù)雜時間序列任務(wù)的高效學(xué)習(xí)。

與稀疏自編碼器(SAEs)等解釋性方法相比,元控制器具有顯著優(yōu)勢。它直接通過殘差流干預(yù)降低預(yù)測誤差,具有內(nèi)部記憶,支持長時間跨度的干預(yù),且能夠發(fā)現(xiàn)可解釋的、長時間持續(xù)的干預(yù)策略。

這項(xiàng)技術(shù)的潛在應(yīng)用極其廣泛。

在機(jī)器人控制中,可讓機(jī)器人執(zhí)行需要多步協(xié)調(diào)的復(fù)雜任務(wù);對于數(shù)學(xué)推理,能自主將復(fù)雜問題分解為可管理的推理步驟;對于科學(xué)發(fā)現(xiàn),也可讓智能體在稀疏獎勵環(huán)境中進(jìn)行高效探索和假設(shè)檢驗(yàn)。

谷歌提出的內(nèi)部強(qiáng)化學(xué)習(xí)范式,尤其適合需要長期規(guī)劃和組合推理的場景,為實(shí)現(xiàn)真正通用的智能系統(tǒng)提供了新路徑。

參考資料:

https://arxiv.org/abs/2512.20605

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重要賽事!3月2日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!3月2日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-02 11:54:31
集體爆發(fā)!狂掀漲停潮!

集體爆發(fā)!狂掀漲停潮!

中國基金報(bào)
2026-03-02 12:49:45
伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

昊軒看世界
2026-03-01 11:02:14
上海旅客講述迪拜驚魂夜:百余人手機(jī)同時響警報(bào),航班再延期

上海旅客講述迪拜驚魂夜:百余人手機(jī)同時響警報(bào),航班再延期

南方都市報(bào)
2026-03-02 09:25:52
新春第一會,炸出一個最敢“闖”的經(jīng)濟(jì)大區(qū),太燃了

新春第一會,炸出一個最敢“闖”的經(jīng)濟(jì)大區(qū),太燃了

智谷趨勢
2026-02-27 17:12:36
這條無恥新聞,引起公憤了!

這條無恥新聞,引起公憤了!

胖胖說他不胖
2026-03-02 12:58:07
560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

知法而形
2026-03-02 11:27:56
新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

新勢力2月銷量:零跑理想前兩名,小米問界跌慘了

定焦One
2026-03-02 09:59:17
伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

界面新聞
2026-03-02 11:52:29
油氣股午后再度走強(qiáng) 中國石油封漲停創(chuàng)近11年新高

油氣股午后再度走強(qiáng) 中國石油封漲停創(chuàng)近11年新高

財(cái)聯(lián)社
2026-03-02 13:28:26
三艘英美油輪在波斯灣和霍爾木茲海峽遭襲

三艘英美油輪在波斯灣和霍爾木茲海峽遭襲

界面新聞
2026-03-02 15:10:16
“斬首”行動細(xì)節(jié)揭秘:美以戰(zhàn)機(jī)同地起飛,直撲哈梅內(nèi)伊

“斬首”行動細(xì)節(jié)揭秘:美以戰(zhàn)機(jī)同地起飛,直撲哈梅內(nèi)伊

中國新聞周刊
2026-03-02 10:32:04
央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

涵豆說娛
2026-03-02 14:07:31
國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡

國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡

每日經(jīng)濟(jì)新聞
2026-03-02 10:56:32
三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

三名美國士兵喪生,特朗普發(fā)誓要復(fù)仇,放話"何時停戰(zhàn)由伊方?jīng)Q定"

派大星紀(jì)錄片
2026-03-02 10:34:38
坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

離離言幾許
2026-03-01 23:23:49
伊朗外交部長:幾乎所有官員都健康在世

伊朗外交部長:幾乎所有官員都健康在世

財(cái)聯(lián)社
2026-02-28 22:54:54
有趣!伊朗被打,“專家們”顏面盡失!

有趣!伊朗被打,“專家們”顏面盡失!

走讀新生
2026-03-02 10:38:39
歷史上首架F15被擊落,美軍飛行員一死一被俘!

歷史上首架F15被擊落,美軍飛行員一死一被俘!

勝研集
2026-03-02 14:06:57
收評:滬指放量漲0.47% 油氣股逆勢爆發(fā)

收評:滬指放量漲0.47% 油氣股逆勢爆發(fā)

財(cái)聯(lián)社
2026-03-02 15:03:08
2026-03-02 16:36:49

新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14621文章數(shù) 66647關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
時尚
本地
教育
軍事航空

藝術(shù)要聞

2025北京青年美術(shù)作品展 | 油畫作品選刊

從每天只睡4小時到8小時:一個失眠者的自救指南

本地新聞

津南好·四時總相宜

教育要聞

唐宇出任成都市第二中學(xué)黨委書記

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版