国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Transformer親爹痛斥:當(dāng)前AI陷死胡同,微調(diào)純屬浪費時間!

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】Transformer曾是AI革命的巔峰之作,但其發(fā)明者Llion Jones警告:它并非終點。就像RNN被取代一樣,當(dāng)前無數(shù)微調(diào)研究可能只是局部優(yōu)化,而真正的AGI突破或藏在生物啟發(fā)的全新架構(gòu)中。

Transformer是AI的終點嗎?

不是,絕對不是。

那Scaling是唯一通向AGI的路徑嗎?

在Transformer架構(gòu)上研究最久的人,告訴你:不是。

Sakana AI的創(chuàng)始人、研究科學(xué)家Llion Jones,和其他7位合著者,一起發(fā)明了Transformer。

除了那七位共同作者,沒有人比他在Transformer上的研究更久。

盡管如此,去年,他做出了一個重要決定:大幅減少自己在Transformer上的研究投入。

不是因為這個領(lǐng)域沒有新鮮事,而是因為它已經(jīng)被擠得水泄不通。

他直言,他成了自己成功的受害者:

我不認(rèn)為Transformer就是終點,也不相信我們只需要繼續(xù)無限擴大規(guī)模。

某一天,我們會再次迎來突破,然后回頭發(fā)現(xiàn),現(xiàn)在很多研究其實在白白浪費時間。


Transformer或重演RNN的悲劇

在Transformer出現(xiàn)之前,RNN是主流。

RNN的確是AI歷史上的重大突破。

突然間,所有人都開始致力于改進RNN。

但結(jié)果總是對同一架構(gòu)做些微調(diào),比如把門控單元換個位置,將語言建模的性能提升到 1.26、1.25 比特每字符。


在Transformer出現(xiàn)后,當(dāng)我們把非常深的僅解碼器Transformer應(yīng)用于同一任務(wù)時,立刻就達到了1.1 比特/字符。

于是,所有關(guān)于RNN的研究突然之間顯得白費了。

而現(xiàn)在的論文,似乎又回到了老路子:在同一個架構(gòu)上,做無數(shù)微小的改動——比如調(diào)整normalization層的位置,或略微改良訓(xùn)練方式。

2020年,時任谷歌DeepMind的研究員Sarah Hooker提出了「硬件彩票」:

通往AGI的道路不止一條, 深度神經(jīng)網(wǎng)絡(luò)剛好碰上了GPU這樣的硬件彩票。


論文鏈接:https://hardwarelottery.github.io/

「硬件彩票」這一術(shù)語,描述了某種研究思路之所以勝出,是因為它恰好契合現(xiàn)有的軟件和硬件條件,而非因為該思路在所有備選研究方向中具有普遍優(yōu)越性。

而Llion Jones則認(rèn)為,Transformer是一種架構(gòu)彩票,而業(yè)界恐怕重蹈RNN的覆轍。


哪怕已經(jīng)有一些架構(gòu)在論文中表現(xiàn)得比Transformer還好。但問題在于,新架構(gòu)還不足夠好到讓整個行業(yè)放棄Transformer。

原因很現(xiàn)實:大家對Transformer的理解已經(jīng)非常成熟,訓(xùn)練方法、微調(diào)方式、配套軟件工具一應(yīng)俱全。

你要大家從頭換一套,除非新架構(gòu)好到「碾壓式勝出」,否則不可能。

Transformer取代RNN,是因為差距大到無法忽視。

深度學(xué)習(xí)的興起也是一樣。曾經(jīng)大家還相信符號主義更靠譜,直到神經(jīng)網(wǎng)絡(luò)在圖像識別上展現(xiàn)出壓倒性的優(yōu)勢。

Llion Jones認(rèn)為Transformer太成功了,反而讓大家陷入了「陷阱」:

這就像有個巨大的「重力井」,所有嘗試離開的新方法都會被拉回來。

哪怕你真的做出了一個效果更好的新架構(gòu),只要OpenAI再把Transformer擴大十倍,那你的成果就被比下去了。


現(xiàn)在的LLM并非通用智能

Llion Jones進一步指出,目前的大語言模型并非通用智能,呈現(xiàn)出「鋸齒狀智能」(jagged intelligence)的特性。


也就是說,它們能在某些任務(wù)上表現(xiàn)得像天才一樣,但轉(zhuǎn)眼就能犯出低級錯誤,讓人出戲。

它剛才還解出了一個博士級的問題,下一秒?yún)s說出一個連小學(xué)生都不會錯的答案,這種反差非常刺眼。

他認(rèn)為,這其實揭示了當(dāng)前架構(gòu)中某種根本性的問題。

問題在于,它們太「萬金油」了。

你可以讓它們做任何事,只要訓(xùn)練足、調(diào)參準(zhǔn)。

但正因為這樣,我們反而忽視了關(guān)鍵問題──「有沒有更好的方式來表示知識、思考問題」。

現(xiàn)在,大家把所有東西都往Transformer里堆,把它當(dāng)成萬用工具來用,缺什么功能,就往上面硬加模塊。

我們明明知道要有不確定性建模、要有自適應(yīng)計算能力,但我們卻選擇把這些特性外掛上去,而不是從架構(gòu)本身去重新思考。

為了逃脫這個循環(huán),Jones在2025年初大幅減少Transformer相關(guān)研究,轉(zhuǎn)向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人,借鑒生物學(xué)和自然啟發(fā),設(shè)計了連續(xù)思維機(Continuous Thought Machines,CTM)。


傳送門:https://sakana.ai/ctm/

這不是天馬行空的發(fā)明,而是對大腦運作的簡化模擬。

大腦里的神經(jīng)元不是靜態(tài)的開關(guān),而是通過同步振蕩來傳遞信息。

CTM捕捉了這個精髓:它用神經(jīng)動態(tài)作為核心表示,讓模型在「內(nèi)部思考維度」上逐步展開計算。

他說,「我們并沒有追求完全生物學(xué)可行性,因為大腦并不是靠有線方式讓所有神經(jīng)元同步的。但這種思路帶來了全新的研究可能?!?/p>

重要的是,他們在做這項研究時,并沒有任何學(xué)術(shù)圈常見的「搶發(fā)壓力」。

因為沒人做這個方向。他們有充分的時間去打磨這篇論文,把研究做實,把對照實驗做足。

他希望這項研究能成為一個「示范案例」,鼓勵其他研究者去嘗試那些看似風(fēng)險高、但更可能通向下一個大突破的研究方向。

后人哀之而不鑒之

這是近期AI領(lǐng)域最坦誠的言論之一。


Llion Jones承認(rèn),當(dāng)前多數(shù)研究可能只是在局部最優(yōu)解上修修補補,而真正的突破或許在完全不同的方向。

他對此深有體會——畢竟他曾親手讓上一代研究者的成果黯然失色。

令人不安的是:如果他是對的,那么所有埋頭改進Transformer變體的人都在浪費時間。

所有混合專家模型、所有架構(gòu)微調(diào)、所有注意力機制變體——都可能在新范式出現(xiàn)時瞬間過時。

但陷阱在于:除非有人真正突破,否則你永遠(yuǎn)無法確定自己是否困在局部最優(yōu)里。

身在局中時,一切看似都是進步。直到Transformer出現(xiàn)前,RNN的改進不也看起來勢不可擋嗎?

同樣, Ilya近期也評論道,僅靠Scaling當(dāng)前架構(gòu)并不足以實現(xiàn)AGI:

Scaling時代的一個后果是:Scaling吸走了房間里所有的氧氣。

正因如此,所有人開始做同樣的事。我們走到了今天這個局面——公司數(shù)量多于創(chuàng)新電子的世界。

那么該如何抉擇?

Llion Jones并未聲稱知道未來方向,只是坦言Transformer可能不是長期答案。這很誠實,卻缺乏可操作性。

這個難題在于:每次范式轉(zhuǎn)移,在事后看來都像是徒勞,但在當(dāng)時卻是必要的探索。我們無法跳過這個階段,只能祈禱有人能更快找到出口。

Transformer已死?DeepMind正在押注另一條AGI路線

谷歌祭出Transformer殺手,8年首次大突破!掌門人劃出AGI死線

終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」

一封來自Transformer之父的分手信:8年了!世界需要新的AI架構(gòu)

參考資料:

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
孫悟空這就叫不識貨!當(dāng)年東海龍王手里那件7200斤的神器,他沒看上,結(jié)果差點要了他的命!

孫悟空這就叫不識貨!當(dāng)年東海龍王手里那件7200斤的神器,他沒看上,結(jié)果差點要了他的命!

歷史回憶室
2026-01-15 12:58:16
白眼女星吃瓜的保密協(xié)議!硬漢男星X需求很旺盛!

白眼女星吃瓜的保密協(xié)議!硬漢男星X需求很旺盛!

八卦瘋叔
2026-01-17 12:01:24
燒掉數(shù)萬億 Token、數(shù)百 Agent 連跑一周:Cursor“從零寫瀏覽器”,結(jié)果是拼裝人類代碼?

燒掉數(shù)萬億 Token、數(shù)百 Agent 連跑一周:Cursor“從零寫瀏覽器”,結(jié)果是拼裝人類代碼?

InfoQ
2026-01-17 13:35:46
超級騙子劉特佐,如何掏空一個國家?肥頭大耳卻能泡遍女明星?

超級騙子劉特佐,如何掏空一個國家?肥頭大耳卻能泡遍女明星?

午夜故事會
2024-07-08 10:57:49
高市早苗對華正式“宣戰(zhàn)”!中國兩鄰居站隊日本,特朗普告示全球

高市早苗對華正式“宣戰(zhàn)”!中國兩鄰居站隊日本,特朗普告示全球

阿庫財經(jīng)
2026-01-17 14:17:53
胖東來599元羽絨服進價457.9元,代購加價50元售賣,胖東來:代購無法保證商品質(zhì)量

胖東來599元羽絨服進價457.9元,代購加價50元售賣,胖東來:代購無法保證商品質(zhì)量

魯中晨報
2026-01-17 12:19:04
千億換來百萬輛,賽力斯交給華為的天價學(xué)費到底值不值?

千億換來百萬輛,賽力斯交給華為的天價學(xué)費到底值不值?

汽車十三行
2026-01-15 09:22:09
四問今年首場大范圍寒潮:雨雪冰凍降溫有多強 影響持續(xù)多久?

四問今年首場大范圍寒潮:雨雪冰凍降溫有多強 影響持續(xù)多久?

北青網(wǎng)-北京青年報
2026-01-16 17:02:56
24小時內(nèi)3位名人傳離世噩耗,最大92歲,最小47歲,有人突遭意外

24小時內(nèi)3位名人傳離世噩耗,最大92歲,最小47歲,有人突遭意外

叨嘮
2026-01-16 01:41:57
全球首例!中國用 AI 抓貪官,準(zhǔn)確率極高!

全球首例!中國用 AI 抓貪官,準(zhǔn)確率極高!

狐貍先森講升學(xué)規(guī)劃
2026-01-16 12:09:56
特朗普料定鎮(zhèn)住后院,變故發(fā)生:中國挖美墻腳,打贏兩場“勝仗”

特朗普料定鎮(zhèn)住后院,變故發(fā)生:中國挖美墻腳,打贏兩場“勝仗”

回京歷史夢
2026-01-17 15:20:16
《戰(zhàn)神》真人劇官宣新主演!金發(fā)碧眼澳洲美女

《戰(zhàn)神》真人劇官宣新主演!金發(fā)碧眼澳洲美女

游民星空
2026-01-17 10:39:22
動手前通知中美,不想被中美同時誤判,普京遭斬首未遂,報復(fù)太狠

動手前通知中美,不想被中美同時誤判,普京遭斬首未遂,報復(fù)太狠

古事尋蹤記
2026-01-17 07:07:11
紀(jì)委通報:他接受紀(jì)律審查和監(jiān)察調(diào)查

紀(jì)委通報:他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2026-01-17 11:54:35
蒙哥馬利剛接手國安隊!教練組就迎來新面孔,曾是津門虎技術(shù)總監(jiān)

蒙哥馬利剛接手國安隊!教練組就迎來新面孔,曾是津門虎技術(shù)總監(jiān)

張麗說足球
2026-01-17 13:54:26
男人那方面越強,活得越久?長期沒有夫妻生活,到底傷不傷身?

男人那方面越強,活得越久?長期沒有夫妻生活,到底傷不傷身?

小飛愛生活1987
2026-01-17 13:59:54
賀嬌龍離世前聊天記錄曝光,年入900萬,本可以躺贏!47歲仍愛折騰

賀嬌龍離世前聊天記錄曝光,年入900萬,本可以躺贏!47歲仍愛折騰

有范又有料
2026-01-16 10:09:20
科學(xué)家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對情侶在核磁共振里實戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
馬斯克:三年內(nèi)星艦發(fā)射頻率將超過每小時一次!SpaceX的終極目標(biāo)是每年生產(chǎn)1萬艘星艦飛船

馬斯克:三年內(nèi)星艦發(fā)射頻率將超過每小時一次!SpaceX的終極目標(biāo)是每年生產(chǎn)1萬艘星艦飛船

和訊網(wǎng)
2026-01-15 14:55:12
豪門夢碎但因禍得福!吳佩慈婆婆國外被捕,入獄照曝光,雙目無神

豪門夢碎但因禍得福!吳佩慈婆婆國外被捕,入獄照曝光,雙目無神

仙味少女心
2026-01-16 20:51:13
2026-01-17 15:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14349文章數(shù) 66508關(guān)注度
往期回顧 全部

科技要聞

8億周活扛不住燒錢 ChatGPT終向廣告"低頭"

頭條要聞

女兒被前男友殺害 癌癥晚期母親熬439天等到死刑判決

頭條要聞

女兒被前男友殺害 癌癥晚期母親熬439天等到死刑判決

體育要聞

三巨頭走了倆,聯(lián)盟笑柄卻起飛了

娛樂要聞

徐家還是愛孩子的,在馬筱梅生產(chǎn)前選擇和解

財經(jīng)要聞

保不準(zhǔn),人民幣會閃擊6.8!

汽車要聞

林肯賈鳴鏑:穩(wěn)中求進,將精細(xì)化運營進行到底

態(tài)度原創(chuàng)

數(shù)碼
時尚
游戲
藝術(shù)
公開課

數(shù)碼要聞

外媒wccftech:一文讀懂顯卡短缺背后的另一面

歲月不敗美人,50歲她們比20歲更好看

社交沙盒MMO《BitCraft》開源 第一階段1月21日

藝術(shù)要聞

16位西方畫家眼中的女性風(fēng)姿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版