国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

太瘋了!MIT博士在Transformer里造計(jì)算機(jī),攻破LLM終極缺陷

0
分享至


新智元報(bào)道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】炸裂!就在剛剛,一位MIT博士,在Transformer里造出個(gè)計(jì)算機(jī)。現(xiàn)在,模型一舉洗刷「9.11與9.9哪個(gè)大」的恥辱,幾秒內(nèi)運(yùn)行數(shù)百萬(wàn)步程序,世界最難數(shù)獨(dú)準(zhǔn)確率100%!大模型的能力邊界,從此徹底改變。

就在剛剛,AI圈被一項(xiàng)暴力美學(xué)般的突破,徹底震碎了三觀。

一位MIT博士,在Transformer里,直接造出了個(gè)計(jì)算機(jī)!

注意,不是外掛插件,不是調(diào)用工具(Tool Use),而是通過(guò)一種近乎瘋狂的硬編碼方式,將一個(gè)WebAssembly (WASM) 解釋器無(wú)損地(Losslessly)嵌入到了Transformer模型的權(quán)重之中。


這位博士老哥,是真的把LLM玩出硬件感了

這意味著,從此LLM不再是靠概率預(yù)測(cè)下一個(gè)智元(Token)的文字游戲機(jī),而是進(jìn)化成了一臺(tái)真正的數(shù)字計(jì)算機(jī)。

如果你以為,LLM現(xiàn)在還算不清「9.11與9.9哪個(gè)大」,現(xiàn)在,你的認(rèn)知將被徹底粉碎!

現(xiàn)在,這篇帖子已經(jīng)在X上熱轉(zhuǎn),引來(lái)眾多開發(fā)者大神的瘋狂點(diǎn)贊。

可以說(shuō),它一舉洗刷了大模型3年以來(lái)的「恥辱」。

「Vibe Coding」之父、大神Karpathy直接驚呼:這項(xiàng)研究太棒了,實(shí)在是令人深受啟發(fā)!


LLM終極弱點(diǎn),被徹底攻破

作為一種新類型的智能,大模型能解研究級(jí)難題,但不借助外部工具,卻幾乎不可能完成兩個(gè)數(shù)相乘或解個(gè)小數(shù)獨(dú)。

那么,如何讓LLM本身變得像計(jì)算機(jī)一樣可靠高效?

答案是:在Transformer內(nèi)部實(shí)實(shí)在在地構(gòu)建一臺(tái)計(jì)算機(jī)。

雅典大學(xué)副教授、MIT博士Christos Tzamos及其Percepta團(tuán)隊(duì)將任意C代碼轉(zhuǎn)化為智元(Token),讓模型自己能可靠執(zhí)行,在幾秒內(nèi)運(yùn)行數(shù)百萬(wàn)步。


鏈接:https://www.percepta.ai/blog/can-llms-be-computers

通過(guò)匈牙利算法,它解決了一個(gè)多步優(yōu)化問(wèn)題,即求解最小成本完美匹配,運(yùn)作方式如下。


在這個(gè)過(guò)程中,AI并不調(diào)用外部工具。

所有計(jì)算都是在Transformer內(nèi)部以自回歸的方式完成的!

這里的難點(diǎn)在于,對(duì)于任何實(shí)際計(jì)算來(lái)說(shuō),LLM的標(biāo)準(zhǔn)注意力機(jī)制太慢了。

為了繞過(guò)這一限制,他們發(fā)明了一種新的解碼路徑,實(shí)現(xiàn)了指數(shù)級(jí)加速的注意力機(jī)制,讓每智元(Token)生成所需的幾乎所有計(jì)算量智元(Token),并在CPU上以超過(guò)每秒3萬(wàn)個(gè)智元(Token)的速度流式輸出結(jié)果。



要知道MacBook M2 Pro的解碼速度才每秒27個(gè)智元(token),每秒33000個(gè)智元(Token)堪稱火箭般的速度,讓人難以想象!


當(dāng)然,用LLM的計(jì)算速度無(wú)法與CPU相比,這項(xiàng)研究的關(guān)鍵意義在于賦予LLM內(nèi)在計(jì)算能力,真正教會(huì)AI算數(shù),讓它更聰明。


而這項(xiàng)能力與自動(dòng)研究相結(jié)合,未來(lái)探索空間更是遠(yuǎn)超想象。


網(wǎng)友贊嘆:這才是真正的原生智能!


傳統(tǒng)attention

可以退出歷史舞臺(tái)?

注意,這項(xiàng)工作,并不是讓模型更會(huì)算,而是讓模型在內(nèi)部真正執(zhí)行程序!

不靠外掛,不調(diào)用Python,所有計(jì)算,都發(fā)生在Transformer里。

更離譜的是,這臺(tái)「計(jì)算機(jī)」幾秒就能跑完百萬(wàn)步的程序。連做最難的數(shù)獨(dú),正確率都是100%。


在3分鐘內(nèi),它就實(shí)現(xiàn)了100%的精確求解

這種方法不僅可用于速度,它可以用于執(zhí)行任意代碼——就像在AI腦子中塞入了一臺(tái)電腦。


按照大V「Rainier」的說(shuō)法,這個(gè)思路有點(diǎn)類似于TI的dsp芯片:ARM負(fù)責(zé)邏輯思維,dsp專門負(fù)責(zé)高速數(shù)據(jù)計(jì)算,各取所長(zhǎng)。


這也意味著,一種Hybrid LLM架構(gòu)的全新范式開始出現(xiàn),其中神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)推理和理解,嵌入式解釋器/計(jì)算引擎負(fù)責(zé)高精度計(jì)算。

于是可以同時(shí)兼顧推理能力和確定性計(jì)算精度,徹底解決「9.11和9.9哪個(gè)大」這個(gè)問(wèn)題。

這個(gè)方向走通的話,數(shù)值計(jì)算、物理模擬、金融建模、密碼學(xué)運(yùn)算,都會(huì)發(fā)生極大變革。

傳統(tǒng)Attention太慢,根本不適合做計(jì)算,而這項(xiàng)研究,直接引爆了Transformer的范式躍遷!


AI最大的恥辱,如今被終結(jié)了

三年了。


三年來(lái),每個(gè)頂級(jí)AI經(jīng)歷過(guò)同一個(gè)社死時(shí)刻:當(dāng)你在臺(tái)上信心滿滿地演示大模型的超強(qiáng)推理能力,臺(tái)下忽然有人舉手提問(wèn):「那請(qǐng)問(wèn),9.11和9.9哪個(gè)大?」

模型回答「9.11 > 9.9」,全場(chǎng)哄堂大笑。

這不是段子,這是真實(shí)發(fā)生過(guò)無(wú)數(shù)次的事。


2024年,在記者M(jìn)att Barnum測(cè)試中,基于ChatGPT的學(xué)習(xí)輔導(dǎo)工具Khanmigo,有時(shí)連算術(shù)題的答案都拿不準(zhǔn)

原因不難理解:Transformer本為理解語(yǔ)言設(shè)計(jì)的,并非為精確計(jì)算設(shè)計(jì)。

讓大模型做算術(shù),就像讓莎士比亞做會(huì)計(jì)——他能把財(cái)報(bào)寫成十四行詩(shī),但數(shù)字八成對(duì)不上。

AI行業(yè)的補(bǔ)丁方案是「外掛工具」:算不了?那就調(diào)Python。


這相當(dāng)于給莎士比亞旁邊放了個(gè)計(jì)算器。雖然能用,但并不優(yōu)雅,而且每次調(diào)用都打斷推理鏈、增加延遲、引入安全風(fēng)險(xiǎn)。

現(xiàn)在,MIT博士說(shuō):別給莎士比亞放計(jì)算器了,直接讓他天生就會(huì)算數(shù)!

他們把一臺(tái)完整的WebAssembly虛擬機(jī),硬編碼進(jìn)了Transformer的權(quán)重里。

也就是說(shuō),神經(jīng)網(wǎng)絡(luò)的前向傳播過(guò)程本身,就等價(jià)于執(zhí)行一臺(tái)計(jì)算機(jī)。

過(guò)去AI的恥辱,如今終結(jié)了。

不過(guò),但就數(shù)獨(dú)問(wèn)題而言,這不是LLM第一次突破。

工程師Aviraj認(rèn)為Percepta的方法很酷,但他們采取了不同的、更面向具體問(wèn)題的路徑。

核心區(qū)別在于:不將通用編譯產(chǎn)物(如C->WASM)作為模型的學(xué)習(xí)目標(biāo),而是為特定任務(wù)設(shè)計(jì)一個(gè)極簡(jiǎn)的、領(lǐng)域?qū)S玫闹噶罴≒SVM)。



不過(guò),這次看看Christos Tzamos團(tuán)隊(duì)如何在Transformer內(nèi)部跑起來(lái)一臺(tái)電腦的。

這個(gè)過(guò)程的關(guān)鍵,就是找到一種方法,來(lái)編碼一臺(tái)可工作的計(jì)算機(jī)。

計(jì)算:一條只增不減的軌跡

要理解Transformer如何在內(nèi)部執(zhí)行程序,不妨用一種稍微不同的方式來(lái)思考計(jì)算。

想象一個(gè)筆記本,計(jì)算的每一步都寫在下一行。一旦寫下,前面的行就不能更改;筆記本只會(huì)越來(lái)越厚。

這驚人地接近自回歸Transformer的工作方式:提示詞是輸入,生成的智元形成不斷增長(zhǎng)的軌跡,每個(gè)新智元都是通過(guò)注意力機(jī)制回看少量位置后產(chǎn)生的。

比如,給定一個(gè)句子,統(tǒng)計(jì)其中動(dòng)詞的數(shù)量是奇數(shù)還是偶數(shù)。每個(gè)軌跡智元恰好關(guān)注兩個(gè)位置:對(duì)應(yīng)的輸入詞(檢查它是否是動(dòng)詞)和前一個(gè)軌跡智元(讀取當(dāng)前的奇偶狀態(tài))。


請(qǐng)注意,無(wú)論句子有多長(zhǎng),每一步都只需要兩次回看(一次看提示詞,一次看軌跡)。

這正是其中的核心洞察:許多算法都可以表示成這種只增不減的軌跡,每一步只需讀取少量、固定數(shù)量的先前位置。

那么,計(jì)算能否被表示成一條只增不減的軌跡,且每一步只需回看少量次數(shù)呢?

答案是肯定的。

在Christos Tzamos的系統(tǒng)中,AI模型明確地生成了這樣的軌跡。

它生成的智元代表了一個(gè)虛擬機(jī)的動(dòng)態(tài)狀態(tài):指令指針、內(nèi)存和棧操作、算術(shù)運(yùn)算、控制流以及輸出。

AI只需通過(guò)回看相關(guān)的先前步驟,就能重構(gòu)出當(dāng)前狀態(tài)。

這幾乎就是圖靈機(jī)!


圖靈機(jī)是一種抽象的計(jì)算機(jī)模型,它通過(guò)在一個(gè)無(wú)限長(zhǎng)的紙帶上進(jìn)行讀寫操作來(lái)執(zhí)行計(jì)算。

但即使Transformer能表示這種執(zhí)行軌跡,隨著軌跡變長(zhǎng),標(biāo)準(zhǔn)的解碼過(guò)程仍然會(huì)付出越來(lái)越高的成本。

然而,Christos Tzamos等提出了快速解碼路徑,消除了這一障礙,而二維注意力頭限制,正是實(shí)現(xiàn)這一快速路徑的關(guān)鍵。


總的來(lái)說(shuō),這件事真正有價(jià)值的地方,不在于「模型更會(huì)算了」,而有些能力,可以直接以「系統(tǒng)」的形式嵌入進(jìn)去。

當(dāng)Transformer內(nèi)部開始運(yùn)行真正的程序,LLM就不再只是一個(gè)概率模型,而更像一個(gè)由推理系統(tǒng)和計(jì)算引擎組成的混合體。

AI,正在變成一整套可以執(zhí)行、可以組合、可以擴(kuò)展的系統(tǒng)。

這,可能就是下一代AI的真正方向。

參考資料:

https://x.com/mtrainier2020/status/2033640996337291482

https://www.percepta.ai/blog/can-llms-be-computers

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

路醫(yī)生健康科普
2026-03-27 17:42:19
歐洲發(fā)生“巧克力大劫案”

歐洲發(fā)生“巧克力大劫案”

南方都市報(bào)
2026-03-29 11:53:52
曾精準(zhǔn)預(yù)判金價(jià)狂飆的人,再發(fā)末日危言

曾精準(zhǔn)預(yù)判金價(jià)狂飆的人,再發(fā)末日危言

億通電子游戲
2026-03-28 17:13:02
辛芷蕾?zèng)]遮副乳,全網(wǎng)吵翻天,到底在吵什么?

辛芷蕾?zèng)]遮副乳,全網(wǎng)吵翻天,到底在吵什么?

動(dòng)物奇奇怪怪
2026-03-27 01:23:39
iPhone信號(hào)差別亂罵!改個(gè)設(shè)置,信號(hào)穩(wěn)、上網(wǎng)直接變流暢

iPhone信號(hào)差別亂罵!改個(gè)設(shè)置,信號(hào)穩(wěn)、上網(wǎng)直接變流暢

小柱解說(shuō)游戲
2026-03-29 09:58:49
陰陽(yáng)先生看房子風(fēng)水:臥室里若有這2個(gè)東西,無(wú)論多貴也要丟掉

陰陽(yáng)先生看房子風(fēng)水:臥室里若有這2個(gè)東西,無(wú)論多貴也要丟掉

磊子講史
2026-03-28 18:32:26
黑絲誘惑的性商教母,復(fù)出直播了!

黑絲誘惑的性商教母,復(fù)出直播了!

微微熱評(píng)
2026-03-27 00:57:03
我今年55了,想用血淚教訓(xùn)告訴你:永遠(yuǎn)不要在朋友圈曬4樣?xùn)|西,真的很傻!

我今年55了,想用血淚教訓(xùn)告訴你:永遠(yuǎn)不要在朋友圈曬4樣?xùn)|西,真的很傻!

東林夕亭
2026-03-20 09:02:31
被美國(guó)關(guān)了兩個(gè)多月,馬杜羅再次上庭的時(shí)候,簡(jiǎn)直就像變了一個(gè)人

被美國(guó)關(guān)了兩個(gè)多月,馬杜羅再次上庭的時(shí)候,簡(jiǎn)直就像變了一個(gè)人

夢(mèng)在深巷aqa
2026-03-28 20:08:22
14歲被貓王看中帶回家,21歲嫁給他后,普莉希拉才明白自己被騙了

14歲被貓王看中帶回家,21歲嫁給他后,普莉希拉才明白自己被騙了

百年歷史老號(hào)
2026-03-29 01:37:41
今天直沖23℃,大風(fēng)暴雨候場(chǎng);市中心最大的花鳥市場(chǎng)4月10日關(guān)閉

今天直沖23℃,大風(fēng)暴雨候場(chǎng);市中心最大的花鳥市場(chǎng)4月10日關(guān)閉

上觀新聞
2026-03-29 07:50:32
趙少康出手!登凱道聲援柯文哲,怒嗆政治介入司法,民進(jìn)黨沒(méi)想到

趙少康出手!登凱道聲援柯文哲,怒嗆政治介入司法,民進(jìn)黨沒(méi)想到

命運(yùn)天注定
2026-03-29 13:05:50
柳州馬拉松長(zhǎng)期不給張水華鏡頭!被網(wǎng)友狠罵+關(guān)閉評(píng)論區(qū) 及時(shí)糾錯(cuò)

柳州馬拉松長(zhǎng)期不給張水華鏡頭!被網(wǎng)友狠罵+關(guān)閉評(píng)論區(qū) 及時(shí)糾錯(cuò)

風(fēng)過(guò)鄉(xiāng)
2026-03-29 09:51:14
國(guó)際米蘭希望巴塞羅那在巴斯托尼交易中搭上兩名球員

國(guó)際米蘭希望巴塞羅那在巴斯托尼交易中搭上兩名球員

本澤體育
2026-03-29 14:16:55
懷孕傳聞?wù)嫦啻蟀缀螅谭粋鳌跋灿崱?,楊振寧終于可以放心了!

懷孕傳聞?wù)嫦啻蟀缀?,翁帆突傳“喜訊”,楊振寧終于可以放心了!

丁丁鯉史紀(jì)
2026-03-25 16:35:13
無(wú)論本賽季火箭到底能夠走多遠(yuǎn),下賽季務(wù)必要完成這三大改變!

無(wú)論本賽季火箭到底能夠走多遠(yuǎn),下賽季務(wù)必要完成這三大改變!

田先生籃球
2026-03-28 11:08:07
黃金能跌到500元/克嗎?

黃金能跌到500元/克嗎?

流蘇晚晴
2026-03-27 18:22:12
一線85花女星將官宣離婚,海外財(cái)產(chǎn)已分割完畢

一線85花女星將官宣離婚,海外財(cái)產(chǎn)已分割完畢

荒野老五
2026-03-29 10:32:33
410次開房賬單!南航“捷徑女”從臨時(shí)工到副處長(zhǎng),撕開央企遮羞布

410次開房賬單!南航“捷徑女”從臨時(shí)工到副處長(zhǎng),撕開央企遮羞布

墨印齋
2025-12-16 19:15:31
體制內(nèi)公示期有多恐怖?過(guò)來(lái)人說(shuō)出實(shí)情:能捅你一刀的,都是熟人

體制內(nèi)公示期有多恐怖?過(guò)來(lái)人說(shuō)出實(shí)情:能捅你一刀的,都是熟人

妍妍教育日記
2026-01-10 12:48:21
2026-03-29 15:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14843文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

旅游
手機(jī)
教育
游戲
家居

旅游要聞

四川的山有何特別之處?三位百萬(wàn)粉絲博主暢聊“一城一山”:“山水藏?zé)熁?四季皆風(fēng)光”

手機(jī)要聞

OPPO K15 Pro全系標(biāo)配12GB內(nèi)存 產(chǎn)品經(jīng)理:用16GB上天了 太貴了

教育要聞

高中數(shù)學(xué)老師分析丟分本質(zhì)原因

《428~被封鎖的澀谷~》主創(chuàng)新作眾籌5400萬(wàn)日元 被平臺(tái)扣下一半

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版