国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦!劣ミ_(dá)發(fā)布AI推理新范式,刷新了多領(lǐng)域SOTA

0
分享至


新智元報道

編輯:艾倫

【新智元導(dǎo)讀】斯坦福與英偉達(dá)聯(lián)合發(fā)布重磅論文 TTT-Discover,打破「模型訓(xùn)練完即定型」的鐵律。它讓 AI 在推理階段針對特定難題「現(xiàn)場長腦子」,不惜花費數(shù)百美元算力,只為求得一次打破紀(jì)錄的極值。從重寫數(shù)學(xué)猜想到碾壓人類代碼速度,這種「激進(jìn)進(jìn)化」正在重新定義機器發(fā)現(xiàn)的邊界。

如果把現(xiàn)在的 AI 模型比作一個學(xué)霸,它們的工作方式通常是這樣的:在學(xué)校(預(yù)訓(xùn)練階段)讀萬卷書,把知識固化在腦子里(參數(shù)凍結(jié))。

等到考試(推理階段)時,它們靠的是「回憶」和「邏輯推演」來答題。

即便像 OpenAI 的 o1 這種「會思考」的模型,也只是在考場上多打了打草稿(CoT思維鏈),它的大腦回路(權(quán)重)依然是鎖死的。

但就在本周,一篇名為《Learning to Discover at Test Time》的論文橫空出世,來自斯坦福大學(xué)和英偉達(dá)的研究團(tuán)隊提出了一種不僅「打草稿」,而且敢在考場上「現(xiàn)場長腦子」的新范式——TTT-Discover(Test-Time Training,測試時訓(xùn)練)。


這是對「智能」定義的再一次挑戰(zhàn)。

核心顛覆

這項研究的核心邏輯非常反直覺:它不追求「平均分」,它只想要那一次「滿分」。

在傳統(tǒng)的強化學(xué)習(xí)中,我們希望訓(xùn)練出一個「全能選手」,不僅能做對這道題,以后遇到類似的題也能做對。

但 TTT-Discover 說:不,科學(xué)發(fā)現(xiàn)(Discovery)不需要「通用」。

比如我們要尋找一種能治愈癌癥的新分子,或者要找出一個數(shù)學(xué)猜想的反例。

只要我們找到了這一個答案,哪怕模型在這個過程中嚴(yán)重「偏科」,甚至為了這道題把自己練廢了(過擬合),把其他所有題都做錯了,又有什么關(guān)系呢?

只要那個答案是對的,人類就贏了。

基于這個理念,TTT-Discover 采用了一種極其激進(jìn)的策略:

  1. 現(xiàn)場進(jìn)化:在推理階段,針對當(dāng)前的特定問題,利用強化學(xué)習(xí)直接修改模型的參數(shù)。

  2. 賭徒心態(tài):它修改了損失函數(shù),不再追求「穩(wěn)健」,而是鼓勵模型去探索那些極端的、風(fēng)險極高但回報可能巨大的區(qū)域。

  3. 用完即棄:這個針對特定問題進(jìn)化出來的「特種兵」模型,解完題就可以丟掉了。


戰(zhàn)績:它真的比人類聰明嗎?

「不看廣告看療效」。

這篇論文最硬核的地方,在于它挑選的對手——全是硬骨頭。


1. 數(shù)學(xué)界的「毫厘之爭」

在著名的Erd?s 最小重疊問題(一個困擾數(shù)學(xué)家數(shù)十年的數(shù)論難題)上,人類和此前最強 AI(AlphaEvolve)的競爭已經(jīng)卷到了小數(shù)點后幾位。TTT-Discover 進(jìn)場后,直接把上界從 0.380924 壓低到了0.380876。

別小看這小數(shù)點后四位的變化,在理論數(shù)學(xué)的無人區(qū),每推進(jìn)一步都是在重寫歷史。


它構(gòu)造出了一個極其復(fù)雜的、擁有 600 個分段的非對稱函數(shù),而之前的人類最佳構(gòu)造只有 51 段。


這就像是人類還在用積木搭房子,AI 已經(jīng)開始用 3D 打印構(gòu)建復(fù)雜的非對稱建筑了。

2. 碾壓人類頂級程序員

在 GPU 內(nèi)核優(yōu)化(TriMul)比賽中,任務(wù)是寫出運行速度最快的底層代碼。

這是極度考驗工程師對硬件理解能力的領(lǐng)域。

  • 人類第一名的代碼在 H100 顯卡上運行耗時:1371 微秒。

  • TTT-Discover 寫出的代碼耗時:1161 微秒

  • 在 A100 顯卡上更夸張,它比人類第一名快了整整50%。


這意味著,在未來,你玩的游戲、跑的大模型,僅僅因為底層代碼被這種 AI 重寫了一遍,性能就能憑空提升一倍。

它發(fā)現(xiàn)了一些人類工程師完全沒想到的「騷操作」,比如極其激進(jìn)的算子融合和精度壓縮。

3. 算法競賽的降維打擊

在著名的 AtCoder 啟發(fā)式競賽(ahc039, ahc058)中,它不僅擊敗了之前最強的 AI 智能體,還超越了人類金牌選手的歷史最佳成績。


如果當(dāng)時它參賽,它就是當(dāng)之無愧的第一名。

冷靜一下,它不是萬能神藥

雖然戰(zhàn)績輝煌,但作為一篇嚴(yán)謹(jǐn)?shù)目破眨仨氈赋鏊摹赴⒖α鹚怪唷埂?/p>

第一,它是真的「貴」。

傳統(tǒng)的 AI 回答一個問題可能只需要幾分錢的算力。

而 TTT-Discover 為了解決一個問題,需要在測試時進(jìn)行幾千次甚至上萬次的采樣和訓(xùn)練。

論文坦承,解決單道題的成本約為500 美元(約合人民幣 3500 元)。

用來做小學(xué)奧數(shù)題?瘋了。

用來設(shè)計下一代光刻機指令?便宜得像不要錢。

第二,它是個「偏科生」。

你不能指望用這個進(jìn)化后的模型去和你聊天。

因為它在解決那道數(shù)學(xué)題時,可能已經(jīng)把「如何說你好」這部分的腦細(xì)胞都改寫成了「如何計算微積分」。

它是為了單點突破而生的一次性工具

第三,它需要「打分器」。

這是最關(guān)鍵的局限。

它目前只能解決那些「好壞顯而易見」的問題(有連續(xù)獎勵信號),比如代碼運行速度(越快越好)、數(shù)學(xué)邊界(越小越好)。

對于「寫一首感人的詩」或者「證明黎曼猜想」(通常只有對 / 錯兩種狀態(tài))這類問題,它目前還無能為力。

作者簡介

本文通訊作者 Yu Sun,是「Test-Time Training (TTT)」這一概念的堅定布道者和「總設(shè)計師」,目前是斯坦福大學(xué)博士后,同時也是英偉達(dá)的研究員。


圖源:https://yueatsprograms.github.io/

他博士畢業(yè)于加州大學(xué)伯克利分校,導(dǎo)師是計算機視覺領(lǐng)域的泰斗 Alexei A. Efros 和機器學(xué)習(xí)專家 Moritz Hardt。


https://openreview.net/profile?id=~Yu_Sun1

他的「核心思想」

很多研究者會追逐不同的熱點(例如今天做 Diffusion,明天做 RAG),但 Yu Sun 極其罕見地死磕一個概念長達(dá) 7 年。

他的核心信仰是:「學(xué)習(xí)不應(yīng)該在訓(xùn)練結(jié)束時停止!

他認(rèn)為現(xiàn)有的神經(jīng)網(wǎng)絡(luò)(Train-then-Freeze)是僵化的,真正的智能體應(yīng)該在推理階段(Test-Time)繼續(xù)通過參數(shù)更新來學(xué)習(xí)。

TTT 三部曲:從「修補」到「顛覆」

翻看他的論文列表,可以清晰地看到一條把 TTT 從邊緣推向主流的進(jìn)化路線。

  • 1.0 時代(視覺修復(fù)):

    • 代表作:Test-Time Training with Self-Supervision (ICML 2020)

    • 當(dāng)時主要處理圖片。模型在測試時如果遇到模糊或旋轉(zhuǎn)的圖片(分布偏移),就現(xiàn)場「微調(diào)」一下自己來適應(yīng)這張壞圖。這時候的 TTT 還是個「修補匠」,為了健壯性。


  • 2.0 時代(架構(gòu)革命):

    • 代表作:Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)

    • 他開始挑戰(zhàn) Transformer 的核心地位。他提出要把 Attention 機制直接換成一個「快速的 TTT 過程」。這篇論文曾在 AI 社區(qū)引發(fā)巨大討論,被稱為 TTT-LM。


  • 3.0 時代(智能進(jìn)化):

    • 代表作:TTT-Discover (2026, 本篇論文)

    • 他把 TTT 用在了最硬核的科學(xué)發(fā)現(xiàn)上。不再是為了適應(yīng)壞數(shù)據(jù),而是為了在推理時「進(jìn)化」出超越預(yù)訓(xùn)練水平的智力,去解決人類都解不開的難題。

Yu Sun 正在試圖用 TTT 重寫深度學(xué)習(xí)的底層范式——從「靜態(tài)的模型」轉(zhuǎn)向「動態(tài)的過程」。

這篇 TTT-Discover 正是他這一長期愿景的最新、也是最激進(jìn)的成果。

關(guān)于智慧的另一種想象

TTT-Discover 的出現(xiàn),不僅是一次技術(shù)突破,更是一次哲學(xué)上的敲打。

過去我們認(rèn)為的「博學(xué)」,是像百科全書一樣無所不知。

但 AI 向我們展示了另一種更有力量的智慧形態(tài):為了解決一個未知的難題,能夠瞬間遺忘所有無關(guān)的平庸,集中全部生命力去異化、去突變,直到成為那把唯一能打開鎖的鑰匙。

即使這種進(jìn)化是不可逆的,即使解決問題后它將不再是它。

這或許就是「發(fā)現(xiàn)」的本質(zhì)代價。

真正的探索者并不追求成為一本永恒正確的百科全書,他們更愿意做一顆為了照亮未知瞬間而燃盡自我的流星。

參考資料:

https://arxiv.org/pdf/2601.16175


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央軍委副主席張又俠、中央軍委聯(lián)合參謀部參謀長劉振立,涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

中央軍委副主席張又俠、中央軍委聯(lián)合參謀部參謀長劉振立,涉嫌嚴(yán)重違紀(jì)違法被立案審查調(diào)查

都市快報橙柿互動
2026-01-24 15:11:09
蔡京才是宋朝的第一,遠(yuǎn)超蘇黃米三人

蔡京才是宋朝的第一,遠(yuǎn)超蘇黃米三人

書法網(wǎng)
2026-01-24 11:08:02
伊朗神權(quán)崩塌前夜:9000萬高知青年與內(nèi)戰(zhàn)危機

伊朗神權(quán)崩塌前夜:9000萬高知青年與內(nèi)戰(zhàn)危機

夏至陌離殤
2026-01-14 15:34:27
李湘洗錢風(fēng)波升級!曝王詩齡已休學(xué),對王詩齡的3點爆料全對上了

李湘洗錢風(fēng)波升級!曝王詩齡已休學(xué),對王詩齡的3點爆料全對上了

古希臘掌管月桂的神
2026-01-25 21:01:05
不到24小時,特朗普鬧出6個國際笑話,美國人要心碎了

不到24小時,特朗普鬧出6個國際笑話,美國人要心碎了

現(xiàn)代小青青慕慕
2026-01-24 09:26:29
湖北新一輪雨雪即將來襲!

湖北新一輪雨雪即將來襲!

魯中晨報
2026-01-25 20:43:14
蘋果客服回應(yīng)iPhone大降價:僅限iPhone 16/Air系列,限量1.3萬臺

蘋果客服回應(yīng)iPhone大降價:僅限iPhone 16/Air系列,限量1.3萬臺

PChome電腦之家
2026-01-25 19:54:35
0-4丟冠僅一夜!中國隊宣布解散,安東尼奧去向曝光,球迷支持

0-4丟冠僅一夜!中國隊宣布解散,安東尼奧去向曝光,球迷支持

何老師呀
2026-01-25 12:07:50
兩部委定調(diào),2026年或調(diào)整養(yǎng)老金,40年以上工齡會變化更多么?

兩部委定調(diào),2026年或調(diào)整養(yǎng)老金,40年以上工齡會變化更多么?

丁丁鯉史紀(jì)
2026-01-24 16:20:30
北京這一夜,被珠圓玉潤的奚夢瑤驚艷,胖了一圈面相變了很多

北京這一夜,被珠圓玉潤的奚夢瑤驚艷,胖了一圈面相變了很多

冷紫葉
2026-01-23 21:50:23
維金斯17+6+6熱巴肆虐內(nèi)線,努爾基奇三雙創(chuàng)造歷史,熱火大勝爵士

維金斯17+6+6熱巴肆虐內(nèi)線,努爾基奇三雙創(chuàng)造歷史,熱火大勝爵士

釘釘陌上花開
2026-01-25 13:04:08
悲催!27歲女子猝死,家中除了直播的衣服,就全是外賣和奶茶口袋

悲催!27歲女子猝死,家中除了直播的衣服,就全是外賣和奶茶口袋

火山詩話
2026-01-24 10:49:32
特朗普言論激怒哈里王子,英國首相罕見發(fā)聲,美英外交圈隔空交鋒

特朗普言論激怒哈里王子,英國首相罕見發(fā)聲,美英外交圈隔空交鋒

簡簡單單的說
2026-01-24 20:19:28
漢武帝玩了一招陽謀,專挑春季發(fā)兵打匈奴,致使女人流產(chǎn)人口銳減

漢武帝玩了一招陽謀,專挑春季發(fā)兵打匈奴,致使女人流產(chǎn)人口銳減

掠影后有感
2026-01-25 11:33:06
萬億風(fēng)口突襲!太空光伏8家核心企業(yè)全解析

萬億風(fēng)口突襲!太空光伏8家核心企業(yè)全解析

風(fēng)風(fēng)順
2026-01-25 03:05:03
1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結(jié)局唏噓

1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結(jié)局唏噓

磊子講史
2026-01-08 15:47:38
CBA最新消息!徐杰第一階段報銷,遼寧男籃有意加洛威

CBA最新消息!徐杰第一階段報銷,遼寧男籃有意加洛威

體壇瞎白話
2026-01-25 08:10:10
宋喆直播賣棗社死!10萬圍觀零成交

宋喆直播賣棗社死!10萬圍觀零成交

阿廢冷眼觀察所
2026-01-12 14:33:54
日菲宣布反擊,中國甕中捉鱉的機會來了!美軍高層:我馬上去亞洲

日菲宣布反擊,中國甕中捉鱉的機會來了!美軍高層:我馬上去亞洲

龍隱天下
2026-01-25 20:21:47
87歲的宋世雄,為何選擇在老年公寓里“一天一天”地過?

87歲的宋世雄,為何選擇在老年公寓里“一天一天”地過?

林子說事
2026-01-25 10:02:22
2026-01-25 22:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14411文章數(shù) 66530關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

在非洲遭綁架毆打的網(wǎng)紅博主再發(fā)聲:打人者愿賠40萬

頭條要聞

在非洲遭綁架毆打的網(wǎng)紅博主再發(fā)聲:打人者愿賠40萬

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

央八開播 楊紫胡歌主演的40集大劇來了

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

藝術(shù)
旅游
房產(chǎn)
游戲
公開課

藝術(shù)要聞

他是天才畫者!這幅作品讓人驚嘆不已!

旅游要聞

絕美!每一幀都是壁紙 梵凈山出現(xiàn)冬日限定景觀

房產(chǎn)要聞

正式官宣!三亞又一所名校要來了!

籌資十億成為騙局?玩家吐槽《星際公民》引熱議!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版