国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI邪修時刻!Meta聯(lián)手MIT投毒,左腳踩右腳強行升天

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】Meta SOAR用「劇毒數(shù)據(jù)」當墊腳石,硬生生把模型從Fail@128的認知黑洞里拽出來,推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

如果給AI喂一份錯誤率高達67%的教材,結(jié)局會是什么?

放在以前,他絕對會被噴成篩子:這叫「數(shù)據(jù)投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進ICU。

但在Meta FAIR的實驗室里,這劑毒藥,變成了救命的神藥。


論文鏈接:https://arxiv.org/abs/2601.18778

不僅沒把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無法觸及的推理巔峰。

崩塌的常識:錯題集才是真理?

研究團隊選了MATH和HARP數(shù)據(jù)集里最變態(tài)的「Fail@128」子集。

這是什么概念?就是讓Llama-3.2-3B對著一道題連蒙128次,成功率依然是0。

這不僅僅是「難」,還是絕對的認知真空:在傳統(tǒng)的強化學習里,這意味著「梯度消失」——就像在黑屋子里打拳,因為從來沒打中過,它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬分之一的「頓悟時刻」。

但Meta選了另一條路——自己造路。

SOAR架構(gòu)搞出了一個「教師模型」,專門生成中間難度的「墊腳石問題」。

研究員扒開這些「墊腳石」一看,背脊發(fā)涼:84%的題目邏輯結(jié)構(gòu)清晰、合理;只有33%的參考答案是做對的。

劃重點:2/3的答案都是錯的!

如果按照OpenAI o1的清洗標準,這些數(shù)據(jù)會在第一輪就被作為「幻覺垃圾」剔除。

但在SOAR眼里,這些全是寶藏。

哪怕「教師模型」自己都算不對微積分,它依然能編出一道高質(zhì)量的微積分題。

當「學生模型」去解這道題時,即便最后對答案是寂寞,但它在「構(gòu)建推理路徑」過程中的腦力體操,是實打?qū)嵉模?/p>


SOAR課程演化示例:左圖顯示學生在Fail@128硬題上的greedy acc隨教師訓練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉(zhuǎn)向高等代數(shù)/三角。這證明教師通過promotion逐步生成更難但結(jié)構(gòu)有效的墊腳石,推動學生推理突破。

事實證明,謬誤,竟然是通往真理的墊腳石。

SOAR機制:逼迫AI「誠實」的黑盒游戲

在AI自我進化的歷史上,無數(shù)次在一個坎上跌倒——「自我欺騙」。

AI為了拿獎勵,經(jīng)常會生成一堆簡單重復(fù)的垃圾題來刷分。

對此,SOAR搞了一個極其冷酷的「雙層博弈」:

  • 混沌建筑師(Teacher):負責瞎編題,不管對錯。

  • 絕境求生者(Student):負責做題,然后去挑戰(zhàn)那道「Fail@128」的終極死局。


SOAR的meta-RL訓練循環(huán):教師模型生成合成數(shù)據(jù)集,學生模型在內(nèi)層循環(huán)中進行強化學習訓練,并在硬驗證問題上評估進步,計算獎勵R反饋給教師進行外層更新。獎勵完全基于學生在極難題目上的真實提升,而非生成數(shù)據(jù)的正確性。

除此以外,Meta引入了「有根獎勵」機制。建筑師編的題再花哨也沒用,只有當學生做完這些題,在真實的Fail@128難題上漲分了,建筑師才能拿到獎勵。


SOAR教師變體消融學習曲線:用Grounded-T(有根獎勵教師,粉紅實線)采樣的問題訓練學生,在MATH和HARP上實現(xiàn)最高、最穩(wěn)定的Pass@32提升,遠超Base-T(藍虛線,波動大)和Hard Only(藍點線)

所以,為了得高分,建筑師只能去「猜」學生到底缺什么,要出什么題。


SOAR教師種子消融學習曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個獨立種子生成的課程,讓學生Pass@32穩(wěn)定一致升至~18-22%(MATH)/~12-15%(HARP),方差極??;Intrinsic-T(I-T(1)到I-T(3),青色系線)三個種子波動劇烈,甚至出現(xiàn)崩潰模式(I-T(1)學生性能崩盤)。這證明有根獎勵讓教師政策魯棒,而內(nèi)在獎勵易不穩(wěn)定/崩潰。

它必須生成那些怪異的、甚至含有錯誤答案的題目,因為只有這些題目,才能讓學生真的進步。


直接訓練 vs 自生成課程:左側(cè)稀疏獎勵導致無梯度信號;右側(cè)教師模型生成中間難度問題,形成漸進式課程,幫助學生模型在Fail@128數(shù)據(jù)集上實現(xiàn)突破


SOAR一圖封神:教師造合成錯題,學生苦練+硬題評估,獎勵直擊硬題進步——粉紅曲線暴漲,藍線徹底躺平

路線之爭:DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰(zhàn)爭,本質(zhì)上是三種「宗教」的碰撞。

DeepSeek R1:賭博式的「頓悟」

DeepSeek R1代表了「暴力美學派」。

其核心武器GRPO依賴于大規(guī)模采樣——讓模型反復(fù)嘗試,直到偶然撞上那個正確的答案,產(chǎn)生所謂的「頓悟時刻」。

這在一般難題上效果極佳,但在Fail@128這種「絕對死局」面前,DeepSeek的策略碰到了物理墻。

當成功率為0時,無論你采樣多少次,獎勵永遠是0。沒有正反饋,梯度就不會下降。

這就像讓一只猴子坐在打字機前,試圖靠隨機敲擊寫出《哈姆雷特》——理論上可行,但現(xiàn)實中算力成本是無限大。

OpenAI o1:不可持續(xù)的「潔癖」

OpenAI o1則是「精英教育派」,它堅信「CoT必須完美」。

通過大量人工清洗或高精度的合成數(shù)據(jù),o1試圖教給模型最標準的推理步驟。

但SOAR的實驗狠狠嘲弄了這種潔癖。Meta證明,過度清洗數(shù)據(jù)可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問題,雖然答案錯了,但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標準清洗掉這些數(shù)據(jù),模型反而失去了跳出局部最優(yōu)解的機會。

更致命的是,高質(zhì)量的推理數(shù)據(jù)已經(jīng)面臨枯竭,人類產(chǎn)生難題的速度遠遠趕不上模型吃數(shù)據(jù)的速度。

SOAR的降維打擊:無中生有的「梯云縱」

Meta走的是第三條路:「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運,也不需要OpenAI式的昂貴人工數(shù)據(jù)。它在零外部輸入的情況下,通過內(nèi)部互博,強行挖掘出了模型潛意識里的能力。

論文中有一個極具哲學意味的發(fā)現(xiàn):

直接用訓練好的教師模型去解題,并沒有比基座模型強多少。

這說明,「出題」和「解題」是兩種完全不同的技能樹。

SOAR的高明之處在于,它不試圖把所有技能點都加在同一個腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


SOAR在MATH和HARP Fail@128數(shù)據(jù)集上的性能提升:Promotion Questions 帶來最大增益,證明合成數(shù)據(jù)的結(jié)構(gòu)質(zhì)量遠勝答案正確性。Intrinsic-T表現(xiàn)較差,驗證了‘有根獎勵’的重要性。

在數(shù)據(jù)枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒有任何人類知識的荒原上繼續(xù)進化的希望。

數(shù)據(jù)枯竭的終結(jié):AI的自我繁衍

長久以來,懸在AI頭頂最大的達摩克利斯之劍,是「數(shù)據(jù)枯竭論」。

行業(yè)普遍悲觀地認為,當人類生產(chǎn)的高質(zhì)量文本被吃光后,AI的進化將停滯不前。

但要是讓AI吃自己生成的合成數(shù)據(jù),這種「近親繁殖」會導致模型崩潰。

但SOAR徹底粉碎了這個預(yù)言。

Meta的數(shù)據(jù)顯示,負責出題的那個模型,自己做題能力沒什么提升,但它培養(yǎng)出的學生卻進化了。


SOAR學習曲線:用Promotion Questions (粉線) 訓練的學生模型,在1500步內(nèi)Pass@32穩(wěn)定升至~18-19%,接近完整MATH訓練集的上界,而Hard Only (藍線) 幾乎無進步甚至衰退。這證明自我生成的合成數(shù)據(jù)能實現(xiàn)長期、穩(wěn)定的推理提升

Meta證明了,AI不需要人類的「真理」也能進化,它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認為全是錯誤的語言編寫的。

只要「黑盒獎勵」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

曾經(jīng)我們以為AI是嬰兒,必須喂純凈水;現(xiàn)在才發(fā)現(xiàn),哪怕喂它吃垃圾、吃毒藥,它照樣能長出獠牙。

當錯誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標準答案,還有多少保質(zhì)期?

參考資料:

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大事!桃浦某盤,75折了!??!

新浪財經(jīng)
2026-04-07 11:29:14

中央定調(diào),延遲退休后,累計繳納社保17年,達到年齡后還可退休嗎

中央定調(diào),延遲退休后,累計繳納社保17年,達到年齡后還可退休嗎

傲傲講歷史
2026-04-06 01:04:27
辛巴高調(diào)回歸以跪拜禮收4500萬粉網(wǎng)紅為徒!網(wǎng)友:退網(wǎng)又失敗了?

辛巴高調(diào)回歸以跪拜禮收4500萬粉網(wǎng)紅為徒!網(wǎng)友:退網(wǎng)又失敗了?

柴狗夫斯基
2026-04-07 10:04:14
為足總杯讓路,曼城、切爾西的英超第34輪比賽提前進行

為足總杯讓路,曼城、切爾西的英超第34輪比賽提前進行

懂球帝
2026-04-07 18:15:14
“一夜?jié)q50萬元,還談個啥?”上海二手房市場現(xiàn)賣家大幅跳價,買家不干了

“一夜?jié)q50萬元,還談個啥?”上海二手房市場現(xiàn)賣家大幅跳價,買家不干了

上觀新聞
2026-04-06 22:10:08
韓媒:韓日足球差距越來越大,日本已將世界杯奪冠視為可觸及目標

韓媒:韓日足球差距越來越大,日本已將世界杯奪冠視為可觸及目標

懂球帝
2026-04-07 18:26:06
國泰航空一波音777客機在日本關(guān)西機場緊急著陸 飛行中儀表顯示發(fā)動機油量下降

國泰航空一波音777客機在日本關(guān)西機場緊急著陸 飛行中儀表顯示發(fā)動機油量下降

閃電新聞
2026-04-07 15:23:06
非常罕見,特斯拉突然推出全新配置!

非常罕見,特斯拉突然推出全新配置!

XCiOS俱樂部
2026-04-05 20:27:23
中東戰(zhàn)火再升級!又一個國家被逼參戰(zhàn),35國聯(lián)盟,伊朗強反制海峽

中東戰(zhàn)火再升級!又一個國家被逼參戰(zhàn),35國聯(lián)盟,伊朗強反制海峽

策前論
2026-04-07 23:06:32
月球沒有發(fā)射塔,美國當年登月怎么回來?誰拍攝了飛離月球視頻?

月球沒有發(fā)射塔,美國當年登月怎么回來?誰拍攝了飛離月球視頻?

火星一號
2026-04-07 23:12:54
豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
美記:開拓者正在考察下一任主教練人選,今夏或完成換帥!

美記:開拓者正在考察下一任主教練人選,今夏或完成換帥!

愛體育
2026-04-07 17:42:15
一位染上艾滋病的32歲民宿老板娘自述:原來艾滋病離我們?nèi)绱酥?>
    </a>
        <h3>
      <a href=千秋文化
2026-04-01 20:40:27
拓記:楊瀚森夏天可能回去參加中國隊比賽,夏聯(lián)估計會打兩場

拓記:楊瀚森夏天可能回去參加中國隊比賽,夏聯(lián)估計會打兩場

懂球帝
2026-04-07 12:37:15
84棟,價值14億!深圳最慘別墅群,淪為月租250塊當停車場

84棟,價值14億!深圳最慘別墅群,淪為月租250塊當停車場

GA環(huán)球建筑
2026-04-06 23:00:49
排球女運動員身材太好被拍火上熱搜!看完現(xiàn)場照片:這腿確實比我命長

排球女運動員身材太好被拍火上熱搜!看完現(xiàn)場照片:這腿確實比我命長

經(jīng)典段子
2026-04-07 22:34:12
小米創(chuàng)始人離職,雷軍持股比例升至97%,或?qū)⒂犹魬?zhàn)。

小米創(chuàng)始人離職,雷軍持股比例升至97%,或?qū)⒂犹魬?zhàn)。

小南看車
2026-04-07 21:20:33
世錦賽嚴重誤判!白雨露受害仍晉級,創(chuàng)2大紀錄,會師排名賽冠軍

世錦賽嚴重誤判!白雨露受害仍晉級,創(chuàng)2大紀錄,會師排名賽冠軍

劉姚堯的文字城堡
2026-04-07 08:59:55
多名院士調(diào)查發(fā)現(xiàn):吃一塊桃酥,就等于吃兩勺糖,真的假的?

多名院士調(diào)查發(fā)現(xiàn):吃一塊桃酥,就等于吃兩勺糖,真的假的?

蜉蝣說
2026-04-07 17:43:26
王勵勤終于決定,逐漸放棄這4位老將,培養(yǎng)新生代力量已成重點

王勵勤終于決定,逐漸放棄這4位老將,培養(yǎng)新生代力量已成重點

觀察者海風
2026-04-07 23:46:07
2026-04-08 00:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14918文章數(shù) 66754關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
本地
親子
房產(chǎn)
公開課

叫得越兇分越高!Steam"狗叫模擬器"5月1日搶先體驗

本地新聞

跟著歌聲游安徽,聽古村回響

親子要聞

春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版