国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究發(fā)現(xiàn):看似超級(jí)智能的大模型,正常訓(xùn)練下連基本乘法都不會(huì)

0
分享至



AI能寫復(fù)雜代碼、做邏輯推理,卻搞不定小學(xué)四年級(jí)的四位數(shù)乘法。

這事聽著像段子,卻是真實(shí)存在的研究發(fā)現(xiàn)。

芝加哥大學(xué)有個(gè)團(tuán)隊(duì)做了項(xiàng)研究,牽頭的是博士生白曉燕和教授譚晨浩,還聯(lián)合了麻省理工、哈佛這些名校以及谷歌DeepMind的研究者,他們的成果發(fā)在了arXiv預(yù)印本服務(wù)器上。



誰(shuí)能想到最先進(jìn)的AI會(huì)栽在這種基礎(chǔ)算術(shù)上。

團(tuán)隊(duì)測(cè)試了不同層數(shù)的模型,從兩層到十二層,結(jié)果都一樣慘,四位數(shù)相乘的正確率低得可憐。

這種“能搞定復(fù)雜推理,卻在簡(jiǎn)單任務(wù)上翻車”的現(xiàn)象,被研究團(tuán)隊(duì)命名為“崎嶇前沿”。

本來(lái)想,是不是模型層數(shù)不夠、訓(xùn)練數(shù)據(jù)太少?但測(cè)試下來(lái)發(fā)現(xiàn)不是這么回事。



哪怕把模型做得更大、訓(xùn)練時(shí)間拉得更長(zhǎng),準(zhǔn)確率還是上不去。

這就有意思了,AI處理代碼編寫、數(shù)據(jù)分析這種高難度任務(wù)時(shí)游刃有余,怎么偏偏在乘法這種人類小學(xué)生都能掌握的技能上掉鏈子?

后來(lái)才明白,問(wèn)題的關(guān)鍵不在任務(wù)難度高低,而在任務(wù)本身的特性。

咱們?nèi)祟愖鏊奈粩?shù)乘法時(shí),得記住進(jìn)位,還得把中間算出來(lái)的部分積暫時(shí)存著,最后再匯總相加。



這種需要暫存中間信息并用到后續(xù)步驟里的能力,學(xué)術(shù)上叫“長(zhǎng)程依賴”。

AI搞不定乘法,核心就是缺了這方面的能力。

標(biāo)準(zhǔn)的大語(yǔ)言模型,本質(zhì)上是靠識(shí)別訓(xùn)練數(shù)據(jù)里的模式來(lái)工作的。

復(fù)雜任務(wù)雖然難,但可能存在更多可復(fù)用的模式,可四位數(shù)乘法的組合太多了,模型根本沒(méi)法靠記憶覆蓋所有情況。



更麻煩的是,標(biāo)準(zhǔn)的微調(diào)方法會(huì)讓模型陷入“局部最優(yōu)解”的陷阱。

打個(gè)比方,這就像爬山找最高峰,模型爬到一個(gè)小山包就以為到頂了,壓根不知道真正的山頂還在更遠(yuǎn)的地方。

沒(méi)有能存儲(chǔ)和檢索中間信息的架構(gòu)支持,再怎么訓(xùn)練都是白費(fèi)功夫。

這一點(diǎn)挺顛覆認(rèn)知的,以前大家總覺(jué)得“模型越大、參數(shù)越多,能力就越強(qiáng)”,現(xiàn)在看來(lái)并非如此。



長(zhǎng)程依賴問(wèn)題也不是只出現(xiàn)在乘法里。

如此看來(lái),這個(gè)問(wèn)題其實(shí)是大模型的共性短板,只是在乘法這種需要精準(zhǔn)分步計(jì)算的任務(wù)上,暴露得更明顯而已。

就在大家覺(jué)得沒(méi)辦法的時(shí)候,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)成功案例,用“隱式思維鏈”訓(xùn)練的模型,做四位數(shù)乘法的準(zhǔn)確率居然能達(dá)到百分之百。



我特意去了解了下這種訓(xùn)練方法,它不是讓模型一步出答案,而是強(qiáng)迫模型把推理過(guò)程內(nèi)化到自身的隱藏狀態(tài)里,不用依賴顯式的分步標(biāo)記。

這有點(diǎn)像教小孩心算,一開始可以掰手指、寫草稿,慢慢就得在腦子里完成整個(gè)過(guò)程。

研究團(tuán)隊(duì)解剖這兩種模型后發(fā)現(xiàn),用隱式思維鏈訓(xùn)練的模型,首先學(xué)會(huì)了記住重要的中間信息,從它的內(nèi)部狀態(tài)里能解碼出累計(jì)總和這些關(guān)鍵數(shù)據(jù),標(biāo)準(zhǔn)模型卻完全做不到。

更讓人驚訝的是,這種模型還會(huì)自己組織注意力路徑。



早期的網(wǎng)絡(luò)層負(fù)責(zé)計(jì)算數(shù)字對(duì)的乘積并存儲(chǔ),后續(xù)層再精準(zhǔn)檢索需要的數(shù)值,形成了一套高效的內(nèi)部運(yùn)算結(jié)構(gòu)。

甚至,它還自發(fā)形成了精妙的數(shù)學(xué)結(jié)構(gòu),用傅里葉基的波形模式編碼數(shù)字,通過(guò)閔可夫斯基和這種幾何運(yùn)算來(lái)處理乘法,這些都不是研究人員編程寫進(jìn)去的。

基于這個(gè)發(fā)現(xiàn),團(tuán)隊(duì)還給出了一個(gè)簡(jiǎn)單的解決方案:在標(biāo)準(zhǔn)訓(xùn)練里加一個(gè)目標(biāo),讓模型學(xué)會(huì)追蹤每一步的累加總和。

沒(méi)想到效果立竿見(jiàn)影,原本徹底失敗的雙層模型,準(zhǔn)確率一下子就提了上來(lái),還自己學(xué)會(huì)了類似的存儲(chǔ)檢索機(jī)制。



毫無(wú)疑問(wèn),這項(xiàng)研究的價(jià)值遠(yuǎn)不止讓AI學(xué)會(huì)乘法。它揭示了大模型學(xué)習(xí)和思考的基本原理,證明了正確的訓(xùn)練引導(dǎo)和架構(gòu)設(shè)計(jì),比單純堆參數(shù)、堆數(shù)據(jù)更重要。

這也解釋了為啥AI在數(shù)學(xué)上的表現(xiàn)總不穩(wěn)定,用模式匹配的思路去解決需要嚴(yán)格邏輯推理的問(wèn)題,本身就是用錯(cuò)了工具。

未來(lái)的AI要想真正走向“智能”,可能需要明確區(qū)分記憶和邏輯這兩種能力,在架構(gòu)上給它們提供針對(duì)性的支持。

隨著AI越來(lái)越多地融入關(guān)鍵決策過(guò)程,搞清楚它的學(xué)習(xí)規(guī)律,找到正確的提升方向,遠(yuǎn)比追求參數(shù)規(guī)模的堆砌更有意義。



聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全員Pro Max,你們都需要對(duì)小米說(shuō)聲謝謝

全員Pro Max,你們都需要對(duì)小米說(shuō)聲謝謝

科技鋒說(shuō)
2026-01-11 06:13:56
南通一三甲醫(yī)院深陷糾紛,26.9億開辦費(fèi)下的醫(yī)患裂痕

南通一三甲醫(yī)院深陷糾紛,26.9億開辦費(fèi)下的醫(yī)患裂痕

商業(yè)不許冷
2026-01-10 19:44:10
火箭再輸開拓者,賽后4人被炮轟,球隊(duì)不交易休想奪冠

火箭再輸開拓者,賽后4人被炮轟,球隊(duì)不交易休想奪冠

鄒維體育
2026-01-10 13:56:04
痛心!致敬!遼寧13人因公犧牲

痛心!致敬!遼寧13人因公犧牲

本賬號(hào)停運(yùn)
2026-01-10 21:46:50
為何《寒窯賦》能被稱作中國(guó)歷史上最泄露天機(jī)的文章?

為何《寒窯賦》能被稱作中國(guó)歷史上最泄露天機(jī)的文章?

小豫講故事
2026-01-09 06:00:05
唐嫣彭冠英官宣婚變傳聞,羅晉處境曝光

唐嫣彭冠英官宣婚變傳聞,羅晉處境曝光

趙昉是個(gè)熱血青年
2026-01-10 22:12:56
曝霍啟剛主動(dòng)公布個(gè)人財(cái)產(chǎn):35項(xiàng)物業(yè)曝光,放租28房成全球包租公

曝霍啟剛主動(dòng)公布個(gè)人財(cái)產(chǎn):35項(xiàng)物業(yè)曝光,放租28房成全球包租公

開開森森
2026-01-10 14:42:12
官媒發(fā)文!宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

官媒發(fā)文!宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

老沮系戲精北鼻
2026-01-08 11:59:03
馬卉,169cm身高的主持人,也太好看了!

馬卉,169cm身高的主持人,也太好看了!

手工制作阿殲
2026-01-11 00:31:42
港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國(guó)可乘之機(jī)

港府官員訪美“急剎車”,中央政府下達(dá)指令,絕不給美國(guó)可乘之機(jī)

依偎在角落
2026-01-09 10:21:16
留給大清的時(shí)間,真的不多了

留給大清的時(shí)間,真的不多了

我是歷史其實(shí)挺有趣
2026-01-03 08:50:37
日本頂不住啦!決定從1月11日起展開6000公尺深海稀土試采計(jì)劃

日本頂不住啦!決定從1月11日起展開6000公尺深海稀土試采計(jì)劃

止戈軍是我
2026-01-10 11:36:48
麻省理工研究警告:未來(lái)華北平原不宜人類居住!理論依據(jù)是什么?

麻省理工研究警告:未來(lái)華北平原不宜人類居?。±碚撘罁?jù)是什么?

小熊侃史
2026-01-08 07:55:03
我國(guó)存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

我國(guó)存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

小熊侃史
2026-01-07 11:17:59
大潰??!中國(guó)網(wǎng)貸公司,在印度全軍覆沒(méi)

大潰?。≈袊?guó)網(wǎng)貸公司,在印度全軍覆沒(méi)

首席品牌評(píng)論
2026-01-07 18:20:00
72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場(chǎng)根基正在爛根

72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場(chǎng)根基正在爛根

老特有話說(shuō)
2026-01-07 00:40:03
許家印又讓北京法院吃癟了

許家印又讓北京法院吃癟了

不正確
2026-01-10 12:56:20
艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
內(nèi)馬爾曬全家福,34歲再簽肥約,超模妻子絕美,4個(gè)孩子很幸福

內(nèi)馬爾曬全家福,34歲再簽肥約,超模妻子絕美,4個(gè)孩子很幸福

大西體育
2026-01-10 15:17:30
賽前打氣,弗洛倫蒂諾到皇馬下榻酒店與球員、教練組打招呼

賽前打氣,弗洛倫蒂諾到皇馬下榻酒店與球員、教練組打招呼

懂球帝
2026-01-11 06:32:22
2026-01-11 08:04:49
裝滿幸福
裝滿幸福
感謝關(guān)注
188文章數(shù) 43關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對(duì)話

頭條要聞

宜家確定關(guān)閉全國(guó)7家商場(chǎng)清倉(cāng) 大批上海人涌入"撿漏"

頭條要聞

宜家確定關(guān)閉全國(guó)7家商場(chǎng)清倉(cāng) 大批上海人涌入"撿漏"

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂(lè)要聞

吳速玲曝兒子Joe是戀愛(ài)腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

本地
時(shí)尚
藝術(shù)
公開課
軍事航空

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

藝術(shù)要聞

這位和尚寫梅花,疏疏幾點(diǎn),勁峭孤逸

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

海空英雄高翔逝世 曾駕駛殲-6打爆美軍機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版