国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能寫代碼卻算不對(duì)小學(xué)乘法,大模型缺陷曝光

0
分享至

哈嘍,大家好,我是小今。這篇來聊聊AI的奇怪反差:能寫復(fù)雜代碼卻算不對(duì)小學(xué)乘法?這背后藏著大模型的致命短板!你敢信?

能幫程序員寫復(fù)雜代碼、給研究員做邏輯推理的頂尖AI大模型,面對(duì)小學(xué)四年級(jí)水平的四位數(shù)乘法題,正確率居然不到1%?這不是網(wǎng)上的搞笑段子,而是芝加哥大學(xué)牽頭的科研團(tuán)隊(duì)實(shí)打?qū)嵉难芯堪l(fā)現(xiàn),連麻省理工、哈佛的研究者還有谷歌DeepMind的專家都參與了這項(xiàng)研究,成果已經(jīng)發(fā)布在arXiv預(yù)印本服務(wù)器上。





“偏科”AI的怪象:崎嶇的前沿

研究團(tuán)隊(duì)把這種奇特的現(xiàn)象叫做“崎嶇前沿”,特別形象。你可以想象一個(gè)學(xué)生,奧數(shù)題能拿國(guó)際金牌,但簡(jiǎn)單的加減乘除卻頻頻出錯(cuò),簡(jiǎn)直就是個(gè)“偏科怪才”。我們的AI大模型就像這個(gè)學(xué)生,在需要大量數(shù)據(jù)模式識(shí)別和復(fù)雜推理的任務(wù)中表現(xiàn)卓越,可一旦遇到需要精確、一步步來、環(huán)環(huán)相扣的基礎(chǔ)數(shù)學(xué)運(yùn)算,它就徹底歇菜了。

更讓人不解的是,無論是只有兩層的“小”模型,還是結(jié)構(gòu)復(fù)雜、參數(shù)龐大的十二層“大”模型,在這種基礎(chǔ)乘法題上都無一幸免,集體“翻車”。這表明問題并非出在模型大小上,而是更深層次的根本性缺陷。那么,究竟是什么讓AI擁有了“高智商低情商”般的算術(shù)能力呢?





忘性大?AI的“長(zhǎng)程依賴”困境

其實(shí),核心問題出在AI的“記性”上,或者說,它在處理任務(wù)時(shí),無法有效“記住中間步驟”。用專業(yè)術(shù)語(yǔ)講,這叫“長(zhǎng)程依賴”問題。

回想我們小時(shí)候?qū)W乘法,比如讓你算3876乘以5214。我們是不是得先算3876乘以4,得出第一個(gè)部分積,然后記下進(jìn)位,接著算3876乘以10(其實(shí)是乘以1),把第二個(gè)部分積寫下來,再記住進(jìn)位,依此類推,直到算出所有部分積。

最后,我們會(huì)把這些暫時(shí)存放在腦子里或草稿紙上的中間結(jié)果,一步步累加起來,才能得出最終的答案。這個(gè)“暫存中間信息,并在后續(xù)步驟中持續(xù)調(diào)用”的能力,就是我們?nèi)祟惤鉀Q乘法問題的關(guān)鍵,也是“長(zhǎng)程依賴”的最好體現(xiàn)。乘法運(yùn)算環(huán)環(huán)相扣,每一步的計(jì)算都緊密依賴前面的中間結(jié)果和進(jìn)位,漏掉一步,或者記錯(cuò)了任何一個(gè)中間值,最終結(jié)果就可能謬之千里。



但面對(duì)乘法這種需要嚴(yán)格按照邏輯鏈條一步步推進(jìn)、精確計(jì)算中間結(jié)果并持續(xù)依賴的任務(wù),光靠“找規(guī)律”就徹底抓瞎了。它無法像我們一樣,在“腦子”里建立一個(gè)臨時(shí)的“草稿紙”,用來存儲(chǔ)和調(diào)用這些關(guān)鍵的中間信息。





陷入“局部最優(yōu)解”的泥潭

更糟糕的是,標(biāo)準(zhǔn)的AI訓(xùn)練方法,還常常會(huì)讓模型陷入一種“局部最優(yōu)解”的困境。你可以想象你在爬山,想找這座山的最高峰,結(jié)果你爬到一個(gè)小土坡,以為那就是山頂了,于是就在這個(gè)小土坡上反復(fù)打轉(zhuǎn),再怎么努力,也永遠(yuǎn)到不了真正的最高峰。

AI也是如此。在訓(xùn)練乘法時(shí),它可能學(xué)會(huì)了一些“表面規(guī)律”,比如某些數(shù)字的組合偶爾會(huì)對(duì)應(yīng)某個(gè)結(jié)果,但它并沒有掌握乘法背后的真正邏輯。它在這些“小土坡”上反復(fù)優(yōu)化,殊不知,真正的“高峰”需要完全不同的攀登路徑,也就是需要一套能夠處理中間信息和邏輯依賴的機(jī)制。

所以,即便我們把模型做得再大,訓(xùn)練時(shí)間再長(zhǎng),只要它的架構(gòu)上不支持存儲(chǔ)和調(diào)用中間信息,乘法題它還是算不對(duì)。這就像給一個(gè)沒有“計(jì)算器”功能的大腦,塞再多的數(shù)據(jù),它也無法完成復(fù)雜的計(jì)算。





曙光乍現(xiàn):ICoT與AI的“邏輯復(fù)蘇”

不過,研究團(tuán)隊(duì)并沒有止步于發(fā)現(xiàn)問題,他們也帶來了解決之道!他們開發(fā)了一種名為“隱式思維鏈”(ICoT,Implicit Chain of Thought)的訓(xùn)練方法。用這種方法訓(xùn)練出來的模型,在四位數(shù)乘法上的準(zhǔn)確率竟然能達(dá)到驚人的100%!這簡(jiǎn)直是奇跡!

為了弄明白ICoT為什么如此有效,團(tuán)隊(duì)仔細(xì)對(duì)比了用ICoT訓(xùn)練的模型和標(biāo)準(zhǔn)模型,就像給AI做了一次深度腦部解剖,結(jié)果發(fā)現(xiàn)了三個(gè)關(guān)鍵性的差異,揭示了AI如何從“算數(shù)盲”變身為“數(shù)學(xué)天才”的秘密。



第一個(gè)也是最關(guān)鍵的差異是,ICoT模型竟然“學(xué)會(huì)了做筆記”!它能清晰地追蹤乘法過程中的所有中間信息,比如每一步的部分積、進(jìn)位數(shù)字。研究人員甚至可以從模型的內(nèi)部狀態(tài)里,直接“讀”出這些關(guān)鍵的中間值,就像從一份整潔的草稿紙上查看步驟一樣。

而標(biāo)準(zhǔn)模型呢?這些信息早就混成一團(tuán),根本無法辨認(rèn)。這就像一個(gè)學(xué)霸做數(shù)學(xué)題,每一步都寫得清清楚楚,而學(xué)渣則全靠腦子記,結(jié)果腦子一團(tuán)漿糊,最終答案自然天差地別。ICoT幫助AI重建了記憶的鏈條,讓它不再“忘事”。



這種有條理的分工協(xié)作,讓信息處理變得高效有序。反觀標(biāo)準(zhǔn)模型,它的注意力是混亂的,東看一眼,西記一下,根本無法有效組織和處理信息。



最令人拍案叫絕的,是第三個(gè)差異:ICoT模型竟然在訓(xùn)練過程中“無師自通”,自己發(fā)明了一套高效的計(jì)算工具!它沒有把數(shù)字僅僅當(dāng)作是符號(hào),而是把數(shù)字編碼成了類似波形的模式,并且還使用了一種叫做“閔可夫斯基和”的幾何方法來計(jì)算乘法。

請(qǐng)注意,這些能力可不是研究人員一行行代碼寫進(jìn)去教它的,而是模型在訓(xùn)練過程中,為了解決乘法問題,自己慢慢摸索、涌現(xiàn)出來的!這簡(jiǎn)直就像AI為了完成任務(wù),自己創(chuàng)造了一套“數(shù)學(xué)語(yǔ)言”和計(jì)算方法,其自主學(xué)習(xí)和創(chuàng)新的潛力,令人嘆為觀止。





簡(jiǎn)單的改動(dòng),巨大的飛躍:未來的希望

基于這些突破性的發(fā)現(xiàn),研究團(tuán)隊(duì)還給出了一個(gè)簡(jiǎn)單得令人難以置信的修復(fù)方案:給標(biāo)準(zhǔn)模型的訓(xùn)練過程,僅僅加一個(gè)小小的目標(biāo),讓它學(xué)會(huì)追蹤每一步的累加總和,把中間值和部分積傳遞下去。就這么一個(gè)看似微不足道的小改動(dòng),原本正確率不到1%的雙層模型,準(zhǔn)確率直接飆升到了99%!

而且,還不用額外教一步步推理的方法。更厲害的是,經(jīng)過這樣訓(xùn)練的模型,甚至自己摸索出了新的計(jì)算策略,比如能夠同時(shí)處理多個(gè)數(shù)字對(duì)的乘法,大大提高了效率。

這說明,有時(shí)候解決AI難題,并不需要堆砌更多的數(shù)據(jù)或更大的模型,而是需要找到那個(gè)關(guān)鍵的“引導(dǎo)點(diǎn)”,輕輕撥動(dòng)一下,就能觸發(fā)它潛藏的巨大潛能。





告別“野路子”:AI的未來在于邏輯與記憶

或許有人會(huì)說,不就是個(gè)乘法題嗎,犯得著這么較真?但這項(xiàng)研究的意義,遠(yuǎn)不止讓AI會(huì)算乘法那么簡(jiǎn)單。它像一面鏡子,照出了整個(gè)AI行業(yè)的一個(gè)深層誤區(qū):我們不能盲目地認(rèn)為模型越大、訓(xùn)練數(shù)據(jù)越多,AI的能力就一定越強(qiáng)。



牽頭這項(xiàng)研究的譚晨浩教授一針見血地指出,現(xiàn)在AI越來越多地參與到關(guān)鍵決策中,所以搞懂它到底是怎么學(xué)習(xí)、怎么“思考”的,比它能做什么,有時(shí)候更重要。這項(xiàng)研究的核心價(jià)值在于告訴我們:想讓AI真正變強(qiáng),關(guān)鍵不是一味地堆參數(shù)、堆數(shù)據(jù),而是要給它正確的“引導(dǎo)”,在架構(gòu)上支持它的記憶和邏輯能力。

這相當(dāng)于在提醒我們,AI在數(shù)學(xué)問題上之所以表現(xiàn)不穩(wěn)定,是因?yàn)樗恢庇谩罢乙?guī)律”這種“野路子”去解決需要嚴(yán)格邏輯推理的問題,就像一個(gè)廚師試圖用錘子去切菜。未來的AI系統(tǒng),可能需要把“記憶”和“邏輯運(yùn)算”這兩種能力區(qū)分開來,分別給它們提供更專門的支持,才能從根本上解決“能寫代碼卻算不對(duì)乘法”的尷尬。

這項(xiàng)研究為AI的發(fā)展指明了一個(gè)新的方向:與其盲目地追求模型規(guī)模的“高大上”,不如先把AI最基礎(chǔ)的“記憶和邏輯能力”打磨好。畢竟,一個(gè)連基礎(chǔ)乘法都搞不定的AI,你讓它去處理再?gòu)?fù)雜的推理任務(wù),里面也可能藏著巨大的隱患。只有打好地基,大廈才能真正穩(wěn)固。



聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣東一貨車撞落限高架致路人死亡,司機(jī)獲刑后家屬質(zhì)疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

廣東一貨車撞落限高架致路人死亡,司機(jī)獲刑后家屬質(zhì)疑:違規(guī)限高架是主因,事發(fā)前多次被撞壞未整改,已上訴

大風(fēng)新聞
2026-01-10 11:04:42
特朗普表明“棄臺(tái)”立場(chǎng),直言中方怎么做是自由,但別讓我不高興

特朗普表明“棄臺(tái)”立場(chǎng),直言中方怎么做是自由,但別讓我不高興

博覽歷史
2026-01-09 18:17:28
深夜利空,8個(gè)龍頭年報(bào)業(yè)績(jī)暴雷,5股陷入虧損,千萬(wàn)別踩雷

深夜利空,8個(gè)龍頭年報(bào)業(yè)績(jī)暴雷,5股陷入虧損,千萬(wàn)別踩雷

風(fēng)風(fēng)順
2026-01-10 00:57:49
從“備胎”到核心!拉什福德逆襲成巴薩之寶

從“備胎”到核心!拉什福德逆襲成巴薩之寶

星耀國(guó)際足壇
2026-01-10 23:25:04
“歡迎宴”后因老板稱呼問題起爭(zhēng)執(zhí) 42歲新員工咬掉老員工鼻子獲刑3年7個(gè)月

“歡迎宴”后因老板稱呼問題起爭(zhēng)執(zhí) 42歲新員工咬掉老員工鼻子獲刑3年7個(gè)月

紅星新聞
2026-01-10 16:10:16
從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

從高處跌落的硅膠臉夫人:被拘4個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

照見古今
2025-12-12 18:19:05
1983年嚴(yán)打后,重刑犯都被遣送大西北,最終是什么結(jié)局?

1983年嚴(yán)打后,重刑犯都被遣送大西北,最終是什么結(jié)局?

觀史搜尋著
2025-12-03 22:30:28
76年華國(guó)鋒秘密詢問吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

76年華國(guó)鋒秘密詢問吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

春秋硯
2026-01-10 09:30:19
古天樂被曝為拍電影《尋秦記》押上全部身家,曾陷財(cái)務(wù)危機(jī),求助向華強(qiáng),稱“再虧下去要睡天橋底了”

古天樂被曝為拍電影《尋秦記》押上全部身家,曾陷財(cái)務(wù)危機(jī),求助向華強(qiáng),稱“再虧下去要睡天橋底了”

封面新聞
2026-01-08 09:37:07
肥腸再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):常吃肥腸,身體會(huì)收獲3大好處

肥腸再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):常吃肥腸,身體會(huì)收獲3大好處

全球軍事記
2025-12-29 21:28:37
67歲千萬(wàn)富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

67歲千萬(wàn)富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

半身Naked
2026-01-09 23:07:33
多哈冠軍賽4強(qiáng)戰(zhàn)直播調(diào)整:陳幸同對(duì)陣張本美和,CCTV5不播

多哈冠軍賽4強(qiáng)戰(zhàn)直播調(diào)整:陳幸同對(duì)陣張本美和,CCTV5不播

大昆說臺(tái)球
2026-01-10 05:34:31
中微公司公告:尹志堯因從外籍恢復(fù)中國(guó)籍 為依法辦稅擬套現(xiàn)近1億元

中微公司公告:尹志堯因從外籍恢復(fù)中國(guó)籍 為依法辦稅擬套現(xiàn)近1億元

快科技
2026-01-10 19:28:08
原來一切都是故意的,閆學(xué)晶的目的達(dá)到了,別提多高興了

原來一切都是故意的,閆學(xué)晶的目的達(dá)到了,別提多高興了

手工制作阿殲
2026-01-08 13:41:25
太驚艷:倪妮穿V領(lǐng)吊帶裙亮相,身材火辣!

太驚艷:倪妮穿V領(lǐng)吊帶裙亮相,身材火辣!

小小一米月兒
2026-01-11 01:45:03
金·卡戴珊太放得開,裙子勒出褶皺都要穿小碼,沙漏身材欣賞不來

金·卡戴珊太放得開,裙子勒出褶皺都要穿小碼,沙漏身材欣賞不來

心靈得以滋養(yǎng)
2026-01-10 12:28:56
親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

古怪奇談錄
2025-09-09 14:36:35
“死了么”App爆火!登頂蘋果付費(fèi)榜一,網(wǎng)友:“活著不好么?”

“死了么”App爆火!登頂蘋果付費(fèi)榜一,網(wǎng)友:“活著不好么?”

LOGO研究所
2026-01-10 17:54:50
逛完這個(gè)展會(huì),我看到了國(guó)產(chǎn)智能硬件的底氣。

逛完這個(gè)展會(huì),我看到了國(guó)產(chǎn)智能硬件的底氣。

差評(píng)XPIN
2026-01-10 00:09:23
心臟支架一放,人生倒計(jì)時(shí)就開始了?醫(yī)生說出實(shí)話:這4點(diǎn)要注意

心臟支架一放,人生倒計(jì)時(shí)就開始了?醫(yī)生說出實(shí)話:這4點(diǎn)要注意

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-01-05 12:18:04
2026-01-11 02:15:00
最終你成為了過客
最終你成為了過客
最終你成為了過客
170文章數(shù) 187關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對(duì)話

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

教育
游戲
數(shù)碼
旅游
公開課

教育要聞

表現(xiàn)不好,還不接受批評(píng)的學(xué)生,怎么教育比較合適?

《地平線6》首發(fā)為何沒PS5版?原來只是沒做完!

數(shù)碼要聞

音頻硬件開始“長(zhǎng)腦子”?直擊CES 2026六大音頻新品

旅游要聞

12.7億元營(yíng)收、15倍增長(zhǎng)背后:誰(shuí)在操盤萬(wàn)歲山武俠城?頂流景區(qū)直面“長(zhǎng)紅”之困|主題樂園資本論

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版