国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上海AI實(shí)驗(yàn)室攜手多家頂尖院校:讓AI像數(shù)學(xué)奧賽銀牌選手一樣思考

0
分享至


當(dāng)你面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí),可能會(huì)在草稿紙上反復(fù)推演、列出各種可能的解題思路,甚至要花費(fèi)數(shù)小時(shí)才能找到答案。而對(duì)于那些參加國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的頂尖選手來(lái)說(shuō),他們不僅要在有限時(shí)間內(nèi)解決這些"變態(tài)"難題,還要保證推理過(guò)程的嚴(yán)密性?,F(xiàn)在,來(lái)自上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港中文大學(xué)等多家頂尖研究機(jī)構(gòu)的科學(xué)家們,成功讓人工智能也具備了這樣的超強(qiáng)數(shù)學(xué)推理能力。

這項(xiàng)由上海人工智能實(shí)驗(yàn)室的高松陽(yáng)、顧雨哲、張文偉等研究人員領(lǐng)導(dǎo)的突破性研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.10739v1)。他們開發(fā)出了一個(gè)名為Intern-S1-MO的數(shù)學(xué)推理智能體,這個(gè)AI系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克2025年的非幾何題目中取得了26分(滿分35分),達(dá)到了銀牌選手的水平。更令人驚訝的是,它還在中國(guó)數(shù)學(xué)奧林匹克2025年的正式比賽中獲得了102分(滿分126分),超越了金牌門檻的78分。

要理解這項(xiàng)成就的意義,我們可以回想一下自己做數(shù)學(xué)題的過(guò)程。當(dāng)遇到特別復(fù)雜的問(wèn)題時(shí),你可能會(huì)先嘗試一種方法,發(fā)現(xiàn)行不通后再換另一種思路,有時(shí)還需要借助一些已知的定理或公式作為"墊腳石"。問(wèn)題是,現(xiàn)有的AI模型就像是只有一頁(yè)紙的答題本,當(dāng)題目需要大量推理步驟時(shí),這一頁(yè)紙很快就不夠用了。

研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是,傳統(tǒng)的大型語(yǔ)言模型雖然在數(shù)學(xué)推理方面已經(jīng)相當(dāng)出色,但它們受到"上下文長(zhǎng)度"的嚴(yán)重限制。用通俗的話說(shuō),就像人的短期記憶容量有限一樣,這些模型一次只能"記住"和處理固定長(zhǎng)度的信息。對(duì)于那些需要多步驟復(fù)雜推理的奧數(shù)級(jí)別題目,這個(gè)限制就成了致命弱點(diǎn)。當(dāng)前最先進(jìn)的推理模型通常只能處理6萬(wàn)到12萬(wàn)個(gè)"詞匯單位",但解決國(guó)際數(shù)學(xué)奧林匹克級(jí)別的問(wèn)題往往需要更長(zhǎng)的思考過(guò)程。

為了突破這個(gè)瓶頸,研究團(tuán)隊(duì)創(chuàng)造性地設(shè)計(jì)了一個(gè)多智能體協(xié)作系統(tǒng)。如果把傳統(tǒng)AI比作一個(gè)獨(dú)自埋頭解題的學(xué)生,那么Intern-S1-MO就像是一個(gè)由三個(gè)專業(yè)角色組成的"學(xué)習(xí)小組":推理者、總結(jié)者和驗(yàn)證者。推理者負(fù)責(zé)探索各種可能的解題路徑,總結(jié)者將復(fù)雜的推理過(guò)程提煉成簡(jiǎn)潔的"引理"(可以理解為解題過(guò)程中發(fā)現(xiàn)的小結(jié)論),而驗(yàn)證者則檢查這些推理步驟是否正確。

這個(gè)系統(tǒng)最巧妙的地方在于它的"記憶管理"機(jī)制。就像一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)家會(huì)在解題過(guò)程中記錄下有用的中間結(jié)論,Intern-S1-MO會(huì)將每輪推理中獲得的有價(jià)值信息壓縮成簡(jiǎn)潔的引理,存儲(chǔ)在一個(gè)"引理庫(kù)"中。這樣,即使單次推理的"紙張"用完了,系統(tǒng)也能通過(guò)查閱這個(gè)引理庫(kù)來(lái)繼續(xù)深入思考,有效地突破了傳統(tǒng)模型的上下文長(zhǎng)度限制。

更進(jìn)一步,研究團(tuán)隊(duì)還開發(fā)了一個(gè)名為OREAL-H的強(qiáng)化學(xué)習(xí)框架來(lái)訓(xùn)練這個(gè)多智能體系統(tǒng)。這就像是為這個(gè)"學(xué)習(xí)小組"設(shè)計(jì)了一套科學(xué)的訓(xùn)練方法,讓它們能夠從解題經(jīng)驗(yàn)中不斷學(xué)習(xí)和改進(jìn)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往只關(guān)注最終答案的對(duì)錯(cuò),但OREAL-H更加聰明,它會(huì)分析整個(gè)解題過(guò)程,識(shí)別出哪些推理步驟是有價(jià)值的,哪些是無(wú)效的,從而給予相應(yīng)的獎(jiǎng)勵(lì)或懲罰。

這種訓(xùn)練方式的巧妙之處在于它引入了"引理依賴圖"的概念。簡(jiǎn)單來(lái)說(shuō),就是系統(tǒng)會(huì)分析不同引理之間的邏輯關(guān)系,就像繪制一張"知識(shí)地圖",標(biāo)明哪些小結(jié)論能夠?qū)蜃罱K的正確答案。通過(guò)這種方式,系統(tǒng)能夠更準(zhǔn)確地評(píng)估每個(gè)推理步驟的價(jià)值,從而優(yōu)化整體的解題策略。

在驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的"貝葉斯共軛獎(jiǎng)勵(lì)"機(jī)制來(lái)處理過(guò)程驗(yàn)證中的不確定性。這聽(tīng)起來(lái)很復(fù)雜,但其實(shí)原理很簡(jiǎn)單。當(dāng)判斷一個(gè)推理步驟是否正確時(shí),驗(yàn)證器可能會(huì)出錯(cuò)。為了減少這種誤判的影響,系統(tǒng)會(huì)進(jìn)行多次獨(dú)立驗(yàn)證,然后根據(jù)統(tǒng)計(jì)學(xué)原理計(jì)算一個(gè)"可信度分?jǐn)?shù)"。這就像是請(qǐng)多個(gè)老師來(lái)判作業(yè),然后綜合他們的意見(jiàn)得出最終評(píng)價(jià),這樣比單個(gè)判斷更加可靠。

研究團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上測(cè)試了Intern-S1-MO的性能,結(jié)果令人印象深刻。在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME2025)中,系統(tǒng)達(dá)到了96.6%的通過(guò)率,在哈佛-麻省理工數(shù)學(xué)競(jìng)賽(HMMT2025)中獲得了95%的分?jǐn)?shù),在中國(guó)數(shù)學(xué)奧林匹克初賽(CNMO2025)中得到232.4分(滿分260分)。這些成績(jī)不僅超越了當(dāng)前最先進(jìn)的AI模型,在某些測(cè)試中甚至超過(guò)了人類專家的平均水平。

更值得一提的是,為了驗(yàn)證系統(tǒng)在真實(shí)環(huán)境下的表現(xiàn),研究團(tuán)隊(duì)讓Intern-S1-MO正式參加了中國(guó)數(shù)學(xué)奧林匹克2025年的比賽,完全按照人類選手的標(biāo)準(zhǔn)進(jìn)行評(píng)判。最終,系統(tǒng)獲得了102分(滿分126分),遠(yuǎn)超金牌門檻,證明了其在實(shí)際應(yīng)用中的可靠性。

這項(xiàng)研究的技術(shù)創(chuàng)新主要體現(xiàn)在三個(gè)方面。首先是多輪分層推理的架構(gòu)設(shè)計(jì),通過(guò)引理庫(kù)的維護(hù)實(shí)現(xiàn)了對(duì)傳統(tǒng)模型上下文限制的突破。這就像是給AI配備了一個(gè)可擴(kuò)展的"外部大腦",能夠存儲(chǔ)和調(diào)用任意數(shù)量的中間推理結(jié)果。其次是OREAL-H強(qiáng)化學(xué)習(xí)框架,它能夠同時(shí)優(yōu)化推理能力和整體系統(tǒng)性能,實(shí)現(xiàn)了更加精準(zhǔn)的過(guò)程監(jiān)督。最后是創(chuàng)新的驗(yàn)證機(jī)制,通過(guò)多智能體協(xié)作和貝葉斯統(tǒng)計(jì)方法,大大提高了推理過(guò)程的可靠性。

從實(shí)驗(yàn)結(jié)果的詳細(xì)分析來(lái)看,系統(tǒng)的優(yōu)勢(shì)在復(fù)雜度較高的題目中表現(xiàn)得更加明顯。在相對(duì)標(biāo)準(zhǔn)的競(jìng)賽題目中,Intern-S1-MO與現(xiàn)有先進(jìn)模型的差距較小,但在需要構(gòu)建新穎證明路徑和綜合輔助引理的高難度題目中,它展現(xiàn)出了明顯的優(yōu)勢(shì)。這正是因?yàn)樗軌蚓S持跨輪次的邏輯狀態(tài),有效模擬了人類專家使用"草稿紙"進(jìn)行復(fù)雜推理的過(guò)程。

研究團(tuán)隊(duì)還進(jìn)行了細(xì)致的消融實(shí)驗(yàn),逐步驗(yàn)證了系統(tǒng)各個(gè)組件的貢獻(xiàn)。結(jié)果顯示,從單輪推理到多輪推理的改進(jìn)帶來(lái)了顯著提升,引理驗(yàn)證機(jī)制進(jìn)一步提高了可靠性,而過(guò)程驗(yàn)證和OREAL-H訓(xùn)練框架則在此基礎(chǔ)上實(shí)現(xiàn)了更大的性能飛躍。這些發(fā)現(xiàn)為未來(lái)的系統(tǒng)優(yōu)化提供了明確的方向。

當(dāng)然,這個(gè)系統(tǒng)也有其局限性。研究團(tuán)隊(duì)坦誠(chéng)地指出,在某些需要高度創(chuàng)造性洞察或"靈感閃現(xiàn)"的題目上,Intern-S1-MO仍然存在困難。這些題目往往需要一些非系統(tǒng)化的思維跳躍,這正是當(dāng)前AI技術(shù)的邊界所在。此外,系統(tǒng)的計(jì)算成本相對(duì)較高,需要大量的并行搜索和驗(yàn)證過(guò)程,這在實(shí)際應(yīng)用中可能成為一個(gè)制約因素。

這項(xiàng)研究的意義遠(yuǎn)超數(shù)學(xué)競(jìng)賽本身。它展示了AI在復(fù)雜推理任務(wù)中的巨大潛力,為構(gòu)建能夠進(jìn)行深度思考的智能系統(tǒng)提供了新的技術(shù)路徑。在教育領(lǐng)域,這樣的系統(tǒng)可以作為高水平的數(shù)學(xué)教學(xué)助手,幫助學(xué)生理解復(fù)雜的數(shù)學(xué)概念和證明過(guò)程。在科學(xué)研究中,它可能協(xié)助研究人員處理那些需要大量邏輯推理的理論問(wèn)題。

更重要的是,這項(xiàng)工作為AI的認(rèn)知能力發(fā)展開辟了新的方向。通過(guò)多智能體協(xié)作和分層記憶管理,研究團(tuán)隊(duì)證明了AI不必局限于單一模型的上下文限制,而可以通過(guò)系統(tǒng)級(jí)的架構(gòu)創(chuàng)新來(lái)實(shí)現(xiàn)更強(qiáng)大的認(rèn)知能力。這種思路對(duì)于構(gòu)建真正能夠進(jìn)行深度思考和長(zhǎng)期規(guī)劃的AI系統(tǒng)具有重要的啟發(fā)意義。

歸根結(jié)底,Intern-S1-MO的成功證明了一個(gè)重要觀點(diǎn):AI的智能水平不僅取決于單個(gè)模型的能力,更在于如何巧妙地組織和協(xié)調(diào)這些能力。就像一個(gè)優(yōu)秀的交響樂(lè)團(tuán),每個(gè)樂(lè)手的技藝固然重要,但真正動(dòng)人的音樂(lè)來(lái)自于精心編排的協(xié)作。在這個(gè)案例中,推理者、總結(jié)者和驗(yàn)證者的完美配合,創(chuàng)造出了超越單個(gè)組件能力總和的集體智慧。

這項(xiàng)研究也為我們思考AI的未來(lái)發(fā)展提供了新的視角。與其一味追求更大、更強(qiáng)的單一模型,或許我們更應(yīng)該關(guān)注如何設(shè)計(jì)更加智能的系統(tǒng)架構(gòu),讓AI能夠像人類一樣進(jìn)行分步驟、多層次的深度思考。畢竟,人類的認(rèn)知優(yōu)勢(shì)往往不在于處理信息的速度,而在于能夠靈活地組織思維過(guò)程,在復(fù)雜問(wèn)題面前保持條理清晰的推理能力。

對(duì)于關(guān)注AI技術(shù)發(fā)展的普通讀者來(lái)說(shuō),這項(xiàng)研究傳達(dá)了一個(gè)重要信息:我們正在逐步接近能夠在復(fù)雜認(rèn)知任務(wù)中與人類專家相媲美的AI系統(tǒng)。雖然目前這些技術(shù)主要還停留在研究階段,但它們展現(xiàn)出的潛力預(yù)示著未來(lái)AI在教育、科研、工程設(shè)計(jì)等需要深度推理的領(lǐng)域?qū)l(fā)揮越來(lái)越重要的作用。同時(shí),這也提醒我們需要思考如何在AI能力快速提升的時(shí)代,重新定義人類的獨(dú)特價(jià)值和AI的合理邊界。

Q&A

Q1:Intern-S1-MO是什么?

A:Intern-S1-MO是由上海人工智能實(shí)驗(yàn)室開發(fā)的數(shù)學(xué)推理智能體,它采用多智能體協(xié)作系統(tǒng),包含推理者、總結(jié)者和驗(yàn)證者三個(gè)角色,能夠解決國(guó)際數(shù)學(xué)奧林匹克級(jí)別的超高難度數(shù)學(xué)題。

Q2:這個(gè)AI系統(tǒng)為什么能突破傳統(tǒng)模型的限制?

A:傳統(tǒng)AI模型受限于上下文長(zhǎng)度,就像只有一頁(yè)紙的答題本。Intern-S1-MO通過(guò)引理庫(kù)機(jī)制將復(fù)雜推理過(guò)程中的有價(jià)值信息壓縮成簡(jiǎn)潔結(jié)論并存儲(chǔ),相當(dāng)于給AI配備了可擴(kuò)展的"外部大腦"。

Q3:OREAL-H強(qiáng)化學(xué)習(xí)框架有什么特別之處?

A:OREAL-H不僅關(guān)注最終答案對(duì)錯(cuò),還會(huì)分析整個(gè)解題過(guò)程,通過(guò)引理依賴圖識(shí)別有價(jià)值的推理步驟,并采用貝葉斯共軛獎(jiǎng)勵(lì)機(jī)制處理驗(yàn)證中的不確定性,讓系統(tǒng)從解題經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)改進(jìn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許光達(dá)愧受大將軍銜,他對(duì)賀老總說(shuō):段師長(zhǎng)才是實(shí)至名歸的大將

許光達(dá)愧受大將軍銜,他對(duì)賀老總說(shuō):段師長(zhǎng)才是實(shí)至名歸的大將

健康快樂(lè)丁
2026-01-01 19:11:26
我是河南人,從臺(tái)灣回來(lái),實(shí)在忍不住想說(shuō):臺(tái)灣給我的5點(diǎn)印象

我是河南人,從臺(tái)灣回來(lái),實(shí)在忍不住想說(shuō):臺(tái)灣給我的5點(diǎn)印象

i書與房
2026-01-01 16:58:55
僅12天丟掉冠軍,《阿凡達(dá)3》被黃曉明打敗,210億票房夢(mèng)徹底碎了

僅12天丟掉冠軍,《阿凡達(dá)3》被黃曉明打敗,210億票房夢(mèng)徹底碎了

影視高原說(shuō)
2026-01-01 09:21:50
2026年開始,為什么建議大家盡量使用現(xiàn)金支付,原因很現(xiàn)實(shí)

2026年開始,為什么建議大家盡量使用現(xiàn)金支付,原因很現(xiàn)實(shí)

李博世財(cái)經(jīng)
2026-01-01 17:03:43
美國(guó)提醒日本,小心被中國(guó)揍!日本天皇急召高市早苗:有要事交代

美國(guó)提醒日本,小心被中國(guó)揍!日本天皇急召高市早苗:有要事交代

興史興談
2025-12-31 18:51:20
房貸利率1月1日起下調(diào)

房貸利率1月1日起下調(diào)

財(cái)聞
2026-01-01 15:17:51
停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時(shí)代結(jié)束了?

停工450天,訂單銳減40%!外資集體“大撤離”,世界工廠時(shí)代結(jié)束了?

劉曠
2026-01-01 20:01:47
小米 17 Ultra的最強(qiáng)賣點(diǎn),卻成了用戶退貨的理由

小米 17 Ultra的最強(qiáng)賣點(diǎn),卻成了用戶退貨的理由

藍(lán)字計(jì)劃
2025-12-31 16:28:39
最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級(jí),山東最新元旦假期天氣→

最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級(jí),山東最新元旦假期天氣→

魯中晨報(bào)
2026-01-01 16:25:12
摔毛巾+提前離場(chǎng)!名嘴炮轟華子無(wú)領(lǐng)袖擔(dān)當(dāng) 狼媒卻直指管理層摳門

摔毛巾+提前離場(chǎng)!名嘴炮轟華子無(wú)領(lǐng)袖擔(dān)當(dāng) 狼媒卻直指管理層摳門

顏小白的籃球夢(mèng)
2026-01-01 19:04:23
CBA最新消息!廣東男籃又傷主力,遼寧無(wú)換外援計(jì)劃 新疆官宣裁員

CBA最新消息!廣東男籃又傷主力,遼寧無(wú)換外援計(jì)劃 新疆官宣裁員

中國(guó)籃壇快訊
2026-01-01 15:51:34
喜訊!國(guó)足最強(qiáng)歸化來(lái)了?當(dāng)事人親承確有其事,單賽季21球7助攻

喜訊!國(guó)足最強(qiáng)歸化來(lái)了?當(dāng)事人親承確有其事,單賽季21球7助攻

羅掌柜體育
2026-01-01 10:38:06
馬克龍:將確保法國(guó)總統(tǒng) 選舉不受外國(guó)干預(yù)

馬克龍:將確保法國(guó)總統(tǒng) 選舉不受外國(guó)干預(yù)

每日經(jīng)濟(jì)新聞
2026-01-01 09:47:14
一九七六年元旦社論 1976年1月1日《人民日?qǐng)?bào)》

一九七六年元旦社論 1976年1月1日《人民日?qǐng)?bào)》

那些看得見(jiàn)的老照片
2026-01-01 16:37:37
深夜!茅臺(tái)放大招:1499買飛天,每人每日限購(gòu)12瓶!

深夜!茅臺(tái)放大招:1499買飛天,每人每日限購(gòu)12瓶!

中國(guó)基金報(bào)
2026-01-01 00:13:38
劉伯承逝世后,有人建議照顧其后人,鄧小平當(dāng)即拒絕:我們不能幫

劉伯承逝世后,有人建議照顧其后人,鄧小平當(dāng)即拒絕:我們不能幫

歷史龍?jiān)w
2025-12-30 13:35:08
國(guó)乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國(guó)戀情引熱議

國(guó)乒傳喜訊!24歲主力戀情曝光,女友是日本主力,跨國(guó)戀情引熱議

體育就你秀
2026-01-01 09:17:30
給2025最好的10部國(guó)產(chǎn)劇排名:《生萬(wàn)物》僅排第2,第1名沒(méi)有爭(zhēng)議

給2025最好的10部國(guó)產(chǎn)劇排名:《生萬(wàn)物》僅排第2,第1名沒(méi)有爭(zhēng)議

小老頭奇聞
2026-01-01 19:28:01
朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

銘記歷史呀
2025-12-29 02:30:03
2025年有一種痛苦叫搬進(jìn)了“大平層”,不好住不好賣,已淪不動(dòng)產(chǎn)

2025年有一種痛苦叫搬進(jìn)了“大平層”,不好住不好賣,已淪不動(dòng)產(chǎn)

巢客HOME
2025-12-25 07:25:03
2026-01-01 20:48:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國(guó)

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

體育要聞

2026,這些英超紀(jì)錄可能會(huì)被打破

娛樂(lè)要聞

跨年零點(diǎn)時(shí)刻好精彩!何炅飛奔擁抱

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬(wàn)輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
公開課
軍事航空

藝術(shù)要聞

投資40億!湖南郴州最大的爛尾商場(chǎng),誰(shuí)在買單?

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

“游生贏家” 《ARC Raiders》成績(jī)斐然

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基新年致辭:不要"烏克蘭的終結(jié)"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版