国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻開(kāi)源 Ring-1T,成就推理、編程、通用智能三冠王

0
分享至



AIME 93.4分,開(kāi)源模型首次逼近人類極限。

作者丨鄭佳美

編輯丨馬曉寧

AI 能不能真正“動(dòng)腦子”?這個(gè)問(wèn)題有了新答案。

螞蟻開(kāi)源團(tuán)隊(duì)推出的Ring-1T模型,為這個(gè)長(zhǎng)期存在的疑問(wèn)提供了最具說(shuō)服力的實(shí)證。不同于以往依賴海量數(shù)據(jù)“記憶”答案的語(yǔ)言模型,Ring-1T 試圖讓 AI 在復(fù)雜問(wèn)題中真正“推理”出答案。

它通過(guò)強(qiáng)化學(xué)習(xí)與多階段推理機(jī)制的結(jié)合,使模型能夠在反饋中不斷修正思路、優(yōu)化邏輯路徑,逐步形成更穩(wěn)定、更接近人類思維的推理模式。

正是這種從“模仿”到“思考”的轉(zhuǎn)變,讓 Ring-1T 成為開(kāi)源 AI 領(lǐng)域的一次里程碑式突破。接下來(lái),讓我們看看這項(xiàng)研究是如何實(shí)現(xiàn)的。


論文地址:

https://arxiv.org/pdf/2510.18855

01

通用智能的火花

實(shí)驗(yàn)中Ring-1T 模型在多個(gè)高難度推理與數(shù)學(xué)基準(zhǔn)上進(jìn)行了系統(tǒng)性評(píng)估,都取得了突破性的實(shí)驗(yàn)成果。作為一個(gè)開(kāi)源的萬(wàn)億參數(shù)思考型模型,Ring-1T 分別在推理、數(shù)學(xué)、編程及通用智能任務(wù)上均展現(xiàn)出卓越的綜合能力。

數(shù)學(xué)推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成績(jī),接近人類頂尖選手水平;在 HMMT-2025 中得分 86.72,顯示其在跨領(lǐng)域數(shù)學(xué)推理與高復(fù)雜度邏輯演算中的強(qiáng)大能力;在 IMO-2025 模擬評(píng)測(cè)中達(dá)到銀牌水平,證明模型能夠在需要多步推理與創(chuàng)造性證明的問(wèn)題中保持高準(zhǔn)確率和穩(wěn)定性。


編程與算法能力上,模型在 Codeforces 平臺(tái)測(cè)試中獲得 2088 分,達(dá)到人類程序員的高水平區(qū)間。這表明 Ring-1T 不僅能夠理解算法邏輯,還能在有限時(shí)間內(nèi)生成高效、可執(zhí)行的代碼,具備良好的算法復(fù)雜度控制與問(wèn)題分解能力。


通用智能推理任務(wù)中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,顯著超越此前開(kāi)源模型的平均表現(xiàn)。該結(jié)果表明,模型在抽象模式識(shí)別、思維遷移與多步認(rèn)知推理方面具備接近通用人工智能的潛力。

總體而言,Ring-1T 在各項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出優(yōu)異的穩(wěn)定性與一致性,尤其在復(fù)雜推理與多步邏輯任務(wù)中未出現(xiàn)顯著性能退化。與此前主要停留在百億或千億參數(shù)規(guī)模的開(kāi)源模型相比,Ring-1T 在數(shù)學(xué)、推理與算法任務(wù)上全面刷新了開(kāi)源模型的性能上限,成為新一代開(kāi)源思考型模型的性能基準(zhǔn)。


實(shí)驗(yàn)結(jié)果還表明,該模型的高性能得益于論文提出的三項(xiàng)關(guān)鍵技術(shù)

IcePop旨在提升強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性,解決訓(xùn)練與推理分布不一致的問(wèn)題。它通過(guò)動(dòng)態(tài)約束與梯度剪切,限制高熵樣本的影響,并自適應(yīng)調(diào)整溫度參數(shù),使模型在保持探索性的同時(shí)更穩(wěn)定收斂,從而提高推理階段的可靠性。


C3PO++專注于提升長(zhǎng)序列推理和大規(guī)模 rollout 的效率。該方法采用動(dòng)態(tài)分區(qū)和 token 預(yù)算機(jī)制,將推理過(guò)程劃分為多個(gè)小批次,并利用持久化緩沖區(qū)續(xù)傳未完成任務(wù),有效提升 GPU 利用率和整體訓(xùn)練吞吐量。


ASystem則是支撐萬(wàn)億參數(shù)強(qiáng)化學(xué)習(xí)的分布式架構(gòu)。它整合統(tǒng)一的訓(xùn)練與推理運(yùn)行時(shí)、高效的顯存管理、快速的參數(shù)同步以及安全的隔離執(zhí)行環(huán)境,使大規(guī)模模型訓(xùn)練具備更高的并行性、穩(wěn)定性與容錯(cuò)性。

02

算法與系統(tǒng)的共振

論文中體現(xiàn)的實(shí)驗(yàn)過(guò)程,主要以Ring-1T 思考型模型為研究對(duì)象,研究人員設(shè)計(jì)了分階段的訓(xùn)練體系,包括監(jiān)督微調(diào)(SFT)推理強(qiáng)化學(xué)習(xí)(Reasoning RL)通用強(qiáng)化學(xué)習(xí)(General RL)。研究的主要突破集中在后兩個(gè)階段,通過(guò)引入IcePop、C3PO++ASystem等方法,實(shí)現(xiàn)了在大規(guī)模強(qiáng)化學(xué)習(xí)中的穩(wěn)定訓(xùn)練與高效推理。


實(shí)驗(yàn)中,Ring-1T 模型的訓(xùn)練過(guò)程經(jīng)過(guò)精心設(shè)計(jì),以在萬(wàn)億參數(shù)規(guī)模下同時(shí)保證穩(wěn)定性和效率。團(tuán)隊(duì)在訓(xùn)練時(shí)采用AdamW 優(yōu)化器,其超參數(shù)設(shè)定為 β?=0.9、β?=0.999,權(quán)重衰減為 0.01;同時(shí)固定了 MoE路由器的偏置項(xiàng),以保持參數(shù)更新的穩(wěn)定。推理與采樣階段的設(shè)置在兩個(gè)強(qiáng)化學(xué)習(xí)階段中保持一致,KL 系數(shù)設(shè)為 0.0,采樣溫度為 1.0,以減少訓(xùn)練階段與推理階段分布不一致帶來(lái)的偏差。

在強(qiáng)化學(xué)習(xí)階段,Ring-1T 的性能提升主要依賴兩項(xiàng)關(guān)鍵技術(shù):IcePopC3PO++。其中,IcePop的目標(biāo)是讓訓(xùn)練過(guò)程更加穩(wěn)定,避免模型在訓(xùn)練和推理階段出現(xiàn)表現(xiàn)不一致的情況。

簡(jiǎn)單來(lái)說(shuō),它會(huì)在每次更新模型參數(shù)時(shí),對(duì)不穩(wěn)定或異常的樣本進(jìn)行“篩選”和“削弱”。具體做法是:計(jì)算訓(xùn)練階段與推理階段之間的概率差異,如果某個(gè) token 的概率偏離太大,就會(huì)被部分“掩蓋”或降低權(quán)重。這樣可以防止模型在訓(xùn)練中因?yàn)闃O端樣本而產(chǎn)生劇烈波動(dòng)。

除此之外,IcePop 采用了參數(shù) α=0.5、β=5.0 的范圍,也就是只讓概率比值處于 [0.5, 5.0] 的樣本參與優(yōu)化。研究人員還測(cè)試了不同范圍的配置(如 [0.5, 2.0]、[0.4, 5.0]),結(jié)果表明默認(rèn)參數(shù)在訓(xùn)練穩(wěn)定性與性能之間達(dá)到了平衡。


而之后的 C3PO++ 則負(fù)責(zé)優(yōu)化 rollout 過(guò)程,使訓(xùn)練在大規(guī)模分布式環(huán)境下更加高效,特別是在處理超長(zhǎng)序列時(shí)。傳統(tǒng)方法在遇到很長(zhǎng)的推理樣本時(shí)會(huì)拖慢整個(gè)訓(xùn)練進(jìn)程,而 C3PO++ 通過(guò)“分段訓(xùn)練”和“并行續(xù)傳”的方式解決了這個(gè)問(wèn)題。

它設(shè)置了一個(gè)token 預(yù)算(Φ),當(dāng)生成的 token 數(shù)達(dá)到預(yù)算上限時(shí),就會(huì)立即觸發(fā)一次更新。系統(tǒng)分為兩個(gè)池子:推理池(P_infer)不斷生成新樣本,訓(xùn)練池(Q_train)收集已經(jīng)生成完成的樣本并進(jìn)行更新,這樣推理和訓(xùn)練就可以同時(shí)進(jìn)行。

為了防止某些特別長(zhǎng)的序列占用資源,C3PO++ 還給每個(gè)樣本設(shè)定了一個(gè)保留期(σ),超時(shí)未完成的樣本會(huì)被清除。而那些還沒(méi)生成完的樣本則會(huì)在下一輪繼續(xù)生成(即“跨迭代續(xù)傳”)。通過(guò)這些機(jī)制,C3PO++ 能讓訓(xùn)練過(guò)程更加流暢高效,不會(huì)因?yàn)閭€(gè)別長(zhǎng)樣本卡住整個(gè)系統(tǒng)。

總體來(lái)說(shuō),IcePop讓訓(xùn)練更穩(wěn),C3PO++讓訓(xùn)練更快,兩者結(jié)合,使 Ring-1T 能在萬(wàn)億參數(shù)規(guī)模下保持高效、穩(wěn)定的強(qiáng)化學(xué)習(xí)表現(xiàn)。


除此之外,為了讓萬(wàn)億參數(shù)的 Ring-1T 模型能夠高效穩(wěn)定地進(jìn)行訓(xùn)練,研究團(tuán)隊(duì)還專門設(shè)計(jì)了一個(gè)分布式強(qiáng)化學(xué)習(xí)系統(tǒng)——ASystem。它的核心目標(biāo)是:在海量 GPU 和超大模型的條件下,讓訓(xùn)練、推理和參數(shù)更新能夠同時(shí)、高效地進(jìn)行,而不會(huì)因?yàn)橄到y(tǒng)瓶頸導(dǎo)致中斷或效率下降。

ASystem 采用一種叫SingleController + SPMD的并行架構(gòu)。簡(jiǎn)單來(lái)說(shuō),就是用一個(gè)中央控制器來(lái)統(tǒng)一調(diào)度成千上萬(wàn)的計(jì)算節(jié)點(diǎn),讓每個(gè)節(jié)點(diǎn)都執(zhí)行相同的訓(xùn)練流程,從而保證全系統(tǒng)的同步與高效協(xié)作。

整個(gè)系統(tǒng)由四個(gè)主要模塊組成:

Hybrid Runtime:這是訓(xùn)練和推理的統(tǒng)一執(zhí)行環(huán)境,負(fù)責(zé)同時(shí)管理模型訓(xùn)練和模型測(cè)試的計(jì)算任務(wù),避免不同系統(tǒng)之間反復(fù)傳輸數(shù)據(jù)。

AMem:負(fù)責(zé) GPU 顯存的管理和數(shù)據(jù)傳輸。它可以在不同顯卡之間切換內(nèi)存、使用多條數(shù)據(jù)通道傳輸信息,并通過(guò)共享內(nèi)存池減少顯存占用,從而支持更大的批量訓(xùn)練而不會(huì)崩潰。

AState:負(fù)責(zé)在不同計(jì)算節(jié)點(diǎn)之間同步模型參數(shù)。它采用點(diǎn)對(duì)點(diǎn)(P2P)的高效傳輸方式,只同步必要的部分,能在大約 10 秒內(nèi)完成萬(wàn)億級(jí)參數(shù)的同步。

ASandbox:相當(dāng)于一個(gè)安全的“實(shí)驗(yàn)沙盒”,用于執(zhí)行代碼生成、數(shù)學(xué)計(jì)算和邏輯驗(yàn)證等推理任務(wù)。它像“函數(shù)即服務(wù)”一樣,可以在隔離環(huán)境中同時(shí)運(yùn)行成千上萬(wàn)個(gè)推理請(qǐng)求。

在系統(tǒng)設(shè)計(jì)上,ASystem 將控制邏輯和數(shù)據(jù)流分離,使訓(xùn)練、推理和獎(jiǎng)勵(lì)計(jì)算模塊都能獨(dú)立運(yùn)行。它還具有“快速失敗與自動(dòng)恢復(fù)”機(jī)制:如果某個(gè)節(jié)點(diǎn)出現(xiàn)問(wèn)題,系統(tǒng)能自動(dòng)檢測(cè)并恢復(fù)運(yùn)行,而不會(huì)影響整體訓(xùn)練進(jìn)度。

通過(guò)這些設(shè)計(jì),ASystem 讓 Ring-1T 能夠在成千 GPU 的大規(guī)模環(huán)境中穩(wěn)定運(yùn)行,實(shí)現(xiàn)高吞吐、高可靠的強(qiáng)化學(xué)習(xí)訓(xùn)練。


03

開(kāi)源智能的下一步

過(guò)去的模型大多依賴數(shù)據(jù)去模仿人類答案,但面對(duì)復(fù)雜推理或邏輯問(wèn)題時(shí)容易出錯(cuò)。Ring-1T 的研究探索了一種新的思路 —— 通過(guò)強(qiáng)化學(xué)習(xí)讓模型在反饋中不斷調(diào)整自己的思考方式,逐步形成更穩(wěn)定、更清晰的推理能力。

它的另一個(gè)意義在于證明了超大規(guī)模強(qiáng)化學(xué)習(xí)是可以實(shí)現(xiàn)的。以前這種規(guī)模的模型常常訓(xùn)練不穩(wěn)、成本高、容易崩潰,而這項(xiàng)研究用新的算法和系統(tǒng)設(shè)計(jì),找到了一種讓萬(wàn)億參數(shù)模型穩(wěn)定訓(xùn)練的方法。這為后續(xù)更復(fù)雜、更自主的模型研究提供了可操作的經(jīng)驗(yàn)。

從更長(zhǎng)遠(yuǎn)的角度看,這項(xiàng)工作也讓開(kāi)源模型有機(jī)會(huì)在高層次智能上追上閉源系統(tǒng)。它或許不只是一次技術(shù)升級(jí),而是讓智能研究變得更開(kāi)放、更有延續(xù)性的一步。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘋果折疊屏 iPhone 機(jī)模曝光,新形態(tài)來(lái)了

蘋果折疊屏 iPhone 機(jī)模曝光,新形態(tài)來(lái)了

全是技能
2025-12-24 15:21:53
重磅!這次中央企業(yè)負(fù)責(zé)人會(huì)議,釋放出的信號(hào)和政策動(dòng)向極其深刻

重磅!這次中央企業(yè)負(fù)責(zé)人會(huì)議,釋放出的信號(hào)和政策動(dòng)向極其深刻

識(shí)局Insight
2025-12-24 07:16:50
鄭麗文正式聘請(qǐng)王金平,擔(dān)任國(guó)民黨重要職務(wù),還澄清一件大事

鄭麗文正式聘請(qǐng)王金平,擔(dān)任國(guó)民黨重要職務(wù),還澄清一件大事

DS北風(fēng)
2025-12-24 15:46:05
國(guó)家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

國(guó)家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

韓馳
2025-12-24 17:07:11
中國(guó)和烏克蘭什么仇什么怨?澤連斯基為何如此提到中國(guó)?

中國(guó)和烏克蘭什么仇什么怨?澤連斯基為何如此提到中國(guó)?

新民周刊
2025-12-24 09:14:47
教育部動(dòng)真格了。新規(guī)明確:小學(xué)一至六年級(jí),全面取消跨校聯(lián)考…

教育部動(dòng)真格了。新規(guī)明確:小學(xué)一至六年級(jí),全面取消跨校聯(lián)考…

放開(kāi)他讓wo來(lái)
2025-12-23 13:23:55
吃他汀,不吃柚子,能吃桔子、橙子和檸檬嗎?醫(yī)生解答

吃他汀,不吃柚子,能吃桔子、橙子和檸檬嗎?醫(yī)生解答

健康之光
2025-12-24 09:12:42
摩爾線程、沐曦股份撐不住了,盤中閃崩大跌,抄底的虧慘了!

摩爾線程、沐曦股份撐不住了,盤中閃崩大跌,抄底的虧慘了!

財(cái)經(jīng)智多星
2025-12-24 14:37:59
廣東女護(hù)士林楚欣,因淤青確診癌癥,年僅18歲,兩個(gè)月共花費(fèi)13萬(wàn)

廣東女護(hù)士林楚欣,因淤青確診癌癥,年僅18歲,兩個(gè)月共花費(fèi)13萬(wàn)

溫辭韞
2025-12-23 10:42:08
確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

籃球?qū)崙?zhàn)寶典
2025-12-24 07:19:33
KD22+5末節(jié)卻遭DNP!休媒開(kāi)始質(zhì)疑斯通交易選擇 美球迷狂噴烏度卡

KD22+5末節(jié)卻遭DNP!休媒開(kāi)始質(zhì)疑斯通交易選擇 美球迷狂噴烏度卡

顏小白的籃球夢(mèng)
2025-12-24 13:49:59
泰國(guó)的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

泰國(guó)的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

離離言幾許
2025-12-23 16:03:54
突發(fā)利好!特朗普家族入局核電,A股14個(gè)核電龍頭集體漲停

突發(fā)利好!特朗普家族入局核電,A股14個(gè)核電龍頭集體漲停

鵬哥投研
2025-12-24 12:19:23
私聊發(fā)黃圖也犯法?

私聊發(fā)黃圖也犯法?

凱利經(jīng)濟(jì)觀察
2025-12-23 09:32:57
網(wǎng)友吐槽沈陽(yáng)掃雪車弄臟路旁私家車,當(dāng)?shù)鼗貞?yīng):難免出現(xiàn)該情況,表示歉意

網(wǎng)友吐槽沈陽(yáng)掃雪車弄臟路旁私家車,當(dāng)?shù)鼗貞?yīng):難免出現(xiàn)該情況,表示歉意

極目新聞
2025-12-24 18:41:04
中國(guó)軍隊(duì)回撤時(shí)越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

中國(guó)軍隊(duì)回撤時(shí)越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

古書(shū)記史
2025-12-22 19:50:50
大地色系的權(quán)威:棕色戰(zhàn)袍的靜默宣言

大地色系的權(quán)威:棕色戰(zhàn)袍的靜默宣言

疾跑的小蝸牛
2025-12-23 15:34:21
中方拒不接受!美方索賠1700億,美法院:考慮沒(méi)收中方在美資產(chǎn)

中方拒不接受!美方索賠1700億,美法院:考慮沒(méi)收中方在美資產(chǎn)

知法而形
2025-12-23 21:29:02
烏總統(tǒng):一定條件下可考慮在頓涅茨克設(shè)自由經(jīng)濟(jì)區(qū)

烏總統(tǒng):一定條件下可考慮在頓涅茨克設(shè)自由經(jīng)濟(jì)區(qū)

界面新聞
2025-12-24 17:50:42
約基奇29+14掘金丟絕殺遭獨(dú)行俠雙殺 弗拉格33+9+9濃眉31+9

約基奇29+14掘金丟絕殺遭獨(dú)行俠雙殺 弗拉格33+9+9濃眉31+9

醉臥浮生
2025-12-24 11:28:14
2025-12-24 22:00:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

韓國(guó)財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

頭條要聞

韓國(guó)財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購(gòu) 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
數(shù)碼
手機(jī)
本地
公開(kāi)課

《風(fēng)水喵將》評(píng)測(cè):高自由度構(gòu)筑破傳統(tǒng)

數(shù)碼要聞

手機(jī)太小,平板太大?華為MatePad Mini給出年終出行最優(yōu)解

手機(jī)要聞

性能全開(kāi)!華為Mate 80 GTS最快明年3月發(fā):配散熱風(fēng)扇 搭更強(qiáng)版麒麟9030

本地新聞

云游安徽|一川江水潤(rùn)安慶,一塔一戲一城史

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版