国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)Seed團(tuán)隊(duì)發(fā)布循環(huán)語(yǔ)言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過(guò)程(例如「思維鏈」)來(lái)進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問(wèn)題,字節(jié) Seed 團(tuán)隊(duì)聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類(lèi)被稱(chēng)為循環(huán)語(yǔ)言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱(chēng)源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(guò)(i)在潛在空間中進(jìn)行迭代計(jì)算,(ii)采用熵正則化目標(biāo)以實(shí)現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計(jì)使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項(xiàng)目主頁(yè):https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過(guò)對(duì)照實(shí)驗(yàn),研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識(shí)存儲(chǔ)量的增加,而是得益于其更高效的知識(shí)操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過(guò)程相比標(biāo)準(zhǔn) LLM,更接近真實(shí)的人類(lèi)推理機(jī)制。



Ouro 循環(huán)語(yǔ)言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個(gè)循環(huán)步,紅色)與單獨(dú)的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測(cè)試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅?,?shí)現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時(shí)代下作為一種新型擴(kuò)展路徑的潛力。



在高級(jí)推理基準(zhǔn)測(cè)試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對(duì)比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個(gè)數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過(guò)程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來(lái)源于「通用 Transformer」。其核心思想是在一個(gè)固定的參數(shù)預(yù)算內(nèi)實(shí)現(xiàn)「動(dòng)態(tài)計(jì)算」。具體而言,該架構(gòu)包含一個(gè)由 N 個(gè)共享權(quán)重層組成的「層堆棧」。

在模型的前向傳播過(guò)程中,這個(gè)共享的層堆棧會(huì)被循環(huán)應(yīng)用多次,即經(jīng)歷多個(gè)「循環(huán)步驟」。這種設(shè)計(jì)將模型的計(jì)算規(guī)模從「參數(shù)數(shù)量」解耦到了「計(jì)算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計(jì)算能力。它集成了一個(gè)學(xué)習(xí)到的「退出門(mén)」,當(dāng)模型處理輸入時(shí):簡(jiǎn)單輸入可能會(huì)在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計(jì)算資源;復(fù)雜輸入則會(huì)自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個(gè)「潛在思想鏈」。每一次循環(huán)都是對(duì)表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識(shí)操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個(gè)多階段過(guò)程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個(gè)通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過(guò)「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨(dú)立經(jīng)歷后續(xù)四個(gè)相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長(zhǎng)上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個(gè)過(guò)程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個(gè)基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個(gè)專(zhuān)門(mén)的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專(zhuān)注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團(tuán)隊(duì)發(fā)現(xiàn)最初使用 8 個(gè)循環(huán)步驟會(huì)導(dǎo)致?lián)p失尖峰等不穩(wěn)定問(wèn)題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計(jì)算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會(huì)何時(shí)「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語(yǔ)言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過(guò)程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個(gè)循環(huán)步驟(R = 1 到 R = n)。在每個(gè)循環(huán)步驟 i,一個(gè)退出門(mén)預(yù)測(cè)退出概率 p?,而語(yǔ)言建模頭 L? 則計(jì)算對(duì)應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項(xiàng) H(p?,…,p?),以鼓勵(lì)模型探索不同的計(jì)算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你見(jiàn)過(guò)最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

你見(jiàn)過(guò)最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

另子維愛(ài)讀史
2026-02-16 20:35:50
樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來(lái)了

樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來(lái)了

ETtoday星光云
2026-03-02 13:02:43
油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

財(cái)聯(lián)社
2026-03-02 14:08:05
預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來(lái)越難賣(mài)

預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來(lái)越難賣(mài)

貓叔東山再起
2026-03-02 09:35:03
51死60傷!美以為何空襲伊朗小學(xué)?專(zhuān)家:或?yàn)槿嫱匾晾?,或?qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

51死60傷!美以為何空襲伊朗小學(xué)?專(zhuān)家:或?yàn)槿嫱匾晾?,或?qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

極目新聞
2026-02-28 22:09:29
西方媒體欠我們道歉!美國(guó)游客回國(guó)說(shuō)實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

西方媒體欠我們道歉!美國(guó)游客回國(guó)說(shuō)實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

吃貨的分享
2026-03-02 16:04:20
汪小菲窩里橫!直播說(shuō):我知道我媽對(duì)我好,她不會(huì)和我生氣的!

汪小菲窩里橫!直播說(shuō):我知道我媽對(duì)我好,她不會(huì)和我生氣的!

小娛樂(lè)悠悠
2026-03-02 13:39:43
又見(jiàn)證歷史了,三桶油歷史性漲停

又見(jiàn)證歷史了,三桶油歷史性漲停

金石隨筆
2026-03-02 16:29:29
世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

綠茵舞著
2026-03-01 20:57:22
中國(guó)石油歷史上9次漲停

中國(guó)石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說(shuō)了幾個(gè)字

哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說(shuō)了幾個(gè)字

書(shū)紀(jì)文譚
2026-03-02 16:26:02
誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

誰(shuí)能想到她已經(jīng)62了,說(shuō)18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
哈梅內(nèi)伊神秘遺言公開(kāi),特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

哈梅內(nèi)伊神秘遺言公開(kāi),特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

三石記
2026-03-02 15:11:39
3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

面包夾知識(shí)
2026-03-02 13:35:18
孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

陳意小可愛(ài)
2026-03-01 10:33:40
王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

阿廢冷眼觀察所
2026-03-02 07:15:35
埃及被打醒了,蘇35和殲10都不買(mǎi):就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

埃及被打醒了,蘇35和殲10都不買(mǎi):就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

近史談
2026-01-17 21:44:06
過(guò)去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

過(guò)去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

蘇大強(qiáng)專(zhuān)欄
2024-07-20 13:22:14
周杰倫和田馥甄戀情,突沖熱搜第一!

周杰倫和田馥甄戀情,突沖熱搜第一!

人間頌
2026-03-01 12:25:17
2026-03-02 18:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開(kāi)會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車(chē)要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
家居
公開(kāi)課
軍事航空

藝術(shù)要聞

香港展出王羲之書(shū)法,足有60篇、10多米長(zhǎng)!

數(shù)碼要聞

AMD發(fā)布Ryzen AI PRO 400系列桌面處理器 針對(duì)AI計(jì)算優(yōu)化

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動(dòng)用新型武器:山寨伊朗的

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版