国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)Seed團(tuán)隊(duì)發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問題,字節(jié) Seed 團(tuán)隊(duì)聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進(jìn)行迭代計(jì)算,(ii)采用熵正則化目標(biāo)以實(shí)現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計(jì)使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項(xiàng)目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對(duì)照實(shí)驗(yàn),研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識(shí)存儲(chǔ)量的增加,而是得益于其更高效的知識(shí)操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實(shí)的人類推理機(jī)制。



Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個(gè)循環(huán)步,紅色)與單獨(dú)的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測(cè)試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅,?shí)現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時(shí)代下作為一種新型擴(kuò)展路徑的潛力。



在高級(jí)推理基準(zhǔn)測(cè)試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對(duì)比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個(gè)數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個(gè)固定的參數(shù)預(yù)算內(nèi)實(shí)現(xiàn)「動(dòng)態(tài)計(jì)算」。具體而言,該架構(gòu)包含一個(gè)由 N 個(gè)共享權(quán)重層組成的「層堆!埂

在模型的前向傳播過程中,這個(gè)共享的層堆棧會(huì)被循環(huán)應(yīng)用多次,即經(jīng)歷多個(gè)「循環(huán)步驟」。這種設(shè)計(jì)將模型的計(jì)算規(guī)模從「參數(shù)數(shù)量」解耦到了「計(jì)算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計(jì)算能力。它集成了一個(gè)學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時(shí):簡(jiǎn)單輸入可能會(huì)在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計(jì)算資源;復(fù)雜輸入則會(huì)自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個(gè)「潛在思想鏈」。每一次循環(huán)都是對(duì)表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識(shí)操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個(gè)多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個(gè)通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨(dú)立經(jīng)歷后續(xù)四個(gè)相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長(zhǎng)上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個(gè)過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個(gè)基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個(gè)專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團(tuán)隊(duì)發(fā)現(xiàn)最初使用 8 個(gè)循環(huán)步驟會(huì)導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計(jì)算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會(huì)何時(shí)「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個(gè)循環(huán)步驟(R = 1 到 R = n)。在每個(gè)循環(huán)步驟 i,一個(gè)退出門預(yù)測(cè)退出概率 p?,而語言建模頭 L? 則計(jì)算對(duì)應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項(xiàng) H(p?,…,p?),以鼓勵(lì)模型探索不同的計(jì)算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美不準(zhǔn)中國(guó)買伊石油?不到24小時(shí)伊朗火速致電中國(guó),中方只回一句

美不準(zhǔn)中國(guó)買伊石油?不到24小時(shí)伊朗火速致電中國(guó),中方只回一句

近史博覽
2026-04-18 03:32:20
拒不報(bào)銷?國(guó)民黨主席鄭麗文訪問花費(fèi)480萬元新臺(tái)幣

拒不報(bào)銷?國(guó)民黨主席鄭麗文訪問花費(fèi)480萬元新臺(tái)幣

小馬姨
2026-04-17 11:30:29
內(nèi)塔尼亞胡:在特朗普的請(qǐng)求下同意

內(nèi)塔尼亞胡:在特朗普的請(qǐng)求下同意

第一財(cái)經(jīng)資訊
2026-04-17 08:12:01
那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

千秋文化
2026-04-16 20:08:23
看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動(dòng)不已!

看!波蘭超模阿里亞納的驚艷寫真,身材讓人心動(dòng)不已!

國(guó)際藝術(shù)大觀
2026-04-16 00:10:27
特朗普對(duì)全球下令,180天內(nèi)廢掉中方王牌,美媒

特朗普對(duì)全球下令,180天內(nèi)廢掉中方王牌,美媒

往事我敬你一杯酒人
2026-04-17 20:13:14
西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

小莜讀史
2026-04-17 20:53:45
本田被曝將關(guān)停廣州、武漢兩座燃油車工廠 年產(chǎn)能砍至72萬輛

本田被曝將關(guān)停廣州、武漢兩座燃油車工廠 年產(chǎn)能砍至72萬輛

金融界
2026-04-17 13:45:07
一臺(tái)賣4000塊還被瘋搶,國(guó)產(chǎn)激光滅蚊神器,憑什么在海外爆單?

一臺(tái)賣4000塊還被瘋搶,國(guó)產(chǎn)激光滅蚊神器,憑什么在海外爆單?

Thurman在昆明
2026-04-17 18:35:13
棄倫納德?勇士休賽期計(jì)劃曝光:再追詹姆斯!只因他更配庫里+追夢(mèng)格林

棄倫納德?勇士休賽期計(jì)劃曝光:再追詹姆斯!只因他更配庫里+追夢(mèng)格林

冷桂零落
2026-04-18 02:41:46
特朗普14日訪華,普京隨后到,遺憾拒在華會(huì)晤

特朗普14日訪華,普京隨后到,遺憾拒在華會(huì)晤

無情有思可
2026-04-16 13:40:56
天!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

天!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

真的八卦小學(xué)弟
2026-04-12 00:30:12
俞強(qiáng)聲叛逃美國(guó)始末:一場(chǎng)美人計(jì),讓諜王37年潛伏功虧一簣

俞強(qiáng)聲叛逃美國(guó)始末:一場(chǎng)美人計(jì),讓諜王37年潛伏功虧一簣

干史人
2026-04-14 15:05:03
首鋼總經(jīng)理:李楠對(duì)過去發(fā)生事情有很深刻反思 自己也有很深的沉淀

首鋼總經(jīng)理:李楠對(duì)過去發(fā)生事情有很深刻反思 自己也有很深的沉淀

狼叔評(píng)論
2026-04-17 15:44:06
王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

王傳福官宣:比亞迪全固態(tài)電池已造出,續(xù)航超1200公里

生活魔術(shù)專家
2026-04-17 13:47:08
紫牛頭條|男子轉(zhuǎn)讓自己買的自行車坐墊被廠家告了,說是假貨索賠2萬

紫牛頭條|男子轉(zhuǎn)讓自己買的自行車坐墊被廠家告了,說是假貨索賠2萬

揚(yáng)子晚報(bào)
2026-04-16 17:30:22
NBA官網(wǎng)預(yù)測(cè)附加賽:勇士晉級(jí)首輪戰(zhàn)雷霆 黃蜂搭上東部末班車

NBA官網(wǎng)預(yù)測(cè)附加賽:勇士晉級(jí)首輪戰(zhàn)雷霆 黃蜂搭上東部末班車

羅說NBA
2026-04-17 11:14:41
朱迅抗癌20年首曝真相:7次手術(shù),每天只吃七分飽,堅(jiān)決不碰燙食

朱迅抗癌20年首曝真相:7次手術(shù),每天只吃七分飽,堅(jiān)決不碰燙食

觀魚聽雨
2026-04-17 22:29:40
大快人心!許家印結(jié)局已定,3個(gè)女人被他連累,才懂白珊珊有多冤

大快人心!許家印結(jié)局已定,3個(gè)女人被他連累,才懂白珊珊有多冤

風(fēng)信子的花
2026-04-16 16:37:45
中國(guó)建筑中標(biāo)阿聯(lián)酋首個(gè)高鐵項(xiàng)目

中國(guó)建筑中標(biāo)阿聯(lián)酋首個(gè)高鐵項(xiàng)目

GA環(huán)球建筑
2026-04-17 22:16:10
2026-04-18 04:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12790文章數(shù) 142631關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
時(shí)尚
房產(chǎn)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

你絕對(duì)想不到!文森特的色粉作品竟如此驚艷!

旅游要聞

三月三登泰山!蟠桃會(huì)+古風(fēng)巡游驚艷出圈

今日熱點(diǎn):許光漢否認(rèn)和周子瑜戀情;郝熠然與誠(chéng)實(shí)一口終止合作……

房產(chǎn)要聞

重磅利好!2500個(gè)學(xué)位,海口濱江片區(qū),要建九年一貫制學(xué)校!

無障礙瀏覽 進(jìn)入關(guān)懷版