国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed:大概念模型來了,推理的何必是下一個(gè)token

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

LLM的下一個(gè)推理單位,何必是Token?

剛剛,字節(jié)Seed團(tuán)隊(duì)發(fā)布最新研究——

DLCM(Dynamic Large Concept Models)將大模型的推理單位從token(詞) 動(dòng)態(tài)且自適應(yīng)地推到了concept(概念)層級。



DLCM通過端到端地方式學(xué)習(xí)語義邊界,動(dòng)態(tài)地將Token序列分割成概念,在壓縮后的概念空間中進(jìn)行深度推理,并借助因果交叉注意力將概念級推理結(jié)果重構(gòu)為Token級預(yù)測

由此,傳統(tǒng)LLM中基于均勻、冗余Token信息密度的計(jì)算分配,被轉(zhuǎn)化為面向概念的動(dòng)態(tài)推理與自適應(yīng)算力分配。

在以推理為主的基準(zhǔn)任務(wù)上,DLCM在將推理階段FLOPs降低34%的同時(shí),還將平均準(zhǔn)確率提升了2.69%

這也意味著,大模型的推理效率并不必然依賴更密集的Token級計(jì)算,而可以通過更高層級的語義組織來獲得。

接下來,我們具體來看。

分層的下一token預(yù)測框架

如上所說,DLCM的核心在于學(xué)習(xí)動(dòng)態(tài)的Token-概念映射,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)分配。

之所以這樣做主要有兩方面原因:

一方面,在自然語言中,信息的分布并不是均勻的,而是集中在集中在少數(shù)語義轉(zhuǎn)換的節(jié)點(diǎn)上。

然而,在當(dāng)前的LLM中,所有token被統(tǒng)一處理,信息密度不均勻的自然語言消耗了同樣的計(jì)算量,造成了大量的冗余與模型容量的錯(cuò)配。

另一方面,此前基于潛在推理的框架,如大型概念模型(Large Concept Model, LCM)等,不僅需要單獨(dú)訓(xùn)練編碼器和解碼器,還依賴人為劃分的固定的、句子級別的粒度,缺乏拓展性與自適應(yīng)性。

針對這些問題,DLCM通過一種分層的下一token預(yù)測框架,將計(jì)算重心轉(zhuǎn)移到壓縮后的語義空間,實(shí)現(xiàn)了更高效的深度推理。



具體來說,這一框架包含四個(gè)階段:

首先,在編碼階段,DLCM通過一個(gè)編碼器,提取細(xì)粒度的Token級表示,捕獲局部上下文信息,作為邊界檢測和最終Token級解碼的基礎(chǔ)。

接下來,在動(dòng)態(tài)分割階段,模型基于Token級表示,計(jì)算相鄰Token之間在潛在空間中的局部不相似性(使用余弦距離),當(dāng)不相似度超過閾值時(shí),模型判斷為一個(gè)語義斷點(diǎn)(概念邊界)。



與固定句子長度不同,DLCM端到端地學(xué)習(xí)這些邊界,實(shí)現(xiàn)內(nèi)容自適應(yīng)的分割。

它將同一片段內(nèi)(即同一概念內(nèi))的所有Token表示進(jìn)行均值池化(Mean Pooling),然后投影到更高維度的概念維度上,最終形成一個(gè)長度大大壓縮的概念序列 。

然后,在概念級推理階段,模型將上面得到的概念序列在壓縮空間中進(jìn)行深度的、高容量的推理,得到經(jīng)過深度推理和信息整合后的概念表示。

最后,在Token級解碼階段,DLCM利用經(jīng)過推理的概念表示,重構(gòu)并預(yù)測下一個(gè)token。

由此,DLCM通過以上四個(gè)步驟,成功地將計(jì)算分配從低效的Token-Token交互,轉(zhuǎn)移到高效的Token-概念-Token 交互,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)、結(jié)構(gòu)化利用。

關(guān)鍵技術(shù)突破與優(yōu)化

雖然DLCM架構(gòu)在設(shè)計(jì)上實(shí)現(xiàn)了Token級和概念級模塊的異構(gòu),但同時(shí)也引入了新的工程和訓(xùn)練挑戰(zhàn)。

全局解析器(Global Parser):內(nèi)容自適應(yīng)壓縮

DLCM 的核心優(yōu)勢在于它能夠根據(jù)信息密度動(dòng)態(tài)地劃分概念。

例如,對于信息冗余度高的代碼或簡單文本,可以激進(jìn)地壓縮;對于語義復(fù)雜的轉(zhuǎn)折點(diǎn),則保持較低壓縮比。

為實(shí)現(xiàn)這一點(diǎn),研究引入了全局解析器(Global Parser)和輔助損失函數(shù)。



這個(gè)機(jī)制的關(guān)鍵在于:它不要求單個(gè)序列嚴(yán)格遵循目標(biāo)壓縮比 ,而是在整個(gè)Batch層面約束平均邊界生成率。

這使得DLCM在共享全局壓縮比例目標(biāo)的前提下,實(shí)現(xiàn)了隨領(lǐng)域變化、隨內(nèi)容波動(dòng)的自適應(yīng)分段,從而將計(jì)算資源精準(zhǔn)地分配到語義最關(guān)鍵的區(qū)域。

針對Flash Attention的效率優(yōu)化

在解碼階段,Token需要通過因果交叉注意力關(guān)注其所屬的概念。

由于每個(gè)概念包含的Token數(shù)量是變化的,如果直接實(shí)現(xiàn),會(huì)嚴(yán)重依賴效率低下的動(dòng)態(tài)掩碼和不規(guī)則的內(nèi)存訪問。

針對這一問題,研究引入概念復(fù)制(Concept Replication)策略。它將概念特征沿著序列維度復(fù)制擴(kuò)展,使其長度與原始Token序列對齊。



由此,研究將復(fù)雜的可變長交叉注意力問題轉(zhuǎn)換為長度對齊、局部恒定的注意力問題,并使其能夠利用高度優(yōu)化的Flash Attention Varlen內(nèi)核,獲得了1.26倍到1.73倍的顯著加速。

異構(gòu)架構(gòu)的穩(wěn)定訓(xùn)練

由于DLCM 的Token級組件和概念級骨干網(wǎng)絡(luò)的寬度不一致,通過上投影連接,無法共享單一有效學(xué)習(xí)率。

為解決這一問題,研究采用解耦的最大更新參數(shù)化,為Token模塊和概念模塊分配了獨(dú)立的寬度縮放因子,并發(fā)現(xiàn)各組件的有效學(xué)習(xí)率應(yīng)與其寬度的倒數(shù)成比例縮放。



由此,研究成功地穩(wěn)定了這種不等寬架構(gòu)的訓(xùn)練,并實(shí)現(xiàn)了零樣本超參數(shù)遷移,即小型代理模型上找到的最佳學(xué)習(xí)率可以直接用于訓(xùn)練更大的DLCM模型。

量化最優(yōu)分配點(diǎn)

除上述優(yōu)化外,研究還進(jìn)一步基于scaling law探究了token級處理與概念級推理之間的最優(yōu)分配。

研究發(fā)現(xiàn),在固定壓縮比下,架構(gòu)效率在中等概念主干占比處達(dá)到峰值,而非隨概念容量單調(diào)提升。

更重要的是,這一最優(yōu)配置在規(guī)模增大時(shí)優(yōu)勢愈發(fā)明顯:隨著基線模型變大,在性能對齊的前提下,DLCM可實(shí)現(xiàn)越來越顯著的FLOPs節(jié)省。



在實(shí)驗(yàn)階段,研究采用了與LLaMA論文中報(bào)告的相同的全局批次大小、學(xué)習(xí)率和序列長度,讓每個(gè)模型都在1T Token上進(jìn)行訓(xùn)練。



其中,DLCM實(shí)現(xiàn)了43.92%的平均準(zhǔn)確率,超過了基線模型41.23%的分?jǐn)?shù),提升了2.69%。

One more thing

這篇論文的一作來自英國曼徹斯特大學(xué)的在讀博士生Qu Xingwei,師從Chenghua Lin教授。



他的研究方向聚焦于大語言模型(LLMs),主要包括預(yù)訓(xùn)練、微調(diào)、專家混合(Mixture of Experts)以及System-2大語言模型。

在教育背景方面,他本科畢業(yè)于北京航空航天大學(xué),導(dǎo)師為段海濱教授;碩士就讀于獲慕尼黑工業(yè)大學(xué),導(dǎo)師為Daniel Cremers教授。

在讀博前,他曾在字節(jié)跳動(dòng)和小鵬汽車擔(dān)任研究工程師。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇富比5.9億“稀世粉鉆”慘遭流拍,西方巨頭破防:河南負(fù)全責(zé)!

蘇富比5.9億“稀世粉鉆”慘遭流拍,西方巨頭破防:河南負(fù)全責(zé)!

詩意世界
2025-12-31 17:59:26
真是太雞肋了!火箭甚至都不敢讓第三中鋒多打一會(huì)兒?

真是太雞肋了!火箭甚至都不敢讓第三中鋒多打一會(huì)兒?

稻谷與小麥
2026-01-06 19:00:41
抓拉登,讓世界各國認(rèn)識了海豹突擊隊(duì);抓馬杜羅,讓世界各國認(rèn)識了三角洲特種部隊(duì)!

抓拉登,讓世界各國認(rèn)識了海豹突擊隊(duì);抓馬杜羅,讓世界各國認(rèn)識了三角洲特種部隊(duì)!

Ck的蜜糖
2026-01-06 11:19:11
委內(nèi)瑞拉總統(tǒng)被抓,令人想起美國全球通緝的這位中國高人!

委內(nèi)瑞拉總統(tǒng)被抓,令人想起美國全球通緝的這位中國高人!

華人星光
2026-01-05 10:53:19
醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無法自主呼吸

醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無法自主呼吸

觀威海
2026-01-06 10:46:23
再見,程序員!馬斯克宣判:奇點(diǎn)就在2026

再見,程序員!馬斯克宣判:奇點(diǎn)就在2026

新智元
2026-01-05 11:23:24
向太說根本不存在名媛培訓(xùn)班,“太多人嫉妒方媛了,方媛沒有錯(cuò),她只是比你們幸運(yùn)一點(diǎn)而已”

向太說根本不存在名媛培訓(xùn)班,“太多人嫉妒方媛了,方媛沒有錯(cuò),她只是比你們幸運(yùn)一點(diǎn)而已”

觀威海
2026-01-06 14:18:10
券商合并潮再起!被低估的區(qū)域型券商龍頭,這3家或成并購首選!

券商合并潮再起!被低估的區(qū)域型券商龍頭,這3家或成并購首選!

小白鴿財(cái)經(jīng)
2026-01-06 07:05:03
小鰲太線失聯(lián)人員全部找到,和之前網(wǎng)友猜測的幾乎一樣

小鰲太線失聯(lián)人員全部找到,和之前網(wǎng)友猜測的幾乎一樣

映射生活的身影
2026-01-06 09:55:46
于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

素衣讀史
2026-01-06 16:55:53
2026北京車牌搖號要取消?3大新政讓無車家庭中簽率翻126倍

2026北京車牌搖號要取消?3大新政讓無車家庭中簽率翻126倍

芭比衣櫥
2026-01-06 13:03:35
策略:明天1月7日的預(yù)判出來了,全面減倉之前,我要說兩句!

策略:明天1月7日的預(yù)判出來了,全面減倉之前,我要說兩句!

一擔(dān)金
2026-01-06 13:06:16
我?guī)Я藳]人要的實(shí)習(xí)生三個(gè)月,她走那天,遞給我一張名片

我?guī)Я藳]人要的實(shí)習(xí)生三個(gè)月,她走那天,遞給我一張名片

故事那點(diǎn)事
2025-12-13 13:10:08
這才是特別軍事行動(dòng)?美軍應(yīng)答器全關(guān)3小時(shí)抓獲馬杜羅,專家沉默

這才是特別軍事行動(dòng)?美軍應(yīng)答器全關(guān)3小時(shí)抓獲馬杜羅,專家沉默

眼光很亮
2026-01-03 22:53:36
風(fēng)流成性、揮霍無度,37歲“縱欲過度”的王思聰,再次陷入大丑聞

風(fēng)流成性、揮霍無度,37歲“縱欲過度”的王思聰,再次陷入大丑聞

老吳教育課堂
2025-12-26 00:37:51
神權(quán)支柱動(dòng)搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊(duì)陷忠誠危機(jī)

神權(quán)支柱動(dòng)搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊(duì)陷忠誠危機(jī)

老馬拉車莫少裝
2026-01-05 23:23:48
馮提莫直播掀衣曬松垮肚皮 認(rèn)「瘦了25公斤」自嘲:全是皺褶

馮提莫直播掀衣曬松垮肚皮 認(rèn)「瘦了25公斤」自嘲:全是皺褶

ETtoday星光云
2026-01-06 18:02:12
55歲男人:意外跟老婆閨蜜發(fā)生關(guān)系,這件事我應(yīng)該告訴老婆嗎?

55歲男人:意外跟老婆閨蜜發(fā)生關(guān)系,這件事我應(yīng)該告訴老婆嗎?

烙任情感
2026-01-05 16:25:47
箖箖和玥兒露正臉!玥兒坐在那神態(tài)太像

箖箖和玥兒露正臉!玥兒坐在那神態(tài)太像

鋒哥與八卦哥
2026-01-06 16:03:58
紫金礦業(yè)A股總市值突破1萬億元

紫金礦業(yè)A股總市值突破1萬億元

每日經(jīng)濟(jì)新聞
2026-01-06 10:37:09
2026-01-06 20:12:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11977文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

速看!黃仁勛萬字實(shí)錄:甩出"物理AI"王牌

頭條要聞

媒體:遭美襲擊后第三天 委局勢進(jìn)入關(guān)鍵階段

頭條要聞

媒體:遭美襲擊后第三天 委局勢進(jìn)入關(guān)鍵階段

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強(qiáng)喬治

娛樂要聞

2026年央視春晚彩排照曝光!

財(cái)經(jīng)要聞

丁一凡:中美進(jìn)入相對穩(wěn)定的競爭共存期

汽車要聞

摩登出街潮品 實(shí)拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
教育
健康
軍事航空

推廣|| 她們新年?duì)顟B(tài)大開掛?原來悄悄做了這筆“美麗投資”

房產(chǎn)要聞

爆發(fā)!三亞開年超千畝城更計(jì)劃曝光,香港城砸下100億!

教育要聞

兒子在家里干多少活合適呢

這些新療法,讓化療不再那么痛苦

軍事要聞

美稱對“占領(lǐng)”委內(nèi)瑞拉保留選擇權(quán)

無障礙瀏覽 進(jìn)入關(guān)懷版