国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed用化學(xué)思想搞AI,把DeepSeek-R1的腦回路拆成了分子結(jié)構(gòu)

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)Seed都開始用化學(xué)思想搞大模型了——

深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力?!



傳統(tǒng)的大模型長思維鏈推理基本把AI的思考過程等同于線性結(jié)構(gòu)。

但很多情況下,后續(xù)的一個關(guān)鍵結(jié)論,可能需要回過頭去驗證早早提出的假設(shè)。

CoT把這種非線性的依賴關(guān)系忽略了。

字節(jié)Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結(jié)構(gòu)。



在這種分子拓?fù)渲?,三種鍵是怎么相互配合的?

好的推理像分子結(jié)構(gòu)

團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的,然后給每一步之間的“跳躍”打上標(biāo)簽。

打完標(biāo)簽發(fā)現(xiàn),所有有效的長鏈思維里,其實就三種基礎(chǔ)動作來回組合。

第一種叫深度推理,像共價鍵一樣結(jié)實。

通俗來說就是類似“因為A所以B,因為B所以C”的硬邏輯推進(jìn)。

團隊在語義空間里做了一個很形象的量化分析,把模型的每一步思考都當(dāng)成一個點,看這些點最后會散成多大一個圈。

圈子越小,說明模型越?jīng)]跑題,思考越聚焦。

結(jié)果發(fā)現(xiàn),加上深度推理之后,這個散點圈直接縮水22%。

深度推理確實起到了收束雜念、鎖定核心邏輯的關(guān)鍵作用。



第二種叫自我反思,像氫鍵一樣有彈性但穩(wěn)定。

類似于“等等,我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設(shè)”,能把后面的思考拐回來跟前面的節(jié)點呼應(yīng)上,形成一種折疊感。

團隊測了模型自我反思時的思維軌跡,把每一步思考都看成語義空間里的一個點,然后計算反思時會跳回多遠(yuǎn)、落在哪里。

發(fā)現(xiàn)81.72%的反思步驟,都會精準(zhǔn)落回之前已經(jīng)形成的靠譜思路區(qū)域里。

還對比了反思前后的思維范圍,反思前,語義空間體積是35.2,反思后,直接壓縮到31.2。

再看聚類結(jié)果就更清楚了,反思之后,同一類正確思路的點會緊緊抱團,而那些零散、跑偏的分支會被自動推開。

也就是說,自我反思?xì)滏I能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩(wěn)住整個推理大局,讓長鏈思考不再松散混亂。



第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。

這個就類似于“要不咱們試試這個角度”“有沒有另一種可能性”,在語義空間里找新的解題路徑。

量化分析顯示,加上探索行為之后,模型在語義空間里的思維覆蓋范圍能從23.95擴大到29.22。

雖然思路一打開穩(wěn)定性就會下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優(yōu)解里,真正找到全新的解題路線。

研究發(fā)現(xiàn),所有強推理模型的三種思維行為比例和轉(zhuǎn)換規(guī)律都高度一致,相關(guān)性超過0.9,說明有效長鏈推理存在通用的穩(wěn)定拓?fù)浣Y(jié)構(gòu)。



你可能覺得“共價鍵”“氫鍵”只是個比喻,但論文發(fā)現(xiàn),這個比喻背后藏著嚴(yán)格的數(shù)學(xué)對應(yīng)。

在Transformer里,注意力權(quán)重的計算方式長這樣:



眼熟嗎?這和統(tǒng)計力學(xué)里的玻爾茲曼分布一模一樣:



如果把負(fù)注意力分?jǐn)?shù)看作能量,那么注意力權(quán)重就是模型在語義空間里按“能量”高低選擇路徑的概率就是能量越低,被選中的概率越高

論文進(jìn)一步分析了三種行為對應(yīng)的“注意力能量”。

  • 深度推理通常發(fā)生在相鄰步驟之間,能量最低;
  • 自我反思會跳回較遠(yuǎn)的步驟,能量中等;
  • 自我探索跳得更遠(yuǎn),能量最高.

這就解釋了為什么強推理模型的三種鍵比例如此穩(wěn)定。

因為模型的注意力機制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對應(yīng)了不同距離下的能量層級。

語義同分異構(gòu)體和智能熵減

接著團隊還拋出了語義同分異構(gòu)體的概念。

這詞兒是借的化學(xué),同樣的分子式,原子連接方式不同,就能搞出性質(zhì)完全不同的物質(zhì)。

放到推理里就是,同樣的題目,同樣的概念點,用不同的”化學(xué)鍵“組合去解,出來的推理鏈條可以完全不一樣,但都能解對。



但不是所有異構(gòu)體都適合拿來教模型。

這里就要引入一個關(guān)鍵概念熵減

在熱力學(xué)里,孤立系統(tǒng)總是自發(fā)走向混亂(熵增),而一個有效的長鏈推理過程,本質(zhì)上就是在語義空間里不斷降低不確定性——

從一堆可能的方向中,逐步收斂到唯一正確的答案。這個過程就是“熵減”。

而“注意力能量”機制,正是模型實現(xiàn)熵減的工具。

模型的注意力天然偏好能量更低的路徑。

當(dāng)深度推理(低能量)被反復(fù)選中,反思(中等能量)把前后邏輯折疊起來,探索(高能量)偶爾探路但不喧賓奪主,整個系統(tǒng)的“推理熵”就會快速下降,邏輯火速收斂。

這如論文里說的,只有那些能推動熵快速降低的“化學(xué)鍵”組合,才是模型真正能學(xué)會、能持續(xù)進(jìn)化的穩(wěn)定態(tài)。

這在實驗中有個很典型的現(xiàn)象,從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡,語義層面的內(nèi)容相似度高達(dá)95%,但混在一起訓(xùn)練,模型反而崩潰了。

這說明,長鏈推理的關(guān)鍵是思路結(jié)構(gòu)必須穩(wěn)定、統(tǒng)一,模型才能學(xué)得會。

MoLE-Syn:從零合成穩(wěn)定推理結(jié)構(gòu)

發(fā)現(xiàn)問題就要解決問題。

基于這一整套發(fā)現(xiàn),團隊搞了個叫MoLE-Syn的方法,來從零合成穩(wěn)定的推理結(jié)構(gòu)。

具體操作就兩步。

第一步,從強推理模型(比如R1、QwQ、gpt-OSS)的推理鏈里,抽出一張行為轉(zhuǎn)移概率圖。

這張圖里每個節(jié)點是一種推理行為(化學(xué)鍵),每條邊是從一個行為跳到另一個行為的概率。



第二步,拿著這張圖,讓普通的指令模型照著圖上畫的概率去生成推理鏈。

用這個方法從零合成的訓(xùn)練數(shù)據(jù),喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。



而且這么做有一個大好處就是成本低。只要拿到那張行為轉(zhuǎn)移圖,普通模型就能自己生產(chǎn)合格的長鏈推理數(shù)據(jù)。

團隊把用MoLE-Syn初始化過的模型拿去做強化學(xué)習(xí),發(fā)現(xiàn)跑起來還特別穩(wěn)。

相比直接用蒸餾數(shù)據(jù)初始化的模型,MoLE-Syn版的在RL過程中收益持續(xù)增長,震蕩也小得多。



這說明一開始植入的思維結(jié)構(gòu)夠穩(wěn),后面的強化學(xué)習(xí)就不會出現(xiàn)邏輯偏移。

這項研究的負(fù)責(zé)人為字節(jié)Seed算法專家黃文灝,曾在微軟亞洲研究院擔(dān)任研究員。

第一作者是哈爾濱工業(yè)大學(xué)博士、字節(jié)Seed實習(xí)研究員陳麒光

合作單位還包括北京大學(xué)、2077AI Foundation、南京大學(xué)、M-A-P、中南大學(xué)。

不得不說,這波操作有點當(dāng)年薛定諤拿物理學(xué)公式推生物學(xué)那味兒了。

給大模型推理這個卷得飛起的領(lǐng)域,開了個挺清爽的新腦洞。

論文地址:https://arxiv.org/abs/2601.06002

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
難以置信!一深圳牌邁巴赫登熱搜,車尾箱堆滿土特產(chǎn),掛一籠土雞

難以置信!一深圳牌邁巴赫登熱搜,車尾箱堆滿土特產(chǎn),掛一籠土雞

火山詩話
2026-02-24 21:56:12
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

人民日報健康客戶端
2026-02-25 07:34:27
上海一行人橫穿快速路被撞身亡,家屬索賠150萬,法院判決司機等無責(zé)

上海一行人橫穿快速路被撞身亡,家屬索賠150萬,法院判決司機等無責(zé)

上觀新聞
2026-02-25 18:39:10
平頂山打人夫妻被逮捕,老家村干部發(fā)聲:他們有兩個孩子,老家房子已塌不在村里居住,完全想不到兩人會做這種事

平頂山打人夫妻被逮捕,老家村干部發(fā)聲:他們有兩個孩子,老家房子已塌不在村里居住,完全想不到兩人會做這種事

極目新聞
2026-02-25 20:18:11
中國連發(fā)11號12號公告,日本叫囂對等制裁,兩招反擊,高市增兵

中國連發(fā)11號12號公告,日本叫囂對等制裁,兩招反擊,高市增兵

吳欣純Deborah
2026-02-25 12:25:13
威爾士公開賽16強出爐附賽程,張安達(dá)vs希金斯,8強中國有望占4席

威爾士公開賽16強出爐附賽程,張安達(dá)vs希金斯,8強中國有望占4席

小火箭愛體育
2026-02-26 09:05:55
總第60順位!雷霆隊可能選中,又一個中國球員!

總第60順位!雷霆隊可能選中,又一個中國球員!

德譯洋洋
2026-02-26 12:22:07
跟腱撕裂!塔圖姆即將復(fù)出!轟動整個NBA聯(lián)盟

跟腱撕裂!塔圖姆即將復(fù)出!轟動整個NBA聯(lián)盟

籃球教學(xué)論壇
2026-02-26 12:30:21
一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

一路走好!2026春節(jié)才過7天,已有6位大佬離世,最年輕的才40歲

鯨探所長
2026-02-24 19:34:36
重磅!3月1日起,CT檢查這三項費用全面取消,全國統(tǒng)一執(zhí)行!

重磅!3月1日起,CT檢查這三項費用全面取消,全國統(tǒng)一執(zhí)行!

悅心知足
2026-02-25 15:53:58
具俊曄已回韓國,他清空了賬號,和好兄弟一起吃泡菜美食

具俊曄已回韓國,他清空了賬號,和好兄弟一起吃泡菜美食

素素娛樂
2026-02-26 08:05:09
一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

一場5-0,讓榜首易主,前3只差3分,C羅點射:21場轟入21球

足球狗說
2026-02-26 07:09:06
江西小伙去深圳擰螺絲,伙食一頓15塊,干了3天,連忙提桶跑路了

江西小伙去深圳擰螺絲,伙食一頓15塊,干了3天,連忙提桶跑路了

餐飲新紀(jì)元
2026-02-26 07:12:27
一份末日推演,傳得神乎其神,2028年就會到來?

一份末日推演,傳得神乎其神,2028年就會到來?

中產(chǎn)先生
2026-02-25 11:30:39
同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

大風(fēng)新聞
2026-02-25 17:00:14
貝加爾湖事故升級!妻女遇難,逃生者是父親,疑動作慢被網(wǎng)暴慘了

貝加爾湖事故升級!妻女遇難,逃生者是父親,疑動作慢被網(wǎng)暴慘了

聽風(fēng)喃
2026-02-25 13:53:39
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
長沙市重大項目集中簽約開工,總投資額超260億元

長沙市重大項目集中簽約開工,總投資額超260億元

界面新聞
2026-02-26 09:37:06
小米狂出六款新車!雷軍徹底失控了

小米狂出六款新車!雷軍徹底失控了

李東陽朋友圈
2026-02-25 13:03:08
2026-02-26 13:07:01
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12204文章數(shù) 176394關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

房產(chǎn)
健康
旅游
公開課
軍事航空

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂演出煥新升級

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版