国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

拉馬拉機(jī)構(gòu)突破:三相變換器實(shí)現(xiàn)AI語(yǔ)言模型訓(xùn)練速度近兩倍提升

0
分享至


這項(xiàng)由巴勒斯坦拉馬拉Brains Build Research機(jī)構(gòu)獨(dú)立完成的研究,以預(yù)印本形式發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.14430,有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。

研究的核心思路來(lái)自一個(gè)意想不到的地方——19世紀(jì)的電力工程。在特斯拉發(fā)明的三相交流電系統(tǒng)中,三根電線傳輸?shù)碾娏鞅舜隋e(cuò)開(kāi)120度,任何時(shí)刻三者之和恰好為零。這個(gè)被電氣工程師沿用了一百多年的優(yōu)雅設(shè)計(jì),被研究者搬進(jìn)了現(xiàn)代AI語(yǔ)言模型的內(nèi)部結(jié)構(gòu),產(chǎn)生了一套只需增加極少代碼便能讓模型訓(xùn)練更快、質(zhì)量更好的新方法,稱(chēng)為"三相變換器"(Three-Phase Transformer,簡(jiǎn)稱(chēng)3PT)。

在了解這項(xiàng)研究為何值得關(guān)注之前,有必要先理解一個(gè)基礎(chǔ)背景。當(dāng)今絕大多數(shù)主流AI語(yǔ)言模型,從各類(lèi)聊天機(jī)器人到代碼助手,其內(nèi)部都依賴(lài)一種叫做Transformer的架構(gòu)。Transformer的核心是一條貫穿整個(gè)模型的"信息高速公路",每個(gè)詞語(yǔ)經(jīng)過(guò)處理后都以一個(gè)高維度的數(shù)字向量形式在這條公路上流動(dòng)。如何更好地組織這條公路上流動(dòng)的信息,一直是研究者孜孜探索的問(wèn)題。這項(xiàng)研究給出的答案是:把這條公路劃分成三條并排的車(chē)道,讓它們像三相電那樣協(xié)同工作。

這個(gè)方案的令人稱(chēng)道之處在于它的極度輕量化。在一個(gè)擁有1.23億參數(shù)的標(biāo)準(zhǔn)語(yǔ)言模型上,這套三相結(jié)構(gòu)只額外增加了1536個(gè)可訓(xùn)練參數(shù),占總參數(shù)量的0.00124%,幾乎可以忽略不計(jì)。然而就是這點(diǎn)微小的改動(dòng),讓模型在標(biāo)準(zhǔn)測(cè)試集WikiText-103上的困惑度(衡量語(yǔ)言模型質(zhì)量的核心指標(biāo),數(shù)值越低越好)下降了7.20%,同時(shí)訓(xùn)練達(dá)到相同質(zhì)量所需的步驟數(shù)減少了接近一半,達(dá)到1.93倍的收斂加速。

一、把電力工程的三相平衡原理裝進(jìn)AI大腦

要理解三相變換器的核心思想,可以用一個(gè)生活中的比喻來(lái)切入。假設(shè)你有一個(gè)管道系統(tǒng)需要輸送水流,你可以用一根粗管子,也可以把它分成三根細(xì)管子并排輸送。如果這三根細(xì)管子中的水流以某種協(xié)調(diào)的方式流動(dòng),彼此"相位"錯(cuò)開(kāi)三分之一個(gè)周期,那么整個(gè)系統(tǒng)在任何時(shí)刻都處于完美平衡狀態(tài),沒(méi)有多余的振動(dòng)和干擾,輸送效率反而會(huì)更高。

三相變換器正是基于這個(gè)原理。它把語(yǔ)言模型中每個(gè)詞語(yǔ)對(duì)應(yīng)的高維信息向量(可以理解為描述這個(gè)詞語(yǔ)的一大排數(shù)字)整齊地分成三段,稱(chēng)為"A相""B相""C相",每段各占總長(zhǎng)度的三分之一。這三段就像三根并排的水管,通過(guò)一套精心設(shè)計(jì)的操作協(xié)調(diào)運(yùn)行。

關(guān)鍵操作有以下幾類(lèi),且每一類(lèi)都有其獨(dú)特的作用。第一類(lèi)是"相位旋轉(zhuǎn)層",它被插入到模型每一個(gè)處理單元(稱(chēng)為"塊")的注意力機(jī)制和前饋網(wǎng)絡(luò)之間。這個(gè)旋轉(zhuǎn)層會(huì)對(duì)三段信息分別施加一個(gè)小角度的旋轉(zhuǎn)變換,A相轉(zhuǎn)0度加上一個(gè)共同的學(xué)習(xí)角度,B相轉(zhuǎn)120度加上同一個(gè)學(xué)習(xí)角度,C相轉(zhuǎn)240度加上同一個(gè)學(xué)習(xí)角度。這種"每隔120度"的設(shè)計(jì),正是電力工程中三相電的核心,三個(gè)方向均勻分布在圓周上,彼此保持最大程度的獨(dú)立性,同時(shí)又能在數(shù)學(xué)上完美互補(bǔ),三者之和為零。第二類(lèi)是"相位感知?dú)w一化",它把模型中通常用于穩(wěn)定訓(xùn)練的歸一化操作從"整體統(tǒng)一處理"改為"三段各自處理",讓每段信息有自己獨(dú)立的縮放比例,互不干擾。第三類(lèi)是"相位對(duì)齊的注意力機(jī)制",通過(guò)調(diào)整注意力頭的數(shù)量使其能被三整除,讓每個(gè)注意力頭完整地落在某一個(gè)相位分段內(nèi),保持結(jié)構(gòu)的整潔性。第四類(lèi)則是接下來(lái)要重點(diǎn)介紹的"加布里埃爾號(hào)角注入"。

這套操作的美妙之處在于,它不是一個(gè)獨(dú)立的附加模塊,而是一種滲透在整個(gè)模型結(jié)構(gòu)中的"約定"。注意力機(jī)制和前饋網(wǎng)絡(luò)仍然按原來(lái)的方式運(yùn)作,該混合的還是混合,該計(jì)算的還是計(jì)算,只是在每次處理之后,通過(guò)相位旋轉(zhuǎn)和相位歸一化把三段信息重新"拉回"到平衡狀態(tài)。研究者把這個(gè)過(guò)程比作三條并排的傳送帶:內(nèi)容會(huì)不斷地被注意力機(jī)制和前饋網(wǎng)絡(luò)攪混在一起,但隨即又被相位操作重新整理回三條軌道上。這個(gè)系統(tǒng)是一個(gè)自發(fā)的平衡態(tài),而非強(qiáng)制約束。

數(shù)學(xué)上同樣有一個(gè)有趣的性質(zhì)。當(dāng)三個(gè)120度間隔的分量完全平衡時(shí),整個(gè)向量空間中會(huì)多出一個(gè)特殊方向——沿著"三段各自的平均值相等"的方向——與三個(gè)相位的主體內(nèi)容完全垂直(在數(shù)學(xué)上稱(chēng)為"正交")。這個(gè)方向平時(shí)是空閑的,研究者把它稱(chēng)為"直流隧道"(DC subspace),并在其中塞進(jìn)了一個(gè)精心設(shè)計(jì)的絕對(duì)位置信號(hào),也就是接下來(lái)要介紹的加布里埃爾號(hào)角。

二、把17世紀(jì)的數(shù)學(xué)悖論變成位置編碼

AI語(yǔ)言模型在處理一段文字時(shí),需要知道每個(gè)詞語(yǔ)在句子中的位置——"貓追狗"和"狗追貓"意思截然不同,位置信息至關(guān)重要。目前主流模型普遍采用一種叫做RoPE(旋轉(zhuǎn)位置編碼)的技術(shù)來(lái)表達(dá)詞語(yǔ)之間的相對(duì)位置關(guān)系,它工作得非常好,但有一個(gè)刻意的設(shè)計(jì)取舍:RoPE只告訴模型兩個(gè)詞語(yǔ)之間的距離,卻不直接告訴模型某個(gè)詞語(yǔ)是句子的第1個(gè)詞還是第500個(gè)詞,也就是說(shuō)它對(duì)"絕對(duì)位置"是模糊的。

三相結(jié)構(gòu)開(kāi)辟的那個(gè)直流隧道,恰好為填補(bǔ)這個(gè)空缺提供了一個(gè)干凈的通道。研究者選擇注入的信號(hào)是一個(gè)叫做"加布里埃爾號(hào)角"的數(shù)學(xué)曲線,用公式表示是r(p) = 1/(p+1),其中p是詞語(yǔ)的位置序號(hào)。位置0(句子第一個(gè)詞)對(duì)應(yīng)值1.0,位置99對(duì)應(yīng)值0.01,位置999對(duì)應(yīng)值0.001,以此類(lèi)推。

加布里埃爾號(hào)角來(lái)自17世紀(jì)意大利數(shù)學(xué)家托里拆利描述的一個(gè)幾何悖論:把曲線y=1/x繞x軸旋轉(zhuǎn)一圈得到一個(gè)喇叭形狀的立體,這個(gè)立體的體積是有限的,但它的表面積卻是無(wú)窮大,就像一個(gè)"能裝滿顏料卻永遠(yuǎn)涂不完自己表面"的神奇容器,被稱(chēng)為"畫(huà)家悖論"。這個(gè)性質(zhì)在這里有一個(gè)工程上的對(duì)應(yīng)意義:這條衰減曲線在所有位置上的值加起來(lái)等于調(diào)和級(jí)數(shù)的和,其增長(zhǎng)速度像ln(N)一樣極其緩慢,意味著無(wú)論序列多長(zhǎng),注入的總能量始終有限,不會(huì)把模型"淹沒(méi)"。

從直覺(jué)上講,這個(gè)信號(hào)對(duì)語(yǔ)言來(lái)說(shuō)也非常合理。一句話的第一個(gè)詞往往最有位置特殊性——"今天""當(dāng)時(shí)""如果"這類(lèi)詞出現(xiàn)在開(kāi)頭和出現(xiàn)在句子末尾意義往往大相徑庭。而句子中段的詞語(yǔ),位置相差幾格對(duì)理解影響就沒(méi)那么大了。加布里埃爾號(hào)角的形狀天然編碼了這種"開(kāi)頭特殊、后面漸漸模糊"的直覺(jué)。

更關(guān)鍵的是,這個(gè)信號(hào)與RoPE的工作空間完全不相交。RoPE在注意力機(jī)制內(nèi)部對(duì)詞語(yǔ)的查詢(xún)向量和鍵向量施加旋轉(zhuǎn),處理的是詞語(yǔ)之間的相對(duì)關(guān)系;加布里埃爾號(hào)角住在直流隧道里,處理的是詞語(yǔ)的絕對(duì)位置,兩者互不干擾,可以同時(shí)存在且相互補(bǔ)充。實(shí)驗(yàn)數(shù)據(jù)也證實(shí)了這一點(diǎn):在每一次評(píng)估中,直流隧道中的殘差值精確地固定在一個(gè)由號(hào)角數(shù)學(xué)性質(zhì)決定的理論值(對(duì)于長(zhǎng)度1024的序列是3×H????/1024≈0.0220),從未偏離,這是對(duì)兩者完全正交的最直接證明。

三、一段曲折的發(fā)現(xiàn)之旅:差點(diǎn)就放棄了

讀到這里,你可能以為研究者從一開(kāi)始就有了三相加RoPE這個(gè)完整方案,然后通過(guò)實(shí)驗(yàn)驗(yàn)證它。實(shí)際上,這項(xiàng)研究的歷程遠(yuǎn)比這曲折得多,而且差點(diǎn)在中途就以失敗告終。

研究者最初的實(shí)驗(yàn)(稱(chēng)為實(shí)驗(yàn)1)是在一個(gè)傳統(tǒng)的Transformer架構(gòu)上測(cè)試三相結(jié)構(gòu),結(jié)果喜出望外:在相同訓(xùn)練步數(shù)下,三相嵌入方案把困惑度從73.17降到了64.96,改善幅度超過(guò)11%,而且在訓(xùn)練步數(shù)只有基準(zhǔn)方法一半的時(shí)候就達(dá)到了基準(zhǔn)方法的最終水平,大約快了兩倍。實(shí)驗(yàn)還發(fā)現(xiàn),三相結(jié)構(gòu)的增益主要來(lái)自嵌入層(詞語(yǔ)表示的幾何結(jié)構(gòu)),而不是來(lái)自注意力機(jī)制內(nèi)部。

然而,當(dāng)研究者把這個(gè)方案移植到采用RoPE的現(xiàn)代架構(gòu)上時(shí)(實(shí)驗(yàn)2第一階段),結(jié)果讓人沮喪:三相方案(困惑度62.29)被RoPE單獨(dú)(困惑度53.85)輕松擊敗,落后幅度接近16%。如果就此停下,結(jié)論就是"三相結(jié)構(gòu)在現(xiàn)代架構(gòu)面前毫無(wú)競(jìng)爭(zhēng)力"。

但研究者重新審視了失敗原因:三相結(jié)構(gòu)和RoPE根本不是在做同一件事。三相嵌入是一種"加法式"的位置編碼,直接把位置信號(hào)加進(jìn)詞語(yǔ)向量里;而RoPE是"乘法式"的,在注意力計(jì)算內(nèi)部對(duì)向量施加旋轉(zhuǎn)。它們工作在不同的位置,影響的是不同的機(jī)制。換句話說(shuō),之前的實(shí)驗(yàn)其實(shí)是在比較兩個(gè)本來(lái)就應(yīng)該疊加使用的工具,而不是兩個(gè)互相競(jìng)爭(zhēng)的工具。

于是實(shí)驗(yàn)2第二階段把兩者疊加起來(lái):三相結(jié)構(gòu)處理殘差流的幾何組織,RoPE繼續(xù)處理注意力內(nèi)部的位置關(guān)系。結(jié)果,疊加方案的困惑度一路降到45.58,比RoPE單獨(dú)使用的53.85低了足足15%。這一發(fā)現(xiàn)是整個(gè)研究的轉(zhuǎn)折點(diǎn),也是最重要的認(rèn)知:三相結(jié)構(gòu)不是RoPE的替代品,而是它的正交補(bǔ)充。

整個(gè)后續(xù)的實(shí)驗(yàn)鏈條,本質(zhì)上都是在這個(gè)核心發(fā)現(xiàn)之上不斷精簡(jiǎn)和改進(jìn)。研究者發(fā)現(xiàn)嵌入層內(nèi)部的正弦位置編碼其實(shí)是累贅(去掉之后困惑度從14.79降到14.40),發(fā)現(xiàn)縮放系數(shù)也是累贅(去掉之后再降到13.97),發(fā)現(xiàn)強(qiáng)制零和約束沒(méi)那么必要(幾何結(jié)構(gòu)會(huì)自動(dòng)穩(wěn)定),最后發(fā)現(xiàn)直流隧道可以用來(lái)注入加布里埃爾號(hào)角(再降到13.90)。每一步簡(jiǎn)化都讓模型變得更輕、質(zhì)量更好,這種"越減越好"的軌跡在模型架構(gòu)研究中頗為罕見(jiàn)。

四、三"相"真的是最優(yōu)選擇嗎?這個(gè)問(wèn)題的答案出人意料

"三相"這個(gè)名字讓人自然想問(wèn):為什么一定是三段??jī)啥位蛘咚亩螘?huì)不會(huì)更好?研究者也在兩個(gè)規(guī)模的模型上系統(tǒng)地測(cè)試了這個(gè)問(wèn)題。

在小規(guī)模模型(550萬(wàn)參數(shù),使用TinyStories數(shù)據(jù)集)上,研究者測(cè)試了將向量分成1、2、3、4、6、8、12段的七種配置。結(jié)果顯示,分段數(shù)越少(也就是每個(gè)旋轉(zhuǎn)參數(shù)負(fù)責(zé)的維度越多,獨(dú)立性越強(qiáng)),效果越好。N=1(不分段,每對(duì)維度各有獨(dú)立的旋轉(zhuǎn)角度)的效果最好,N=12最差,整體呈現(xiàn)單調(diào)遞減趨勢(shì)。

這個(gè)結(jié)果在123M規(guī)模的實(shí)驗(yàn)中發(fā)生了戲劇性反轉(zhuǎn)。用單一種子(seed 42)測(cè)試時(shí),N=3在30個(gè)評(píng)估檢查點(diǎn)上全程領(lǐng)先N=1,差距約為0.10困惑度單位?雌饋(lái)"規(guī)模越大,三相結(jié)構(gòu)越有優(yōu)勢(shì)"的結(jié)論似乎成立。

然而,當(dāng)研究者用三個(gè)不同的隨機(jī)種子分別測(cè)試N=3和N=1時(shí),結(jié)論又變了:三個(gè)種子中有兩個(gè)種子下N=1勝出,只有一個(gè)種子(正是之前單獨(dú)測(cè)試用的seed 42)讓N=3勝出。統(tǒng)計(jì)分析顯示,N=3和N=1的平均差距約為0.08困惑度單位,而估計(jì)的統(tǒng)計(jì)誤差約為0.09單位——誤差比差距本身還大。換句話說(shuō),在123M規(guī)模下,N=1和N=3的性能差異實(shí)際上在統(tǒng)計(jì)上無(wú)法區(qū)分,兩者無(wú)分高下。

這個(gè)發(fā)現(xiàn)迫使研究者修正了自己的敘事。分段數(shù)N本質(zhì)上是一個(gè)"參數(shù)共享旋鈕":N越大,每組旋轉(zhuǎn)參數(shù)需要覆蓋的維度越少,靈活性越低,類(lèi)似于給更多參數(shù)施加了約束;N越小,每對(duì)維度有自己的獨(dú)立旋轉(zhuǎn),靈活性越高。在小規(guī)模模型上,靈活性更重要;在大規(guī)模模型上,這種約束反而可能起到類(lèi)似正則化的作用,防止過(guò)擬合。"三相"的名字作為幾何概念仍然成立,但它并不意味著N=3是普遍最優(yōu)的具體數(shù)字。

實(shí)驗(yàn)中還有一個(gè)有趣的細(xì)節(jié):seed 42這個(gè)隨機(jī)種子在N=3的分布中恰好處于最優(yōu)端,卻在N=1的分布中處于最差端。這說(shuō)明單一種子的對(duì)比實(shí)驗(yàn)本身就可能造成誤導(dǎo),任何依賴(lài)單一隨機(jī)初始化來(lái)比較兩個(gè)方案的實(shí)驗(yàn)結(jié)論都需要多種子驗(yàn)證才能可信。

五、幾何結(jié)構(gòu)如何自發(fā)維持平衡,以及深度方向的"U形"規(guī)律

三相結(jié)構(gòu)的另一個(gè)引人注目的發(fā)現(xiàn)是它的自我穩(wěn)定性。研究者在實(shí)驗(yàn)8中徹底去掉了所有顯式的平衡約束(既沒(méi)有強(qiáng)制減去各段均值,也沒(méi)有懲罰不平衡的輔助損失函數(shù)),觀察模型會(huì)不會(huì)自己亂掉。結(jié)果是:三個(gè)相位的均值自發(fā)地在訓(xùn)練過(guò)程中保持在非常接近的水平,波動(dòng)幅度約為激活值的1%,模型的質(zhì)量?jī)H比有顯式約束時(shí)略差約0.03個(gè)困惑度單位。

這種自發(fā)平衡可以用物理學(xué)中一個(gè)叫做"諾特定理"的深刻原理來(lái)解釋。在物理學(xué)中,任何連續(xù)的對(duì)稱(chēng)性都對(duì)應(yīng)一個(gè)守恒量:時(shí)間平移對(duì)稱(chēng)性對(duì)應(yīng)能量守恒,空間旋轉(zhuǎn)對(duì)稱(chēng)性對(duì)應(yīng)角動(dòng)量守恒。同樣的框架被研究者用來(lái)解釋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí):相位旋轉(zhuǎn)層創(chuàng)造了一種旋轉(zhuǎn)對(duì)稱(chēng)性,相位歸一化創(chuàng)造了一種尺度不變性,兩者共同產(chǎn)生了約束三個(gè)相位均值的守恒量,使得梯度下降過(guò)程自然地維持相位之間的平衡,無(wú)需外部強(qiáng)制。

在123M規(guī)模的12層模型上,研究者還發(fā)現(xiàn)了另一個(gè)獨(dú)特現(xiàn)象:相位旋轉(zhuǎn)層中的可學(xué)習(xí)角度參數(shù),在經(jīng)過(guò)完整訓(xùn)練后呈現(xiàn)出一種"U形"的深度分布規(guī)律。具體來(lái)說(shuō),每一層的旋轉(zhuǎn)參數(shù)初始化時(shí)按線性遞增排列(第1層的基礎(chǔ)角度最小,第12層的基礎(chǔ)角度最大),但訓(xùn)練結(jié)束后,第0和第1層的參數(shù)實(shí)際上比初始值變大了(它們想要更大的旋轉(zhuǎn)角度),中間的第2層變化最。ǔ跏贾稻褪悄P妥钕胍模,而第3層到第11層的參數(shù)則全部比初始值變小了。變化最大的是最深的第11層,其參數(shù)偏離初始值的幅度是最穩(wěn)定的第2層的26倍之多。

這個(gè)U形規(guī)律揭示了線性初始化策略的內(nèi)在局限:對(duì)于深層網(wǎng)絡(luò),合理的深度調(diào)度可能是一條類(lèi)似S形曲線的非線性形狀,而不是簡(jiǎn)單的線性遞增。這也構(gòu)成了研究者在未來(lái)工作展望中提出的最重要改進(jìn)方向之一。

六、從550萬(wàn)參數(shù)到1.23億參數(shù):跨越規(guī)模的驗(yàn)證

整個(gè)研究鏈條在5.5M(550萬(wàn)參數(shù))規(guī)模的小型模型上完成了大部分探索,但一個(gè)關(guān)鍵問(wèn)題始終懸而未決:這套機(jī)制在更大規(guī)模的模型上還管用嗎?

為此,研究者把同一套經(jīng)過(guò)精簡(jiǎn)的方案(三相通道劃分、加布里埃爾號(hào)角注入、相位感知?dú)w一化、相位對(duì)齊的GQA注意力、相位旋轉(zhuǎn)層)原封不動(dòng)地?cái)U(kuò)展到123M參數(shù)規(guī)模,在WikiText-103數(shù)據(jù)集(一個(gè)標(biāo)準(zhǔn)的英文維基百科語(yǔ)料庫(kù),常用于評(píng)測(cè)語(yǔ)言模型)上訓(xùn)練了3萬(wàn)步,并與一個(gè)配置完全相同的標(biāo)準(zhǔn)RoPE模型進(jìn)行對(duì)比。

結(jié)果令研究者滿意:三相變換器的最終困惑度從17.31降到16.06,降幅7.20%;用另一個(gè)叫做BPB(每字節(jié)比特?cái)?shù),比困惑度更規(guī)范的跨模型對(duì)比指標(biāo))衡量,則從1.1148降到1.0855,降幅2.62%。收斂速度方面,三相變換器在第14000步時(shí)就達(dá)到了RoPE基準(zhǔn)模型在第27000步才達(dá)到的質(zhì)量,步數(shù)比例約為1.93倍?紤]到三相操作每步多花費(fèi)約17%的計(jì)算時(shí)間,折算成實(shí)際時(shí)鐘時(shí)間,加速比約為1.64倍。

研究者還測(cè)試了這個(gè)模型與一些公開(kāi)可用的GPT-2家族模型的對(duì)比,不過(guò)這個(gè)對(duì)比本身存在很大的限制條件:GPT-2系列模型在訓(xùn)練前就已經(jīng)在大量WebText數(shù)據(jù)上預(yù)訓(xùn)練過(guò),而WikiText-103對(duì)它們來(lái)說(shuō)是"從未見(jiàn)過(guò)的領(lǐng)域",本質(zhì)上是零樣本測(cè)試;而三相變換器則是從零開(kāi)始在WikiText-103上訓(xùn)練的。在這種不對(duì)等條件下,三相123M模型超越了零樣本評(píng)測(cè)的GPT-2(124M參數(shù),BPB為1.2215),但輸給了在WikiText-103上經(jīng)過(guò)專(zhuān)門(mén)微調(diào)的GPT-2家族模型(最接近的一個(gè)是distilgpt2微調(diào)版,120M參數(shù),BPB為0.9993)。研究者對(duì)此直言不諱:這場(chǎng)對(duì)比的意義在于提供背景參照,而非宣稱(chēng)架構(gòu)上的全面勝利。真正支撐架構(gòu)價(jià)值的對(duì)比,是那個(gè)配置完全相同、只有三相結(jié)構(gòu)這一變量不同的RoPE基準(zhǔn)模型實(shí)驗(yàn)。

七、為什么這套設(shè)計(jì)在理論上說(shuō)得通

研究者在論文中花了相當(dāng)篇幅解釋為什么三相結(jié)構(gòu)在數(shù)學(xué)上有其獨(dú)特合理性,而不僅僅是一個(gè)湊巧管用的經(jīng)驗(yàn)技巧。

關(guān)于120度這個(gè)角度,研究者指出這是三等分圓周的唯一方案,具有三個(gè)同時(shí)成立的數(shù)學(xué)性質(zhì):三個(gè)方向之和為零(零和約束);任意兩個(gè)方向都不完全相反(沒(méi)有反相關(guān)對(duì));三個(gè)方向均勻分布,保持最大互相獨(dú)立性。兩等分圓周(180度)會(huì)讓兩個(gè)方向彼此對(duì)立,形成反相關(guān);四等分圓周(90度)在相同約束下實(shí)際上只有兩個(gè)獨(dú)立方向(因?yàn)閷?duì)角方向完全相反)。三是在整數(shù)范圍內(nèi)唯一同時(shí)滿足上述三個(gè)性質(zhì)的選擇。

這種幾何特性在自然界中獨(dú)立出現(xiàn)多次,這一點(diǎn)讓研究者覺(jué)得頗有意思。音樂(lè)理論中,"增三和弦"(augmented triad)把八度音階均勻分成三份,是唯一把圓周三等分的和弦,在音樂(lè)理論中以其獨(dú)特的模糊性和對(duì)稱(chēng)性而著稱(chēng)。三相電力和增三和弦,本質(zhì)上都是"把一個(gè)周期三等分"這個(gè)數(shù)學(xué)對(duì)象的不同實(shí)例化形式。研究者還提到,有理論工作(來(lái)自Anthropic的"玩具模型"研究)發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)在二維空間中表示多個(gè)獨(dú)立特征時(shí),會(huì)自發(fā)地把它們排列成120度間隔的三角形構(gòu)型,正是因?yàn)檫@是二維空間中打包三個(gè)不相關(guān)特征的最優(yōu)方案。三相變換器所做的事,是把這個(gè)網(wǎng)絡(luò)"偶然發(fā)現(xiàn)"的幾何安排顯式地作為架構(gòu)先驗(yàn)強(qiáng)制注入。

可學(xué)習(xí)旋轉(zhuǎn)角度為何要初始化為固定值而非隨機(jī)初始化,也有其道理。如果把120度的固定偏移量設(shè)為可學(xué)習(xí)參數(shù),優(yōu)化器其實(shí)沒(méi)有任何理由去改變它——120度是唯一使零和約束成立的等間距角度,改變它只會(huì)破壞對(duì)稱(chēng)性,而沒(méi)有任何性能收益。實(shí)驗(yàn)中將偏移角度設(shè)為可學(xué)習(xí)后,32組配置的平均改變只有0.005個(gè)困惑度單位,完全在噪聲范圍內(nèi)。這就好比RoPE中的旋轉(zhuǎn)方向沒(méi)有人會(huì)去把它設(shè)計(jì)成可學(xué)習(xí)的——優(yōu)化器坐在一個(gè)幾何確定的最優(yōu)點(diǎn)上,無(wú)處可去。

說(shuō)到底,三相變換器帶來(lái)的啟示,不僅僅是一個(gè)"讓訓(xùn)練快一倍"的技巧,更是一個(gè)關(guān)于如何把外部知識(shí)(無(wú)論是電力工程的、音樂(lè)理論的還是數(shù)學(xué)的)變成模型架構(gòu)約束的方法論示范。研究者從一個(gè)負(fù)面實(shí)驗(yàn)結(jié)果(三相單獨(dú)使用輸給RoPE)中看到了正確的問(wèn)題(它們應(yīng)該疊加而非競(jìng)爭(zhēng)),然后通過(guò)一系列嚴(yán)格的對(duì)照實(shí)驗(yàn),沿著"越簡(jiǎn)單越好"的原則一步步剪掉所有多余的部分,最終得到一個(gè)只有幾行額外代碼、卻在兩個(gè)規(guī)模上都可重復(fù)的改進(jìn)。

這對(duì)于任何關(guān)注AI開(kāi)發(fā)效率的人來(lái)說(shuō)都有參考意義。并非所有有價(jià)值的改進(jìn)都需要更大的模型、更多的數(shù)據(jù)、更昂貴的計(jì)算——有時(shí)候,重新思考信息在模型內(nèi)部的幾何組織方式,能以幾乎為零的成本帶來(lái)可觀的收益。當(dāng)然,這項(xiàng)研究目前只在1.23億參數(shù)的規(guī)模上做了完整驗(yàn)證,更大規(guī)模(3.5億到10億參數(shù)級(jí)別)是否同樣有效,仍需后續(xù)實(shí)驗(yàn)來(lái)回答。有興趣的讀者可以通過(guò)arXiv編號(hào)2604.14430獲取完整論文及實(shí)驗(yàn)代碼。

Q&A

Q1:三相變換器和普通Transformer相比,實(shí)際需要修改多少代碼?

A:三相變換器在123M參數(shù)規(guī)模上只額外增加了1536個(gè)可訓(xùn)練參數(shù),約占總參數(shù)的0.00124%,代碼層面的改動(dòng)集中在四個(gè)地方:在嵌入層注入加布里埃爾號(hào)角信號(hào)、把RMSNorm替換為按三段分別計(jì)算的版本、在每個(gè)Transformer塊的注意力之后插入相位旋轉(zhuǎn)層、調(diào)整注意力頭數(shù)使其能被3整除。除此之外,模型的其余部分完全不變。

Q2:加布里埃爾號(hào)角位置信號(hào)和RoPE位置編碼會(huì)不會(huì)相互干擾?

A:兩者不會(huì)干擾。RoPE在注意力機(jī)制內(nèi)部對(duì)查詢(xún)向量和鍵向量施加旋轉(zhuǎn),編碼的是詞語(yǔ)之間的相對(duì)距離;加布里埃爾號(hào)角住在"直流隧道"里,這個(gè)方向在數(shù)學(xué)上與三相內(nèi)容完全正交,編碼的是絕對(duì)位置(第幾個(gè)詞)。實(shí)驗(yàn)中每次評(píng)估的零和殘差值精確等于理論預(yù)測(cè)值,從未偏離,直接證明兩者互不干擾。

Q3:三相變換器在更大規(guī)模的模型(比如幾十億參數(shù))上是否也有效?

A:目前的實(shí)驗(yàn)只在5.5M和123M兩個(gè)規(guī)模上完成了系統(tǒng)驗(yàn)證。從5.5M到123M,性能提升幅度從13.3%收窄到7.2%,說(shuō)明隨規(guī)模增大提升幅度可能有所下降。但研究者指出,即使在123M規(guī)模上,7.2%的困惑度改善仍然以接近零的參數(shù)成本實(shí)現(xiàn),因此在更大規(guī)模上是否仍然有效是一個(gè)開(kāi)放的實(shí)驗(yàn)問(wèn)題,論文本身未做10億參數(shù)以上的驗(yàn)證。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書(shū)說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱(chēng)自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱(chēng)自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開(kāi)始慌了

倒查13年,央國(guó)企開(kāi)始慌了

職場(chǎng)資深秘書(shū)
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
親子
軍事航空

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大!

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版