国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需Attention的未來(lái),RWKV-7能成為替代Transformer的那只黑天鵝嗎?

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

在當(dāng)今大模型領(lǐng)域,Transformer架構(gòu)占據(jù)著主導(dǎo)地位。然而,盡管Transformer非常強(qiáng)大,但它的計(jì)算需求隨著文本長(zhǎng)度呈平方級(jí)增長(zhǎng),這導(dǎo)致運(yùn)行成本高昂,同時(shí)限制了其擴(kuò)展能力。

與此相對(duì),更為古老的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))架構(gòu)雖然計(jì)算效率高,但通常無(wú)法達(dá)到Transformer的性能水平,并且訓(xùn)練過(guò)程更為復(fù)雜和緩慢。

在這一背景下,由元始智能創(chuàng)始人彭博提出了RWKV架構(gòu)。RWKV融合了Transformer和RNN的優(yōu)點(diǎn),在訓(xùn)練階段可以像Transformer那樣并行計(jì)算,在推理階段又能像RNN那樣高效運(yùn)行。隨著發(fā)展,RWKV現(xiàn)已成為隸屬于Linux基金會(huì)的開源非盈利組織,其代碼、模型和文檔均公開透明,核心項(xiàng)目RWKV-LM在GitHub上開源,形成了一個(gè)活躍的開發(fā)者社區(qū)。

自2021年8月首個(gè)實(shí)驗(yàn)性版本RWKV-V1發(fā)布以來(lái),RWKV架構(gòu)經(jīng)歷了多次重要迭代。它最初是對(duì)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的改良嘗試,旨在解決處理長(zhǎng)文本時(shí)的效率問(wèn)題。2023年,RWKV-4實(shí)現(xiàn)了關(guān)鍵突破,使其能夠在普通硬件環(huán)境下高效處理各種語(yǔ)言和長(zhǎng)篇文本。此后,RWKV逐漸被納入主流AI工具庫(kù),RWKV社區(qū)的開發(fā)者甚至發(fā)現(xiàn)微軟Windows系統(tǒng)在Office組件更新后內(nèi)置了RWKV的運(yùn)行庫(kù)。

剛剛發(fā)布論文的RWKV-7是這一架構(gòu)的最新進(jìn)展,它采用創(chuàng)新的動(dòng)態(tài)狀態(tài)演化技術(shù),支持100多種語(yǔ)言,能夠編寫代碼,處理超長(zhǎng)文本。RWKV-7系列發(fā)布了七個(gè)預(yù)訓(xùn)練模型,參數(shù)規(guī)模從0.19億到29億不等,訓(xùn)練token數(shù)量從1.6萬(wàn)億到5.6萬(wàn)億不等,適應(yīng)不同應(yīng)用場(chǎng)景的需求。

彭博稱RWKV-7設(shè)計(jì)靈感來(lái)自于“第一性原理”,核心想法是:模型的內(nèi)部世界必須持續(xù)擬合外部世界。

這聽起來(lái)有點(diǎn)抽象,但我們可以把它想象成一個(gè)“聰明的學(xué)生”在學(xué)習(xí)和適應(yīng)環(huán)境的過(guò)程。QKV-softmax-attention(常見于 transformer 模型),它的做法是把所有“問(wèn)題-答案”對(duì)放在一起,然后通過(guò)比較新問(wèn)題 q 和每個(gè)“問(wèn)題” k 的相似度,來(lái)決定答案是什么。就像小學(xué)生每次考試前,把課本里的所有題目都翻一遍,找到和新問(wèn)題最像的那個(gè),再寫下答案。

而 RWKV-7 的方法不是每次都去翻課本,而是直接從這些“問(wèn)題-答案”對(duì)中動(dòng)態(tài)學(xué)到一個(gè)“變換規(guī)則”(k -> v 的映射)。這個(gè)規(guī)則就像小學(xué)生自己總結(jié)出的解題技巧,遇到新問(wèn)題時(shí),直接用這個(gè)技巧推導(dǎo)出答案。

#01

性能驗(yàn)證:超同尺寸模型

RWKV-的7創(chuàng)新在實(shí)際性能測(cè)試中也得到了驗(yàn)證,在訓(xùn)練數(shù)據(jù)遠(yuǎn)低于 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語(yǔ)言建模能力在所有開源 3B 規(guī)模模型中達(dá)到 SoTA 水平。

RWKV團(tuán)隊(duì)采用 Uncheatable Eval 方法——利用 2025 年 1 月之后的最新論文、新聞文章等實(shí)時(shí)數(shù)據(jù),測(cè)試開源大語(yǔ)言模型的真實(shí)建模能力和泛化能力。

評(píng)測(cè)結(jié)果顯示,在同等參數(shù)規(guī)模的前沿模型中,RWKV-7 依然具備強(qiáng)競(jìng)爭(zhēng)力,展現(xiàn)出優(yōu)秀的適應(yīng)性和泛化性能。團(tuán)隊(duì)正在訓(xùn)練數(shù)據(jù)更多的 RWKV7-G1 系列模型,目標(biāo)是在這個(gè)榜單同樣超越所有其他前沿模型。

#02

技術(shù)創(chuàng)新:動(dòng)態(tài)狀態(tài)演化

RWKV-7究竟通過(guò)哪些技術(shù)創(chuàng)新實(shí)現(xiàn)了這些令人印象深刻的性能表現(xiàn)呢?根據(jù)由社區(qū)成員聯(lián)合撰寫的RWKV-7架構(gòu)論文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》,RWKV-7引入了一項(xiàng)名為“表達(dá)性動(dòng)態(tài)狀態(tài)演化”的關(guān)鍵創(chuàng)新,這是其性能提升的核心所在 。具體來(lái)說(shuō),RWKV-7通過(guò)引入一種廣義化的delta規(guī)則,使模型能更好地理解和處理信息。

RWKV-7在讀取新信息時(shí),有一種特殊的方式來(lái)更新其記憶,有點(diǎn)像記筆記。這種特殊的方式被稱為“廣義 Delta 規(guī)則”。

把模型想象成有一個(gè)草稿本,它在上面記錄了從目前為止的文本中學(xué)到的東西。當(dāng)它看到一個(gè)新的詞或信息時(shí),它需要決定如何更新這個(gè)草稿本。

最初的“Delta 規(guī)則”擦除一點(diǎn)它為該鍵存儲(chǔ)的舊信息,并添加一點(diǎn)新信息。它擦除和添加的數(shù)量由一個(gè)簡(jiǎn)單的數(shù)字控制?,F(xiàn)在,RWKV-7 的規(guī)則是“廣義的”,這意味著它更靈活、更強(qiáng)大。它不是只用一個(gè)數(shù)字來(lái)決定為一個(gè)鍵擦除和添加多少信息,而是使用更詳細(xì)的指令。

通過(guò)引入廣義Delta Rule,RWKV-7 使用 2 層即可實(shí)現(xiàn) 復(fù)雜度的 狀態(tài)跟蹤問(wèn)題,使用 4 層即可識(shí)別所有正則語(yǔ)言。

簡(jiǎn)單來(lái)說(shuō),Transformers在處理這些“正則語(yǔ)言”時(shí)有局限性。它們的能力被限制在一個(gè)叫 TC0 的計(jì)算類別里。TC0 就像是一個(gè)只能用固定步驟解決問(wèn)題的工具箱,遇到某些復(fù)雜任務(wù)時(shí)就顯得力不從心。

而RWKV-7可以用固定的層數(shù)(也就是固定的計(jì)算步驟)處理所有正則語(yǔ)言。這意味著,不管語(yǔ)言規(guī)則有多復(fù)雜。

這個(gè)能力聽起來(lái)很理論,但實(shí)際上特別有用。RWKV-7 能更高效地解決一些需要“跟蹤狀態(tài)”的問(wèn)題。什么是“跟蹤狀態(tài)”呢?舉個(gè)例子:

在讀一個(gè)長(zhǎng)故事時(shí),記住誰(shuí)做了什么、事情是怎么發(fā)展的;

在理解一句復(fù)雜句子時(shí),搞清楚每個(gè)詞之間的關(guān)系。

這些任務(wù)需要模型一邊讀一邊更新自己的“記憶”。RWKV-7 靠它的“狀態(tài)矩陣”來(lái)做到這一點(diǎn)。你可以把“狀態(tài)矩陣”想象成一個(gè)記事本,模型會(huì)在這上面記下看到的信息,還能靈活地“交換”信息或者改變記錄的方式(專業(yè)點(diǎn)叫“狀態(tài)轉(zhuǎn)換函數(shù)”)。

應(yīng)用方面,RWKV-7適用于語(yǔ)言建模和多模態(tài)應(yīng)用,其高效處理長(zhǎng)上下文的能力使其在文檔摘要、對(duì)話系統(tǒng)和代碼生成等領(lǐng)域具有優(yōu)勢(shì)。其無(wú)注意力機(jī)制和恒定內(nèi)存使用也使其適合資源受限的設(shè)備,潛在擴(kuò)展到邊緣計(jì)算場(chǎng)景。

RWKV-7開發(fā)團(tuán)隊(duì)已規(guī)劃了明確的技術(shù)發(fā)展方向,計(jì)劃通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù)集來(lái)支持更大規(guī)模模型的訓(xùn)練,同時(shí)將致力于增強(qiáng)模型的思維鏈推理能力。

團(tuán)隊(duì)還將評(píng)估采用DeepSeek近期研究中驗(yàn)證有效的前沿技術(shù),包括混合專家模型(MoE)架構(gòu)、多token預(yù)測(cè)技術(shù)和FP8精度訓(xùn)練等優(yōu)化方案。

為了促進(jìn)開放性、可復(fù)現(xiàn)性和采用,RWKV-7開發(fā)團(tuán)隊(duì)在Hugging Face上發(fā)布了模型和數(shù)據(jù)集組件列表,并在GitHub上發(fā)布了訓(xùn)練和推理代碼,所有這些資源均在Apache 2.0許可下提供,允許廣泛應(yīng)用于研究和商業(yè)項(xiàng)目。

#03

超越Transformer

Transformer廣泛用于自然語(yǔ)言處理和其他領(lǐng)域,但它在處理長(zhǎng)序列時(shí)存在顯著的局限性。例如,對(duì)于百萬(wàn)級(jí)別的上下文窗口,Transformer 的性能會(huì)顯著下降,限制了其在實(shí)際應(yīng)用中的可擴(kuò)展性。對(duì)于需要低延遲或在資源受限設(shè)備上運(yùn)行的場(chǎng)景(如移動(dòng)設(shè)備或?qū)崟r(shí)系統(tǒng)),Transformer 的高計(jì)算成本和內(nèi)存消耗成為瓶頸。

Mamba是另一個(gè)獲得相當(dāng)多關(guān)注的 Transformer 替代方案,Transformer 如此流行,以至于提出它們的原始論文自發(fā)表以來(lái)的 8 年間獲得了超過(guò) 17.1 萬(wàn)次引用,而提出 LSTM 的 1997 年論文則有 12.2 萬(wàn)次引用。Mamba 論文有 2537 次引用,RetNet 有 350 次,xLSTM 有 31次,RWKV論文有510次引用,而谷歌DeepMind最新提出的Titans架構(gòu)只有12次引用。

類似RWKV-7這樣的發(fā)展,即使還不會(huì)完全顛覆現(xiàn)有的范式,也會(huì)推動(dòng)這一領(lǐng)域的進(jìn)一步發(fā)展,AI的未來(lái)不僅將由更大的模型塑造,還將由更智能的架構(gòu)設(shè)計(jì)引領(lǐng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
氫彈威力上不封頂,但核武器有個(gè)不成文的規(guī)定:扔不到對(duì)方頭上去

氫彈威力上不封頂,但核武器有個(gè)不成文的規(guī)定:扔不到對(duì)方頭上去

沒(méi)有偏旁的常慶
2026-03-01 07:00:11
震驚!網(wǎng)傳廣西某設(shè)計(jì)院普通員工年終獎(jiǎng)144000元,月工資86699元

震驚!網(wǎng)傳廣西某設(shè)計(jì)院普通員工年終獎(jiǎng)144000元,月工資86699元

火山詩(shī)話
2026-02-27 12:08:36
迪拜國(guó)際機(jī)場(chǎng)遭襲

迪拜國(guó)際機(jī)場(chǎng)遭襲

財(cái)聯(lián)社
2026-03-01 05:34:14
比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個(gè)壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
38歲前皇馬門神成功逃離伊朗!再晚3小時(shí)就走不了:聯(lián)系不上隊(duì)友

38歲前皇馬門神成功逃離伊朗!再晚3小時(shí)就走不了:聯(lián)系不上隊(duì)友

風(fēng)過(guò)鄉(xiāng)
2026-03-01 09:55:38
香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

讀懂世界歷史
2026-02-12 21:48:53
“100%椰子水”到底有幾分真?四款產(chǎn)品送檢均疑似加水加糖

“100%椰子水”到底有幾分真?四款產(chǎn)品送檢均疑似加水加糖

閃電新聞
2026-02-28 17:31:36
大快人心!俄S-400王牌指揮官被擊斃,克里米亞防空網(wǎng)徹底破防

大快人心!俄S-400王牌指揮官被擊斃,克里米亞防空網(wǎng)徹底破防

老馬拉車莫少裝
2026-02-27 23:57:03
快訊!伊朗大捷!

快訊!伊朗大捷!

達(dá)文西看世界
2026-03-01 16:46:09
外媒:特朗普對(duì)伊朗發(fā)出新威脅

外媒:特朗普對(duì)伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
滯留中東機(jī)場(chǎng)華人稱現(xiàn)場(chǎng)像“難民所”

滯留中東機(jī)場(chǎng)華人稱現(xiàn)場(chǎng)像“難民所”

界面新聞
2026-03-01 23:15:09
大戰(zhàn)開打!美以聯(lián)手突襲伊朗!伊朗:都將受到“毀滅性”的報(bào)復(fù)

大戰(zhàn)開打!美以聯(lián)手突襲伊朗!伊朗:都將受到“毀滅性”的報(bào)復(fù)

三石記
2026-02-28 22:56:14
經(jīng)中央軍委批準(zhǔn),全軍今起制發(fā)啟用

經(jīng)中央軍委批準(zhǔn),全軍今起制發(fā)啟用

日照日?qǐng)?bào)
2026-03-01 14:39:13
外媒披露細(xì)節(jié):美以等來(lái)“難得機(jī)會(huì)”,哈梅內(nèi)伊住所被投擲約30枚炸彈

外媒披露細(xì)節(jié):美以等來(lái)“難得機(jī)會(huì)”,哈梅內(nèi)伊住所被投擲約30枚炸彈

環(huán)球網(wǎng)資訊
2026-03-01 13:30:44
鐵衛(wèi)90分鐘破僵局,萊奧自我救贖!AC米蘭2-0升班馬,下輪戰(zhàn)國(guó)米

鐵衛(wèi)90分鐘破僵局,萊奧自我救贖!AC米蘭2-0升班馬,下輪戰(zhàn)國(guó)米

釘釘陌上花開
2026-03-01 21:26:15
演都不演了!剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信?

演都不演了!剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信?

秋姐居
2026-03-01 12:33:58
楊瀚森NBA生涯得分超越韓國(guó)第一人河升鎮(zhèn)

楊瀚森NBA生涯得分超越韓國(guó)第一人河升鎮(zhèn)

大眼瞄世界
2026-03-01 21:50:56
伊朗4枚導(dǎo)彈襲擊“林肯”號(hào)航母,美軍正式公布傷亡數(shù)字

伊朗4枚導(dǎo)彈襲擊“林肯”號(hào)航母,美軍正式公布傷亡數(shù)字

文匯報(bào)
2026-03-02 03:47:30
上海合作組織秘書處降半旗

上海合作組織秘書處降半旗

觀察者網(wǎng)
2026-03-01 18:14:11
美國(guó)暴雨沖出3具尸體,其中一人竟是武漢某院長(zhǎng),死后無(wú)人認(rèn)領(lǐng)!

美國(guó)暴雨沖出3具尸體,其中一人竟是武漢某院長(zhǎng),死后無(wú)人認(rèn)領(lǐng)!

書畫藝術(shù)收藏
2026-03-01 19:30:03
2026-03-02 04:32:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

手機(jī)
旅游
家居
公開課
軍事航空

手機(jī)要聞

現(xiàn)場(chǎng)直擊!榮耀Robot Phone機(jī)器人手機(jī)長(zhǎng)啥樣

旅游要聞

青州春雨刷屏,千年古城煙雨朦朧,藏著最動(dòng)人的東方浪漫!

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版