国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

元始智能羅璇:全球首個非Transformer架構(gòu)RWKV,正在突破AI算力瓶頸

0
分享至

12月18日,網(wǎng)易傳媒主辦的“2025新一代人工智能創(chuàng)業(yè)大賽”頒獎典禮在北京網(wǎng)易大廈成功舉辦。

“2025新一代人工智能創(chuàng)業(yè)大賽”聚焦“AI基礎設施”、“AI應用和智能體”和“AI硬件”三大前沿賽道,旨在挖掘頂尖創(chuàng)業(yè)團隊。下午的AI投資論壇系列活動從往屆獲獎者的實戰(zhàn)分享,到聚焦AI全球化與商業(yè)化路徑的深度剖析,再到圍繞具身智能、Agent等前沿議題的“圍爐夜話”思辨,層層遞進,探討了AI從技術探索走向產(chǎn)業(yè)落地的關鍵命題。

現(xiàn)場,2024年去年大賽的獲獎代表、深圳元始智能聯(lián)合創(chuàng)始人兼COO羅璇在發(fā)展匯報中表示,當前主流AI大模型所依賴的Transformer架構(gòu)存在計算復雜度高、能耗大及端側(cè)部署不友好等問題。對此,他們提出RWKV作為一種基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的架構(gòu),其核心優(yōu)勢在于將計算復雜度從二次方降低至線性,從而在理論層面提升了訓練與推理效率,并降低了資源消耗。

羅璇在匯報中提到,網(wǎng)易大賽的支持極大促進了項目的發(fā)展,RWKV作為一個開源項目,已獲得了新一輪融資,而且RWKV開發(fā)者社區(qū)發(fā)展迅速,與此同時,該架構(gòu)在端側(cè)智能及多智能體等領域已經(jīng)展現(xiàn)出強大的應用潛力。

以下為羅璇的演講全文,經(jīng)不影響原意的編輯:

非常感謝網(wǎng)易再次給我一個機會分享我們的項目,去年參加網(wǎng)易的活動之后,去年年底拿到天使輪的融資。今年7月世界人工智能大會上,我們作為未來之星項目獲得了總理的接見。今天分享的RWKV項目,是面向未來的高效AI大模型架構(gòu)。

很多人關注大模型從2022年ChatGPT開始的,在ChatGPT出來以后大家關注了大模型這個技術賽道,更多看到的像Chat GPT、DeepSeek、千問、Llama這種模型公司以及上層的應用公司,這一切的底層神經(jīng)網(wǎng)絡架構(gòu)都基于Transformer架構(gòu),這個架構(gòu)源自于2017年Google發(fā)的論文叫“Attention is all you need”。它打破了過去RNN不能高效并行訓練的問題,也帶來了新的問題。而RWKV是全球首個的非Transformer架構(gòu),正在解決Transformer的問題。

這是我們團隊,創(chuàng)始人彭博,背景比較傳奇,6歲開始寫代碼,16歲全獎進港大物理系,畢業(yè)后開始在全球最大的外匯對沖基金管理6000萬美元的資產(chǎn)。后來,自己做了一家智能硬件公司,也是知乎的人工智能領域的大V。

我是羅璇,是RWKV的聯(lián)合創(chuàng)始人,之前在大廠,在騰訊、阿里,在阿里負責機器人和人工智能,之前也做機器人的公司。我們更多人來自于開源社區(qū),現(xiàn)在全職的同事,包括實習的同事來自于全球數(shù)萬人的社區(qū)。RWKV源自于2020年初彭博的開源項目,過去五年迭代了8代,也發(fā)表了3篇學術論文。OpenAI在2023年初邀請彭博入職,但是彭博馬上就回復:如果OpenAI重新Open的話他愿意合作。

在拒絕OpenAI之后,彭博把RWKV開源項目放到了Linux Foundation下面孵化,現(xiàn)在是全球的開源項目。所有的開發(fā)者、科研機構(gòu)可以沒有負擔的使用這個架構(gòu)。過去也出現(xiàn)了很多的新架構(gòu),像Mamba,Google出的Titans,國內(nèi)也有KDA等等的架構(gòu),都在跟進這個路線,而RWKV現(xiàn)在的第八代還沒有跟隨者。去年8月份,微軟在每一臺Windows電腦里面內(nèi)置了RWKV架構(gòu)。去年,RWKV被評為英偉達的初創(chuàng)生態(tài)榮耀企業(yè),掛他們的官網(wǎng),今年3月份我在也分享了最新的架構(gòu)。我們也跟多家的芯片廠商合作,做端側(cè)的模型,我們認為端側(cè)是巨大的機會,尤其中國巨大的機會。今年WAIC我們獲得了未來之星獎,也獲得了總理的接見。

我們看看RWKV到底解決什么問題。

第一,Transformer模型在推理側(cè)是二次方復雜度問題。過去三年大家發(fā)現(xiàn)英偉達這家公司非常值錢,大家在大模型的訓練和推理過程當中需要大量的算力,為什么需要這么多算力?因為底層算法的效率非常低,Token生成的長度跟算力的需求是二次方增長的關系。隨之需要的能源也非常高,以及對于端側(cè)非常不友好,大家看到大部分的模型幾乎都是調(diào)云端的API,沒有辦法形成規(guī)模效應。

第二,最近Ilya說的Scaling law沒有了,很多業(yè)內(nèi)人說原因是數(shù)據(jù)不夠用了,但是實際上現(xiàn)在大語言模型訓練了30T的Token,人類從出生到死亡這段時間內(nèi)需要的文本數(shù)據(jù)是遠遠低于這個數(shù)據(jù)量。就相當于一個人說全世界的糧食都不夠他吃,這到底是糧食的原因呢?還是人本身的問題?所以,我們認為應該是模型架構(gòu)本身的問題,如果模型不是暴力記憶,而是能快速的找到數(shù)據(jù)中規(guī)律的話,訓練需要的數(shù)據(jù)也不需要那么多了。

第三,國內(nèi)之前沒關注的點,就是Transformer是有商業(yè)專利的,谷歌在2017年就建立了全球?qū)@谋趬尽?/p>

RWKV是全球的首個非Transformer架構(gòu),我們叫新型RNN架構(gòu),它不但可以高效并行訓練,同時它推理的速度和推理的資源占用也是恒定的,我們也帶來了新的極致上下文的State-tuning的能力。

無論是效率、能耗還是效果,RWKV都是優(yōu)于Transformer。能耗這塊RWKV非常適合存算一體、3D堆疊的近存芯片,因為RWKV模型推理在Decode的階段只需要做矩陣乘矢量,不需要做矩陣乘矩陣,同時它不需要管理KV-Cache不斷變大的問題。在云端,RWKV架構(gòu)模型也是更有優(yōu)勢的,并發(fā)的能力是Transformer模型的一百倍。

除此之外,RWKV本質(zhì)上是在做類腦架構(gòu),包括持久的記憶能力、持續(xù)學習能力,還有內(nèi)部模型持續(xù)擬合外部世界的能力、無限長的推理能力。

現(xiàn)在的Transformer模型的QKV機制更像是一個超級小鎮(zhèn)做題家,它希望把全世界的題目背下來去參加高考,去做一個模糊的匹配,而RWKV架構(gòu)模型是實時地找題目和答案之間的解題規(guī)律和方法,所以它是非常高效的架構(gòu)。

大家喜歡看Benchmark,所以我們最近也做了一些Benchmark,RWKV的13B模型,泛化能力和語言能力都優(yōu)于千問14B Base 模型。數(shù)學百科代碼指令這塊我們也非常接近于現(xiàn)在千問14B Base,而這些能力是可以靠刷題解決的。

RWKV-8是我們最近公開的全球首個神經(jīng)符號大模型架構(gòu),它帶來完全不同的特性,它讓AI內(nèi)部生成它自己的語言,可以做無限范圍無損信息的傳播,未來的大模型是具備可解釋性,這是一個業(yè)界的重大突破,現(xiàn)在全球的大量學者都在關注我們這個架構(gòu)。

RWKV 目前有誰在用呢?第一個是我們商業(yè)公司在用,我們把它落在端側(cè),包括手機、PC、眼鏡、機器人等終端上,讓他們具備語言、圖片識別、語音合成能力等等,其中一些應用已經(jīng)在海外上架。這是端側(cè)的AI 編程項目,可以在一臺單卡的消費級電腦上面,同時跑24個并發(fā)去做網(wǎng)頁生成。這也是現(xiàn)在的架構(gòu)做不到的。這是海外一個非常知名的編程獨角獸,估值三十億美金,所有的模型都基于RWKV的架構(gòu)提供給客戶。如果是程序員的話可能認識 Fabrice Bellard,他是全球知名的程序員,跟Google的Jeff Dean齊名的,他去年公開了用RWKV做的信息壓縮軟件。具身智能是大家今年特別關注的賽道,地瓜機器人和有鹿機器人,我們都是有深度合作。還有國家電網(wǎng)在用RWKV做做新能源的發(fā)電預測和調(diào)度。中國電科的30B的小可大模型也是基于RWKV。RWKV已經(jīng)在工業(yè)界廣泛的有落地。

更重要的是RWKV的開源生態(tài),在海外有數(shù)萬的開發(fā)者,光Discord上面就有九千多,GitHub上面基于RWKV的開源項目超過六百個,有超過160篇的前沿學術論文在基于RWKV 訓練模型,像語言、多模態(tài)、智能體、具身智能等等。多智能體是過去幾年業(yè)內(nèi)非常頭疼的問題,今年二月份斯坦福用 RWKV做了一個項目,證明了 RWKV 這種架構(gòu)才是做多智能體的正確方向。騰訊今年的3D動作生成的論文,也是基于RWKV做的。這是美國第一大的語音識別的公司叫 Rev,他們基于 RWKV做長語音的流式識別,未來新的計算終端需要Always on,那就會非常有用。還有弗吉尼亞大學用RWKV做的端側(cè)模型,UCLA用 RWKV做的肌電手勢識別。UCSD用RWKV做的脈沖類腦計算。國內(nèi)也有浙大李爾平教授在用RWKV做脈沖類腦計算。上海有一家對沖基金,用RWKV做的股價預測和量化交易。還有哈佛用RWKV做的量子增強的實踐訓練預測,聽說也是用來做對沖基金的。國內(nèi)也有團隊用RWKV做藥物發(fā)現(xiàn),海外的團隊用RWKV做RNA預測。所以簡單而言,RWKV正在全面的替代Transformer。

RWKV是面向未來的高效AI大模型架構(gòu),解決了Transformer的二次方復雜度問題,是更加高效節(jié)能的架構(gòu)。尤其是適合下一代的芯片:近存和存算一體的芯片。RWKV是持續(xù)在沿著類腦的路線在迭代,包括神經(jīng)符號這種業(yè)內(nèi)的突破 RWKV架構(gòu)是開源可商用的,我們正在建立一個全球龐大的開源生態(tài)。

我們現(xiàn)在的商業(yè)化聚焦在端側(cè)。大家都知道國內(nèi)軟件不賺錢,所以未來中國的新型智能終端會是拉動內(nèi)需的重要產(chǎn)品。另外云端的多智能體網(wǎng)絡,是下一代的互聯(lián)網(wǎng),大家也會發(fā)現(xiàn)一定會基于新的架構(gòu)來做。歡迎在場的有志之士試一試。

我們期望的人工智能的發(fā)展方向:用存算一體訓練一體的芯片、RWKV這種新型RNN架構(gòu),已經(jīng)變成了一個確定性的方向。

歡迎大家關注RWKV,也歡迎大家使用RWKV。謝謝。

相關推薦
熱點推薦
報應來了,李在明登機離滬前,中方禁令先起效,菲日統(tǒng)一對華戰(zhàn)線

報應來了,李在明登機離滬前,中方禁令先起效,菲日統(tǒng)一對華戰(zhàn)線

時時有聊
2026-01-07 20:45:12
震撼!內(nèi)娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

震撼!內(nèi)娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

魔都囡
2026-01-08 09:48:47
凌晨1點,老黃又扔“核彈”!英偉達 Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

凌晨1點,老黃又扔“核彈”!英偉達 Vera Rubin 芯片問世,算力暴漲5倍,我看傻了...

AI范兒
2026-01-06 07:59:53
終于是打疼了,日本前首相之女請求來華,中國一句話亮明態(tài)度

終于是打疼了,日本前首相之女請求來華,中國一句話亮明態(tài)度

博覽歷史
2026-01-07 18:02:20
火箭官方直呼心碎!KD丟絕殺+伊森補籃絕殺超時 隊記道出惜敗緣由

火箭官方直呼心碎!KD丟絕殺+伊森補籃絕殺超時 隊記道出惜敗緣由

顏小白的籃球夢
2026-01-08 13:54:32
貴州26歲男子跳橋身亡,貸款10萬結(jié)婚,女方一身惡習,曝更多隱情

貴州26歲男子跳橋身亡,貸款10萬結(jié)婚,女方一身惡習,曝更多隱情

李健政觀察
2026-01-07 18:31:22
農(nóng)民日報關于河北農(nóng)民取暖難的稿,為啥不見了?

農(nóng)民日報關于河北農(nóng)民取暖難的稿,為啥不見了?

筆桿論道
2026-01-08 07:02:14
私拉電線!多輛房車長期停放深圳公園停車場

私拉電線!多輛房車長期停放深圳公園停車場

深圳晚報
2026-01-08 12:47:09
李慧瓊當選香港特別行政區(qū)第八屆立法會主席

李慧瓊當選香港特別行政區(qū)第八屆立法會主席

界面新聞
2026-01-08 12:17:34
馬杜羅家族500億美元遭凍結(jié),為何標榜中立的瑞士被多次“打臉”

馬杜羅家族500億美元遭凍結(jié),為何標榜中立的瑞士被多次“打臉”

微評社
2026-01-08 01:07:07
伊朗強人哈梅內(nèi)伊的末路圖景正徐徐展開

伊朗強人哈梅內(nèi)伊的末路圖景正徐徐展開

望岳
2026-01-06 19:59:33
吹楊被交易至奇才!掏出手機起身離場 落寞背影預示老鷹時代落幕

吹楊被交易至奇才!掏出手機起身離場 落寞背影預示老鷹時代落幕

顏小白的籃球夢
2026-01-08 10:44:54
神奇的4-3!紐卡3次扳平+102分鐘超時絕殺創(chuàng)紀錄 3連勝升英超第6

神奇的4-3!紐卡3次扳平+102分鐘超時絕殺創(chuàng)紀錄 3連勝升英超第6

我愛英超
2026-01-08 07:29:14
2025年的中國車市,教會了合資車企如何生存

2025年的中國車市,教會了合資車企如何生存

汽車公社
2026-01-08 08:33:54
俄羅斯石油出口收入暴跌至2022年戰(zhàn)爭開始以來的最低水平

俄羅斯石油出口收入暴跌至2022年戰(zhàn)爭開始以來的最低水平

山河路口
2026-01-07 23:52:14
1985年,李訥帶丈夫去買車,廠長盯著她的臉看了半天,死活不肯收錢,結(jié)果她接下來的舉動,讓在場所有人都紅了臉

1985年,李訥帶丈夫去買車,廠長盯著她的臉看了半天,死活不肯收錢,結(jié)果她接下來的舉動,讓在場所有人都紅了臉

桃煙讀史
2026-01-07 01:02:14
中國焊死了工業(yè)化大門?真相很殘酷:不是中國卷,是游戲規(guī)則變了

中國焊死了工業(yè)化大門?真相很殘酷:不是中國卷,是游戲規(guī)則變了

遠方風林
2026-01-06 23:28:13
澤連斯基引發(fā)的鏈式反應:俄羅斯的盟友接連倒下

澤連斯基引發(fā)的鏈式反應:俄羅斯的盟友接連倒下

高博新視野
2026-01-07 18:42:18
對日反制啟動!中國頂級陽謀出現(xiàn),特朗普開始擔憂,總統(tǒng)位恐不保

對日反制啟動!中國頂級陽謀出現(xiàn),特朗普開始擔憂,總統(tǒng)位恐不保

博覽歷史
2026-01-07 13:09:37
太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

鶴羽說個事
2026-01-08 11:02:25
2026-01-08 15:40:49

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

中方被指正考慮進一步收緊中重稀土出口 日本業(yè)界慌了

頭條要聞

中方被指正考慮進一步收緊中重稀土出口 日本業(yè)界慌了

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時尚
本地
親子
家居
游戲

藍色+灰色、紅色+棕色,這4組配色怎么搭都好看!

本地新聞

1986-2026,一通電話的時空旅程

親子要聞

富豪階層,正在批量生產(chǎn)“超級嬰兒”

家居要聞

理性主義 冷調(diào)自由居所

歐洲評級泄露《奇異人生》新游 但是開發(fā)商沒公布

無障礙瀏覽 進入關懷版
×