国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結(jié)?

0
分享至


新智元報道

編輯:犀牛

【新智元導讀】當硅谷Taalas將大模型「物理焊死」進芯片引爆全球半導體圈,來自上海交大、輝羲智能與微軟亞洲研究院的研究團隊早已走得更遠——他們用ROM+SRAM異構(gòu)架構(gòu),將端側(cè)LLM推理速度推至20,000 tokens/s,端側(cè)算力直接起飛。

近期,硅谷初創(chuàng)公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發(fā)了全球半導體業(yè)界對「硬核 AI」的深度反思。

他們繞開了所有熱門概念,直接把AI大模型,物理焊死在硅片里!

芯片運行Llama 3.1 8B的速度達到了17,000tokens/秒。

足足比業(yè)界最頂端的英偉達GPU提升了將近10倍!


英偉達這邊也沒閑著,GTC 2026前夕,英偉達釋放明確信號:即將發(fā)布的Feynman架構(gòu)將與Groq LPU技術(shù)實現(xiàn)深度融合。

LPU架構(gòu)通過預編排的固定指令流驅(qū)動模型,摒棄傳統(tǒng)HBM主存,轉(zhuǎn)而采用片上SRAM存儲權(quán)重,大幅突破了原有的訪問速度與帶寬瓶頸。

這些都預示著,在Scaling Law驅(qū)動的大模型時代,傳統(tǒng)的通用指令集正成為鎖死算力的枷鎖。

如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內(nèi)存墻」,已成為定義生成式 AI 下半場的關(guān)鍵。


現(xiàn)有端側(cè)存儲方案不能同時滿足LLM推理的存儲容量和訪存帶寬需求

事實上,針對 LLM 的訪存特性,來自上海交大、輝羲智能及微軟亞洲研究院的研究團隊早已展開了一場存儲層次結(jié)構(gòu)的創(chuàng)新研究。

通過ROMA與TOM系列研究,團隊展現(xiàn)了與 Taalas 不謀而合的架構(gòu)洞察:通過對只讀存儲(ROM)的顛覆性應用與「算法-架構(gòu)」深度協(xié)同,成功將LLM 的端側(cè)推理速度推向 20,000 tokens/s的水平,這一突破性成果在具身智能等前沿領(lǐng)域展現(xiàn)了巨大的應用潛力。


ROMA:打破傳統(tǒng)存儲層次

重塑端側(cè)能效

在大模型端側(cè)部署的實戰(zhàn)中,傳統(tǒng)的內(nèi)存層次結(jié)構(gòu)正面臨前所未有的挑戰(zhàn)。

研究團隊提出的 ROMA(Read-Only-Memory-based Accelerator) 架構(gòu),針對端側(cè)場景的特殊需求,給出了一套系統(tǒng)的解法。


ROMA的計算架構(gòu),采用ROM+SRAM的方案

1.引入只讀存儲(ROM):從源頭解決訪存能效

研究團隊發(fā)現(xiàn),大模型推理的能效瓶頸主要源于權(quán)重數(shù)據(jù)在外部內(nèi)存(如 LPDDR)與計算單元之間的頻繁搬運。

ROMA 另辟蹊徑,利用高集成密度、低功耗的只讀存儲(ROM)作為權(quán)重的存儲載體,將模型參數(shù)從源頭上固化在芯片內(nèi)部,大幅度降低了訪存功耗。

2.QLoRA 賦能靈活性:在「固化」中尋找演進空間

完全硬連線的芯片往往難以應對算法的快速迭代。ROMA 巧妙地引入了 QLoRA 機制,通過ROM(基座模型)+ SRAM(LoRA 適配器)的混合設(shè)計,確保了芯片在擁有「硬核」性能的同時,依然保留了強大的應用靈活性。

開發(fā)者只需下發(fā)極小規(guī)模的 LoRA 插件,即可讓固化的基座模型在不同垂直任務間快速切換。

3.架構(gòu)與物理設(shè)計協(xié)同:極致的物理實現(xiàn)

為了實現(xiàn)真正的片上全模型存儲,團隊進行了深度的 架構(gòu)與物理設(shè)計協(xié)同優(yōu)化。

通過獨創(chuàng)的 B-ROM 設(shè)計,將計算單元與存儲陣列進行緊耦合的物理布局,極大地縮短了信號傳輸路徑。

這種協(xié)同設(shè)計讓 ROMA 在有限的芯片面積內(nèi),實現(xiàn)了對數(shù)億參數(shù)模型的高效容納與實時調(diào)度。

最終,ROMA的規(guī)格和指標與Taalas非常接近:ROMA采用7nm工藝庫,芯片面積約 500 mm2,可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能達到20,000 tokens/s,而同樣采用ROM+SRAM的方案的Taalas是6nm工藝,面積約800mm2,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

帶來的存儲紅利

在 ROMA 的基礎(chǔ)上,最新的TOM(Ternary-Oriented Memory)架構(gòu)進一步將優(yōu)化的觸角延伸到了算法底層的存儲特征中,把ROMA擴展到BitNet/Ternary量化這個場景,利用低比特權(quán)重的0值稀疏性,繼續(xù)提升了ROM的存儲密度。


低比特模型0值分布特征,帶來ROM存儲密度提升潛力

1.捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲」范式

研究團隊發(fā)現(xiàn),以 BitNet-b1.58 為代表的三值化({-1, 0, 1})模型展現(xiàn)出了極佳的硬件友好性 。

基于這一發(fā)現(xiàn),TOM 摒棄了傳統(tǒng)的存儲陣列,通過邏輯合成技術(shù)直接利用標準邏輯門實現(xiàn)模型權(quán)重的固化存儲 。

在這種新范式下,硬件能夠直接識別并物理消除權(quán)重中「0」元素的存儲電路 。這一極致收益的實現(xiàn),得益于三值模型中零值參數(shù)本就占據(jù)絕大多數(shù)的天然稀疏特性,加上定制的編碼方法(使用「10」而非「11」來表示 -1),從而大幅拉高了 0-bit 的整體占比,從根本上降低了物理開銷 。

2.存儲邏輯的深度合并與復用:極限壓縮芯片面積

為了進一步推高面積效率,TOM 引入了精細的邏輯優(yōu)化策略:通過識別并提取不同權(quán)重存儲邏輯中的公共子序列,對重復的邏輯門進行深度合并與復用。

這種從物理層對存儲邏輯進行的「極限去重」,使得 TOM 相比 ROMA 實現(xiàn)了片上存儲密度的數(shù)倍提升與芯片面積的大幅削減。

這也再次印證了算法-硬件聯(lián)合設(shè)計在突破 AI 算力邊界時的核心重要性。

具身智能與極端場景

ROM 架構(gòu)的「降維打擊」

「模型即芯片」方案的興起,精準捕捉到了當前端側(cè)應用的兩大痛點:

1.具身智能的「實時確定性」

在機器人、無人設(shè)備等具身智能場景中,毫秒級的響應延遲往往決定了系統(tǒng)的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是為了提供一種高確定性的實時反饋。

這讓機器人能夠像擁有脊髓反射一樣,在感知到復雜的物理環(huán)境變化時,瞬時做出語義理解與避障決策。

2.極端環(huán)境下的生存優(yōu)勢:深海與火星

在深海探測器、火星漫游車等極端場景下,DRAM 等易失性存儲器不僅能耗高,且容易受到高能射線干擾產(chǎn)生軟錯誤。

ROM 架構(gòu)具有天然的穩(wěn)定性和抗輻射性。

在能源匱乏、通信隔絕的極端環(huán)境下,搭載 ROMA/TOM 架構(gòu)的設(shè)備依然能獨立、穩(wěn)定地完成復雜的智能任務,且待機功耗極低。

這使得大模型能夠真正走出實驗室,進入人類探索的「無人區(qū)」。

3.智能終端的隱私「防火墻」

對于手機端本地文本處理等場景,用戶對模型基座的頻繁更新需求并不高,但對隱私極其敏感。

將成熟、穩(wěn)定的模型能力固化在本地隔離電路中,不僅免去了頻繁聯(lián)網(wǎng)的能耗,更在物理層面上杜絕了數(shù)據(jù)外泄的風險。

結(jié)語

開啟端側(cè)內(nèi)存層次結(jié)構(gòu)的新紀元

從 Taalas 的破圈到研究團隊ROMA與TOM系列工作的深度探索,我們正見證 AI 硬件架構(gòu)的一個重要轉(zhuǎn)向。

這種引入ROM+SRAM異構(gòu)存儲層次結(jié)構(gòu)的創(chuàng)新,結(jié)合對三值邏輯存儲特性的極致挖掘,為端側(cè)大模型部署提供了一條全新的進路。

ROMA與TOM系列研究的誕生,植根于“模型即芯片”的設(shè)計思維。

團隊的這種強調(diào)算法與硬件深度耦合的思維來源,最早可追溯至微軟亞洲研究院(MSRA)時期。

核心作者中,王文強與曹士杰曾先后作為MSRA實習生在徐寧儀老師指導下開展研究,積淀了深厚的工業(yè)界系統(tǒng)經(jīng)驗;張毅佳在上海交大攻讀博士期間師從徐老師,并先后在 MSRA 系統(tǒng)組與輝羲智能實習。

研究團隊長期從事算法-芯片聯(lián)合設(shè)計的研究,在AI芯片架構(gòu)設(shè)計、大模型輕量化等方面有豐富經(jīng)驗。

這種由資深架構(gòu)師、企業(yè)研究員與學術(shù)新生代構(gòu)成的多重紐帶,讓團隊得以將前沿的實戰(zhàn)思維與學術(shù)界的理論創(chuàng)新高效結(jié)合,在大模型范式下實現(xiàn)了從通用計算向 LLM 原生架構(gòu)的協(xié)同突破。

團隊介紹

關(guān)于上交大團隊:團隊來自上海交通大學計算機學院定制計算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解決數(shù)據(jù)中心、邊緣設(shè)備和傳感器的所面臨的各種計算挑戰(zhàn)。

關(guān)于輝羲智能:輝羲智能致力于成為全球領(lǐng)先的具身智能AI計算平臺供應商,以卓越算力促進人工智能發(fā)展。成立三年,公司已實現(xiàn)大算力端側(cè)旗艦芯片R1的成功流片與量產(chǎn)交付,率先在具身智能領(lǐng)域走通“芯片-平臺-產(chǎn)品”的全棧自主國產(chǎn)化路徑。

參考資料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第一單位首篇Cell!電子科技大學取得重磅突破

第一單位首篇Cell!電子科技大學取得重磅突破

iNature前沿
2026-03-01 21:33:19
停航2天后 阿布扎比機場有航班起飛

停航2天后 阿布扎比機場有航班起飛

看看新聞Knews
2026-03-02 22:03:38
他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

文立于塵
2026-03-01 18:16:43
明日元宵節(jié),5個生肖要“躲月”,牢記做3事忌4事,馬年萬事順遂

明日元宵節(jié),5個生肖要“躲月”,牢記做3事忌4事,馬年萬事順遂

瓜哥的動物日記
2026-03-02 06:29:20
3月1日俄烏最新:恐怖的場景

3月1日俄烏最新:恐怖的場景

西樓飲月
2026-03-01 20:55:56
霍爾木茲海峽航運受阻,國際油價暴漲13%!川籍船員親歷:數(shù)百船只滯留波斯灣,一貨輪上有十余名中國船員

霍爾木茲海峽航運受阻,國際油價暴漲13%!川籍船員親歷:數(shù)百船只滯留波斯灣,一貨輪上有十余名中國船員

封面新聞
2026-03-02 22:17:16
哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

不似少年游
2026-03-02 09:22:12
開個會,要你命:伊朗高層因開會被團滅過,哈梅內(nèi)伊還是如此大意

開個會,要你命:伊朗高層因開會被團滅過,哈梅內(nèi)伊還是如此大意

黃娜老師
2026-03-01 23:31:17
為何抗戰(zhàn)劇里的日軍炮樓都有探照燈?舊中國那么落后,電從哪來?

為何抗戰(zhàn)劇里的日軍炮樓都有探照燈?舊中國那么落后,電從哪來?

芊芊子吟
2026-02-20 22:00:03
哈梅內(nèi)伊用命給全世界上了一課!

哈梅內(nèi)伊用命給全世界上了一課!

西域都護
2026-03-02 23:08:49
以色列承認計劃失敗,伊朗強援或今晚參戰(zhàn),俄方下場硬剛特朗普

以色列承認計劃失敗,伊朗強援或今晚參戰(zhàn),俄方下場硬剛特朗普

薦史
2026-03-02 22:05:40
五角大樓終于說了大實話!不到24小時,賴清德喊話大陸,太罕見了

五角大樓終于說了大實話!不到24小時,賴清德喊話大陸,太罕見了

議紀史
2026-03-01 22:05:03
伊朗導彈擊中美第五艦隊總部瞬間畫面曝光,美海軍第五艦隊總部遇襲前后衛(wèi)星圖公開

伊朗導彈擊中美第五艦隊總部瞬間畫面曝光,美海軍第五艦隊總部遇襲前后衛(wèi)星圖公開

揚子晚報
2026-03-02 17:09:15
伊朗外長:新任最高領(lǐng)袖將在“一或兩天”內(nèi)被選出

伊朗外長:新任最高領(lǐng)袖將在“一或兩天”內(nèi)被選出

參考消息
2026-03-01 23:29:38
恭喜!巴爾韋德與妻子將迎來第三個孩子且是女兒

恭喜!巴爾韋德與妻子將迎來第三個孩子且是女兒

懂球帝
2026-03-02 15:45:07
CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

每日經(jīng)濟新聞
2026-03-02 09:27:05
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網(wǎng)
2026-03-02 21:29:04
活得通透:能自理就好好活著,不能自理,便坦然落幕

活得通透:能自理就好好活著,不能自理,便坦然落幕

青蘋果sht
2026-02-23 05:26:25
56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
為何美以的斬首戰(zhàn)術(shù)如此犀利?“獵殺時代來臨”

為何美以的斬首戰(zhàn)術(shù)如此犀利?“獵殺時代來臨”

高博新視野
2026-03-01 16:33:28
2026-03-03 00:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14625文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
游戲
手機

家居要聞

萬物互聯(lián) 享科技福祉

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

手機要聞

iPhone 17系列:國內(nèi)銷量已破2200萬!網(wǎng)友:華為仍需努力

無障礙瀏覽 進入關(guān)懷版