国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

初創(chuàng)用3000萬造不可編程的AI芯片,推理速度是Nvidia最強GPU 50倍

0
分享至

2026 年 2 月 21 日,一家名為 Taalas 的芯片初創(chuàng)公司正式揭開面紗,發(fā)布了它的第一款產(chǎn)品:一顆將 Meta 的 Llama 3.1 8B 大語言模型幾乎完整“刻進”硅片的推理芯片 HC1。按照該公司公布的數(shù)據(jù),這顆芯片在單用戶場景下可以跑到 17,000 tokens/s 的輸出速度,大約是目前市面上最快競品 Cerebras 的近 9 倍,是 Nvidia Blackwell 架構(gòu) GPU 的近 50 倍。構(gòu)建成本據(jù)稱只有同等 GPU 方案的二十分之一,功耗低一個數(shù)量級。


圖丨TaalasHC1(來源:Taalas)

不過這顆芯片的局限也非常明顯,那就是它只能跑 Llama 3.1 8B。要想換個模型?就只能再造一顆芯片。

這是 AI 芯片行業(yè)迄今為止最激進的專用化嘗試,沒有之一。

當前主流的推理部署依賴 GPU,尤其是 Nvidia 的 H100/H200 和最新的 Blackwell 系列。GPU 的優(yōu)勢在于通用性和成熟的軟件生態(tài),但它的架構(gòu)天然存在一個瓶頸:計算單元和存儲單元是分離的。模型的參數(shù)存儲在 HBM(High Bandwidth Memory,高帶寬內(nèi)存)中,計算核心每次運算都需要從 HBM 搬運數(shù)據(jù),這個搬運過程消耗大量能量和時間。

為了緩解這個問題,整個行業(yè)在先進封裝、3D 堆疊、液冷散熱、高速互聯(lián)等方向上投入了巨大的工程資源。Nvidia 的 GB200 NVL72 機柜級系統(tǒng)就是這種路線的極致體現(xiàn):72 顆 GPU 通過 NVLink 互聯(lián),單機柜功耗接近 120 kW,需要液冷支持,造價以百萬美元計。


(來源:Taalas)

Taalas 的做法是把這套復雜性連根拔掉。

他們的核心思路可以概括為三個詞:全面專用化、存算合一、極度簡化。HC1 芯片采用 Mask ROM(掩模只讀存儲器)工藝將模型權(quán)重直接編碼在芯片的金屬互連層中,和計算邏輯共存于同一塊硅片上,不再需要外部 DRAM 或 HBM。芯片上保留了一小塊 SRAM(Static Random-Access Memory,靜態(tài)隨機存取存儲器),用于存放 KV Cache(鍵值緩存,Transformer 推理時緩存歷史注意力信息的數(shù)據(jù)結(jié)構(gòu))和 LoRA(Low-Rank Adaptation,低秩適配)微調(diào)權(quán)重,提供有限的靈活性,但整體架構(gòu)的可編程性幾乎為零。

據(jù)報道,HC1 基于臺積電 N6 工藝制造,芯片面積 815 mm2,接近光罩極限(reticle limit),單顆芯片即可容納完整的 8B 參數(shù)模型。功耗約 250W,10 塊 HC1 板卡裝進一臺服務(wù)器總功耗約 2.5 kW,可以在標準風冷機架中運行。這和動輒數(shù)十千瓦、必須上液冷的 GPU 服務(wù)器差別很大。

Taalas 的 CEO Ljubisa Bajic 是 Tenstorrent 的聯(lián)合創(chuàng)始人,曾擔任該公司的 CEO 和 CTO。Tenstorrent 是 AI 芯片領(lǐng)域另一家知名初創(chuàng)企業(yè),走的是基于 RISC-V 架構(gòu)的可編程 AI 加速器路線,后來由芯片行業(yè)傳奇人物 Jim Keller 接任 CEO 并繼續(xù)發(fā)展。Bajic 離開 Tenstorrent 后大約在 2023 年中創(chuàng)立了 Taalas,走了一條和 Tenstorrent 幾乎完全相反的路:不追求通用性,而是把專用化推到極端。目前,Taalas 團隊規(guī)模約 25 人,累計融資超過 2 億美元,但據(jù) Bajic 本人披露,第一款產(chǎn)品實際只花費了約 3000 萬美元。


圖丨LjubisaBajic(來源:Tenstorrent)

Taalas 的芯片定制流程借鑒了 2000 年代早期結(jié)構(gòu)化 ASIC(Application-Specific Integrated Circuit,專用集成電路)的思路。結(jié)構(gòu)化 ASIC 通過固化門陣列和硬化 IP 模塊,只修改互連層來適配不同工作負載,在成本和性能上介于 FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)和全定制 ASIC 之間。

Taalas 的做法類似但更進一步:每次為新模型定制芯片時只需更換兩層掩模,這兩層掩模同時決定模型權(quán)重的編碼和數(shù)據(jù)在芯片內(nèi)部的流動路徑。Bajic 表示,從拿到一個新模型到生成 RTL(Register Transfer Level,寄存器傳輸級描述)大約只需要一周的工程工作量,整個從模型到芯片的周期目標是兩個月。

這個兩個月的周轉(zhuǎn)速度如果能穩(wěn)定實現(xiàn),意味著什么?意味著當一個模型在生產(chǎn)環(huán)境中被驗證有效、用戶粘性足夠高、預計至少運行一年時,Taalas 可以在較短時間內(nèi)為它制造專用硅片,以遠低于 GPU 的成本和功耗來提供推理服務(wù)。Bajic 承認,這種模式要求客戶對某個特定模型做出至少一年的承諾,“肯定有很多人不愿意,但會有人愿意”。

那么,這種極端專用化能擴展到更大的模型嗎?Taalas 給出了他們對 DeepSeek R1 671B 的模擬數(shù)據(jù)。671B 參數(shù)的模型需要大約 30 顆芯片協(xié)同工作,每顆芯片承載約 20B 參數(shù)(采用 MXFP4 格式,并將 SRAM 分離到獨立芯片以提高密度)。30 顆芯片意味著 30 次增量流片,但 Bajic 指出由于每次只改兩層掩模,增量流片成本并不高。

模擬結(jié)果顯示,這套 30 芯片系統(tǒng)在 DeepSeek R1 上可以達到約 12,000 tokens/s/user,而當前 GPU 最優(yōu)水平大約在 200 tokens/s/user。推理成本約 7.6 美分/百萬 token,不到 GPU 吞吐優(yōu)化方案的一半。

這些數(shù)字當然還停留在模擬階段。實際多芯片系統(tǒng)面臨的互聯(lián)、同步、良率等工程挑戰(zhàn)不可小覷,30 顆大面積芯片協(xié)同工作的驗證復雜度也是指數(shù)級增長的。Bajic 自己也提到,因為芯片完全不可編程,“出錯的余地基本為零”,唯一能建立信心的方法就是在流片前對整個模型進行完整的仿真——如何在合理時間內(nèi)完成 30 顆芯片的聯(lián)合仿真,本身就是一個巨大的工程問題。Taalas 聲稱已經(jīng)建立了可以在大規(guī)模計算集群上運行的仿真流程來應(yīng)對。

還有一個值得關(guān)注的細節(jié)是,HC1 使用了自定義的 3-bit 基礎(chǔ)數(shù)據(jù)類型進行激進量化,結(jié)合 3-bit 和 6-bit 參數(shù),會帶來相對于標準量化模型的質(zhì)量損失。Taalas 對此并未回避,承認模型在質(zhì)量基準測試中會有退化。他們的第二代硅平臺 HC2 將采用標準 4-bit 浮點格式以改善這一問題。第二款產(chǎn)品預計是一個中等規(guī)模的推理模型,計劃今年春季在實驗室完成,隨后接入推理服務(wù)?;?HC2 平臺的前沿大模型則計劃冬季部署。

當前 AI 推理芯片市場大致可以按專用化程度排列成一個光譜:一端是 Nvidia GPU 這樣的高度通用方案;中間是 Groq、Cerebras、SambaNova 等,它們設(shè)計了針對 LLM 推理優(yōu)化的定制架構(gòu),但仍保留可編程性,能運行多種模型;Etched 更往前走一步,專門針對 Transformer 架構(gòu)設(shè)計芯片,犧牲部分靈活性換效率;而 Taalas 直接站在了最末端,把一個特定模型焊死在硅片里。


(來源:Gemini生成)

這種極端策略的風險很明顯。AI 領(lǐng)域模型迭代速度極快,去年的前沿模型今年可能就被淘汰。如果一顆芯片只能跑一個模型,而那個模型在芯片壽命結(jié)束前就過時了,投資就打了水漂。這也是 Bajic 所說的“為什么之前沒人敢走到這個角落”。但他認為隨著行業(yè)成熟,總有一些模型在實際業(yè)務(wù)中被長期使用。Taalas 產(chǎn)品副總裁 Paresh Kharya(此前曾在 Nvidia 長期任職)也對 EE Times 表示,對于在重要業(yè)務(wù)場景中運行的模型,用戶粘性可能持續(xù)一年甚至更久。

商業(yè)模式上 Taalas 還在摸索。Kharya 透露了幾種可能方向:自建基礎(chǔ)設(shè)施運行開源模型并提供 API 推理服務(wù);直接向客戶出售芯片;或者與模型開發(fā)者合作,為他們的模型定制專用芯片供其自有推理基礎(chǔ)設(shè)施使用。哪種模式最終能跑通,取決于市場對這種極端專用化方案的接受程度。

不過從純技術(shù)角度來說,Taalas 的方案確實觸及了一個被主流路線忽略的設(shè)計空間。存算分離帶來的帶寬墻(memory wall)是當前推理硬件的核心瓶頸,而 Taalas 通過將權(quán)重以 Mask ROM 形式與計算邏輯同層集成,從根本上消除了這個瓶頸。代價是靈活性的徹底喪失,但如果應(yīng)用場景允許這種剛性,換來的性能和成本優(yōu)勢是實打?qū)嵉摹?/p>

Bajic 還透露,Taalas 能用單個晶體管同時存儲 4-bit 模型參數(shù)并完成乘法運算。他拒絕透露更多,但確認計算仍然是全數(shù)字的。如果屬實,這意味著 Taalas 在電路層面實現(xiàn)了一種極為高效的存內(nèi)計算(Compute-in-Memory)機制,雖然不同于學術(shù)界討論較多的模擬存內(nèi)計算方案,但目標一致:讓數(shù)據(jù)就地參與運算,不再搬來搬去。

硬接線芯片還帶來了一個意想不到的副產(chǎn)品:軟件棧的極度簡化。Bajic 說“軟件作為一個東西基本消失了”,公司只有一個工程師負責軟件棧,而且這人還兼顧其他工作。對比當前 GPU 推理系統(tǒng)中 vLLM、TensorRT-LLM、PagedAttention 等復雜軟件優(yōu)化層的工程投入,這種簡化幾乎是降維式的。當然,這種簡化是以極端硬件專用化為前提的,不具有一般性。

Bajic 在博客中用 ENIAC 到晶體管的演化做類比,暗示當前以 GPU 數(shù)據(jù)中心為核心的 AI 基礎(chǔ)設(shè)施可能只是早期的“笨重原型”,未來終將被更高效的方案取代。這個類比有一定道理,但也不宜過度引申。GPU 數(shù)據(jù)中心的“暴力”不僅僅是硬件層面的,它背后是整個 CUDA 軟件生態(tài)、成熟的開發(fā)工具鏈和龐大的工程師社區(qū)。顛覆硬件容易,顛覆生態(tài)難。Taalas 的芯片或許在特定場景下?lián)碛袎旱剐缘男阅芎统杀緝?yōu)勢,但要成為主流路線的替代方案,需要的遠不止一顆跑得快的芯片。

不過,Taalas 可能也從未打算成為“替代方案”。Kharya 表示:“模型最優(yōu)硅片不會取代滿是 GPU 的大型數(shù)據(jù)中心,但它會適合某些應(yīng)用。”

參考資料:

1.https://taalas.com/the-path-to-ubiquitous-ai/

2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國男籃贏球不到12小時,郭士強登上日本體育頭版,若處理不好或會追罰!

中國男籃贏球不到12小時,郭士強登上日本體育頭版,若處理不好或會追罰!

隱于山海
2026-02-27 12:47:05
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
TVB歌手被指失去一哥地位,本尊親回:無乜所謂

TVB歌手被指失去一哥地位,本尊親回:無乜所謂

粵睇先生
2026-02-27 21:36:47
WTT大滿貫女單4強名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

WTT大滿貫女單4強名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

呂彍極限手工
2026-02-27 10:11:18
揭秘注冊“不用實名”的國際版支付寶,每天能賺三五萬?

揭秘注冊“不用實名”的國際版支付寶,每天能賺三五萬?

流蘇晚晴
2026-02-22 15:12:40
電力股大漲!001896,斬獲7連板

電力股大漲!001896,斬獲7連板

證券時報
2026-02-27 17:03:08
賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

軒逸阿II
2026-01-20 07:54:29
3月一口氣放出10部好萊塢大片?!

3月一口氣放出10部好萊塢大片?!

君君電影院
2026-02-26 22:05:14
死了一個女人,埋葬半個王朝

死了一個女人,埋葬半個王朝

我是歷史其實挺有趣
2026-02-27 15:23:11
馬筱梅大方曬幸福,坦言不會喂奶、拍嗝,育兒重任全都交給汪小菲

馬筱梅大方曬幸福,坦言不會喂奶、拍嗝,育兒重任全都交給汪小菲

一盅情懷
2026-02-27 15:36:08
日本主帥:當廖三寧登場時我們需要用協(xié)防去針對,他比趙睿更難防

日本主帥:當廖三寧登場時我們需要用協(xié)防去針對,他比趙睿更難防

林小湜體育頻道
2026-02-27 03:05:04
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
黃金白銀,集體下跌

黃金白銀,集體下跌

第一財經(jīng)資訊
2026-02-27 09:54:21
恐高女游客游樂園玩蹦極 跳下后因太緊張把自己嚇暈 工作人員:十幾秒就清醒了 身體無礙

恐高女游客游樂園玩蹦極 跳下后因太緊張把自己嚇暈 工作人員:十幾秒就清醒了 身體無礙

閃電新聞
2026-02-27 16:18:28
“閨女,回婆家坐月子,你哥要結(jié)婚”“阿姨,房是我這個外人的”

“閨女,回婆家坐月子,你哥要結(jié)婚”“阿姨,房是我這個外人的”

秀秀情感課堂
2026-02-27 19:30:03
北京市公安局發(fā)布通告!3月1日零時起——

北京市公安局發(fā)布通告!3月1日零時起——

BRTV新聞
2026-02-27 14:59:34
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
Opta歐冠奪冠概率預測:阿森納高居榜首,皇馬幾率驟降

Opta歐冠奪冠概率預測:阿森納高居榜首,皇馬幾率驟降

星耀國際足壇
2026-02-27 23:23:49
離開美國是“最正確的決定”:《復仇者聯(lián)盟》演員稱不喜歡洛杉磯

離開美國是“最正確的決定”:《復仇者聯(lián)盟》演員稱不喜歡洛杉磯

TVB的四小花
2026-02-27 02:00:18
2-1,38歲梅西遭抱摔+替補登場一劍封喉,率隊終結(jié)2場比賽不勝

2-1,38歲梅西遭抱摔+替補登場一劍封喉,率隊終結(jié)2場比賽不勝

側(cè)身凌空斬
2026-02-27 10:56:26
2026-02-28 01:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16333文章數(shù) 514665關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

東莞純電公交大面積停運 公司5.5億索賠"砍"至6400萬

頭條要聞

東莞純電公交大面積停運 公司5.5億索賠"砍"至6400萬

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
手機
公開課

藝術(shù)要聞

紫氣東來,好運一整年!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

蜜雪冰城主題樂園來了 選址已"出爐"!在河南總部

手機要聞

榮耀600系列再次被確認:9000mAh+兩億像素,處理器有懸念!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版