国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)盤AI芯片技術(shù)路線 專用芯片復(fù)刻礦機(jī)歷程

0
分享至

近期,境外Taalas公司展示了一種非傳統(tǒng)的AI硬件路線,他們將Llama 3.1 8B模型在物理層面直接“硬連線”到了一顆芯片中。這種“模型即硬件”的設(shè)計(jì),放棄了傳統(tǒng)的軟件加載與運(yùn)行模式,實(shí)現(xiàn)了模型參數(shù)的物理固化。

如果你在其實(shí)際演示網(wǎng)站中體驗(yàn),最直觀的改變是極低的輸出延遲。與目前常見的逐字生成的流式輸出不同,其文本近乎瞬間完整呈現(xiàn)。這并非單純的工程優(yōu)化,而是對(duì)當(dāng)前AI算力底層架構(gòu)瓶頸的一次直接回應(yīng)。

內(nèi)存墻當(dāng)前AI算力的核心限制

要理解Taalas的路線,需要審視當(dāng)前GPU架構(gòu)在運(yùn)行大模型時(shí)面臨的“內(nèi)存墻”效應(yīng)。

目前,計(jì)算核心的處理速度已遠(yuǎn)遠(yuǎn)超過顯存的讀寫帶寬。在模型推理時(shí),系統(tǒng)必須不斷將龐大的參數(shù)從顯存搬運(yùn)至計(jì)算單元,計(jì)算完成后再進(jìn)行回寫。這導(dǎo)致系統(tǒng)的大部分時(shí)間與能耗實(shí)際上消耗在了數(shù)據(jù)傳輸?shù)穆飞?,而非真正的矩陣運(yùn)算。

在Agent應(yīng)用逐漸普及的背景下,這一效率損耗被進(jìn)一步放大。當(dāng)Agent需要執(zhí)行復(fù)雜的思維鏈推理或大量高頻的自我迭代時(shí),底層頻繁的數(shù)據(jù)搬運(yùn)會(huì)帶來顯著的延遲。盡管英偉達(dá)的H200、B200等頂級(jí)GPU在持續(xù)推高硬件規(guī)格,但通用計(jì)算架構(gòu)在運(yùn)行特定模型時(shí),必然存在因數(shù)據(jù)搬運(yùn)帶來的效率折損。

面對(duì)這一問題,Taalas的解決思路非常直接。既然搬運(yùn)數(shù)據(jù)的成本過高,就通過硬件級(jí)別的定制,直接在物理結(jié)構(gòu)上省去參數(shù)調(diào)取的環(huán)節(jié)。

三種算力卡演進(jìn)路線

探討Taalas的技術(shù)路線前,有必要重新審視“專用集成電路(ASIC)”中“專用”的定界。當(dāng)前主流的AI芯片架構(gòu)大致可劃分為三種演進(jìn)方向:

英偉達(dá)GPU:以通用性為核心的計(jì)算架構(gòu)

英偉達(dá)GPU的核心優(yōu)勢(shì)在于極高的通用性。其底層設(shè)計(jì)通過海量的CUDA核心、Tensor Core,配合高帶寬顯存及先進(jìn)封裝,實(shí)現(xiàn)對(duì)各類算法和任務(wù)的廣泛兼容。這種架構(gòu)的代價(jià)是面臨較高的成本與功耗,并且在執(zhí)行具體任務(wù)時(shí),由于數(shù)據(jù)必須在顯存和計(jì)算核心之間頻繁調(diào)度,始終受制于內(nèi)存帶寬瓶頸。

傳統(tǒng)NPU/AI加速器:專用ASIC

以昇騰、寒武紀(jì)等為代表的NPU,其“專用性”體現(xiàn)在針對(duì)特定任務(wù)類型的架構(gòu)優(yōu)化。這類硬件提供了一套專用的AI指令集,能夠高效處理被拆解為基礎(chǔ)矩陣運(yùn)算的各類模型。但在硬件結(jié)構(gòu)上,它們依然保留了可編程邏輯與通用存儲(chǔ)空間,模型權(quán)重仍需從存儲(chǔ)單元搬運(yùn)至計(jì)算核心,并未從根本上消除數(shù)據(jù)調(diào)度帶來的延遲與功耗損耗。

Taalas:面向特定權(quán)重的模型級(jí)ASIC

Taalas選擇了更為激進(jìn)的定制化路線。其“專用性”直接下探至特定的模型算法與參數(shù)權(quán)重。該架構(gòu)舍棄了通用的指令集和取指邏輯,將特定的模型權(quán)重通過金屬布線直接固化在電路層面,實(shí)現(xiàn)了“硬件即模型”。

通過這種硬連線設(shè)計(jì),Taalas移除了傳統(tǒng)架構(gòu)中用于數(shù)據(jù)搬運(yùn)、緩存和尋址的絕大部分邏輯電路。數(shù)據(jù)流經(jīng)硬件即等同于完成計(jì)算,直接跳過了傳統(tǒng)計(jì)算架構(gòu)中“取指令、讀數(shù)據(jù)、執(zhí)行、寫回”的循環(huán),從而在物理層面上規(guī)避了內(nèi)存帶寬的限制。

將這三條路線放在一起對(duì)比,其底層架構(gòu)的差異一目了然:


從算法固化到物理重構(gòu)

理解了上述的技術(shù)路線分野,就能更清晰地看到Taalas方案的工程價(jià)值。他們放棄了讓通用GPU去“適配”大模型的傳統(tǒng)思路,轉(zhuǎn)而采取逆向工程,直接根據(jù)特定大模型的邏輯,反向定制硬件。這一過程,本質(zhì)上是一次從“算法硬化”到“物理流片”的完整重構(gòu)。

具體的實(shí)施路徑可以拆解為四個(gè)關(guān)鍵環(huán)節(jié)。首先,團(tuán)隊(duì)選定架構(gòu)相對(duì)穩(wěn)定的大模型(如Llama 3.1),對(duì)其進(jìn)行深度量化,并通過專用的EDA編譯器,將復(fù)雜的數(shù)學(xué)邏輯直接轉(zhuǎn)換為邏輯門電路圖。接著,利用自動(dòng)化設(shè)計(jì)流程,將龐大的權(quán)重參數(shù)直接“刻”在芯片頂層的金屬布線中。這意味著,模型參數(shù)不再是儲(chǔ)存于外部?jī)?nèi)存、需要頻繁搬運(yùn)的數(shù)據(jù),而是直接成為了硬件電路的物理組成部分。隨后,在制造環(huán)節(jié),由于去除了昂貴的HBM顯存和復(fù)雜的CoWoS先進(jìn)封裝,該方案可以選擇臺(tái)積電N6等成熟制程進(jìn)行流片,大幅降低了生產(chǎn)成本與工藝門檻。最終,這種基于“金屬掩膜定制”的ASIC方案,能夠在約60天的周期內(nèi)完成從軟件算法到硅片硬件的轉(zhuǎn)化,交付出一顆專屬于特定模型的“硬連線”芯片。

根據(jù)2026年2月的公開資料,這顆被命名為Taalas HC1的芯片展現(xiàn)出了顯著的性能指標(biāo)。在吞吐量方面,單顆芯片運(yùn)行Llama 3.1 8B模型時(shí),推理速度可達(dá)16,000至17,000 Tokens/秒,在量級(jí)上超越了傳統(tǒng)的GPU架構(gòu)。同時(shí),其系統(tǒng)延遲被控制在1毫秒以內(nèi),實(shí)現(xiàn)了極高的交互實(shí)時(shí)性。在能效與成本控制上,相比主流GPU,其能效比提升了約10倍;而得益于對(duì)HBM顯存和復(fù)雜冷卻系統(tǒng)的剝離,生產(chǎn)成本則降低了約20倍。

人類的平均閱讀速度約為每秒5個(gè)詞,該芯片單秒輸出的文本量,相當(dāng)于人類一個(gè)小時(shí)的常規(guī)閱讀量。此外,項(xiàng)目的工程效率同樣值得關(guān)注,整個(gè)項(xiàng)目由24名工程師耗資約3000萬美元完成。在“每秒每用戶Token數(shù)”這一核心評(píng)估維度上,Taalas HC1相較于Nvidia H200、B200以及Groq等競(jìng)品,展現(xiàn)出了明顯的底層架構(gòu)優(yōu)勢(shì)。


客觀而言,該方案目前仍存在局限性,現(xiàn)階段僅提供了4bit量化版本的Llama 3.1 8B模型演示,尚未能全面勝任復(fù)雜多變的生產(chǎn)級(jí)任務(wù)。但這套已經(jīng)跑通的工程流程,足以證明“模型即硬件”的路線具備現(xiàn)實(shí)可行性,為打破當(dāng)前AI算力的內(nèi)存墻瓶頸提供了一種全新的破局思路。

當(dāng)推理跨越延遲鴻溝

業(yè)界普遍將2026年視作Agent應(yīng)用落地的關(guān)鍵節(jié)點(diǎn)。然而,Agent要真正實(shí)現(xiàn)大規(guī)模普及,其底層前提在于,推理過程必須具備極低的延遲與成本。Taalas這種高度定制化的物理固化方案,有望在以下幾個(gè)核心場(chǎng)景中打破現(xiàn)有算力的物理瓶頸。

在復(fù)雜決策與推演場(chǎng)景中,當(dāng)Agent需要在極短時(shí)間內(nèi)模擬大量方案并輸出最優(yōu)解時(shí),單芯片每秒過萬Token的吞吐量將提供堅(jiān)實(shí)的底層支撐。無論是高頻金融交易、實(shí)時(shí)策略推演,還是復(fù)雜的多步邏輯規(guī)劃,算力延遲將不再是制約系統(tǒng)表現(xiàn)的短板。

對(duì)于具身智能而言,消除數(shù)據(jù)傳輸延遲是其走向現(xiàn)實(shí)的關(guān)鍵。若將此類ASIC芯片直接集成至機(jī)器人的硬件系統(tǒng)中,其推理延遲可壓縮至毫秒級(jí)。這意味著機(jī)器人在物理世界中能夠進(jìn)行高頻的實(shí)時(shí)決策,如避障、抓取與人機(jī)協(xié)作,徹底消除傳統(tǒng)云端通信帶來的遲滯感。

在本地化計(jì)算與數(shù)字分身領(lǐng)域,近期openClaw等應(yīng)用的受關(guān)注,再次引發(fā)了業(yè)界對(duì)云端數(shù)據(jù)處理隱私風(fēng)險(xiǎn)的討論。Taalas的方案本質(zhì)上提供了一種端側(cè)的高效算力節(jié)點(diǎn)。未來可能出現(xiàn)類似家用路由器的本地“Agent節(jié)點(diǎn)”,在不依賴網(wǎng)絡(luò)的前提下,憑借固化模型的低功耗與高隱私特性,實(shí)現(xiàn)個(gè)人數(shù)據(jù)的本地化閉環(huán)處理。這種物理層面的數(shù)據(jù)隔離,從根源上規(guī)避了隱私泄露風(fēng)險(xiǎn)。

更進(jìn)一步,從邊緣計(jì)算的角度來看,在特定或單一應(yīng)用場(chǎng)景下,企業(yè)或個(gè)人部署大模型可能不再需要構(gòu)建高成本的算力集群。只需在本地PC或局域網(wǎng)服務(wù)器配備搭載特定開源模型的專用算力卡,即可實(shí)現(xiàn)高速、低成本的模型全量復(fù)用。

靈活性與專用化的技術(shù)選擇

顯然,這種極端的固化方案面臨著關(guān)于“靈活性”的嚴(yán)峻拷問。當(dāng)?shù)讓幽P透聯(lián)Q代時(shí),已經(jīng)物理流片的芯片是否會(huì)迅速淪為沉沒成本?這是所有專用計(jì)算架構(gòu)都必須回應(yīng)的質(zhì)疑。

Taalas的應(yīng)對(duì)邏輯在于其極短的工程流片周期。在約60天的研發(fā)交付速度下,“模型即硬件”的模式實(shí)際上改變了芯片的生命周期定義。隨著前期約3000萬美元的開發(fā)成本在規(guī)?;a(chǎn)中被迅速攤薄,硬件的更新節(jié)奏有望與模型的迭代周期實(shí)現(xiàn)同步。未來,終端設(shè)備升級(jí)大模型,可能將簡(jiǎn)化為更換一塊低成本的物理算力模塊。

這一路線之爭(zhēng),最終觸及了當(dāng)前AI基礎(chǔ)設(shè)施的核心議題,即行業(yè)正處于一個(gè)關(guān)鍵的技術(shù)分水嶺。一端是追求極致通用性但成本與功耗高昂的GPU架構(gòu),另一端是犧牲通用性以換取極致能效與單點(diǎn)性能的特定任務(wù)ASIC。

歷史的技術(shù)演進(jìn)往往具有相似性。正如加密貨幣挖礦經(jīng)歷了從通用CPU到GPU,最終被專用ASIC礦機(jī)全面主導(dǎo)的過程;當(dāng)AI大模型的底層架構(gòu)逐漸收斂、特定算法趨于穩(wěn)定時(shí),專用的推理芯片極有可能復(fù)刻這一路徑,在推理端重塑現(xiàn)有的AI算力市場(chǎng)格局。

算法定義硬件的范式轉(zhuǎn)移

Taalas的設(shè)計(jì)可以被視為“模型級(jí)專用ASIC”。其之所以在當(dāng)下節(jié)點(diǎn)具備落地的可能,核心動(dòng)因在于大模型發(fā)展環(huán)境的宏觀變遷。當(dāng)前,國(guó)內(nèi)外主流大模型的底層架構(gòu)與性能表現(xiàn)已呈現(xiàn)出明顯的趨同態(tài)勢(shì)。當(dāng)模型算法步入收斂期,高度專用的硬件定制便具備了產(chǎn)業(yè)層面的生存土壤?;仡檹挠ミ_(dá)GPU、寒武紀(jì)NPU再到Taalas的演進(jìn)路線,本質(zhì)上正是AI芯片在舍棄部分通用性的同時(shí),向極致專用性能不斷傾斜的歷程。以此觀之,單芯片每秒1.7萬Token的吞吐量,僅僅是這一硬件演進(jìn)趨勢(shì)的開端。

客觀而言,通用計(jì)算架構(gòu)并不會(huì)因此走向消亡。在訓(xùn)練前沿模型、探索全新架構(gòu)以及應(yīng)對(duì)長(zhǎng)尾和未知應(yīng)用場(chǎng)景時(shí),以英偉達(dá)GPU為代表的通用算力依然具有不可替代的地位。但在推理端,面對(duì)模型結(jié)構(gòu)固定、任務(wù)目標(biāo)單一的應(yīng)用場(chǎng)景,專用芯片在能效比與性價(jià)比上的底層優(yōu)勢(shì)將逐步顯現(xiàn)。簡(jiǎn)而言之,不同架構(gòu)的AI芯片在生態(tài)中并非絕對(duì)的零和博弈,而是各司其職的互補(bǔ)關(guān)系。未來的算力市場(chǎng)格局,將取決于各類計(jì)算架構(gòu)如何在自身的優(yōu)勢(shì)區(qū)間內(nèi),精準(zhǔn)匹配并落地對(duì)應(yīng)的核心應(yīng)用。

從英偉達(dá)到寒武紀(jì),再到Taalas,就是AI芯片通用性逐漸降低,專用性能逐步提升。

對(duì)于模型收斂,任務(wù)單一的應(yīng)用,專用芯片有更好的能效比、性價(jià)比,但在探索未知,任務(wù)多樣化的應(yīng)用,英偉達(dá)的GPU依然不可撼動(dòng)。

簡(jiǎn)言之,各類AI芯片之間不是取代關(guān)系,而是互補(bǔ)關(guān)系,關(guān)鍵在于挖掘出自己的比較優(yōu)勢(shì)和殺手級(jí)應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
近4戰(zhàn)30投29分!本賽季最被高估交易,科爾沒看走眼,還不如波神

近4戰(zhàn)30投29分!本賽季最被高估交易,科爾沒看走眼,還不如波神

你的籃球頻道
2026-03-28 11:58:56
民眾黨明天上凱道力挺柯文哲,蔣萬安:已有行程安排,無法出席

民眾黨明天上凱道力挺柯文哲,蔣萬安:已有行程安排,無法出席

海峽導(dǎo)報(bào)社
2026-03-28 10:21:05
這些“垃圾花”也該被315曝光,別再坑害花友了,白送都不能要

這些“垃圾花”也該被315曝光,別再坑害花友了,白送都不能要

三農(nóng)老歷
2026-03-20 00:32:02
特朗普舊招重演!美國(guó)突然大規(guī)模增兵,第二個(gè)馬杜羅即將到來?

特朗普舊招重演!美國(guó)突然大規(guī)模增兵,第二個(gè)馬杜羅即將到來?

近史閣
2026-03-28 12:04:09
荷甲維特斯時(shí)期前隊(duì)友,張玉寧賽后與庫(kù)拉索門將魯姆合影

荷甲維特斯時(shí)期前隊(duì)友,張玉寧賽后與庫(kù)拉索門將魯姆合影

懂球帝
2026-03-27 17:51:13
一鯨落而萬物生 他們都是瑞典高塔倒下后迎來碧海藍(lán)天的神鋒

一鯨落而萬物生 他們都是瑞典高塔倒下后迎來碧海藍(lán)天的神鋒

笑男聊體壇
2026-03-27 13:40:37
巨乳性感綁帶渾圓大腿!日本格斗游戲勁爆手辦預(yù)告

巨乳性感綁帶渾圓大腿!日本格斗游戲勁爆手辦預(yù)告

游民星空
2026-03-25 19:48:32
35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

丫頭舫
2026-03-03 21:33:10
41歲張雪峰離世,峰學(xué)蔚來接班人正式浮出水面

41歲張雪峰離世,峰學(xué)蔚來接班人正式浮出水面

秋姐居
2026-03-25 17:02:04
兩性關(guān)系:男人要明白,女人無論多大年齡,都有這樣一個(gè)需求

兩性關(guān)系:男人要明白,女人無論多大年齡,都有這樣一個(gè)需求

伊人河畔
2026-02-28 15:09:25
巴薩暴怒!拉菲尼亞重傷:休戰(zhàn)5周+無緣6場(chǎng)惡戰(zhàn) 弗里克批他太魯莽

巴薩暴怒!拉菲尼亞重傷:休戰(zhàn)5周+無緣6場(chǎng)惡戰(zhàn) 弗里克批他太魯莽

風(fēng)過鄉(xiāng)
2026-03-28 06:12:10
剛剛,伊朗導(dǎo)彈再襲美軍基地,“數(shù)架加油機(jī)被摧毀或重創(chuàng)”!伊朗已動(dòng)員超過100萬名作戰(zhàn)人員,警告打擊以色列及多國(guó)鋼鐵廠

剛剛,伊朗導(dǎo)彈再襲美軍基地,“數(shù)架加油機(jī)被摧毀或重創(chuàng)”!伊朗已動(dòng)員超過100萬名作戰(zhàn)人員,警告打擊以色列及多國(guó)鋼鐵廠

每日經(jīng)濟(jì)新聞
2026-03-28 01:21:05
清純得不像動(dòng)作片女一號(hào)!

清純得不像動(dòng)作片女一號(hào)!

貴圈真亂
2026-03-26 11:33:33
遺憾!3次活命機(jī)會(huì)都沒抓??!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

遺憾!3次活命機(jī)會(huì)都沒抓??!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

奇思妙想草葉君
2026-03-26 02:36:58
《逐玉》要不是宋硯被武安侯嚇暈,樊長(zhǎng)玉至死不知,宋硯退婚的原因,不是不愛太現(xiàn)實(shí)

《逐玉》要不是宋硯被武安侯嚇暈,樊長(zhǎng)玉至死不知,宋硯退婚的原因,不是不愛太現(xiàn)實(shí)

糖逗在娛樂
2026-03-27 07:32:43
保定一小店售賣咸菜絲燒餅意外爆火,排隊(duì)人數(shù)太多店鋪宣布暫停營(yíng)業(yè),店主:流量太大了,我們承接不住,也擔(dān)心影響燒餅品質(zhì)

保定一小店售賣咸菜絲燒餅意外爆火,排隊(duì)人數(shù)太多店鋪宣布暫停營(yíng)業(yè),店主:流量太大了,我們承接不住,也擔(dān)心影響燒餅品質(zhì)

極目新聞
2026-03-26 22:43:02
杜魯門問:中國(guó)參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問,結(jié)果如何

杜魯門問:中國(guó)參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問,結(jié)果如何

小莜讀史
2026-03-21 13:57:27
甜馨媽媽大孤山祈福,臉部憔悴,簡(jiǎn)直像變了一個(gè)人

甜馨媽媽大孤山祈福,臉部憔悴,簡(jiǎn)直像變了一個(gè)人

喜歡歷史的阿繁
2026-03-27 15:15:41
騎士149-128大勝熱火,哈登17+5+14,誰是本場(chǎng)最佳?數(shù)據(jù)不會(huì)說謊!

騎士149-128大勝熱火,哈登17+5+14,誰是本場(chǎng)最佳?數(shù)據(jù)不會(huì)說謊!

劉哥談體育
2026-03-28 13:08:53
以色列害怕美伊和談??jī)?nèi)塔尼亞胡的戰(zhàn)場(chǎng)目標(biāo),恐在談判桌上落空!

以色列害怕美伊和談??jī)?nèi)塔尼亞胡的戰(zhàn)場(chǎng)目標(biāo),恐在談判桌上落空!

清歡百味
2026-03-28 13:55:00
2026-03-28 14:35:00
鐵流1988
鐵流1988
芯片、通信
352文章數(shù) 72關(guān)注度
往期回顧 全部

科技要聞

遭中國(guó)學(xué)界"拉黑"后,這家AI頂會(huì)低頭道歉

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國(guó) 卻被美移出獵殺名單

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國(guó) 卻被美移出獵殺名單

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

王一博改名上熱搜!個(gè)人時(shí)代正式開啟!

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

本地
家居
數(shù)碼
房產(chǎn)
軍事航空

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

數(shù)碼要聞

華碩新款商務(wù)本ExpertBook B3 G1,配置超豐富!

房產(chǎn)要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

軍事要聞

伊朗:已組織超100萬人為地面戰(zhàn)斗做準(zhǔn)備

無障礙瀏覽 進(jìn)入關(guān)懷版