国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一家AI芯片初創(chuàng)公司:不搞ASIC,用FPGA

0
分享至

公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。

今天,總部位于西雅圖的人工智能硬件初創(chuàng)公司ElastixAI正式亮相。該公司由前蘋果和 Meta 機(jī)器學(xué)習(xí)工程師創(chuàng)立,推出了一款基于 FPGA 的推理平臺(tái)。該公司聲稱,與基于 Nvidia GPU 的部署相比,該平臺(tái)在大型語(yǔ)言模型推理方面可降低高達(dá) 50 倍的總擁有成本和 80% 的功耗。

該公司于 2025 年 5 月完成了由 Fuse VC 領(lǐng)投的 1800 萬(wàn)美元種子輪融資,其 Elastix Rack 產(chǎn)品定位為 GPU 服務(wù)器基礎(chǔ)設(shè)施的即插即用替代品,計(jì)劃于 2026 年年中首次出貨。

在發(fā)布會(huì)之前,外媒采訪了聯(lián)合創(chuàng)始人Mohammad Rastegari(首席執(zhí)行官)、Saman Naderiparizi(首席技術(shù)官)和Mahyar Najibi(首席戰(zhàn)略官),向我們闡述了 FPGA 比 GPU 更適合 LLM 推理的技術(shù)原因,以及他們?yōu)槭裁凑J(rèn)為時(shí)機(jī)成熟。

人工智能訓(xùn)練與人工智能推理

他們的核心論點(diǎn)是,GPU 的設(shè)計(jì)初衷是處理計(jì)算密集型工作負(fù)載,例如 LLM 訓(xùn)練。但當(dāng)處理內(nèi)存密集型工作負(fù)載(例如 LLM 推理)時(shí),GPU 的效率會(huì)降低,計(jì)算利用率也會(huì)大幅下降。“訓(xùn)練嚴(yán)重依賴計(jì)算,而推理嚴(yán)重依賴內(nèi)存,”Rastegari 說(shuō)。這種不匹配導(dǎo)致推理過程中 GPU 的計(jì)算利用率很低。


硬件的不靈活性加劇了這個(gè)問題:4 位量化理論上可以使吞吐量翻倍,但 Rastegari 指出,在像 H100 這樣缺乏原生支持的硬件上,運(yùn)營(yíng)商“不得不圍繞它構(gòu)建一個(gè)軟件內(nèi)核,而這個(gè)內(nèi)核只能利用其 10% 的潛力”。

頂級(jí)加速器依賴于速度最快、價(jià)格最昂貴的內(nèi)存,而 ElastixAI 則專注于真正影響總體擁有成本 (TCO) 的指標(biāo):每帶寬成本和每容量成本。通過利用機(jī)器學(xué)習(xí)定義的軟件專用化,ElastixAI 能夠從運(yùn)行在商用現(xiàn)成 FPGA 服務(wù)器上的低成本硬件(例如,先進(jìn)的 DDR 和 HBM)中榨取最大性能。據(jù)該團(tuán)隊(duì)稱,這種方法能夠以遠(yuǎn)低于業(yè)界頂級(jí)內(nèi)存的每 GB 成本,提供高性能推理所需的內(nèi)存帶寬。

為什么選擇FPGA而不是定制芯片

FPGA 相較于定制芯片的優(yōu)勢(shì)在于機(jī)器學(xué)習(xí)的發(fā)展速度遠(yuǎn)超芯片開發(fā)周期。Rastegari 是 Xnor.ai 的聯(lián)合創(chuàng)始人,該公司于 2020 年被蘋果以約 2 億美元收購(gòu)。Rastegari 后來(lái)領(lǐng)導(dǎo)了 Meta 的 Llama 405B 模型的推理優(yōu)化工作。他指出,混合專家模型就是一個(gè)此前存在風(fēng)險(xiǎn)的例證。

“當(dāng)時(shí)許多公司都在籌集資金,準(zhǔn)備基于現(xiàn)有技術(shù)開發(fā)芯片,但隨后混合專家算法出現(xiàn)了。”他說(shuō)道,“突然之間,這些公司不得不重新設(shè)計(jì)芯片以支持混合專家算法,而這種算法在他們最初的設(shè)計(jì)過程中并不存在。”問題顯而易見。定制芯片從設(shè)計(jì)到生產(chǎn)需要三年多的時(shí)間;而機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展可能在短短幾個(gè)月內(nèi)就徹底改變這一進(jìn)程。

推理吞吐量需求也印證了這一點(diǎn)。Rastegari 加入 Meta 時(shí),每秒 20 個(gè)詞元足以滿足語(yǔ)音交互的需求?!暗珜?duì)于推理而言,你需要更快地在后臺(tái)生成詞元;現(xiàn)在需要每秒 200 個(gè)詞元?!?隨著這些需求的變化,F(xiàn)PGA 可以重新配置。

“通用性和效率之間存在著根本性的權(quán)衡。一旦你想要更通用,就會(huì)降低效率,因?yàn)槟惚仨氃黾宇~外的硅片來(lái)覆蓋許多不同的工作負(fù)載?!?/p>

Rastegari認(rèn)為,Transformer架構(gòu)目前在結(jié)構(gòu)上足夠穩(wěn)定,可以進(jìn)行FPGA實(shí)現(xiàn),而底層優(yōu)化層仍在快速發(fā)展,因此鎖定固定的芯片設(shè)計(jì)仍然存在風(fēng)險(xiǎn)。關(guān)于最終是否會(huì)流片定制芯片的問題,他謹(jǐn)慎地表示:“決定我們何時(shí)以及是否流片芯片的,實(shí)際上取決于機(jī)器學(xué)習(xí)改進(jìn)的速度。”


功率、成本和機(jī)架兼容性

Naderiparizi 謹(jǐn)慎地對(duì)主要性能數(shù)據(jù)進(jìn)行了限定。他表示:“根據(jù)我們采用的令牌速率,與英偉達(dá) B200 相比,我們可以在成本方面實(shí)現(xiàn) 10 倍甚至 50 倍的性能提升。”他指出,這一范圍反映了目標(biāo)用戶不同的“每用戶延遲”(或者說(shuō)每秒每用戶令牌數(shù))。

這些數(shù)據(jù)涵蓋了整個(gè)數(shù)據(jù)中心部署的資本支出和運(yùn)營(yíng)支出,并通過與FPGA制造商和數(shù)據(jù)中心運(yùn)營(yíng)商的合作驗(yàn)證。在功耗方面,Naderiparizi表示,在相同吞吐量下,每個(gè)令牌的功耗降低了五倍。

Elastix 機(jī)架符合標(biāo)準(zhǔn)的 17-19 kW 機(jī)架功率范圍,并采用空氣冷卻,而 Nvidia 的 GB200 NVL72 需要 120 kW 至 200 kW 的功率以及大多數(shù)現(xiàn)有數(shù)據(jù)中心無(wú)法支持的專用液冷基礎(chǔ)設(shè)施。

直接替換

集成是通過 vLLM 插件實(shí)現(xiàn)的,該插件替換了 Nvidia CUDA 后端,同時(shí)保持前端 OpenAI 兼容 API 不變,因此從 GPU 基礎(chǔ)架構(gòu)遷移的運(yùn)營(yíng)商無(wú)需修改其應(yīng)用程序堆棧。

ElastixAI計(jì)劃最終向機(jī)器學(xué)習(xí)研究人員開放其模型轉(zhuǎn)換工具——Naderiparizi明確地將這一策略與Nvidia構(gòu)建CUDA生態(tài)系統(tǒng)的方式進(jìn)行了比較?!捌鸪酰琋vidia免費(fèi)向研究人員發(fā)布其軟件。但問題在于,CUDA是為Nvidia服務(wù)的——人們?yōu)镃UDA框架開發(fā)的任何東西都會(huì)對(duì)Nvidia有所幫助。” ElastixAI計(jì)劃圍繞其自身平臺(tái)構(gòu)建同樣的開發(fā)者良性循環(huán)。

創(chuàng)始團(tuán)隊(duì)成員還包括納吉比 (Najibi),他曾為蘋果智能團(tuán)隊(duì)做出貢獻(xiàn),此前還擔(dān)任過 Waymo 的首席科學(xué)家。公司董事會(huì)成員之一是喬恩·格爾西(Jon Gelsey ),他曾擔(dān)任 Xnor.ai 的首席執(zhí)行官,也是 Auth0 的創(chuàng)始首席執(zhí)行官,Auth0 后來(lái)被 Okta 以 65 億美元收購(gòu)。格爾西目前擔(dān)任 ElastixAI 的戰(zhàn)略和市場(chǎng)營(yíng)銷主管。

ElastixAI 目前僅面向部分企業(yè)合作伙伴和數(shù)據(jù)中心運(yùn)營(yíng)商開放,硬件出貨預(yù)計(jì)將于 2026 年年中開始。

(來(lái)源:編譯自allaboutcircuit)

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4329期內(nèi)容,歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新加坡人直言:比起海南封關(guān)帶來(lái)的威脅,更怕中國(guó)會(huì)幫泰國(guó)挖運(yùn)河

新加坡人直言:比起海南封關(guān)帶來(lái)的威脅,更怕中國(guó)會(huì)幫泰國(guó)挖運(yùn)河

云舟史策
2025-12-27 07:19:55
大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

大批美國(guó)游客涌入中國(guó),回國(guó)后坦言:客觀對(duì)比,中國(guó)比美國(guó)強(qiáng)多了

通文知史
2026-02-26 22:00:04
若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

貓叔東山再起
2026-03-01 12:40:03
日本天皇66歲生日當(dāng)天,日媒曝雅子皇后瀕臨離婚邊緣!22年前一通電話震動(dòng)整個(gè)皇室!

日本天皇66歲生日當(dāng)天,日媒曝雅子皇后瀕臨離婚邊緣!22年前一通電話震動(dòng)整個(gè)皇室!

東京新青年
2026-03-01 18:08:26
籌備3年耗資3.8億,星爺《女足》來(lái)襲,這一次,他能打贏翻身仗嗎

籌備3年耗資3.8億,星爺《女足》來(lái)襲,這一次,他能打贏翻身仗嗎

娛樂圈十三太保
2026-03-02 17:15:02
汪小菲要把滿月兒子綁在身上坐飛機(jī)?馬筱梅急了:干脆放籃子里!

汪小菲要把滿月兒子綁在身上坐飛機(jī)?馬筱梅急了:干脆放籃子里!

喜歡歷史的阿繁
2026-03-02 09:51:13
廣汽豐田2月銷量41809臺(tái):凱美瑞穩(wěn)定破萬(wàn) 漢蘭達(dá)同比大漲

廣汽豐田2月銷量41809臺(tái):凱美瑞穩(wěn)定破萬(wàn) 漢蘭達(dá)同比大漲

快科技
2026-03-02 11:22:07
成都無(wú)縫鋼管廠的那些事兒

成都無(wú)縫鋼管廠的那些事兒

寶哥精彩賽事
2026-03-02 00:58:40
黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

新游戲大妹子
2026-02-18 09:18:57
43年了,為什么那么多人懷念1983年?

43年了,為什么那么多人懷念1983年?

深度報(bào)
2026-02-28 22:25:37
“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個(gè)娃,替世界首富花錢

“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個(gè)娃,替世界首富花錢

北有南梔
2026-02-28 17:55:03
趙雅芝生圖近照曝光,頭發(fā)枯黃假發(fā)包明顯,濃妝強(qiáng)撐氣色一口錯(cuò)牙

趙雅芝生圖近照曝光,頭發(fā)枯黃假發(fā)包明顯,濃妝強(qiáng)撐氣色一口錯(cuò)牙

涵豆說(shuō)娛
2026-03-02 14:13:28
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國(guó)球迷開始理解斯普利特

一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國(guó)球迷開始理解斯普利特

球場(chǎng)沒跑道
2026-03-02 11:15:40
紐約期金突破5420美元/盎司

紐約期金突破5420美元/盎司

每日經(jīng)濟(jì)新聞
2026-03-02 15:25:10
雷軍直播介紹新一代SU7門把手:一旦發(fā)生碰撞,門鎖自動(dòng)切換機(jī)械解鎖模式

雷軍直播介紹新一代SU7門把手:一旦發(fā)生碰撞,門鎖自動(dòng)切換機(jī)械解鎖模式

紅星資本局
2026-02-28 00:37:03
伊朗反擊,不設(shè)紅線!以色列怎么也沒想到,自己才是最大冤大頭

伊朗反擊,不設(shè)紅線!以色列怎么也沒想到,自己才是最大冤大頭

肖茲探秘說(shuō)
2026-03-01 23:30:08
伊朗這次太出人意料,特朗普要后悔了,中東的天可能要變了

伊朗這次太出人意料,特朗普要后悔了,中東的天可能要變了

明人明察
2026-03-02 17:31:01
打人夫妻“社會(huì)性死亡”!村民曝更多黑幕,不止群毆女孩這么簡(jiǎn)單

打人夫妻“社會(huì)性死亡”!村民曝更多黑幕,不止群毆女孩這么簡(jiǎn)單

夢(mèng)錄的西方史話
2026-03-02 16:27:56
表現(xiàn)堪稱“災(zāi)難”:曼聯(lián)雖逆轉(zhuǎn)取勝,右路短板仍引眾怒

表現(xiàn)堪稱“災(zāi)難”:曼聯(lián)雖逆轉(zhuǎn)取勝,右路短板仍引眾怒

星耀國(guó)際足壇
2026-03-02 13:52:10
2026-03-02 20:11:00
半導(dǎo)體行業(yè)觀察 incentive-icons
半導(dǎo)體行業(yè)觀察
專注觀察全球半導(dǎo)體行業(yè)資訊
13051文章數(shù) 34825關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

健康
家居
手機(jī)
教育
房產(chǎn)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

手機(jī)要聞

盧偉冰回應(yīng)小米新機(jī)海外售價(jià)1.6萬(wàn)元:有信心沖擊iPhone!

教育要聞

26考研:理工專業(yè)成高分重災(zāi)區(qū),401分排名128位,390分只能調(diào)劑

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版