国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國內首家百億估值純推理GPU獨角獸誕生!專訪曦望聯(lián)席CEO王湛

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

杭州速度,這個詞組的含金量還在上升。

因為一家純推理GPU公司,在分拆獨立僅1年多時間里,竟已經完成了七輪融資,累計40億元!

而隨著前幾天最新一輪融資的曝光,還以10億元拿下今年這個賽道里最大單筆融資,一舉成為國內首家估值超百億的純推理GPU獨角獸。

它,就是曦望。



推理正在成為 AI 算力競速的新風口。今年英偉達GTC,直接拿收購來的Groq推出LPU,而國內,國產版Groq也在狂飆突進。

加之在幾乎所有國產GPU都在卷訓推一體、拼峰值算力的大環(huán)境下,曦望憑什么靠All in推理的路線,受到資本市場如此的青睞?

帶著這個問題,量子位與曦望聯(lián)席CEO王湛進行了一場深度對話。

這位百度創(chuàng)始團隊出身、親歷了中國互聯(lián)網(wǎng)從泡沫到繁榮全過程的行業(yè)老兵,不僅一語道破了資本追捧背后的核心邏輯,更從行業(yè)趨勢、技術路線、團隊組織與未來判斷四個維度,向我們勾勒出了一幅清晰的AI推理時代新藍圖。

算力需求的結構反轉了

時間撥回一兩年前,當百模大戰(zhàn)打得火熱時,市場最關心的指標是大模型的參數(shù)量、訓練集群的規(guī)模。但在2026年的當下,風向已經徹底變了。

訪談伊始,王湛就拋出了這樣的定調:

誰掌握最低的推理成本,誰就是贏家。

Agent的本質是讓AI不再局限于一問一答的聊天機器人,是要它成為能夠自主分析、學習并執(zhí)行復雜任務的智能實體。

而驅動這一切運轉的底層燃料,就是推理算力,或者更直白地說——Token。

這就帶來了一個巨大的行業(yè)拐點:算力需求的結構性反轉。

市場上最熱的就是推理算力需求,呈現(xiàn)出了指數(shù)級的增長。訓練算力的需求依然保持平穩(wěn),但在我們目前看到的數(shù)據(jù)中,整個2026年,AI推理計算的需求量將達到訓練算力需求的4-5倍。

這是推理算力第一次全面超越訓練算力,而且超越得如此迅猛。

為什么會產生這種反轉?答案藏在Agent的運行機制里。

過去,人跟AI交互是單次對話;但在Agent時代,為了完成一個任務,智能體會進行高頻的、多次的多輪調用和循環(huán)思考。

就像前幾天國外一個小哥,只是跟龍蝦說了一句“Hi”,就燒掉了80美元的Token。


△圖片由AI生成

對此,王湛強調:

這種方式使得整個Token的消耗,達到了過去人機交互方式的幾十倍甚至上百倍。在這個背景下,單位Token的成本就變得非常引人注目了。

換句話說,過去企業(yè)關心大模型“能不能用”,現(xiàn)在企業(yè)最關心的是“好不好用”以及“用不用得起”。

這也解釋了為什么從英偉達在GTC上強調“每瓦Token吞吐量”,到國內云廠商接連因為成本壓力調整算力價格,成本已經倒逼成為了技術演進的核心推手。

在王湛看來,降低成本不僅是商業(yè)訴求,更是技術普及的前提:

你只有將單位Token的成本出現(xiàn)大幅度降低,才能真正激活海量Agent的使用。不然這玩意兒再好用,用起來成本極高,大家也用不起。

而這,正是曦望在一開始就毅然決然選擇All in 推理的根本原因——推理,才是真正的AI工業(yè)化。

百萬Token一分錢,怎么做到?

如果說All in 推理是方向,那么如何在技術層面把成本真正打下來,就是對團隊工程化能力和供應鏈洞察力的極致大考。

面對那些既要訓練又要推理的客戶疑問,曦望的態(tài)度非常明確:

通用GPU如果用來做大集群訓練是很好的,但大規(guī)模推理場景其性價比往往不足。此外,智能體廣泛普及的趨勢下,推理算力還要能扛住高頻調用的極低延遲、能支撐長上下文的極致穩(wěn)定、能持續(xù)下降的單位Token成本。除了少數(shù)不計商業(yè)回報的特殊場景,從正常商業(yè)化角度來看,推理GPU是更有性價比優(yōu)勢的。

被市場發(fā)展印證了戰(zhàn)略前瞻性后,曦望亮出了他們的底牌:新一代推理GPU芯片——啟望S3。



這不僅僅是一次性能升級,更是一次對AI推理成本曲線的系統(tǒng)級重構:放棄訓練能力,專為大模型推理做原生深度定制。通過裁剪訓練態(tài)所需的模塊,將節(jié)省出的晶體管與功耗預算集中投向推理,讓單位面積有效算力效率提升5倍以上。曦望為S3定下的目標極具野心:要把百萬Token的成本壓至一分錢。

為了適應Agent時代KV Cache暴增、控制流復雜、多模型協(xié)同等痛點,S3在架構上進行了大刀闊斧的革新。

首先是計算層的深度定制。

通用GPU常常面臨算力用不滿的尷尬,而S3專為推理而生的AI Core架構,將GEMM和Flash Attention等核心算子的利用率硬生生拔高到了約99%與98%。同時,S3原生支持從FP16到FP4的全鏈路低精度運算,在模型效果接近無損的情況下,吞吐量翻了數(shù)倍。

其次是系統(tǒng)層的大膽創(chuàng)新,兩個國內第一,也是專門為長上下文和智能體準備的:

S3是國內第一個用LPDDR6的推理GPU,也兼容LPDDR5X,顯存最大可以做到接近600GB,是國內顯存容量最大的GPU;而且也是目前已發(fā)布的國產GPU里,第一個用上PCIe Gen6的,系統(tǒng)通信帶寬翻了一倍。

這兩個技術加起來,解決了長上下文記憶的瓶頸:S3能同時存更多用戶的對話記憶,處理更長的上下文,而且速度也快、成本大幅降低。

王湛對此解釋道:我們的目標非常明確:把單位Token的成本降90%,做出普惠的推理算力。

當然,能把LPDDR6和PCIe Gen6 這兩個業(yè)界最前沿的技術能順利調通、用起來,用出極高的性能,絕非易事,這極度依賴全棧自研和超群的工程能力。

王湛自豪地表示,曦望的硬件AI Core和軟件全棧都是100%自研。

GPU要真正發(fā)揮效能,必須是均衡的。你不能某一個地方極強,但中間卡著瓶頸。正是因為我們具備全棧自研能力,才能基于LPDDR6和PICe Gen6去做深度的調配與優(yōu)化,把它的效能真正壓榨出來。

但在堅持底層自主可控的同時,曦望并沒有封閉自己,而是實現(xiàn)了對CUDA生態(tài)99%+的兼容。

在外界看來,自主可控與兼容CUDA似乎存在天然的矛盾。但在王湛眼中,這完全是路線選擇的問題。

我們選擇了通用計算架構(GPU),而不是專用架構(ASIC)。通用架構保證了對各種客戶需求、不同Agent的極強適配性。在這個基礎上,我們通過自己寫底層代碼來兼容CUDA生態(tài)。這既保證了客戶零遷移成本的便利,又守住了我們底層的自主可控。這兩者并不矛盾。

曦望目前保持了每一代芯片都實現(xiàn)一次性流片成功并點亮。

這背后,其實是一支極其龐大且低調的驗證團隊在默默支撐。據(jù)透露,曦望團隊自主開發(fā)了全套的仿真驗證工具,在芯片真正送去流片前,就已經在仿真平臺上跑過了海量算子,哪里有瓶頸、怎么修,早已胸有成竹。

六邊形戰(zhàn)士和三位一體

任何一次現(xiàn)象級融資的背后,最核心的標的永遠是。

在與王湛的對話中,能強烈感受到他每天來上班時那種腎上腺素飆升的興奮感。這種興奮,源于他身處一個極度同頻且強大的鐵血戰(zhàn)隊之中。

曦望的頂層架構被業(yè)界戲稱為“三位一體”

  • 董事長徐冰(商湯聯(lián)合創(chuàng)始人):負責把控戰(zhàn)略方向與融資,有極強的AI發(fā)展趨勢洞察力;
  • 聯(lián)席CEO王勇(前AMD、昆侖芯核心架構師):專注芯片研發(fā),擁有20多年硬核半導體經驗,是實打實的技術靈魂;
  • 聯(lián)席CEO王湛(前百度資深副總裁):操盤商業(yè)化、運營與市場,將互聯(lián)網(wǎng)大廠的敏銳嗅覺與產品打法注入這塊硬科技的土壤。



然而,做AI基礎設施,光靠三個人是不夠的。正如王湛所說:

AI芯片的競爭,是一個全能賽,就像體操里的全能項目,吊環(huán)、雙杠什么都得行。沒有任何一個人能各方面都很強,我們必須靠好的組織管理,把優(yōu)秀的人聚合在一起,打造我們的六邊形戰(zhàn)士網(wǎng)絡。

目前的曦望,團隊規(guī)模已達400余人,研發(fā)人員占比超80%,核心技術骨干來自英偉達、AMD、華為海思、阿里、商湯等大廠,平均行業(yè)經驗超過15年。

為了留住這些頂尖的六邊形戰(zhàn)士,曦望在組織機制上做出了中國創(chuàng)企中極為罕見的讓步。王湛向量子位透露了一個極具魄力的細節(jié):

我們在所有中國GPU公司里,給了團隊和員工最大的ESOP(員工持股計劃)池。
徐冰在拉我入伙時就說過,他要拿出最大的ESOP池來招募最優(yōu)秀的人才。只要我們把這件事情做成,人才的價值就會巨大。

這種類似于早期華為、阿里的分享機制,爆發(fā)出極強的組織戰(zhàn)斗力。

Agent是泡沫還是工業(yè)革命?

拿下百億估值、超10億融資,置身于這場AI資本熱潮中,曾經親歷過2000年互聯(lián)網(wǎng)泡沫破裂的王湛,顯得既清醒又堅定。

現(xiàn)在的一二級市場對硬科技的估值確實非常樂觀。不僅是芯片公司,你看那些大模型公司的估值和收入比,確實夸張。面對劃時代的技術突破機會,資本愿意去賭、去搏,這是資本的特性。

但這一次,AI和當年的互聯(lián)網(wǎng)泡沫有著本質的不同。

王湛回憶,2000年互聯(lián)網(wǎng)叫得震天響時,全中國的網(wǎng)民才幾百萬。即使發(fā)展了十年,PC網(wǎng)民也不過一億多。這需要一個漫長的時間去滲透。

但AI呢?ChatGPT出來后,迅速成為人類歷史上最快破億用戶的應用。而且它不是大家嘗個鮮就走的淄博燒烤,這幾年來,用戶量在急速增加,且越用越離不開。

王湛認為,AI底層的基礎價值正在以遠超人類過往任何一次產業(yè)革命的速度迅速上升。

如果工業(yè)革命花了百年,信息革命花了二三十年,那么AI智能革命可能把社會的巨變壓縮到短短幾年。在這個時代,它或許上個月還是很大的泡沫,下個月就變成小泡沫了,底層的價值正在飛速填補這些估值。

對于今年下半年甚至更長遠的算力市場規(guī)模,王湛的判斷只有四個字:供不應求。

限制算力規(guī)模增長的根本不是市場需求,而是生產工具。光模塊造不過來,內存被搶光漲了十倍,服務器都在搶。Seedance 2.0生成視頻如果能從排隊4小時縮短到1分鐘,使用量會增加多少倍?只要瓶頸被打開,體驗變好,需求就會成十倍百倍地暴漲。

在商業(yè)化落地上,曦望將目光瞄準了要求最苛刻的互聯(lián)網(wǎng)大廠。

大廠對產品的要求極其苛刻,但我要求我們的團隊,必須去找最難服務、標準最高的客戶。只有在最大壓力下被打磨出來的產品,才能真正立住根基。

依托S3海量的交付能力和團隊生態(tài)布局,這塊最難啃的骨頭,正是曦望接下來的主攻方向。

在訪談的最后,作為中國科技發(fā)展的見證者和親歷者,王湛表示:

在這個時代,AI本質上是在分發(fā)智能,它給了人類一個機會去抹平信息鴻溝。只要你想清楚了你要干嘛,AI就能給你前所未有的助力。而我們曦望要做的,就是把這個極其厲害的東西,成本徹底降下來。
先知己,再知AI,方能百戰(zhàn)不殆。

這不僅是王湛給在這個狂飆突進的AI時代中感到迷茫的年輕人的建議,或許,這也是曦望這家年輕的獨角獸企業(yè),能夠在算力紅海中精準破局、一路狂奔的真實寫照。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繼人民日報發(fā)聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

繼人民日報發(fā)聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

離離言幾許
2026-04-23 20:04:00
決戰(zhàn)時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

決戰(zhàn)時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
傅聰正告以色列:違反國際法的行為,立即停止!

傅聰正告以色列:違反國際法的行為,立即停止!

看看新聞Knews
2026-04-23 10:32:04
加密貨幣終局:比特幣正在走向必然崩塌,其本質就是負和游戲

加密貨幣終局:比特幣正在走向必然崩塌,其本質就是負和游戲

知識圈
2026-04-23 21:27:10
震驚!廣州一互聯(lián)網(wǎng)公司招5名文員,收到4000余份簡歷,HR慌了…

震驚!廣州一互聯(lián)網(wǎng)公司招5名文員,收到4000余份簡歷,HR慌了…

火山詩話
2026-04-23 16:46:58
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關系

懂球帝
2026-04-23 18:35:02
小米連發(fā)8款新機,真的太猛啊!

小米連發(fā)8款新機,真的太猛啊!

科技堡壘
2026-04-22 09:06:43
美國11名頂尖科學家連續(xù)離奇失蹤或死亡,特朗普:相當嚴重

美國11名頂尖科學家連續(xù)離奇失蹤或死亡,特朗普:相當嚴重

新民周刊
2026-04-23 18:56:16
網(wǎng)傳上海公司發(fā)氦氣斷供聲明 霍爾木茲海峽封鎖限制全球氦氣供應鏈

網(wǎng)傳上海公司發(fā)氦氣斷供聲明 霍爾木茲海峽封鎖限制全球氦氣供應鏈

六子吃涼粉
2026-04-23 11:19:07
大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

極目新聞
2026-04-23 15:05:28
伊朗戰(zhàn)事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

伊朗戰(zhàn)事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

上觀新聞
2026-04-23 16:28:28
女子買12萬黃金首飾,金店為何報警?起底退費騙局

女子買12萬黃金首飾,金店為何報警?起底退費騙局

環(huán)球網(wǎng)資訊
2026-04-23 16:39:17
50億!國產保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

樞密院十號
2026-04-23 18:31:15
伊朗的大殺器!

伊朗的大殺器!

燕梳樓頻道
2026-04-23 15:40:50
谷雨后,不建議買5種蔬菜,口感不好,還沒營養(yǎng),菜販自己都不吃

谷雨后,不建議買5種蔬菜,口感不好,還沒營養(yǎng),菜販自己都不吃

阿龍美食記
2026-04-22 18:39:10
火箭軍連續(xù)四任司令員出問題,為何我軍實力穩(wěn)步提升?

火箭軍連續(xù)四任司令員出問題,為何我軍實力穩(wěn)步提升?

李昕言溫度空間
2026-04-23 22:21:13
王會民,非法收受他人財物,數(shù)額特別巨大

王會民,非法收受他人財物,數(shù)額特別巨大

新京報
2026-04-23 10:21:20
比卡扎菲還狂!以色列代表在聯(lián)合國公然挑釁中俄,徹底捅破天

比卡扎菲還狂!以色列代表在聯(lián)合國公然挑釁中俄,徹底捅破天

書紀文譚
2026-04-23 19:06:49
2026-04-24 02:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12524文章數(shù) 176457關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

健康
游戲
教育
手機
軍事航空

干細胞如何讓燒燙傷皮膚"再生"?

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發(fā)!

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版