国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“客戶測950,不到一周下單了”,DeepSeek V4 逼出昇騰真功夫

0
分享至


作者 | 褚杏娟

“客戶測了我們的 950,不到一個禮拜就說可以下單了。”昇騰計算業(yè)務(wù)副總裁張良透露,近期昇騰銷量比以前要好,客戶認可度也提高很多。

現(xiàn)在互聯(lián)網(wǎng)公司、大模型初創(chuàng)公司都有在完全基于昇騰做模型訓(xùn)推。

推理看重性價比,沒有那么高的穩(wěn)定性要求,客戶覺得用得快捷就好;而訓(xùn)練,客戶則要求經(jīng)過長時間的可靠性驗證。張良向 InfoQ 表示,“客戶要求的是成熟、穩(wěn)定、且經(jīng)過長時間驗證的大規(guī)模集群系統(tǒng),硬件和軟件要一起驗證?!?/p>

今年,大量客戶開始基于昇騰做訓(xùn)練了。這里指的是訓(xùn)練大模型、超大參數(shù)模型。越來越多模型,包括一些國內(nèi)領(lǐng)先的模型,都在基于昇騰進行訓(xùn)練。這個變化體現(xiàn)了昇騰產(chǎn)品成熟度的提升,確實經(jīng)受住了考驗。

DeepSeek V4 是對華為的一次考驗

DeepSeek V4 是華為面臨的一次大考,也驗證了昇騰超節(jié)點全系列產(chǎn)品的能力。

從結(jié)果看,昇騰超節(jié)點全系列產(chǎn)品均支持 DeepSeek V4 。其 950 系列芯片可以同時兼顧低時延和高吞吐的兩種應(yīng)用場景:在 950 DT 系列上,DeepSeek V4 Flash 模型實現(xiàn)了低于 10 毫秒的低時延推理,Pro 模型則實現(xiàn)了約 20 毫秒的低時延推理;在 Atlas A3 系列上,DeepSeek V4 Flash 實現(xiàn)了約 30 毫秒的高吞吐性能表現(xiàn)。

這次,DeepSeek V4 在模型結(jié)構(gòu)上發(fā)生了明顯變化,比如引入混合注意力機制,結(jié)合滑窗、稀疏、壓縮等多種 Attention 優(yōu)化算法,以支持 1M 級長上下文推理;同時,模型繼續(xù)采用 MoE 結(jié)構(gòu),對專家路由、多卡通信、KV Cache 管理和端到端推理效率提出了更高要求。


為此,CANN 針對 DeepSeek V4 中的 mHC、Hybrid Attention、Compressor、MoE 等模塊進行了原生適配。其中,mHC 用于擴展傳統(tǒng)殘差連接,對此 CANN 提供了多種實現(xiàn)方式,包括基于 Ascend C、PyTorch 以及 TileLang 的實現(xiàn)路徑。

比如,針對混合注意力機制,CANN 提供了 Sparse Attention Shared KV 融合算子,支持多種注意力計算,同時開發(fā)了不同倍率 KV Cache 壓縮的 Compressor 算子,以及支持 KV Cache 更新的相關(guān)算子。此外,CANN 還增強了 Lightning Indexer 能力,用于高效篩選 Top-K 稀疏 KV,支撐長上下文下的稀疏注意力計算。

由于混合注意力機制依賴關(guān)系更復(fù)雜,在 prefill 階段,CANN 通過 All Gather 或 Send/Receive 等通信能力,在卡間交換必要 Token,保證 CP 并行下的注意力計算正確執(zhí)行。

而在 MoE 方面,CANN 加強了 MoE Gating TopK 功能,以支持 DeepSeek V4 中的 hash routing 和 scaled softmax。

上述也只是昇騰努力優(yōu)化的一部分,在 AI 算力日益重要的當下,昇騰團隊過去一年都在“卷”。

“一卡難求”下,先建基礎(chǔ)設(shè)施

“所有工作沒有基礎(chǔ)設(shè)施是不行的?,F(xiàn)在大家都在說‘一卡難求’,包括我自己也是一卡難求。雖然我們生產(chǎn)卡,但我想用卡也很難?!睆埩颊f道。

去年以來,昇騰對芯片體系進行了一輪大幅調(diào)整。

今天的大模型推理和 Agent 場景,對編程靈活性、細粒度訪存能力、Cache line 設(shè)計等均提出更高的要求;同時,AI 產(chǎn)業(yè)的發(fā)展也需要更開放的生態(tài)支持。

針對這些問題,昇騰在新一輪產(chǎn)品和軟件棧演進中進行了系統(tǒng)性補齊:一方面重新優(yōu)化算力配比,提升芯片在不同計算負載下的適配能力;另一方面引入 SIMT 能力,增強編程靈活性;同時強化細粒度訪存能力,使芯片能夠更好適應(yīng)大模型訓(xùn)練、推理以及復(fù)雜 Agent 工作負載中的數(shù)據(jù)訪問需求。

低精度計算能力也是此次調(diào)整的重要方向。隨著 DeepSeek 等模型在 FP8 等低精度格式上的探索,大模型產(chǎn)業(yè)對更高 Token 產(chǎn)出效率的需求快速提升。在此背景下,昇騰加速推進 FP8、FP4 能力落地。

張良表示,團隊“拼盡全力”將 FP8、FP4 提前做出來,這使得 Token 產(chǎn)出能力相比此前實現(xiàn)翻倍提升。

當前 AI 產(chǎn)業(yè)正在進入新的算力周期。Agent 應(yīng)用帶來的高頻推理、多輪調(diào)用和長鏈路任務(wù)執(zhí)行,使 Token 消耗快速增長,也讓算力效率成為客戶關(guān)注的核心指標。張良認為,面對這一變化,芯片廠商不僅要提升峰值算力,更要圍繞真實業(yè)務(wù)場景優(yōu)化計算效率、訪存能力、編程體驗和生態(tài)開放能力。

“只有痛下決心真正改掉以前的不足,才能把業(yè)務(wù)做得越來越好?!睆埩颊f道,下一波 AI 機會究竟來自哪里仍不確定,但芯片和軟件生態(tài)必須提前準備好。昇騰此次調(diào)整,正是為了補齊過去架構(gòu)中的短板,并為未來可能出現(xiàn)的新一輪 AI 應(yīng)用浪潮打下基礎(chǔ)。

軟件棧升級,拒絕仿 CUDA

在完成硬件架構(gòu)調(diào)整后,昇騰軟件棧也迎來一輪重要升級。此次升級的一個重點是將原本高度耦合的軟件體系拆分為更清晰的結(jié)構(gòu)模塊。

過去,CANN 的很多能力像“麻花團”一樣交織在一起,外部開發(fā)者很難理解和調(diào)用?,F(xiàn)在,昇騰通過架構(gòu)解耦,將不同能力模塊化、結(jié)構(gòu)化地拆開,讓每一塊能力都能被開發(fā)者看見、調(diào)用,并推動相關(guān)代碼開源。


張良介紹道,這次解耦工作量很大,接近于“把軟件重寫一遍、把架構(gòu)重新設(shè)計一遍”。昇騰原計劃用一年半時間完成,但最終在 4 個月內(nèi)完成核心改造。近期開發(fā)者試用后,普遍認為相比過去更容易上手。

除了架構(gòu)層面的解耦,昇騰還推出了新的編程方式 PyPTO。該方式面向 Python 開發(fā)者,未來將與業(yè)界主流的基于 Python 的 Triton 編程方式保持一致,以降低開發(fā)者遷移和適配門檻。

張良表示,AI 開發(fā)正在越來越多地圍繞 Python 展開,昇騰必須融入這一主流編程體系。昇騰從去年開始推進相關(guān)工作,并在今年正式將 PyPTO 做出來。

不過,Python 編程雖然快速、靈活,適合驗證功能和提升開發(fā)效率,但在追求極致性能時仍存在不足。尤其是在大模型推理場景中,Token 吞吐直接影響產(chǎn)品性價比。同樣硬件、同樣算力條件下,如果 Token 吞吐低于競爭對手,就意味著單位成本競爭力不足。因此,昇騰在支持 Python 開發(fā)方式的同時,也繼續(xù)保留并強化基于 C 語言的底層優(yōu)化能力。

其思路是:Python 負責靈活和便捷,C 語言負責性能和吞吐優(yōu)化。通過這兩條路徑并行,既尊重開發(fā)者對主流編程方式的偏好,也保障底層性能調(diào)優(yōu)能力。

昇騰認為,開源開放的核心不是簡單“放代碼”,而是讓開發(fā)者能夠真正理解、使用和擴展底層能力。張良表示,昇騰自身不可能超過幾萬名開發(fā)者的智慧,外部開發(fā)者的創(chuàng)新方式和使用需求,也遠遠超過單一廠商內(nèi)部能夠預(yù)判的范圍。因此,提升開發(fā)者使用便利性,是生態(tài)建設(shè)的根本。

對于底層軟件和算子開發(fā)而言,讓開發(fā)者真正持續(xù)投入并不容易。數(shù)據(jù)顯示,今年以來昇騰算子開發(fā)者數(shù)量增長較快,已達到約 1.3 萬人;社區(qū)月活開發(fā)者約 2000 人,這已經(jīng)是相當不錯的成績。

如果說英偉達的生態(tài)護城河是 CUDA,那昇騰對應(yīng)的就是 CANN?,F(xiàn)在,比較熟悉的模型,大約 6 個小時就可以從 CUDA 遷移到 CANN,比如千問 3.6;模型架構(gòu)比較新、變化比較大,可能需要花一兩周時間遷完。整個遷移是較為絲滑的。

實際上,在建設(shè)生態(tài)期間,國內(nèi) AI 計算生態(tài)發(fā)展面臨不同路徑選擇,其中一條看似簡單的路線就是做一套與英偉達 CUDA 高度相似的體系,也就是所謂“仿 CUDA”。張良特別強調(diào),昇騰堅決拒絕走這條捷徑。

“如果只是做一個‘CUDA 2 號’,雖然短期適配成本較低,基于這一體系做出的新特性、新功能,最終是建立在他人的生態(tài)上,而不是在建設(shè)真正自主的 AI 計算生態(tài)?!睆埩颊f道。

按照其思路,從虛擬指令級、運行時能力,到編譯器、硬件協(xié)同,都要自主構(gòu)建。這樣才能確保底層能力真正掌握在自己手中,而不是長期依附在既有國外生態(tài)之上。

不過,張良也強調(diào),堅持自主路線并不意味著脫離業(yè)界生態(tài)。現(xiàn)實中,大量開發(fā)者主要使用的是更上層的開發(fā)框架和工具,而不是直接操作底層指令和運行時。因此,昇騰需要一方面堅持底層自主,另一方面也要兼容業(yè)界主流開發(fā)習(xí)慣,支持國內(nèi)外開發(fā)者已有的軟件棧和工具鏈。

其生態(tài)建設(shè)思路可以概括為三點:第一,底層關(guān)鍵能力必須自主掌握;第二,上層要兼容主流開發(fā)方式,尊重開發(fā)者習(xí)慣;第三,要逐步將自主 NPU 的關(guān)鍵特性和功能組件引入主流開源社區(qū),讓圍繞中國 AI 硬件的能力在社區(qū)中沉淀下來。

但這一過程并不容易。目前 AI 軟件生態(tài)中大量關(guān)鍵開源項目由海外社區(qū)主導(dǎo)。以 OpenAI 主導(dǎo)的 Triton 為例,推動其支持昇騰硬件并不容易,對方首先會考慮“敏感”問題。

張良透露,過去,昇騰開發(fā)者和華為內(nèi)部團隊所做的很多適配工作,往往只能以插件形式存在。相關(guān)代碼提交到主流社區(qū)時,社區(qū)并不一定接受,而是要求昇騰自行維護插件。同時,這些社區(qū)在發(fā)布新版本前,也很少會基于中國軟件和硬件進行驗證。這導(dǎo)致昇騰生態(tài)長期處在被動適配狀態(tài)。

為改變這一局面,昇騰投入大量時間和精力與海外開源社區(qū)溝通,通過現(xiàn)場交流和技術(shù)論證,推動相關(guān)插件和能力逐步進入主流項目。目前,部分社區(qū)已經(jīng)開始接受昇騰相關(guān)能力,后續(xù)版本發(fā)布時也能夠逐步支持昇騰硬件。類似工作不僅發(fā)生在 Triton,也發(fā)生在 PyTorch 等多個開源項目中。

這正是做生態(tài)最難的地方:不是簡單寫一套適配代碼,而是要讓主流社區(qū)認可、接受,并在版本演進中持續(xù)支持。

結(jié)束語

“做這一切,都取決于一個基礎(chǔ):你愿不愿意持續(xù)投入,愿不愿意把自己壓到極致,在很短時間內(nèi)把能力補起來,這是關(guān)鍵。再往下說,就是你愿不愿意砸錢,或者說有沒有能力長期、持續(xù)地投入?!睆埩颊f道。

張良也坦言,昇騰團隊過去幾年既抓住過機會,也走過彎路,甚至有些問題曾被階段性的市場紅利掩蓋。

在他看來,今天 Agent 的快速興起,又一次把產(chǎn)業(yè)推向新的階段。Agent 應(yīng)用對時延、多輪推理、長序列處理以及系統(tǒng)綜合能力提出了更高要求,也可能進一步帶來“算力荒”。這對昇騰來說既是機會,也是挑戰(zhàn)。

“Agent 這么紅火,我們當然很開心,它可能帶來新的算力需求。但更重要的是,我們要從中識別出真正的問題,看到不同場景對產(chǎn)品改進提出的新要求,比如編程編譯速度的問題。只有把這些問題識別出來,才能繼續(xù)投入、繼續(xù)改進。能不能做到這一點,非常關(guān)鍵?!?/p>

張良強調(diào),昇騰不滿足于某一輪機會,而是要在每一輪產(chǎn)業(yè)變化中,持續(xù)暴露問題、修正問題、補齊能力。

“在我個人看來,我的產(chǎn)品永遠不完美,還要繼續(xù)努力。面向未來,我們還有很多事要做?!彼f道。

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。

今日薦文


你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最新,A股回購?fù)跗毓猓?00333,擬最高130億元,全部注銷!

最新,A股回購?fù)跗毓猓?00333,擬最高130億元,全部注銷!

數(shù)據(jù)寶
2026-05-07 08:08:59
吹風機是大補,醫(yī)生提醒:一個吹風機等于半個老中醫(yī)!不要嫌棄

吹風機是大補,醫(yī)生提醒:一個吹風機等于半個老中醫(yī)!不要嫌棄

健康之光
2026-05-06 16:55:06
誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

荷蘭豆愛健康
2026-05-07 07:39:28
美國失算了,沒有EUV光刻機,為何中國芯片出口額暴增70%以上?

美國失算了,沒有EUV光刻機,為何中國芯片出口額暴增70%以上?

王新喜
2026-05-07 17:15:16
罪有應(yīng)得!以色列,正被全世界集體孤立!

罪有應(yīng)得!以色列,正被全世界集體孤立!

毛豆論道
2026-05-05 17:35:52
伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

說歷史的老牢
2026-05-07 14:51:15
26款奔馳GLC上市,僅25萬級了!

26款奔馳GLC上市,僅25萬級了!

米粒說車唯一呀
2026-05-06 16:10:56
讓孩子穿著先輩的軍裝去海參崴閱兵!這到底是誰出的餿主意?

讓孩子穿著先輩的軍裝去海參崴閱兵!這到底是誰出的餿主意?

阿龍聊軍事
2026-05-07 15:42:42
匿名投票!申京排名第一!!斷層領(lǐng)先?。?>
    </a>
        <h3>
      <a href=柚子說球
2026-05-07 10:29:55
納賽爾:簽下恩里克是近十五年來最正確的決定,他是世界最佳之一

納賽爾:簽下恩里克是近十五年來最正確的決定,他是世界最佳之一

天光破云來
2026-05-07 08:56:03
抓獲3人!蘭州新區(qū)公安打掉一“網(wǎng)絡(luò)黑灰產(chǎn)業(yè)”犯罪團伙

抓獲3人!蘭州新區(qū)公安打掉一“網(wǎng)絡(luò)黑灰產(chǎn)業(yè)”犯罪團伙

黃河新聞網(wǎng)呂梁
2026-05-07 17:29:29
呼吁山東調(diào)查這倆公立醫(yī)院醫(yī)生是否胡說,別讓中醫(yī)宣傳走火入魔!

呼吁山東調(diào)查這倆公立醫(yī)院醫(yī)生是否胡說,別讓中醫(yī)宣傳走火入魔!

寶哥精彩賽事
2026-05-07 11:35:36
俄烏戰(zhàn)爭以來曝俄軍首次大規(guī)模敗退!烏克蘭炸毀俄后勤大橋

俄烏戰(zhàn)爭以來曝俄軍首次大規(guī)模敗退!烏克蘭炸毀俄后勤大橋

項鵬飛
2026-05-05 19:02:50
蒯曼輸一場球,就被馬琳棄用,梁靖崑已輸三場,王皓敢棄用不?

蒯曼輸一場球,就被馬琳棄用,梁靖崑已輸三場,王皓敢棄用不?

鴻印百合
2026-05-07 16:37:11
吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

吳宜澤名下臺球館人流量暴增,接受“臺球皇帝”專訪時談奧沙利文,在比賽時他曾發(fā)私信“支招”

極目新聞
2026-05-06 16:55:05
“勝利的重孫輩”:一場關(guān)于共情的錯位

“勝利的重孫輩”:一場關(guān)于共情的錯位

秋月獨朗
2026-05-06 16:15:44
央視拒絕世界杯天價轉(zhuǎn)播費,最新消息:國際足聯(lián)高管計劃訪華

央視拒絕世界杯天價轉(zhuǎn)播費,最新消息:國際足聯(lián)高管計劃訪華

現(xiàn)代快報
2026-05-07 17:02:19
哈馬斯新領(lǐng)導(dǎo)人剛上位,以色列“見面禮”:炸死其兒子

哈馬斯新領(lǐng)導(dǎo)人剛上位,以色列“見面禮”:炸死其兒子

桂系007
2026-05-07 03:49:12
歐冠決賽數(shù)據(jù):皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

歐冠決賽數(shù)據(jù):皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

智道足球
2026-05-07 08:08:01
黃金白銀,集體大漲

黃金白銀,集體大漲

南方都市報
2026-05-07 14:49:06
2026-05-07 18:56:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1477文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

孫楊強迫拉張豆豆手那一幕,我看笑了,也看怒了

財經(jīng)要聞

金融“風暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

親子
本地
手機
時尚
公開課

親子要聞

三歲女兒在高鐵上給媽媽送祝福,溫暖又治愈

本地新聞

用青花瓷的方式,打開西溪濕地

手機要聞

消息稱某子系迭代旗艦工程機配備6.6英寸中屏+8500mAh電池

穿黑褲子別只會搭白T恤!看看這些顯瘦的搭配,高級感拉滿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版