国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清程極智師天麾:MaaS盈利戰(zhàn)打響,Infra技術(shù)已成利潤(rùn)關(guān)鍵丨GAIR 2025

0
分享至



國(guó)產(chǎn)算力多芯片、多架構(gòu)并存的當(dāng)下,誰(shuí)為碎片化買(mǎi)單?

作者丨趙之齊

編輯丨包永剛

2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來(lái)登酒店正式啟幕。

作為AI產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來(lái),始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。

在人工智能逐步成為國(guó)家競(jìng)爭(zhēng)核心變量的當(dāng)下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的“AI算力新十年”專場(chǎng)聚焦智能體系的底層核心——算力,從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開(kāi)系統(tǒng)討論,試圖為未來(lái)十年的中國(guó)AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。

在大會(huì)上,清程極智聯(lián)合創(chuàng)始人、產(chǎn)品副總裁師天麾,帶來(lái)了題為《智能算力的適配、優(yōu)化和服務(wù)》的主題演講。


在國(guó)產(chǎn)算力從“能用”走向“好用”的關(guān)鍵階段,AI Infra正從幕后走到臺(tái)前。

師天麾給出的判斷頗為直接:國(guó)產(chǎn)算力利用率的瓶頸,更多在于軟件生態(tài)與系統(tǒng)級(jí)優(yōu)化能力。

無(wú)論是圍繞國(guó)產(chǎn)芯片的全棧推理引擎自研、通過(guò)純軟件方式提前跑通FP4等低精度路線,還是在MaaS(模型即服務(wù))市場(chǎng)中用評(píng)測(cè)、路由與統(tǒng)一接口“消除信息差”,師天麾試圖回答的,都是同一個(gè)問(wèn)題——

在芯片多元、成本高企的現(xiàn)實(shí)約束下,AI Infra如何真正跑通性能、成本與商業(yè)化的閉環(huán)?

演講之外,他也在與雷峰網(wǎng)的對(duì)談中,進(jìn)一步拆解了自己為何選擇從學(xué)術(shù)界直接創(chuàng)業(yè),以及第三方AI Infra公司在芯片廠商與云廠商之間,究竟能站在哪個(gè)位置上。(作者長(zhǎng)期關(guān)注半導(dǎo)體、算力上下游等方向,歡迎添加微信Ericazhao23交流。)

01

對(duì)話:MaaS性能每通過(guò)推理引擎提升一點(diǎn),廠商就能多掙點(diǎn)錢(qián)

雷峰網(wǎng):您之前曾拿過(guò)大廠的offer但還是想直接出來(lái)創(chuàng)業(yè),做出這步?jīng)Q策的邏輯是什么?

師天麾:我讀博期間發(fā)論文還比較順利,但一直在思考一個(gè)問(wèn)題:做這東西到底有什么用?直到后來(lái)螞蟻研究院和我們合作,把我論文的技術(shù)用到金融風(fēng)控場(chǎng)景里,實(shí)實(shí)在在提升了不少性能,我就感覺(jué)很有成就感。

所以我想把研究成果真正落地,看看自己到底能創(chuàng)造什么價(jià)值,就在畢業(yè)后來(lái)到工業(yè)界。

但為什么不去大廠?我和其他博士同學(xué)聊過(guò),感覺(jué)進(jìn)大廠后就變成了螺絲釘,我能預(yù)想到我面對(duì)的應(yīng)該是很純粹的技術(shù)身份,沒(méi)法去lead產(chǎn)品的事情。雖然我也想過(guò)去大廠里鍛煉兩三年再出來(lái),但當(dāng)時(shí)已經(jīng)明顯感覺(jué)到,AI已經(jīng)到了必須降本增效的關(guān)鍵節(jié)點(diǎn),所以我和組里的老師和師兄弟商量后,感覺(jué)機(jī)會(huì)不錯(cuò),就直接出來(lái)創(chuàng)業(yè)了。

雷峰網(wǎng):創(chuàng)業(yè)的這個(gè)方向讓你有passion的是什么部分?

師天麾:我2015年上大學(xué),當(dāng)時(shí)比較火的還是上一代Deep learning,CV(計(jì)算機(jī)視覺(jué))和NLP(自然語(yǔ)言處理),大一暑假去了家自動(dòng)駕駛公司,實(shí)習(xí)CV類算法,但感覺(jué)不是我的興趣所在。

在學(xué)校學(xué)習(xí)下來(lái),我感覺(jué)計(jì)算機(jī)系統(tǒng)類的課,比如計(jì)算機(jī)組成原理、體系結(jié)構(gòu)、并行計(jì)算、高性能計(jì)算等,這些通過(guò)理解硬件、理解上層應(yīng)用來(lái)把中間軟件的性能寫(xiě)得很高的事情,帶給我的成就感很大。

雷峰網(wǎng):什么時(shí)候感覺(jué)到大家開(kāi)始重視AI Infra?

師天麾:一個(gè)很重要的節(jié)點(diǎn)是DeepSeek的出現(xiàn),當(dāng)時(shí)很多外國(guó)人驚呼DeepSeek用這么少的卡、這么少的錢(qián)就訓(xùn)練出這么大一個(gè)模型,但這靠的一是模型架構(gòu)上的設(shè)計(jì),二是Infra軟件技術(shù)。后來(lái)DeepSeek還搞了“開(kāi)源周”,開(kāi)源了很多infra加速軟件,讓大家更意識(shí)到infra的重要性。

一個(gè)明顯變化是,去年我們還要給投資人解釋AI Infra是什么,但今年投資人會(huì)主動(dòng)來(lái)找我們投資。

雷峰網(wǎng):但國(guó)內(nèi)市場(chǎng)普遍一直以來(lái)沒(méi)有特別重視軟件,這種情況現(xiàn)在會(huì)有改善嗎?作為第三方獨(dú)立的Infra廠商,會(huì)不會(huì)擔(dān)心未來(lái)芯片公司自己做這一層、取代了你們?cè)谧龅氖拢?br/>

師天麾:其實(shí)市場(chǎng)一直以來(lái)重視硬件的慣性還是在的。芯片廠商也需要一個(gè)推理引擎適配自己的芯片來(lái)提供給客戶,所以他們自己也會(huì)做軟件。不過(guò)我們和芯片公司各有所長(zhǎng),我們?cè)谲浖?yōu)化方面有更多積累,所以芯片公司也會(huì)來(lái)找我們合作,我們從各自擅長(zhǎng)的角度來(lái)做軟硬件聯(lián)合優(yōu)化。

其實(shí)并不能沒(méi)有第三方公司來(lái)做這件事,比如大一點(diǎn)的國(guó)央企,會(huì)買(mǎi)多家廠商的芯片, 那么要用誰(shuí)的軟件?而且大家做的都是調(diào)用DeepSeek大模型這件事,不同芯片跑各自的軟件,之后的管理和優(yōu)化都會(huì)非常費(fèi)勁。

雷峰網(wǎng):但現(xiàn)在市場(chǎng)上這么多家AI infra,大家在商業(yè)化上難度如何?

師天麾:私有化部署的利潤(rùn)還可以,但MaaS上,前兩年Infra怎么幫用戶提升性能、怎么掙錢(qián), 這個(gè)通路沒(méi)有跑很順,所以商業(yè)化會(huì)比較難。但現(xiàn)在非常順暢,因?yàn)镸aaS的性能每通過(guò)推理引擎提升一點(diǎn)、就能多掙點(diǎn)錢(qián),用我們的推理引擎能掙更多錢(qián),那自然就愿意花錢(qián)。

雷峰網(wǎng):所以MaaS產(chǎn)品未來(lái)發(fā)展的趨勢(shì)會(huì)是什么樣的?

師天麾:今年MaaS市場(chǎng)增長(zhǎng)很快,但MaaS這個(gè)形式非常講究?jī)?yōu)化技術(shù),比如現(xiàn)在的PD分離或大EP并行,對(duì)機(jī)器規(guī)模有一定要求,不是一兩臺(tái)機(jī)器就能做。

我非??春眠@個(gè)模式,這個(gè)市場(chǎng)非常標(biāo)準(zhǔn),而且AIGC的創(chuàng)作者或者AI應(yīng)用的開(kāi)發(fā)者能非常低門(mén)檻低成本用起來(lái)。所以未來(lái)MaaS就變成一個(gè)卷性能和卷價(jià)格的機(jī)會(huì),這是很好的機(jī)會(huì)和云廠商合作。而且要把MaaS價(jià)格打下來(lái)就需要大規(guī)模優(yōu)化,清程極智又很擅長(zhǎng)大規(guī)模的優(yōu)化。

MaaS的盈利很看技術(shù)。因?yàn)槭∪チ酥虚g環(huán)節(jié),利潤(rùn)損耗比較少,技術(shù)就更重要了。

雷峰網(wǎng):看到你們的軟件已經(jīng)能幫助實(shí)現(xiàn)全平臺(tái)FP4精度,做這個(gè)適配花了多久?

師天麾:適配到全平臺(tái)FP4精度,其實(shí)在今年還做了蠻久的,因?yàn)镕P4比較涉及芯片底層偏指令的領(lǐng)域,要每家單獨(dú)適配,而且要有合適的人才。


02

演講全文

以下是師天麾演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:

謝謝主持人,各位專家、各位嘉賓,大家下午好!今天我演講的題目是《智能算力的適配、優(yōu)化與服務(wù)》。

首先簡(jiǎn)單介紹下清程極智,我們是一家初創(chuàng)企業(yè)、是清華系的AI Infra公司。清程極智成立于2023年底,目前我們的技術(shù)棧,主要是整個(gè)AI軟件棧,從底層編譯器一直到上層的并行計(jì)算,我們?cè)谶@方面有比較多積累,幫助客戶優(yōu)化他們場(chǎng)景里的訓(xùn)練、推理、微調(diào),做端到端的性能優(yōu)化,給客戶降本增效。目前,我們已經(jīng)完成了三輪融資,股東包括產(chǎn)業(yè)方,比如剛剛演講的并行科技,還有很多北京市和上海市的國(guó)資。

首先介紹下我們今年主推的產(chǎn)品——赤兔推理引擎。

M×N困局:國(guó)產(chǎn)芯片生態(tài)繞不開(kāi)的系統(tǒng)難題

大家經(jīng)常說(shuō),國(guó)產(chǎn)算力的利用率偏低,為什么?暫且不說(shuō)國(guó)產(chǎn)算力的性能或性價(jià)比高低,現(xiàn)在最主要的問(wèn)題是客戶用不起來(lái),而問(wèn)題的根源,就是配套軟件不好用。

我經(jīng)常跟客戶強(qiáng)調(diào):你采購(gòu)的是硬件,但真正用的是軟件,可軟件是看不見(jiàn)、摸不著的存在,也很難讓管理層明白價(jià)值。用戶在使用中遇到問(wèn)題,大家就歸結(jié)為“硬件不行”,卻忽略了軟件棧不完善這個(gè)核心癥結(jié)。我們正在做的,就是補(bǔ)齊軟件生態(tài)這塊短板。

目前大家使用較多的軟件是國(guó)外的開(kāi)源推理引擎,但它們對(duì)國(guó)產(chǎn)芯片的支持力度有限,我們?nèi)绾尾拍茏寚?guó)產(chǎn)推理芯片用得更簡(jiǎn)單、更高效?

答案的第一步,就是必須要有專屬的推理引擎——它的作用,就好比手機(jī)和電腦里的操作系統(tǒng),是連接AI應(yīng)用與底層芯片的核心橋梁。那么這個(gè)關(guān)鍵問(wèn)題該如何破解?

當(dāng)前行業(yè)的現(xiàn)狀是,各家芯片廠商都在自行適配推理引擎:先做vLLM的適配版,再做SGLang的適配版,最后可能還要研發(fā)自研推理引擎。但實(shí)際情況是,即便不同廠商都聲稱適配了 vLLM 或 SGLang,彼此的適配版本、支持功能和接口卻并非完全一致。也就是說(shuō),看似同名的適配方案,并不是一套通用軟件就能兼容所有顯卡。

這給用戶帶來(lái)了很大挑戰(zhàn):不少國(guó)央企客戶會(huì)采購(gòu)多家廠商的芯片,結(jié)果就需要不同軟件分別對(duì)接不同顯卡,后續(xù)的開(kāi)發(fā)維護(hù)難度就很大。而我們自研的赤兔推理引擎,既能很好地適配海外顯卡,更能兼容國(guó)產(chǎn)芯片——像華為、沐曦、海光、燧原等主流產(chǎn)品都能無(wú)縫對(duì)接,極大降低了客戶的使用門(mén)檻。


不過(guò),適配眾多芯片的過(guò)程中,會(huì)遇到一個(gè)系統(tǒng)領(lǐng)域比較經(jīng)典的“M×N”的問(wèn)題:底層有N款不同的芯片,上層有M個(gè)不同的大模型,如果要在N款芯片上把M個(gè)模型性能都跑出極致,就要完成M×N次的組合優(yōu)化,工作量非常大。而AI Infra領(lǐng)域的門(mén)檻又很高,沒(méi)有那么多人才來(lái)完成這么多大工作量的適配和優(yōu)化。如何破局?就要站在巨人的肩膀上。

過(guò)去數(shù)年,PyTorch在開(kāi)源生態(tài)的建設(shè)上成效顯著。目前,一方面,顯卡廠商會(huì)默認(rèn)適配PyTorch的算子集;另一方面,絕大多數(shù)上層大模型本身就是基于PyTorch框架開(kāi)發(fā)的。只要把這兩層的適配工作做好,就能讓大模型順暢地跑起來(lái)。但 “能跑” 只是起點(diǎn),要實(shí)現(xiàn)極致性價(jià)比,還需要在推理引擎上做深度優(yōu)化——我們的赤兔推理引擎,正是構(gòu)建在PyTorch算子集之上的高性能方案。

也經(jīng)常有人問(wèn),為什么不直接用vLLM或SGLang,或者稍微改一改?

基于現(xiàn)有方案雖也算是一條技術(shù)路徑,但可優(yōu)化的空間有限。這類系統(tǒng)的架構(gòu)分為多層:底層有算子層,上層還疊加了各類優(yōu)化方案。如果僅對(duì)底層算子層做優(yōu)化且保持底層接口不變,系統(tǒng)仍能與開(kāi)源生態(tài)兼容;可一旦改動(dòng)上層優(yōu)化邏輯,而開(kāi)源社區(qū)同步更新了對(duì)應(yīng)模塊,兩者可能再難兼容。

面對(duì)這種沖突,那么要么放棄自研的上層優(yōu)化策略,要么徹底脫離開(kāi)源社區(qū)的技術(shù)迭代路線。而且,從vLLM、SGLang這類主流框架分叉出獨(dú)立的技術(shù)分支,后續(xù)的維護(hù)和迭代也會(huì)極為龐雜,技術(shù)包袱會(huì)越來(lái)越重。這正是我們選擇全棧自研的核心原因。

與此同時(shí),當(dāng)前算力成本很高,要實(shí)現(xiàn)極致的性價(jià)比,必須打通底層硬件、算子層、推理引擎、上層算法與應(yīng)用的全鏈路,通過(guò)端到端的系統(tǒng)級(jí)聯(lián)合優(yōu)化,才能達(dá)成最優(yōu)效果。我們提出的跨多層聯(lián)合優(yōu)化方案,但只有基于自研推理引擎才能更高效地落地,它更靈活,能支撐全鏈路協(xié)同優(yōu)化。

接下來(lái)給大家介紹赤兔推理引擎的最新進(jìn)展。我們昨天剛剛發(fā)布了0.5版本,這個(gè)版本帶來(lái)了多項(xiàng)核心特性,算力超節(jié)點(diǎn)上提供開(kāi)箱即用的大規(guī)模推理部署能力,包括超大規(guī)模專家并行、PD分離、AF分離等關(guān)鍵能力。值得關(guān)注的是,針對(duì)前段時(shí)間備受行業(yè)關(guān)注的華為384超節(jié)點(diǎn)方案,我們已完成深度適配與性能優(yōu)化,并同步在昨天正式發(fā)布相關(guān)支持能力。

赤兔推理引擎擁有一項(xiàng)核心技術(shù)特色。今年 DeepSeek 模型的爆火,讓大家注意到它的原生數(shù)據(jù)格式是 FP8,但目前大部分國(guó)產(chǎn)顯卡并不支持FP8格式,僅能兼容int8或FP16。這就給客戶帶來(lái)了兩難選擇:如果用FP16運(yùn)行,會(huì)導(dǎo)致顯存占用翻倍,需要投入雙倍的機(jī)器成本,性價(jià)比極低;如果改用int8,整數(shù)格式又會(huì)犧牲浮點(diǎn)數(shù)的精度,影響模型效果。而從行業(yè)趨勢(shì)來(lái)看,大模型正朝著低位寬浮點(diǎn)數(shù)的方向演進(jìn),國(guó)內(nèi)目前不僅缺乏對(duì)FP8的完善支持,F(xiàn)P4的適配更是遙遙無(wú)期。

我們的解決方案是通過(guò)純軟件技術(shù)突破硬件限制——即便底層硬件不支持,我們也能讓FP4和FP8格式順暢運(yùn)行,把未來(lái)幾年才可能普及的特性提前落地,并且已在多款國(guó)產(chǎn)顯卡上完成適配。具體來(lái)說(shuō),我們通過(guò)底層指令轉(zhuǎn)化技術(shù)實(shí)現(xiàn)這一突破:在靠近指令集內(nèi)層的底層接口做適配,計(jì)算時(shí)為保證精度轉(zhuǎn)成FP16處理,存儲(chǔ)時(shí)則采用FP8格式,既兼顧了效果又控制了顯存占用。FP4的適配邏輯與此一致,目前已支持英偉達(dá)、昇騰、海光、沐曦等多款硬件平臺(tái)。我們?cè)贒eepSeek-R1上的測(cè)試也印證了技術(shù)方向的正確性:不同精度格式的效果排序?yàn)镕P8>FP4>INT8>INT4,這充分說(shuō)明FP4這類低位寬浮點(diǎn)數(shù)格式確實(shí)是大模型發(fā)展的主流趨勢(shì)。

MaaS市場(chǎng)紛繁復(fù)雜,如何消除信息差?

解決了國(guó)產(chǎn)算力“能用”和“用好”的問(wèn)題,更要思考如何實(shí)現(xiàn)商業(yè)價(jià)值。為此我們推出了另一款產(chǎn)品 ——AI Ping,這是一個(gè)一站式大模型服務(wù)評(píng)測(cè)與API調(diào)用平臺(tái)。剛才有領(lǐng)導(dǎo)提到了MaaS(模型即服務(wù)),而AI Ping正是對(duì)MaaS模式的落地實(shí)踐:

它的成本和使用門(mén)檻極低,單次API調(diào)用費(fèi)用甚至不到一分錢(qián),不會(huì)編程也能輕松上手;同時(shí)實(shí)現(xiàn)了快速迭代、開(kāi)箱即用,用戶完全不用關(guān)心服務(wù)部署在國(guó)產(chǎn)顯卡還是英偉達(dá)顯卡上,更無(wú)需了解底層技術(shù)實(shí)現(xiàn)細(xì)節(jié)。而且依托背后的大規(guī)模集群與資源池,它的擴(kuò)展性和并發(fā)支持能力極強(qiáng),應(yīng)用開(kāi)發(fā)者只需聚焦自身業(yè)務(wù)與AI功能開(kāi)發(fā),無(wú)需分心底層運(yùn)維。


今年國(guó)務(wù)院發(fā)布的《關(guān)于深入實(shí)施 “人工智能 +” 行動(dòng)的意見(jiàn)》中,特別強(qiáng)調(diào)了要打造MaaS生態(tài);IDC去年曾預(yù)測(cè)今年市場(chǎng)增長(zhǎng)率會(huì)達(dá)到100%,當(dāng)時(shí)我就覺(jué)得這個(gè)預(yù)測(cè)偏保守,果然前不久最新數(shù)據(jù)顯示,今年上半年中國(guó)MaaS市場(chǎng)增長(zhǎng)率已經(jīng)超過(guò)400%,不少頭部云廠商甚至提前完成了年度目標(biāo)。

中國(guó)其實(shí)具備發(fā)展MaaS產(chǎn)業(yè)的很好土壤。從供給側(cè)看,我們擁有全球最繁榮的開(kāi)源模型生態(tài),只要有服務(wù)器就能部署熱門(mén)模型,同時(shí)AI算力近年來(lái)爆發(fā)式增長(zhǎng),各類智算中心提供了充足的基礎(chǔ)設(shè)施支撐;從需求側(cè)講,MaaS的低成本、低門(mén)檻優(yōu)勢(shì),讓企業(yè)開(kāi)發(fā)者能快速看到落地效果,個(gè)人開(kāi)發(fā)者則無(wú)需承擔(dān)高昂的服務(wù)器租賃成本,科研人員和普通消費(fèi)者也能輕松享受到AI服務(wù)?,F(xiàn)在很多To C端的聊天、翻譯軟件,本身集成了AI功能卻沒(méi)有底層服務(wù)能力,用戶只需在MaaS平臺(tái)注冊(cè)賬號(hào),把API接入這些應(yīng)用,就能直接使用賬號(hào)余額消費(fèi),這種模式已經(jīng)被大量To C應(yīng)用采用。

但不可否認(rèn)的是,MaaS產(chǎn)業(yè)還處于起步階段。結(jié)合我們的實(shí)踐觀察,當(dāng)前中國(guó)MaaS行業(yè)的痛點(diǎn)主要有什么?

首先,在供給側(cè),現(xiàn)在有很多指標(biāo)來(lái)判斷服務(wù)的優(yōu)劣,在延遲、吞吐、可靠性、輸入/輸出價(jià)格、上下文長(zhǎng)度、最大可輸出長(zhǎng)度等這些指標(biāo)上,大家各具特色。以幾家最知名的互聯(lián)網(wǎng)云廠商和電信運(yùn)營(yíng)商舉例,在相同模型以及價(jià)格相同的情況下,模型效果和價(jià)格一樣,性能(吞吐、延遲)卻可以差5倍。無(wú)論對(duì)企業(yè)還是個(gè)人來(lái)說(shuō),都不可能挨個(gè)試所有供應(yīng)商的服務(wù),這中間是存在信息差的。

需求側(cè),大家的需求也不一樣,企業(yè)可能想要延遲低一點(diǎn),用戶體驗(yàn)好;個(gè)人可能希望價(jià)格便宜一點(diǎn),性能差不多就可以;對(duì)科研人員來(lái)說(shuō),有經(jīng)費(fèi),但希望模型非常豐富,更快用到最新的模型;普通消費(fèi)者則更關(guān)注體驗(yàn)、功能、成本等方面。

供給側(cè)和需求側(cè)都各異,那用戶應(yīng)該找誰(shuí)家來(lái)用?如何對(duì)齊供需?對(duì)此,我們推出了AI Ping,測(cè)試市面上能見(jiàn)到、接入的所有MaaS廠商。

首先,我們的評(píng)測(cè)完全站在用戶視角展開(kāi),采用匿名端到端測(cè)試模式。市面上有些測(cè)試聚焦于集群規(guī)模,但對(duì)個(gè)人用戶而言,他們對(duì)MaaS廠商宣稱的龐大集群、服務(wù)器數(shù)量和并發(fā)能力并不感冒——畢竟這些資源并非為單個(gè)用戶獨(dú)享。我們更關(guān)注的是,個(gè)體客戶能從平臺(tái)切實(shí)獲取到怎樣的性能,真正以真實(shí)客戶的需求為核心開(kāi)展評(píng)測(cè)。

其次,我們的評(píng)測(cè)覆蓋范圍極廣,目前已接入29家MaaS廠商,整合了400余項(xiàng)MaaS服務(wù),力求實(shí)現(xiàn)應(yīng)接盡接。第三,我們執(zhí)行7×24小時(shí)不間斷評(píng)測(cè),持續(xù)監(jiān)控各模型的性能、吞吐、可靠性等核心指標(biāo);信息聚合的維度也十分全面,除了性能指標(biāo)外,價(jià)格、上下文長(zhǎng)度、最大可輸出長(zhǎng)度等開(kāi)發(fā)者重點(diǎn)關(guān)注的參數(shù),我們也都在AI Ping進(jìn)行了匯總。


AI Ping的評(píng)測(cè)方法也非??煽浚覀兣c清華大學(xué)進(jìn)行了合作,依托翟季冬教授團(tuán)隊(duì)多年來(lái)評(píng)測(cè)中國(guó)超算中心的豐富經(jīng)驗(yàn),由其提供一套成熟可靠的評(píng)測(cè)方法論,我們負(fù)責(zé)完成工程化落地和技術(shù)支持。

關(guān)于評(píng)測(cè)數(shù)據(jù)的準(zhǔn)確性,我們也做了交叉驗(yàn)證:選取部分自帶后臺(tái)性能監(jiān)控的云廠商,將我們的評(píng)測(cè)結(jié)果與其監(jiān)控?cái)?shù)據(jù)比對(duì),顯示吞吐指標(biāo)的平均誤差在 0.2% 以內(nèi),精準(zhǔn)度極高。P90 首次延遲穩(wěn)定在 0.8 秒以內(nèi),處于合理區(qū)間。需要說(shuō)明的是,我們統(tǒng)計(jì)的是端到端延遲,而云廠商的監(jiān)控?cái)?shù)據(jù)不包含網(wǎng)絡(luò)傳輸時(shí)間,綜合來(lái)看,我們的性能測(cè)試結(jié)果具備高度準(zhǔn)確性與可信度。

我們還會(huì)在官網(wǎng)首頁(yè)每天更新模型的排名。如果部分客戶有特殊要求,比如希望首次延遲在5秒以內(nèi)、輸出吞吐在40TPS以上,那就可以直接使用我們的篩選和排序功能,快速找到符合要求的供應(yīng)商。

“路由”功能告別MaaS供應(yīng)商選型困境

積累了大量評(píng)測(cè)數(shù)據(jù)后,我們還思考如何為用戶提供更深入、更優(yōu)質(zhì)的服務(wù)?;蛟S你看過(guò)評(píng)測(cè)后,會(huì)選定某一家供應(yīng)商,但單獨(dú)選擇一家供應(yīng)商其實(shí)存在不少問(wèn)題。

首先,是性價(jià)比難以穩(wěn)定。供應(yīng)商的性能會(huì)出現(xiàn)波動(dòng),但價(jià)格通常不會(huì)輕易變動(dòng),除非遇到用戶活動(dòng)才會(huì)調(diào)整,這就導(dǎo)致性價(jià)比始終處于波動(dòng)狀態(tài),單家供應(yīng)商很難一直保持最高性價(jià)比。

其次,服務(wù)穩(wěn)定性缺乏保障。比如今年年初大家使用DeepSeek模型時(shí),就經(jīng)常遇到服務(wù)拒絕請(qǐng)求的情況,根源在于用戶量過(guò)大,后臺(tái)支撐不足;除此之外,服務(wù)器繁忙、網(wǎng)絡(luò)抖動(dòng)、系統(tǒng)宕機(jī)甚至服務(wù)突然下架等問(wèn)題,都會(huì)嚴(yán)重影響用戶使用。

同時(shí),更換供應(yīng)商的過(guò)程也十分繁瑣。每換一家供應(yīng)商,都需要重新注冊(cè)、認(rèn)證、充值;即便是同一個(gè)模型,在不同供應(yīng)商平臺(tái)的接口、支持的參數(shù)以及返回的錯(cuò)誤碼都各不相同。例如同樣是并發(fā)上限、服務(wù)繁忙、參數(shù)錯(cuò)誤這類問(wèn)題,不同供應(yīng)商返回的錯(cuò)誤碼卻不一樣,用戶不得不重新對(duì)接API、修改錯(cuò)誤處理代碼。這類工程問(wèn)題非常棘手,是程序員們普遍反感的麻煩事。

因此,在評(píng)測(cè)和數(shù)據(jù)展示功能之外,我們額外開(kāi)發(fā)了供應(yīng)商路由功能。我們會(huì)提供統(tǒng)一的接口,比如你要使用DeepSeek模型,只需接入我們這一個(gè)接口,就能直接調(diào)用背后20多家供應(yīng)商的資源,大幅節(jié)省適配成本。無(wú)論是開(kāi)源模型還是閉源模型,我們都會(huì)全面接入用戶基本能找到所有需要的模型;如果有模型尚未上架,用戶隨時(shí)提出需求,我們會(huì)第一時(shí)間完成上架。

這個(gè)功能還具備高可用性:當(dāng)某一家供應(yīng)商出現(xiàn)繁忙、宕機(jī)或服務(wù)報(bào)錯(cuò)時(shí),系統(tǒng)會(huì)自動(dòng)將請(qǐng)求切換至其他供應(yīng)商。同時(shí),我們會(huì)提供高性價(jià)比推薦服務(wù),用戶可以根據(jù)自身需求選擇“成本優(yōu)先”或“性能優(yōu)先”,系統(tǒng)會(huì)篩選出符合條件的供應(yīng)商。而且所有數(shù)據(jù)完全透明,性能表現(xiàn)、Token消耗以及產(chǎn)生的費(fèi)用,都會(huì)在后臺(tái)實(shí)時(shí)反饋。根據(jù)過(guò)往數(shù)據(jù),這個(gè)功能最多能幫助用戶降低50%的成本,同時(shí)延遲和吞吐指標(biāo)也有明顯優(yōu)化。

今年清華大學(xué)聯(lián)合中國(guó)軟件評(píng)測(cè)中心發(fā)布“2025大模型服務(wù)性能排行榜”,將我們?cè)谑忻嫔险业降?0多家供應(yīng)商的熱門(mén)模型服務(wù)全部比了一遍,由第三方機(jī)構(gòu)發(fā)榜,我們提供工程實(shí)現(xiàn)、數(shù)據(jù)評(píng)測(cè)與展示平臺(tái)。

歡迎大家關(guān)注我們的公眾號(hào)或加入用戶交流群,也可以看看我們的官網(wǎng)。每次新模型發(fā)布,我們的公眾號(hào)上會(huì)在最快時(shí)間發(fā)布新模型的解讀,以及有哪些供應(yīng)商上架、性能情況,我們都會(huì)發(fā)布排行榜,幫助用戶進(jìn)行選型。

謝謝大家,也謝謝大家關(guān)注清程極智。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
解密加勒萬(wàn)河谷沖突全過(guò)程,我軍是如何以80人擊潰印軍600人的?

解密加勒萬(wàn)河谷沖突全過(guò)程,我軍是如何以80人擊潰印軍600人的?

阿胡
2024-12-02 14:33:09
成都61歲男子將長(zhǎng)約17cm紅薯塞入肛門(mén),卡住無(wú)法取出,紅薯尺寸過(guò)大,最終手術(shù)取出

成都61歲男子將長(zhǎng)約17cm紅薯塞入肛門(mén),卡住無(wú)法取出,紅薯尺寸過(guò)大,最終手術(shù)取出

觀威海
2026-01-10 16:54:03
中美貿(mào)易戰(zhàn)掀桌子了,1月10日,凌晨的四大消息正式發(fā)酵!

中美貿(mào)易戰(zhàn)掀桌子了,1月10日,凌晨的四大消息正式發(fā)酵!

叮當(dāng)當(dāng)科技
2026-01-10 06:03:51
神仙姐姐的野生圖,太美了。

神仙姐姐的野生圖,太美了。

微微熱評(píng)
2026-01-09 12:20:53
黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開(kāi)戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
6記三分轟27+10,庫(kù)里又創(chuàng)歷史紀(jì)錄!勇士11戰(zhàn)8勝錯(cuò)峰策略獲奇效

6記三分轟27+10,庫(kù)里又創(chuàng)歷史紀(jì)錄!勇士11戰(zhàn)8勝錯(cuò)峰策略獲奇效

鍋?zhàn)踊@球
2026-01-10 14:31:24
湖人這雙核是真不穩(wěn)!艾頓又軟又沒(méi)態(tài)度,東契奇一打鐵心態(tài)就崩!

湖人這雙核是真不穩(wěn)!艾頓又軟又沒(méi)態(tài)度,東契奇一打鐵心態(tài)就崩!

細(xì)話籃球
2026-01-10 17:26:26
“這么多年,對(duì)這名同事只聞其名、不見(jiàn)其人!”紀(jì)委監(jiān)委深挖細(xì)查,相關(guān)人員被處理

“這么多年,對(duì)這名同事只聞其名、不見(jiàn)其人!”紀(jì)委監(jiān)委深挖細(xì)查,相關(guān)人員被處理

新京報(bào)政事兒
2026-01-10 10:36:53
伊朗巨變前夜

伊朗巨變前夜

鳳眼論
2026-01-08 10:31:08
絕不讓高安國(guó)和蔡正元含冤,大陸終于出手了,請(qǐng)大家記住這張鬼臉

絕不讓高安國(guó)和蔡正元含冤,大陸終于出手了,請(qǐng)大家記住這張鬼臉

林子說(shuō)事
2026-01-10 14:06:34
特朗普要“三分天下”,涉臺(tái)問(wèn)題讓中方自己決定!這其實(shí)是個(gè)坑?

特朗普要“三分天下”,涉臺(tái)問(wèn)題讓中方自己決定!這其實(shí)是個(gè)坑?

薛小榮
2026-01-09 19:53:06
三十億防空網(wǎng)七分鐘癱瘓,敗給的不只是美軍

三十億防空網(wǎng)七分鐘癱瘓,敗給的不只是美軍

寰宇文創(chuàng)
2026-01-09 05:39:17
買(mǎi)洗碗機(jī)遭丈夫砸家后續(xù):生病還亂花錢(qián),負(fù)債20萬(wàn),知情人曝更多

買(mǎi)洗碗機(jī)遭丈夫砸家后續(xù):生病還亂花錢(qián),負(fù)債20萬(wàn),知情人曝更多

丁丁鯉史紀(jì)
2026-01-09 16:00:11
最新視頻還原致命瞬間:明州ICE探員開(kāi)槍前發(fā)生了什么?

最新視頻還原致命瞬間:明州ICE探員開(kāi)槍前發(fā)生了什么?

華人生活網(wǎng)
2026-01-10 06:05:22
大動(dòng)作調(diào)倉(cāng)!機(jī)構(gòu)開(kāi)年瘋狂掃貨這些板塊,而火爆的芯片、半導(dǎo)體ETF竟被拋售

大動(dòng)作調(diào)倉(cāng)!機(jī)構(gòu)開(kāi)年瘋狂掃貨這些板塊,而火爆的芯片、半導(dǎo)體ETF竟被拋售

每經(jīng)牛眼
2026-01-10 12:51:03
不留情面!陳熠輸給43歲韓瑩真相曝光,馬琳暫停罕見(jiàn)發(fā)火:拼命加轉(zhuǎn)呀

不留情面!陳熠輸給43歲韓瑩真相曝光,馬琳暫停罕見(jiàn)發(fā)火:拼命加轉(zhuǎn)呀

好乒乓
2026-01-10 11:11:01
綠軍躺回東部第二!布克31+8太陽(yáng)險(xiǎn)勝尼克斯 狄龍27分布倫森27分

綠軍躺回東部第二!布克31+8太陽(yáng)險(xiǎn)勝尼克斯 狄龍27分布倫森27分

醉臥浮生
2026-01-10 12:39:19
王欣瑜距離職業(yè)生涯首冠 還差一場(chǎng)!

王欣瑜距離職業(yè)生涯首冠 還差一場(chǎng)!

五星體育
2026-01-10 16:08:36
貨架已幾乎全空!硬件荒蔓延日本商店高價(jià)求購(gòu)舊PC:什么類型都要

貨架已幾乎全空!硬件荒蔓延日本商店高價(jià)求購(gòu)舊PC:什么類型都要

快科技
2026-01-09 11:53:44
76年華國(guó)鋒秘密詢問(wèn)吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

76年華國(guó)鋒秘密詢問(wèn)吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

春秋硯
2026-01-10 09:30:19
2026-01-10 17:52:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來(lái)!
68315文章數(shù) 656051關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

男生遭老師按地上強(qiáng)制要求剪頭發(fā) 被老師勒脖子騎身上

頭條要聞

男生遭老師按地上強(qiáng)制要求剪頭發(fā) 被老師勒脖子騎身上

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂(lè)要聞

吳速玲曝兒子Joe是戀愛(ài)腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車(chē)要聞

寶馬25年全球銷(xiāo)量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

本地
數(shù)碼
時(shí)尚
公開(kāi)課
軍事航空

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

數(shù)碼要聞

涼了?蘋(píng)果Vision Pro銷(xiāo)量慘淡“大撤退”,下一個(gè)希望是AI眼鏡

專欄 |?做“主語(yǔ)”的體驗(yàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版