国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話(huà)科學(xué)家馬驍騰:DeepSeek在一些技術(shù)上至少領(lǐng)先半年

0
分享至


當(dāng)外界帶著挑剔的目光投向DeepSeek V4,并和上次V3架構(gòu)帶來(lái)的全球轟動(dòng)對(duì)照時(shí),一個(gè)極易忽略的細(xì)節(jié)是,華為昇騰芯片第一次支撐起了萬(wàn)億參數(shù)級(jí)前沿模型的訓(xùn)練。這可能改變國(guó)內(nèi)算力格局。

“國(guó)內(nèi)第一梯隊(duì)的模型廠商,預(yù)訓(xùn)練已經(jīng)部分可以用昇騰替換英偉達(dá)了,后訓(xùn)練還沒(méi)到那個(gè)程度?!瘪R驍騰告訴我們。

過(guò)去兩年,模型廠商的能力提升幾乎完全受限于團(tuán)隊(duì)能拿到多少?gòu)堄ミ_(dá)的A100或H800卡。沒(méi)有算力,再好的算法也是紙上談兵。

也正因此,Mind Lab首席科學(xué)家、清華大學(xué)自動(dòng)化系博士馬驍騰和他的團(tuán)隊(duì)一直在等待DeepSeek V4的發(fā)布。Mind Lab 是專(zhuān)注于后訓(xùn)練的Neo Lab,基于DeepSeek架構(gòu)模型和Qwen架構(gòu)模型做后訓(xùn)練。因?yàn)橐鸾饷恳豢钪髁餍履P?,他也和DeepSeek、智譜、Kimi 等廠商的研發(fā)高層保持著密切的聯(lián)系。

DeepSeek V4發(fā)布的同一時(shí)段,Mind Lab也和國(guó)產(chǎn)芯片廠商展開(kāi)了合作。

不過(guò),現(xiàn)在國(guó)產(chǎn)芯片在后訓(xùn)練階段暫時(shí)無(wú)法平替英偉達(dá),后訓(xùn)練時(shí),模型需要頻繁地在“訓(xùn)練”和“推理”之間高速切換,對(duì)芯片的訓(xùn)推一致性和極限響應(yīng)速度要求更高。馬驍騰指出,目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟?,F(xiàn)階段可以先用國(guó)產(chǎn)的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時(shí)還在依賴(lài)英偉達(dá)。

盡管網(wǎng)上已有許多關(guān)于開(kāi)發(fā)人員、創(chuàng)業(yè)者對(duì)DeepSeek V4的解讀,但像馬驍騰這樣身處一線(xiàn)、又保持第三方視角的解讀并不多。

馬驍騰看完技術(shù)報(bào)告的一大感受是,DeepSeek的野心很大,這種野心體現(xiàn)在它沒(méi)有專(zhuān)注于榜單的追高,也沒(méi)有像其他模型廠商做局部、單點(diǎn)突破,DeepSeek一直想做架構(gòu)等全棧的原創(chuàng)突破。

DeepSeek V4發(fā)布后,編程能力略顯平庸,被認(rèn)為沒(méi)有甩開(kāi)智譜 GLM-5.1和Kimi-2.6,甚至在某些測(cè)試中只能勉強(qiáng)打平手。

馬驍騰解釋稱(chēng),如果DeepSeek真要死磕編程,完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性。DeepSeek V4更強(qiáng)調(diào)對(duì)通用世界知識(shí)和日常寫(xiě)作能力的提升——這類(lèi)任務(wù)恰恰是最難啃的骨頭,因?yàn)樗鼈儾幌窠鈹?shù)學(xué)題、寫(xiě)代碼那樣有明確的標(biāo)準(zhǔn)答案,無(wú)法通過(guò)強(qiáng)化學(xué)習(xí)直接優(yōu)化。

“這恰恰說(shuō)明DeepSeek野心很大,它不愿只做一個(gè)編程很強(qiáng)的專(zhuān)用工具”。馬驍騰說(shuō),DeepSeek這次更新的核心就是長(zhǎng)文本能力,這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

他還分享了V4跳票背后的一些技術(shù)真相,比如V4有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec,速度極快,且具備快照功能。在訓(xùn)練時(shí)能隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能閃回重來(lái)。這種工程靈活度,他目前還沒(méi)在國(guó)內(nèi)第二家公司見(jiàn)過(guò),“DeepSeek在技術(shù)上領(lǐng)先了至少半年”。

當(dāng) V4 正攪動(dòng)新一輪牌局之際,我們和馬驍騰聊了兩小時(shí),以下是和他的對(duì)話(huà):

01

DeepSeek的野心很大

白鯨實(shí)驗(yàn)室:你第一次聽(tīng)說(shuō)DeepSeek V4要發(fā)布是什么時(shí)候?

馬驍騰:大概是去年12月左右,DeepSeek V4 計(jì)劃在春節(jié)前后發(fā),我們當(dāng)時(shí)做了充分的準(zhǔn)備,春節(jié)就沒(méi)放假,等著研究V4。后來(lái)確定發(fā)布計(jì)劃是大年三十,但還是撲了空。據(jù)我所知,臨到發(fā)布當(dāng)天,團(tuán)隊(duì)內(nèi)部對(duì)模型仍不滿(mǎn)意,就不發(fā)了。最后我們轉(zhuǎn)而研究智譜的GLM-5和 Kimi 2.5。

白鯨實(shí)驗(yàn)室:你對(duì) V4 拖到4月份發(fā)是有預(yù)期的嗎?還是覺(jué)得它應(yīng)該更早發(fā)出來(lái)?

馬驍騰:DeepSeek的節(jié)奏不好說(shuō),大家都很期待這次V4的發(fā)布。畢竟上次V3.1和V3.2都是小版本更新,沒(méi)有像 R1 那樣帶來(lái)巨大突破。不過(guò),這次看到V4,我個(gè)人感覺(jué)非常驚艷,由衷欽佩DeepSeek團(tuán)隊(duì)。

白鯨實(shí)驗(yàn)室:你最關(guān)注的是什么?

馬驍騰:其實(shí)有幾點(diǎn)。第一,1.6T 參數(shù)的開(kāi)源模型,是目前國(guó)內(nèi)最大的開(kāi)源模型。我們Mind Lab的研究定位就是用更大的模型、更少的算力,DeepSeek再次印證了往scaling走的趨勢(shì)。

第二,更長(zhǎng)的上下文窗口。他們這次更新的核心就是長(zhǎng)文本能力,這對(duì)其他大廠可以說(shuō)是碾壓級(jí)的。

第三,工程上做了很多水下功夫,非?,嵥榈荜P(guān)鍵,外行可能感知不大。比如OPD* 的大規(guī)模應(yīng)用,雖然業(yè)界在合成數(shù)據(jù)時(shí)會(huì)用類(lèi)似思路來(lái)整合不同專(zhuān)家模型的長(zhǎng)處,但DeepSeek是第一個(gè)在萬(wàn)億參數(shù)級(jí)別把它完整跑通的。這背后需要解決很多工程難題,包括對(duì)底層計(jì)算核心(Kernel)進(jìn)行極致的定制化改寫(xiě)、on-disk KV cache*(磁盤(pán)KV緩存)等,單獨(dú)拆開(kāi)每一件都足夠一個(gè)團(tuán)隊(duì)攻堅(jiān),而他們居然在同一個(gè)公司里全做到了。

*注:OPD :On-Policy Distillation,是一種用于在大模型 agent 訓(xùn)練階段中高效融合專(zhuān)家網(wǎng)絡(luò)的訓(xùn)練方法,也是過(guò)去一年后訓(xùn)練的新范式。

*磁盤(pán)KV緩存,是把模型運(yùn)行時(shí)產(chǎn)生的KV緩存,從昂貴的顯存搬到了更廉價(jià)的硬盤(pán)上做持久化存儲(chǔ),對(duì)于提升代碼倉(cāng)庫(kù)等長(zhǎng)文檔的閱讀能力來(lái)說(shuō)很重要。

白鯨實(shí)驗(yàn)室:你是說(shuō)相對(duì)于他們的團(tuán)隊(duì)人數(shù)來(lái)說(shuō),這很難得?

馬驍騰:不。其實(shí)不少大模型公司在訓(xùn)練時(shí)更“按部就班”,他們可能選擇擁抱DeepSeek的架構(gòu),但在架構(gòu)本身上花的原創(chuàng)心思不多,他們更傾向于在優(yōu)化器、Agent訓(xùn)練方面做單點(diǎn)突破。但DeepSeek V4做了全棧,把很多大家曾習(xí)以為常的默認(rèn)規(guī)則,全打碎了?,F(xiàn)在應(yīng)該沒(méi)有人在看完他們的技術(shù)報(bào)告后不去研究的吧(笑)。

白鯨實(shí)驗(yàn)室:為什么騰訊、阿里都在推 30B 以下的“小”模型,而 V4 是巨大的1.6T?

馬驍騰:要想讓模型的表現(xiàn)達(dá)到最好,參數(shù)量就必須足夠大,模型才有足夠高的“智商”上限。但硬件的物理限制擺在那里,如果想把模型放在本地跑,參數(shù)量基本只能控制在 30B(約300億參數(shù))以?xún)?nèi)。這就形成了強(qiáng)力拉扯,追求智能就得往上堆參數(shù),想要方便部署就得往下壓規(guī)模。

所以現(xiàn)在的模型很自然地分成了四個(gè)檔位:最小的那一檔,跑在最基礎(chǔ)的硬件上,能說(shuō)話(huà)就行;30B左右可以在個(gè)人設(shè)備上跑起來(lái);100B到 200B,適合部署在服務(wù)器上,用來(lái)處理常規(guī)的Agent任務(wù);600B到 1T(約1萬(wàn)億參數(shù)),用來(lái)解決真正最困難、最復(fù)雜的任務(wù)。卡在這幾檔中間的參數(shù)規(guī)模,定位很尷尬,意義不大。

至于這次V4的1.6T版本,它的意義在于追求極限,去探一探參數(shù)規(guī)模的天花板到底在哪里。但說(shuō)實(shí)話(huà),目前對(duì)絕大多數(shù)人來(lái)說(shuō),它確實(shí)很難在實(shí)際場(chǎng)景(本地部署)中用起來(lái)。反而是DeepSeek-V4-Flash(284B參數(shù))最實(shí)用。它既劃算,又能在合理的資源下被訓(xùn)練得動(dòng),還能真正部署到場(chǎng)景里去。對(duì)于任何一個(gè)創(chuàng)業(yè)者來(lái)說(shuō),都不會(huì)拒絕在200B這個(gè)量級(jí)的模型上去開(kāi)展研究工作,它真的很“香”。

白鯨實(shí)驗(yàn)室:這次V4 發(fā)布,用戶(hù)端的感知沒(méi)有R1那么直接了,可以推薦幾個(gè)測(cè)試題,讓非技術(shù)人員也能體會(huì)它的進(jìn)步嗎?

馬驍騰:其實(shí)大家現(xiàn)在還在用傳統(tǒng)思維測(cè)模型,比如那些經(jīng)典的思維陷阱題。但那些題答得好壞,完全不影響代碼任務(wù)的表現(xiàn)。V4發(fā)布后真正有體感的,是把AI用在編程上的人。這次V4在編程上的表現(xiàn),只能說(shuō)是跟Kimi 2.6、GLM 5.1打了個(gè)平手,這兩個(gè)模型也非常優(yōu)秀。最前沿的還是得看GPT 5.5和Claude 4.7。

白鯨實(shí)驗(yàn)室:DeepSeek R1是作為“價(jià)格屠夫”出圈的,現(xiàn)在的DeepSeek 相比OpenAI、谷歌,有沒(méi)有找到新的差異化優(yōu)勢(shì)?

馬驍騰:不能這么單一地看待DeepSeek。R1 本身顛覆性很強(qiáng),它不僅是當(dāng)時(shí)最大的開(kāi)源模型,推理能力也足以和OpenAI的O1正面競(jìng)爭(zhēng),但它更打動(dòng)人的是一種“泛化性”,仿佛無(wú)所不能。我記得當(dāng)時(shí)各行各業(yè)的反饋都是,你跟它聊什么,它都懂一點(diǎn),還能說(shuō)到點(diǎn)子上。

這種“萬(wàn)金油”式的通用智能體驗(yàn),在當(dāng)時(shí)的其他國(guó)產(chǎn)開(kāi)源模型上是相對(duì)缺失的。大家普遍更聚焦于如何在某個(gè)榜單上刷出更高的性能表現(xiàn)。

其實(shí)如果DeepSeek真要死磕編程這一個(gè)點(diǎn),完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價(jià)必然是犧牲掉在通用任務(wù)上的泛化性表現(xiàn)。但這次V4發(fā)布,DeepSeek特別強(qiáng)調(diào)了對(duì)通用世界知識(shí)和日常寫(xiě)作能力的提升。

這類(lèi)任務(wù)恰恰是最難啃的骨頭,因?yàn)樗鼈儾幌駨?qiáng)化學(xué)習(xí)(RL)那樣,可以通過(guò)解數(shù)學(xué)題、寫(xiě)代碼這種有明確“標(biāo)準(zhǔn)答案”的目標(biāo)來(lái)直接優(yōu)化。這恰恰說(shuō)明DeepSeek野心很大,它不愿只做一個(gè)編程很強(qiáng)的專(zhuān)用工具。

白鯨實(shí)驗(yàn)室:所以,在某些編程場(chǎng)景,V4打不過(guò)Kimi 2.6,GLM 5.1,這是DeepSeek的選擇還是客觀差距?

馬驍騰:我覺(jué)得某種程度上,不追求SOTA榜單也是一種智慧?,F(xiàn)在發(fā)模型很難,大家的要求都太高了,也都很卷。V4提到了大量對(duì)通用知識(shí)、更好寫(xiě)作能力的增強(qiáng),這些都不體現(xiàn)在我們最關(guān)注的那幾個(gè)榜單上。

我個(gè)人感覺(jué),可能V4還是有意犧牲掉一部分的。這種對(duì)均衡性的追求,恰恰和谷歌、OpenAI這些頂級(jí)實(shí)驗(yàn)室的長(zhǎng)期戰(zhàn)略高度對(duì)齊。

02

“DeepSeek在技術(shù)上領(lǐng)先了至少半年”

白鯨實(shí)驗(yàn)室: 在模型架構(gòu)和訓(xùn)練方法上,V4有哪些重大意義上的突破,值得創(chuàng)業(yè)者學(xué)習(xí)的?

馬驍騰:值得說(shuō)的點(diǎn)太多了。最顯而易見(jiàn)的就是長(zhǎng)上下文的訓(xùn)練方式。在V4開(kāi)源方案公開(kāi)之前,業(yè)內(nèi)絕大多數(shù)模型最多只能真實(shí)訓(xùn)練到25萬(wàn)token左右的上下文長(zhǎng)度。超過(guò)這個(gè)限度再想支持更長(zhǎng)的文本,全靠一種叫“外推”的技術(shù)勉強(qiáng)補(bǔ)位。

這就導(dǎo)致很多號(hào)稱(chēng)支持超長(zhǎng)上下文的模型,一旦輸入的文本超過(guò)二十多萬(wàn)token,智商就斷崖式暴跌。原因就是,外推相當(dāng)于讓模型去猜它沒(méi)學(xué)過(guò)的東西,猜著猜著,之前記住的關(guān)鍵信息就丟了。

DeepSeek這次的做法是,干脆一個(gè)token都不丟,讓模型在訓(xùn)練時(shí)就主動(dòng)去容忍長(zhǎng)序列帶來(lái)的各種誤差,硬生生把上下文窗口撐開(kāi)。這背后牽扯到模型架構(gòu)的改動(dòng),以及QAT技術(shù),也就是量化感知訓(xùn)練?!傲炕笨梢岳斫鉃榘涯P陀?jì)算時(shí)的數(shù)字精度壓低,來(lái)?yè)Q取更快的運(yùn)行速度和更低的資源消耗,但這個(gè)壓縮過(guò)程必然帶來(lái)精度的損失。

常規(guī)做法是訓(xùn)練完之后再量化,通常會(huì)有性能折損。而QAT在訓(xùn)練階段就直接“預(yù)判”了推理時(shí)會(huì)產(chǎn)生的量化誤差,把這種誤差當(dāng)作訓(xùn)練的一部分,讓模型提前去學(xué)習(xí)和適應(yīng)這種“有損”的環(huán)境,抗干擾能力很強(qiáng)。這套設(shè)計(jì)非常關(guān)鍵。據(jù)我們觀察,在類(lèi)似架構(gòu)上,如果不做QAT,訓(xùn)練出來(lái)的模型性能會(huì)下降得非常厲害。

白鯨實(shí)驗(yàn)室:最讓你驚喜的是什么?

馬驍騰:是注意力訓(xùn)練機(jī)制。從DeepSeek V3提出了MLA(多頭潛在注意力),同樣的信息用更少的KV緩存就能記下來(lái)。V3.2提出的DSA,是首次實(shí)現(xiàn)了可以“主動(dòng)遺忘”或舍棄一部分不再關(guān)鍵的KV緩存,這在以前是很難想象的。我們團(tuán)隊(duì)?wèi)?yīng)該是開(kāi)源社區(qū)里第一個(gè)能完整支持DSA訓(xùn)練的,上周才剛剛把這項(xiàng)技術(shù)的細(xì)節(jié)徹底消化,結(jié)果這周他們的新論文就又出來(lái)了。

這次V4引入的CSA/HCA(混合壓縮注意力機(jī)制)直接挑戰(zhàn)了注意力機(jī)制最底層的核心邏輯。過(guò)去的優(yōu)化大多圍繞著“如何更高效地管理緩存”做文章,而DeepSeek的新思路是,讓模型去“學(xué)習(xí)”緩存本身該是什么樣。這等于是給緩存層也裝上了可訓(xùn)練的參數(shù),讓它能自己決定該記住什么、忘掉什么。這背后牽涉到的系統(tǒng)復(fù)雜度和工程實(shí)現(xiàn)難度是暴漲的。

另一個(gè)很復(fù)雜的工程是KV緩存*的分層管理。前面提到的CSA、HCA(動(dòng)態(tài)稀疏注意力)等新機(jī)制,雖然大幅壓縮了KV緩存本身的體積,但也帶來(lái)了一個(gè)問(wèn)題,就是緩存的結(jié)構(gòu)變了。過(guò)去一整塊可以統(tǒng)一調(diào)度的東西,裂變成了不同層級(jí)、不同屬性的緩存塊。為了讓它們協(xié)同工作,需要一套新的分層管理機(jī)制,極其復(fù)雜。

*注:KV緩存(Key Value),在Transformer 模型里,指模型把過(guò)往的詞打上標(biāo)簽,方便快速對(duì)應(yīng)標(biāo)簽底下儲(chǔ)存著的詳細(xì)信息,直接決定大模型能記住多長(zhǎng)的上文和推理速度。上下文越長(zhǎng),存的東西越多,顯存就被撐得越滿(mǎn)。這也是為什么長(zhǎng)上下文模型那么難做的核心瓶頸之一。

白鯨實(shí)驗(yàn)室:最讓你意外的是什么?

馬驍騰:還有一個(gè)讓人印象深刻的細(xì)節(jié)。DeepSeek 內(nèi)部有一套極其獨(dú)創(chuàng)的容器技術(shù)DSec,速度極快,而且具備快照功能。就是在訓(xùn)練過(guò)程中隨時(shí)給整個(gè)系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能瞬間閃回到那個(gè)時(shí)間點(diǎn)接著重來(lái)。

這種工程靈活度,我目前還沒(méi)在第二家公司見(jiàn)過(guò)。

白鯨實(shí)驗(yàn)室:國(guó)外大廠也沒(méi)有嗎?

馬驍騰:我不清楚OpenAI怎么做的,但其他大廠,他們沒(méi)意識(shí)到這個(gè)容器技術(shù)對(duì)Agent訓(xùn)練的重要性,所以DeepSeek在技術(shù)上可以說(shuō)領(lǐng)先了至少半年。

白鯨實(shí)驗(yàn)室:V4把上下文一次性“吃”進(jìn)去,這和Mind Lab的Lora是兩條技術(shù)路線(xiàn)。你傾向于哪種?V4的方案會(huì)不會(huì)讓長(zhǎng)期記憶問(wèn)題變得不那么重要了?

馬驍騰:V4的方案確實(shí)緩解了記憶問(wèn)題,但不是唯一的解法。

目前業(yè)界跑通的技術(shù)路線(xiàn),大致可以分成兩派。一派是DeepSeek的做法,不斷把注意力范圍撐大,讓模型能在一次處理中直接“吃”進(jìn)更長(zhǎng)的上下文。另一派是OpenAI的路子,他們拼命做壓縮——也就是把過(guò)往的對(duì)話(huà)歷史,實(shí)時(shí)提煉成一種高度濃縮的“摘要信息”。

你作為用戶(hù),幾乎感覺(jué)不到它的記憶預(yù)算是有限的,聊起來(lái)好像它什么都能記住。但說(shuō)到底,這兩套方案主要解決的,其實(shí)都是工作記憶的問(wèn)題,也就是模型在當(dāng)前對(duì)話(huà)里處理信息的能力。

真正的問(wèn)題是,無(wú)論哪種方案,只要新開(kāi)一個(gè)會(huì)話(huà),它就會(huì)從零開(kāi)始。Lora或者說(shuō)參數(shù)化記憶,永遠(yuǎn)是長(zhǎng)期記憶的終極方案。一個(gè)最直接的例子是,掌握一門(mén)新的編程語(yǔ)言,你無(wú)法把所有語(yǔ)法塞進(jìn)上下文就指望模型學(xué)會(huì)。

前段時(shí)間,某海外頭部芯片廠商的科學(xué)家找到我們,他們每代新硬件都要發(fā)明新的語(yǔ)言,這是基座模型不會(huì)的,所以要尋求一種通過(guò)Lora讓模型快速學(xué)習(xí)新知識(shí)的方式。而且,Lora今年已經(jīng)非常明顯地適用于當(dāng)前模型的整個(gè)后訓(xùn)練流程技術(shù)棧了。各大廠商的訓(xùn)練方式就是基座訓(xùn)練好后,分成各個(gè)分支分別去訓(xùn)練專(zhuān)用任務(wù),最后合并,這其實(shí)就是非常適合Lora的模式。

白鯨實(shí)驗(yàn)室:下一個(gè)階段的競(jìng)爭(zhēng)核心是在哪?繼續(xù)在文本、Agent上卷,還是多模態(tài)?

馬驍騰:我覺(jué)得Agent還沒(méi)卷到頭。從技術(shù)上講,如果在文本能力上取得進(jìn)展,模型的可用范圍會(huì)明顯拓寬。相比之下,視覺(jué)能力沒(méi)有外界想象的那么神秘。它的實(shí)現(xiàn)路徑已經(jīng)相對(duì)成熟,就是給語(yǔ)言模型外掛一個(gè)“視覺(jué)編碼器”。

現(xiàn)在DeepSeek上線(xiàn)了識(shí)圖模式,也是一種印證。因?yàn)樗菆D像理解,而不是圖像生成。而且智譜和 Kimi 現(xiàn)在接入視覺(jué)功能也都很絲滑,但用戶(hù)并不會(huì)因此就覺(jué)得這個(gè)模型有多厲害,市場(chǎng)真正優(yōu)先看的,還是它在Agent上的表現(xiàn)。

白鯨實(shí)驗(yàn)室:什么情況下,能判斷Agent已經(jīng)卷到頭了?

馬驍騰:比如GPT 5.5相對(duì)于5.4,原來(lái)可能需要十句話(huà)講明白的需求,現(xiàn)在一句話(huà)就行。AI自己會(huì)考慮好如何正確完成,自己把從需求到結(jié)果的整個(gè)流程閉環(huán),中間需要的人工干預(yù)的步驟越少,價(jià)值就越高。

現(xiàn)在Agent還有很多工作要做。模型在個(gè)性化任務(wù)上對(duì)人的需求和記憶的理解還是很差。這個(gè)不是圖像層面的問(wèn)題,是語(yǔ)言層面的。甚至隨著編程能力增強(qiáng),模型對(duì)人的理解能力還下降了,說(shuō)話(huà)越來(lái)越有“AI味”,我們?cè)谘芯坷锇堰@叫做“人格漂移”。

03

模型廠商都開(kāi)始在預(yù)訓(xùn)練昇騰卡了

白鯨實(shí)驗(yàn)室:這次V4在華為昇騰卡上做了訓(xùn)練適配,對(duì)你們有啟發(fā)嗎?

馬驍騰:目前國(guó)內(nèi)第一梯隊(duì)的模型廠商,現(xiàn)在已經(jīng)可以在預(yù)訓(xùn)練階段用華為昇騰卡來(lái)替代英偉達(dá)芯片了,但后訓(xùn)練階段還做不到完全平替。目前我們Mind Lab正在積極推動(dòng)和國(guó)產(chǎn)芯片的合作。

白鯨實(shí)驗(yàn)室:預(yù)訓(xùn)練和后訓(xùn)練適配國(guó)產(chǎn)卡,有哪些不同?為什么大家都卡在了后訓(xùn)練?

馬驍騰:預(yù)訓(xùn)練雖然整體耗時(shí)最長(zhǎng),但任務(wù)本身非?!皢渭儭?,模型只盯著一個(gè)統(tǒng)一的目標(biāo)(優(yōu)化一個(gè)損失函數(shù)),過(guò)程穩(wěn)定且重復(fù)性高,目前國(guó)產(chǎn)芯片已經(jīng)可以勝任了。

后訓(xùn)練完全是另一回事。這個(gè)階段包含了指令微調(diào)、強(qiáng)化學(xué)習(xí)等復(fù)雜步驟,模型需要頻繁地在“訓(xùn)練”和“推理”兩種狀態(tài)之間高速切換,對(duì)芯片的訓(xùn)推一致性(即同一張卡在訓(xùn)練和推理時(shí)表現(xiàn)都要好,且能無(wú)縫銜接)以及極限響應(yīng)速度要求更高。目前國(guó)產(chǎn)卡的生態(tài)和算子適配還不夠成熟。所以現(xiàn)階段可以先用國(guó)產(chǎn)的推理卡,即專(zhuān)為推理優(yōu)化的芯片,比如昇騰的推理卡來(lái)承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時(shí)依賴(lài)英偉達(dá)。

白鯨實(shí)驗(yàn)室:類(lèi)似DeepSeek和華為的深度合作有篩選門(mén)檻嗎?

馬驍騰:還是有的。畢竟現(xiàn)在能訓(xùn)起這么大模型的實(shí)驗(yàn)室團(tuán)隊(duì),全國(guó)不超過(guò) 10 個(gè)。

白鯨實(shí)驗(yàn)室:我們能看到大模型后訓(xùn)練完全適配國(guó)產(chǎn)芯片的一天嗎?

馬驍騰:我們現(xiàn)在對(duì)國(guó)產(chǎn)卡應(yīng)該燃起充分的希望。國(guó)產(chǎn)芯片和英偉達(dá)的差距主要是生態(tài),但是原來(lái)生態(tài)上的不足,現(xiàn)在已經(jīng)能用 AI 來(lái)彌補(bǔ)了。之前模型適配國(guó)產(chǎn)芯片,很多底層的基礎(chǔ)算子、適配代碼,都要靠經(jīng)驗(yàn)豐富的工程師一行一行寫(xiě),費(fèi)時(shí)也缺人。

但現(xiàn)在我不會(huì)寫(xiě)國(guó)產(chǎn)生成卡的適配代碼,但AI會(huì)寫(xiě),而且寫(xiě)得越來(lái)越好。這等于是給適配過(guò)程裝上了加速器,效率一下子就提上來(lái)了。

白鯨實(shí)驗(yàn)室:這種合作給你們帶來(lái)的最直觀好處是什么?成本的大幅下降?

馬驍騰:最直觀的還是緩解算力緊缺。國(guó)產(chǎn)卡的成本優(yōu)勢(shì)是很驚人的,現(xiàn)在買(mǎi)卡真的是又貴又難,能用到更多國(guó)產(chǎn)卡,對(duì)整體生態(tài)肯定是更好的。

04

V4炫技,閉源承壓

白鯨實(shí)驗(yàn)室:V4發(fā)布當(dāng)天,有AI概念股下跌6%以上。從二級(jí)市場(chǎng)到VC圈,有人調(diào)侃說(shuō)DeepSeek還是國(guó)產(chǎn)大模型最嚴(yán)厲的父親,你怎么看待這種現(xiàn)象?

馬驍騰:說(shuō)實(shí)話(huà),我個(gè)人認(rèn)為這是短期現(xiàn)象,他們可能并沒(méi)真正研究過(guò) V4發(fā)生了什么。比如coding場(chǎng)景上,現(xiàn)在也不能說(shuō)DeepSeek就比 GLM 5.1 好。我理解的“嚴(yán)厲”,是DeepSeek做的很坦蕩,就是把模型性能做到這個(gè)高度,然后徹底開(kāi)源,任何人都能免費(fèi)用。

這等于給全行業(yè)劃下了一條非常高的及格線(xiàn),你如果選擇閉源收費(fèi),那你拿出來(lái)的東西就不能只比它好一點(diǎn)點(diǎn),必須得有質(zhì)的飛躍,好到讓用戶(hù)覺(jué)得付費(fèi)是值得的。

白鯨實(shí)驗(yàn)室:說(shuō)到開(kāi)源,今年包括Minimax、阿里都出現(xiàn)了閉源趨勢(shì),MiniMax 4月推出的M2.7,在傳統(tǒng)學(xué)術(shù)意義上依然是開(kāi)源模型,但它的許可證版本改為“嚴(yán)禁商業(yè)用途”“需要得到授權(quán)才能商業(yè)化”,阿里Qwen3.5-Omni選擇閉源。你如何判斷這種戰(zhàn)略轉(zhuǎn)向?它背后的邏輯到底是什么?是技術(shù)控制權(quán)?還是盈利壓力?

馬驍騰:我們必須尊重“公司要掙錢(qián)”這個(gè)事實(shí)。一家公司能選擇走開(kāi)源這條路,本身就是極其艱難的商業(yè)決策。阿里的平衡拿捏得不錯(cuò),把最強(qiáng)的Qwen Max 閉源,同時(shí)把體量小一些的模型開(kāi)源。但DeepSeek確實(shí)會(huì)讓這種原本的平衡變得尷尬。

不過(guò)另一邊,大家也看到,即使開(kāi)源,1.6T的大參數(shù)沒(méi)幾個(gè)人能在自己電腦上真正跑起來(lái)。要把這樣的模型部署好、跑得順、用到業(yè)務(wù)里,需要海量的工程技巧和配套服務(wù),這本身就是強(qiáng)需求。比如Kimi、智譜、Minimax智譜,他們開(kāi)源的模型照樣賣(mài)得很好,因?yàn)橘u(mài)的不只是模型權(quán)重,更是大家對(duì)于他們技術(shù)能力的信任。

白鯨實(shí)驗(yàn)室:從第三方評(píng)測(cè)看,V4更多被強(qiáng)調(diào)在代碼任務(wù)上的“開(kāi)源斷層”和價(jià)格屠夫的角色——V4-Flash輸出價(jià)僅0.28美元/百萬(wàn)token。就在前一天發(fā)布的GPT-5.5輸出價(jià)是30美元/百萬(wàn)token。這種近100倍的價(jià)差,在你看來(lái)會(huì)把AI應(yīng)用市場(chǎng)帶向何方?

馬驍騰: 其實(shí)現(xiàn)在DeepSeek有一種“炫技”的感覺(jué)。他想傳遞的是,極致的低價(jià)不全是靠壓榨利潤(rùn)換來(lái)的,而是可以通過(guò)KV緩存優(yōu)化這類(lèi)硬核技術(shù),從底層把算力消耗實(shí)實(shí)在在地省出來(lái)。卡省下了,成本自然就降了,價(jià)格也就有了更低的空間。背后靠的是技術(shù)底子。

目前的模型定價(jià)策略,也分成了兩條路:一條是朝“更貴、更極致”走,另一條是向“更小、更便宜、更大眾”去。像V4的1.6T版本,追求的就是能力的上限,可以為了極致性能犧牲一點(diǎn)速度和等待時(shí)間;而flash版本,目標(biāo)則是敏捷、好用、覆蓋更廣泛的日常任務(wù),主打速度和性?xún)r(jià)比。這兩者不是對(duì)立的,而是搭配著來(lái)。

白鯨實(shí)驗(yàn)室:V4的低價(jià)開(kāi)源,會(huì)壓縮做中間態(tài)商業(yè)模型公司的生存空間嗎?

馬驍騰:我還是覺(jué)得垂直場(chǎng)景很重要。在一個(gè)強(qiáng)的基座模型上,即使你再擴(kuò)大參數(shù),智能收益也是有限的。大廠能拿到的數(shù)據(jù)很有限,垂域應(yīng)用廠商下游的真實(shí)數(shù)據(jù),是有很大護(hù)城河的。最典型的例子就是Cursor。

它就只深耕編程這一個(gè)垂直領(lǐng)域,后訓(xùn)練做得極好,最近也和SpaceX達(dá)成合作并拿到收購(gòu)期權(quán),估值跟Minimax 這種通用大模型公司平起平坐。這證明了,把后訓(xùn)練這一件事在垂域做好,就能創(chuàng)造出上市級(jí)別的價(jià)值。

現(xiàn)在行業(yè)的問(wèn)題是,基座模型迭代飛快,但讓這些能力在具體場(chǎng)景里落地的推理設(shè)施和部署工程,還跟不上。我們就在嘗試彌補(bǔ)這個(gè)斷層,讓大家能更好地在基座上釋放下游場(chǎng)景的價(jià)值。

撰寫(xiě)|馬舒葉

編輯| 劉培

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
倫敦世乒賽格局大亂!衛(wèi)冕熱門(mén)爆冷出局,國(guó)乒女團(tuán)橫掃晉級(jí),日本提前鎖定領(lǐng)獎(jiǎng)臺(tái)

倫敦世乒賽格局大亂!衛(wèi)冕熱門(mén)爆冷出局,國(guó)乒女團(tuán)橫掃晉級(jí),日本提前鎖定領(lǐng)獎(jiǎng)臺(tái)

林子說(shuō)事
2026-05-09 01:21:09
中國(guó)光伏的堡壘,被印度從內(nèi)部攻破

中國(guó)光伏的堡壘,被印度從內(nèi)部攻破

觀察者網(wǎng)
2026-05-08 09:00:37
他是現(xiàn)役生涯最長(zhǎng)球員,21年拿4冠,富二代出身,車(chē)模妻子很漂亮

他是現(xiàn)役生涯最長(zhǎng)球員,21年拿4冠,富二代出身,車(chē)模妻子很漂亮

大西體育
2026-05-08 20:22:58
隨著菲律賓0-0,韓國(guó)0-3,女足亞洲杯八強(qiáng)對(duì)陣出爐:中國(guó)PK弱旅

隨著菲律賓0-0,韓國(guó)0-3,女足亞洲杯八強(qiáng)對(duì)陣出爐:中國(guó)PK弱旅

側(cè)身凌空斬
2026-05-08 21:27:26
國(guó)際足聯(lián)徹底懵了!三次降價(jià)卻被中國(guó)一句話(huà)堵得啞口無(wú)言顏面盡失

國(guó)際足聯(lián)徹底懵了!三次降價(jià)卻被中國(guó)一句話(huà)堵得啞口無(wú)言顏面盡失

荊楚寰宇文樞
2026-05-08 23:17:53
央視或低價(jià)拿下世界杯轉(zhuǎn)播權(quán)!胡錫進(jìn):就算沒(méi)成,球迷也有法子看

央視或低價(jià)拿下世界杯轉(zhuǎn)播權(quán)!胡錫進(jìn):就算沒(méi)成,球迷也有法子看

風(fēng)過(guò)鄉(xiāng)
2026-05-08 19:33:47
三星也被“打跑了” 但先別急著慶祝

三星也被“打跑了” 但先別急著慶祝

看看新聞Knews
2026-05-07 23:16:11
無(wú)人機(jī)炸中俄空管中心:13座機(jī)場(chǎng)關(guān)閉,1.4萬(wàn)人滯留

無(wú)人機(jī)炸中俄空管中心:13座機(jī)場(chǎng)關(guān)閉,1.4萬(wàn)人滯留

桂系007
2026-05-08 22:04:29
小馬云范小勤成年后首次直播:禮物刷屏不斷 在線(xiàn)人數(shù)一度破7萬(wàn)

小馬云范小勤成年后首次直播:禮物刷屏不斷 在線(xiàn)人數(shù)一度破7萬(wàn)

快科技
2026-05-08 14:42:08
人走茶涼!《陳翔六點(diǎn)半》賺不到錢(qián)球球退出,根本原因早已注定

人走茶涼!《陳翔六點(diǎn)半》賺不到錢(qián)球球退出,根本原因早已注定

橙星文娛
2026-05-06 11:09:03
多項(xiàng)研究顯示:性生活頻率過(guò)低,男女容易早衰且患癌風(fēng)險(xiǎn)增高!

多項(xiàng)研究顯示:性生活頻率過(guò)低,男女容易早衰且患癌風(fēng)險(xiǎn)增高!

燈錦年
2026-05-05 21:55:51
霍尊也沒(méi)料到,自己復(fù)出后,分手五年的陳露親手撕碎他最后的體面

霍尊也沒(méi)料到,自己復(fù)出后,分手五年的陳露親手撕碎他最后的體面

云深不知在何處
2026-05-09 02:30:40
中日再突發(fā)重大事件,高市還未登機(jī)回國(guó),古賀誠(chéng):戰(zhàn)爭(zhēng)正逼近日本

中日再突發(fā)重大事件,高市還未登機(jī)回國(guó),古賀誠(chéng):戰(zhàn)爭(zhēng)正逼近日本

小曙說(shuō)娛
2026-05-07 22:21:27
“全部約滿(mǎn)”!不少深圳人搶到了!網(wǎng)友:早上定5、6個(gè)鬧鐘就為了搶號(hào)

“全部約滿(mǎn)”!不少深圳人搶到了!網(wǎng)友:早上定5、6個(gè)鬧鐘就為了搶號(hào)

小影的娛樂(lè)
2026-05-07 11:05:08
56歲汪峰又換新歡,凌晨別墅相會(huì),森林北清空賬號(hào)劃界限

56歲汪峰又換新歡,凌晨別墅相會(huì),森林北清空賬號(hào)劃界限

科學(xué)發(fā)掘
2026-05-07 10:32:29
鄭欽文羅馬站穩(wěn)步晉級(jí)!8強(qiáng)有望戰(zhàn)薩巴倫卡,保分迎來(lái)關(guān)鍵戰(zhàn)役!

鄭欽文羅馬站穩(wěn)步晉級(jí)!8強(qiáng)有望戰(zhàn)薩巴倫卡,保分迎來(lái)關(guān)鍵戰(zhàn)役!

田先生籃球
2026-05-08 13:51:05
雷霆被炮轟!不被吹犯規(guī)且假摔頻頻!雷迪克撕破聯(lián)盟遮羞布

雷霆被炮轟!不被吹犯規(guī)且假摔頻頻!雷迪克撕破聯(lián)盟遮羞布

籃球神吐槽
2026-05-08 22:41:35
老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

熱心柚子姐姐
2026-05-07 16:28:09
葉珂不再隱忍,生女后分手原因真相大白,黃曉明“私生活”被揭露

葉珂不再隱忍,生女后分手原因真相大白,黃曉明“私生活”被揭露

鄉(xiāng)野小珥
2026-05-08 14:21:31
何慶魁女兒去世,年僅54歲,哥哥親口證實(shí)噩耗,父親外出捕魚(yú)散心

何慶魁女兒去世,年僅54歲,哥哥親口證實(shí)噩耗,父親外出捕魚(yú)散心

東方不敗然多多
2026-05-08 16:49:12
2026-05-09 03:56:49
白鯨實(shí)驗(yàn)室one incentive-icons
白鯨實(shí)驗(yàn)室one
記錄 AI改變世界的瞬間
133文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎(jiǎng)金600萬(wàn) 工服成相親神器

頭條要聞

美公布首批UFO文件 視頻公開(kāi):阿聯(lián)酋現(xiàn)水母狀物體

頭條要聞

美公布首批UFO文件 視頻公開(kāi):阿聯(lián)酋現(xiàn)水母狀物體

體育要聞

他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

娛樂(lè)要聞

古天樂(lè)被曝隱婚生子,新娘竟是她

財(cái)經(jīng)要聞

估值3000億 DeepSeek尋求500億元融資

汽車(chē)要聞

MG 4X實(shí)車(chē)亮相 將于5月11日開(kāi)啟盲訂

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
游戲
數(shù)碼

衣服其實(shí)沒(méi)有必要買(mǎi)很貴,準(zhǔn)備這三件基礎(chǔ)款,百搭實(shí)用又不挑人

本地新聞

用蘇繡的方式,打開(kāi)江西婺源

教育要聞

摒棄打壓式教育,皮格馬利翁效應(yīng)

PS未發(fā)售重磅獨(dú)占要完!同類(lèi)項(xiàng)目崩盤(pán) 新作懸了

數(shù)碼要聞

華碩京東重磅新品日,華碩天選7系列游戲本開(kāi)啟預(yù)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版