網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊大模型重回牌桌了嗎？

2026-04-25 09:39:20　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

文 / 山杉

追趕者的四月

4月23日，騰訊混元Hy3 preview發(fā)布并開(kāi)源。幾個(gè)小時(shí)后，OpenAI深夜扔出GPT-5.5。不到24小時(shí)，DeepSeek V4預(yù)覽版跟著上線(xiàn)，終于交出了新一代旗艦?zāi)Ｐ汀?/p>

這只是一個(gè)縮影。這個(gè)4月，全球AI大模型依然如過(guò)江之鯽、頻頻上新。其中有三家特別值得留意：

首先是Meta。4月8號(hào)那天扎克伯格大概是長(zhǎng)舒了一口氣——投入不少卻始終差口氣的Meta AI，終于憑最新大模型Muse Spark打了個(gè)翻身仗，其性能表現(xiàn)出色，股價(jià)當(dāng)日大漲6.5%；還有Google，Gemini 3.1系列繼續(xù)保持強(qiáng)勢(shì)，在各方面都有拉開(kāi)差距的跡象——盡管它在另一些地方又亮起了紅燈。然后是國(guó)內(nèi)巨頭騰訊，帶著它剛剛發(fā)布的Hy3 preview。

之所以將它們類(lèi)比，在于這三個(gè)各自領(lǐng)域的王者，都在AI大戰(zhàn)中經(jīng)歷了一段頗受質(zhì)疑的時(shí)期。

最難受的當(dāng)然是Google，畢竟連AI基礎(chǔ)架構(gòu)Transformer都是它發(fā)明的。三年前，OpenAI用它的技術(shù)路線(xiàn)搞出ChatGPT，Google被迫應(yīng)戰(zhàn)、倉(cāng)促推出大模型Bard，結(jié)果大失水準(zhǔn)，在演示中連韋伯望遠(yuǎn)鏡的常識(shí)都搞錯(cuò)，公司市值當(dāng)即蒸發(fā)千億美元，甚至一度有人認(rèn)為Google大勢(shì)已去。

Meta更戲劇化，經(jīng)歷過(guò)戰(zhàn)略錯(cuò)判、內(nèi)部斗爭(zhēng)，也吃過(guò)慘痛教訓(xùn)——去年4月高調(diào)發(fā)布LLaMA 4，號(hào)稱(chēng)超越DeepSeek V3，結(jié)果不到兩天就淪為一顆"啞彈"。部分測(cè)試數(shù)據(jù)低到離譜，隨后更被曝出刷榜丑聞——提交給排行榜的版本，和公開(kāi)給開(kāi)發(fā)者的版本不是同一個(gè)模型。為此，其AI研究副總裁宣布離職。

跟上述兩家相比，騰訊的遭遇倒不至于那么劇烈，但"騰訊慢了"、"騰訊AI到底行不行"的疑問(wèn)從未停止過(guò)。

此前，混元核心團(tuán)隊(duì)背景多集中在計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等方面，而非大語(yǔ)言模型最核心的方向。過(guò)去三年，混元受困于組織分散，數(shù)據(jù)和Infra等基礎(chǔ)設(shè)施薄弱，認(rèn)知與全球頂尖團(tuán)隊(duì)有較大差距，其基礎(chǔ)模型給外界留下的印象是，"四平八穩(wěn)，缺乏特色"。在2026年初的騰訊年會(huì)上，馬化騰也直言"動(dòng)作慢了"。

大模型技術(shù)固然是一場(chǎng)馬拉松式的競(jìng)爭(zhēng)，但面對(duì)一日千里、紛繁復(fù)雜的態(tài)勢(shì)，很難沒(méi)有焦慮——尤其是必須直面一個(gè)問(wèn)題：是否走對(duì)了方向。

面對(duì)嚴(yán)峻的局面，Meta和Google做了同一件事：自我糾偏、痛苦地聚焦。

Google將Brain和DeepMind兩個(gè)團(tuán)隊(duì)合并——此前這兩個(gè)團(tuán)隊(duì)都很優(yōu)秀，卻各自為戰(zhàn)。之后是大舉投入，從Gemini 1.0的低于預(yù)期，到1.5 Pro方向回正，到3.1 Pro多維度領(lǐng)先——近三年持續(xù)迭代，Gemini的AI聊天機(jī)器人市場(chǎng)份額已從不到6%攀升至約20%以上。

糾偏是持續(xù)的過(guò)程。就在這個(gè)4月，紅燈在谷歌再一次亮起，聯(lián)合創(chuàng)始人布林親自?huà)鞄浗M建了一支"編碼突擊隊(duì)"，在當(dāng)下火熱的編碼智能體新戰(zhàn)場(chǎng)，重新追趕。

而經(jīng)歷過(guò)短暫的慌亂，Meta去年重組AI部門(mén)，成立超級(jí)智能實(shí)驗(yàn)室（MSL），并豪擲重金延攬頂級(jí)人才。九個(gè)月后交出了Muse Spark，其風(fēng)格和LLaMA 4截然不同，不喊"SOTA"，主動(dòng)標(biāo)明弱項(xiàng)，但在圖表理解和醫(yī)療推理上等方面表現(xiàn)突出，token效率極高。一個(gè)因?yàn)樽非髷?shù)字而翻車(chē)的公司，如今選擇了克制和場(chǎng)景聚焦。終于重新贏得了外界的認(rèn)可。

反觀騰訊，它過(guò)去三年似乎經(jīng)歷了Meta、Google故事的前半段。到了這最近半年，騰訊內(nèi)部也密集經(jīng)歷了重建、重構(gòu)和聚焦：延攬前OpenAI研究員姚順雨出任首席AI科學(xué)家，AI Lab撤銷(xiāo)，收攏AI研發(fā)力量，招攬一批頂級(jí)人才，重建研發(fā)架構(gòu)和基礎(chǔ)設(shè)施……幾個(gè)月之后，推出Hy3 preview。

據(jù)了解，這一模型進(jìn)行了底層重構(gòu)，"總參數(shù)295B，激活參數(shù)21B，最大支持256K上下文長(zhǎng)度，在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。"

新模型很驚艷嗎？在1T參數(shù)以上巨型模型林立的當(dāng)下，很難這么評(píng)價(jià)，畢竟還只是一個(gè)不到300B的Preview版。但對(duì)騰訊自身來(lái)講，是一個(gè)轉(zhuǎn)變的信號(hào)彈。模型發(fā)布后，外界立刻將它與主流模型進(jìn)行了比較，感知最強(qiáng)的是其實(shí)用性和體驗(yàn)的改善。一位大模型測(cè)評(píng)博主寫(xiě)道：Hy3終于如愿進(jìn)入了國(guó)模第一梯隊(duì)。更直接的信號(hào)是，Hy3 preview上線(xiàn)即成為騰訊十余款核心產(chǎn)品的首選模型，這在混元?dú)v史上是第一次。有博主直言："先上桌，再追趕，這一步算是邁出來(lái)"。

對(duì)大模型競(jìng)爭(zhēng)來(lái)說(shuō)，最重要的可能不是這個(gè)版本的表現(xiàn)"數(shù)據(jù)"——Meta和Google證明了，落后了的巨頭只要敢于自我變革、重新出發(fā)，走到正確的路上，極大概率會(huì)靠著獨(dú)特的優(yōu)勢(shì)加速兌現(xiàn)其潛力的。

于是，值得一問(wèn)的問(wèn)題是：騰訊開(kāi)始走上正確的道路了嗎？

不是迭代，是推倒重來(lái)

"Hy3 preview是混元大模型重建的第一步。"在Hy3 preview發(fā)布的官方Blog中，騰訊首席AI科學(xué)家、AI Infra部及大語(yǔ)言模型部負(fù)責(zé)人姚順雨寫(xiě)道。很顯然，Hy3 preview不是在上一個(gè)版本基礎(chǔ)上修修補(bǔ)補(bǔ)。

據(jù)了解，Hy3 preview是從2026年1月底左右才開(kāi)始起步，組織架構(gòu)、基礎(chǔ)設(shè)施基本上重建了一遍。原有的訓(xùn)練框架沒(méi)有沿用，Agent系統(tǒng)幾乎從零搭建。一位內(nèi)部人士用了一個(gè)形象的說(shuō)法：這不是翻新裝修，是把房子拆了重蓋。

"重訓(xùn)一個(gè)底座"到底意味著什么？

首先需要海量?jī)?yōu)質(zhì)數(shù)據(jù)，經(jīng)過(guò)清洗、篩選、去重、分類(lèi)、配比——數(shù)據(jù)比例配錯(cuò)了，模型可能中文好但英文差，或者會(huì)聊天但不會(huì)寫(xiě)代碼。

然后是大規(guī)模張GPU組成集群，穩(wěn)定運(yùn)行幾十天甚至幾個(gè)月，中間任何一張卡出故障、任何一次通信中斷都可能導(dǎo)致訓(xùn)練回滾——Meta訓(xùn)LLaMA 3.1 405B，16384張H100跑了54天，期間遭遇419次意外中斷，平均三小時(shí)一次，而這還是在成熟的訓(xùn)練基礎(chǔ)設(shè)施上。

訓(xùn)完底座只完成了一半，之后還要通過(guò)強(qiáng)化學(xué)習(xí)，把一個(gè)"讀了很多書(shū)但不會(huì)說(shuō)人話(huà)、不會(huì)干活"的毛坯打磨成能和人正常交互的產(chǎn)品。

混元面對(duì)的恰恰是重構(gòu)級(jí)別的難度——基礎(chǔ)設(shè)施全新搭建，訓(xùn)練范式切換，團(tuán)隊(duì)大規(guī)模大量新人加入。

既然難度這么大，也已經(jīng)有了上一代模型，為什么不在已有基礎(chǔ)上迭代，非要從頭來(lái)過(guò)？而且是在所有人都在加速奔跑的時(shí)候。

答案可能和直覺(jué)相反?？雌饋?lái)推倒重來(lái)充滿(mǎn)不確定性，實(shí)則恰恰是為了獲得確定性。

混元Hy3 preview選擇的技術(shù)路線(xiàn)——MoE架構(gòu)、強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的后訓(xùn)練等等，很多是被多家頭部團(tuán)隊(duì)反復(fù)驗(yàn)證過(guò)的成熟方案。曾經(jīng)DeepSeek V3用MoE做到了業(yè)界標(biāo)桿，OpenAI和Anthropic早已把強(qiáng)化學(xué)習(xí)作為后訓(xùn)練的核心引擎，Google和Meta都在把底座與應(yīng)用場(chǎng)景越拉越近。選擇它們的風(fēng)險(xiǎn)反而是可控的。

Google當(dāng)年面對(duì)的也是同樣的重構(gòu)難題。Brain和DeepMind分別都很強(qiáng)，但這個(gè)組織形態(tài)跑不出統(tǒng)一的大模型產(chǎn)品。皮查伊選擇強(qiáng)行合并，短期代價(jià)是Gemini 1.0低于預(yù)期，但這個(gè)決定讓Google獲得了一個(gè)統(tǒng)一的底座和一致的迭代方向——之后所有加速都建立在這個(gè)基礎(chǔ)上。Meta更極端，LLaMA 4翻車(chē)之后，扎克伯格沒(méi)有在原來(lái)基礎(chǔ)上修補(bǔ)，而是另起爐灶，連品牌都換了。

重建的本質(zhì)，是用短期的陣痛換取長(zhǎng)期的確定性——讓自己站到一條被驗(yàn)證過(guò)的、正確的道路上，為混元更大參數(shù)的模型迭代打好基礎(chǔ)。

這或許便是混元的選擇。那么具體來(lái)說(shuō)，這條路通向哪里？

重建一條"實(shí)用"的道路

如果用一個(gè)詞概括Hy3 preview的重構(gòu)方向，大概是"實(shí)用"。

這兩個(gè)字聽(tīng)起來(lái)樸素，但在大模型行業(yè)的語(yǔ)境里，其實(shí)是一個(gè)鮮明的立場(chǎng)選擇。

以前很多大模型團(tuán)隊(duì)默認(rèn)的敘事是線(xiàn)性的：先把模型參數(shù)做大、做到更聰明、更通用，榜單更高；然后再談落地、可用、體驗(yàn)。但混元沒(méi)有選擇"先極致智能再可用"的從眾路線(xiàn)，而是從源頭就把"實(shí)用性"塞進(jìn)整個(gè)鏈路里——從數(shù)據(jù)理解、預(yù)訓(xùn)練，到強(qiáng)化學(xué)習(xí)，再到評(píng)估——都是圍繞真實(shí)場(chǎng)景的實(shí)用性來(lái)構(gòu)建。

這個(gè)方向似乎正在變成行業(yè)共識(shí)。同一天發(fā)布的GPT-5.5，定位從"回答"轉(zhuǎn)向"執(zhí)行"；DeepSeek V4萬(wàn)億參數(shù)開(kāi)源，核心方向也聚焦Agent。

對(duì)混元而言，這種"有用哲學(xué)"首先體現(xiàn)在底座的能力選擇上：聚焦騰訊社交、游戲、廣告等核心業(yè)務(wù)場(chǎng)景中最需要的模型能力，做體系化建設(shè)。

復(fù)雜推理——Agent時(shí)代對(duì)模型最基本的要求是"能想"：面對(duì)復(fù)雜任務(wù)能規(guī)劃、能拆解、能一步步推導(dǎo)。

指令遵循與上下文學(xué)習(xí)——長(zhǎng)期以來(lái)國(guó)產(chǎn)模型的痛點(diǎn)。舉個(gè)具體例子：多人群聊到第100輪，中間插了幾個(gè)人說(shuō)話(huà)，準(zhǔn)確識(shí)別"某句話(huà)是在回復(fù)兩條之前的那條"——人類(lèi)做得到，大多數(shù)模型做不到。這恰恰是Hy3 preview此次的突破，直接服務(wù)于元寶和元寶派的真實(shí)交互場(chǎng)景。

代碼與智能體能力——也許是最出乎意料的進(jìn)步。此前混元在Coding領(lǐng)域幾乎沒(méi)有存在感，之所以高優(yōu)先級(jí)投入，應(yīng)該和騰訊自身的產(chǎn)品布局直接相關(guān)：今年推出的WorkBuddy、QClaw等智能體產(chǎn)品，都需要底座在代碼生成和Agent協(xié)作上過(guò)關(guān)。

三個(gè)方向不是隨機(jī)選的。讓一個(gè)Agent完成工作，要理解指令，在長(zhǎng)鏈條任務(wù)中不丟上下文，一步步推出方案，再用代碼實(shí)現(xiàn)——恰好是Agent時(shí)代模型最高頻被調(diào)用的三種能力。這三種能力的組合本身就是一個(gè)體系化的選擇?；煸墓俜讲┛完U釋了"實(shí)用"的三條原則，第一條就是能力體系化：不推崇"偏科"，因?yàn)榧词故谴a智能體的單一應(yīng)用，也涉及推理、長(zhǎng)文、指令、對(duì)話(huà)、代碼、工具等多種能力的深度協(xié)同。

底座選擇打哪幾個(gè)點(diǎn)只是第一步，怎么訓(xùn)也變了。這可能是混元最重要的方法論轉(zhuǎn)向：重點(diǎn)攻堅(jiān)RL。

此前混元的后訓(xùn)練重度依賴(lài)SFT——用大量標(biāo)注好的問(wèn)答對(duì)教模型"看到這種輸入就這樣輸出"。但據(jù)接近團(tuán)隊(duì)的人士透露，新版本做法截然不同，重點(diǎn)精力都在RL上。

區(qū)別可以這樣理解：SFT給標(biāo)準(zhǔn)答案——"正確答案是A"；RL只告訴模型好與不好，自己去推測(cè)為什么。前者讓模型快速學(xué)會(huì)應(yīng)對(duì)已知題型，后者教會(huì)模型面對(duì)陌生問(wèn)題時(shí)自行判斷。在真實(shí)場(chǎng)景里，用戶(hù)的提問(wèn)千奇百怪，不可能每一種都提前標(biāo)注，RL的價(jià)值就在這里。

更關(guān)鍵的是，RL模式下，訓(xùn)練數(shù)據(jù)量可以非常大，持續(xù)訓(xùn)下去，不斷地用真實(shí)復(fù)雜的任務(wù)把模型的上限拉高。

"各家的差異就是你的模型到底能接觸到多少?gòu)?fù)雜業(yè)務(wù)——這就是生命力的來(lái)源。"一位業(yè)內(nèi)人士評(píng)價(jià)。

這句話(huà)指向一個(gè)值得品味的遠(yuǎn)期含義。騰訊覆蓋社交、游戲、內(nèi)容、廣告、生活服務(wù)等多樣場(chǎng)景，其豐富度在全球范圍內(nèi)都屬于第一梯隊(duì)。一旦"場(chǎng)景-反饋-訓(xùn)練-更強(qiáng)模型-更多場(chǎng)景"的循環(huán)跑通，能量巨大。

當(dāng)然，從"有場(chǎng)景"到"反饋真正回流為RL的訓(xùn)練燃料"，中間還隔著數(shù)據(jù)合規(guī)、反饋標(biāo)注、工程鏈路等多重問(wèn)題——這是混元下一階段真正要啃的硬骨頭。但無(wú)論如何，重點(diǎn)關(guān)注RL是一條越跑越寬的路。

訓(xùn)練范式之外，還有一個(gè)更隱蔽但也許更深層的變化：場(chǎng)景需求從一開(kāi)始就寫(xiě)進(jìn)了技術(shù)方案。

混元團(tuán)隊(duì)內(nèi)部的說(shuō)法叫"聯(lián)合設(shè)計(jì)"（Co-design）。過(guò)去比較典型的模式是：基模團(tuán)隊(duì)悶聲訓(xùn)模型，訓(xùn)完交給產(chǎn)品業(yè)務(wù)團(tuán)隊(duì)；用得不順，再下場(chǎng)幫業(yè)務(wù)一起調(diào)?？捎眯栽谀┒搜a(bǔ)救，甚至不少產(chǎn)品優(yōu)先選用外部開(kāi)源模型。但混元這次做了一個(gè)重要變化——在強(qiáng)化框架搭建、數(shù)據(jù)策略、評(píng)估指標(biāo)設(shè)計(jì)的早期，就建立了與業(yè)務(wù)方的Co-design機(jī)制。

元寶是一個(gè)典型的例子。Hy3 preview的研發(fā)過(guò)程中，元寶團(tuán)隊(duì)與模型團(tuán)隊(duì)做了深度的聯(lián)合設(shè)計(jì)。元寶團(tuán)隊(duì)帶進(jìn)來(lái)的，是一套從真實(shí)用戶(hù)行為中提煉出的多維評(píng)測(cè)體系——覆蓋意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索召回效果，比通用benchmark更貼近產(chǎn)品場(chǎng)景。同時(shí)，他們把用戶(hù)反饋中沉淀下來(lái)的判斷也注入了訓(xùn)練過(guò)程：文筆是否自然、情商是否到位、內(nèi)容組織是否清晰、專(zhuān)業(yè)表達(dá)是否有分寸感。這些維度很難從模型側(cè)自行定義，需要離用戶(hù)近的人來(lái)提供標(biāo)準(zhǔn)。

在應(yīng)用Hy3 preview的產(chǎn)品盲測(cè)中，元寶在寫(xiě)作、閑聊、搜索三個(gè)場(chǎng)景上效果體現(xiàn)得最明顯。用戶(hù)反饋中反復(fù)出現(xiàn)一個(gè)詞："活人感"。

這就是聯(lián)合設(shè)計(jì)真正在做的事："實(shí)用性"的定義，從基模團(tuán)隊(duì)單方面決定，變成和場(chǎng)景共同決定。

與之配套的是評(píng)估體系的轉(zhuǎn)變。一方面，混元團(tuán)隊(duì)通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的"真實(shí)戰(zhàn)斗力"，另一方面，混元也開(kāi)始引入真實(shí)業(yè)務(wù)場(chǎng)景來(lái)評(píng)估：在某條具體鏈路上，模型是否穩(wěn)定、是否貼合語(yǔ)境、是否能理解用戶(hù)的實(shí)際意圖、能讓用戶(hù)感到自然——這些是"實(shí)用"的證據(jù)。而一旦評(píng)估被真實(shí)場(chǎng)景牽引，訓(xùn)練數(shù)據(jù)、強(qiáng)化策略、工具鏈設(shè)計(jì)都會(huì)被迫跟著改變。這也是為什么"實(shí)用"不只是一句口號(hào)——它正在反向重塑整個(gè)研發(fā)系統(tǒng)。

"實(shí)用"落到工程層面，還意味著必須在乎性?xún)r(jià)比。這個(gè)詞聽(tīng)起來(lái)庸俗，但在Agent時(shí)代是嚴(yán)肅的硬約束。一個(gè)Coding Agent完成一個(gè)任務(wù)可能調(diào)用模型50到100次，Token消耗量是普通對(duì)話(huà)的5到30倍。中國(guó)信通院數(shù)據(jù)顯示，國(guó)內(nèi)日均Token調(diào)用量?jī)赡暝鲩L(zhǎng)超過(guò)1400倍；Gartner則警告，單個(gè)Token價(jià)格在暴跌，但Agent總消耗量增長(zhǎng)更快——Token越便宜用得越多，總成本反而可能上升。

Hy3 preview有295B總參、21B激活——模型內(nèi)部有大量"專(zhuān)家"，每次推理只激活其中一小部分。關(guān)鍵不在于專(zhuān)家多少，而在于路由網(wǎng)絡(luò)能不能把問(wèn)題精準(zhǔn)分配給最合適的那個(gè)。從官方信息看，混元AI Infra做了全棧優(yōu)化，同等成本下推理效率提升40%。一位業(yè)界人士說(shuō)得直接："推理成本降低，也會(huì)給元寶省下一批卡。"對(duì)騰訊的體量而言，單Token成本哪怕降10%，累積節(jié)省就是天文數(shù)字。

幾個(gè)層面合在一起看，Hy3 preview的更大的意義，可能在于它搭起了一套圍繞真實(shí)場(chǎng)景的實(shí)用性來(lái)定義目標(biāo)、組織研發(fā)、評(píng)估結(jié)果的系統(tǒng)。據(jù)透露，作為重新起步的一個(gè)開(kāi)始，混元也希望通過(guò)這次發(fā)布獲得全面的用戶(hù)體驗(yàn)反饋，用以提升Hy3正式版的性能。正式版仍在持續(xù)迭代，下一代模型也已啟動(dòng)生產(chǎn)——這個(gè)版本搭好的基礎(chǔ)設(shè)施和跑通的流程，后續(xù)不用重建。

圖注：代碼能力評(píng)測(cè)

圖注：Agent綜合能力評(píng)測(cè)，Hy3 preview 展現(xiàn)出高性?xún)r(jià)比

罕見(jiàn)的加速度

方向?qū)α?，只是必要條件。在這個(gè)行業(yè)里，幾乎不可能慢慢走在正確的路上，同樣需要考驗(yàn)的是：速度。

Hy3 preview從預(yù)訓(xùn)練啟動(dòng)到模型發(fā)布，三個(gè)月完成。

而以行業(yè)實(shí)際節(jié)奏為參照，通常需要6個(gè)月以上。一個(gè)業(yè)界人士評(píng)價(jià)，"在三個(gè)月左右時(shí)間里一次性極致壓縮，其實(shí)是極大的挑戰(zhàn)。"

但所有人都知道，他們必須要完成這一項(xiàng)極限任務(wù)。

為此，他們做了一個(gè)決策：并行生產(chǎn)（而非傳統(tǒng)的串行）。幾條線(xiàn)同時(shí)拉起來(lái)。

開(kāi)始正式訓(xùn)練的時(shí)間是1月31日。預(yù)訓(xùn)練開(kāi)始的同時(shí)，后訓(xùn)練團(tuán)隊(duì)在小模型上做驗(yàn)證，全新的RL基礎(chǔ)設(shè)施同步建設(shè)，到某個(gè)節(jié)點(diǎn)，業(yè)務(wù)鏈路同步適配。所有能并行的環(huán)節(jié)全部并行，嚴(yán)絲合縫咬合在一起。

中間穿過(guò)了春節(jié)——沒(méi)有停工?？ㄔ谂?，人就跟著跑。有人凌晨三點(diǎn)起來(lái)讓實(shí)驗(yàn)繼續(xù)。"但凡有一點(diǎn)buffer，你都會(huì)想要節(jié)約出一點(diǎn)可能的試錯(cuò)空間。"

一個(gè)有意思的細(xì)節(jié)是，Agent訓(xùn)練時(shí)，在新的RL infra上首次投產(chǎn)應(yīng)用，就長(zhǎng)跑成功。但真正讓這個(gè)團(tuán)隊(duì)高興的是，這驗(yàn)證了他們的"solid"工作文化——如果每一步做得質(zhì)量很高，就能帶來(lái)一個(gè)好的結(jié)果。

熟悉行業(yè)的人知道這樣的速度意味著什么，基本就是很難容忍重大的BUG或者回滾。這個(gè)過(guò)程就像經(jīng)驗(yàn)老道的醫(yī)生團(tuán)隊(duì)做一檔高難度的手術(shù)——除了方法技巧，也得知道各種風(fēng)險(xiǎn)和意外，以及能快速應(yīng)對(duì)。

而這個(gè)大規(guī)模的咬合過(guò)程，還伴隨著一個(gè)組織的磨合的挑戰(zhàn)，大量新人，來(lái)自不同公司，并帶著各自的經(jīng)驗(yàn)和方法論。

最終，在一種極限作戰(zhàn)的狀態(tài)中，這個(gè)團(tuán)隊(duì)都更深理解了彼此，比如姚順雨常掛在嘴邊的，做事要"solid"；預(yù)訓(xùn)練的同學(xué)常說(shuō)，"預(yù)訓(xùn)練就是debug"。

據(jù)了解，自去年12月底混元架構(gòu)調(diào)整以來(lái)，整個(gè)組織在持續(xù)發(fā)生變化。其中一個(gè)舉措是：正式取消管理層級(jí)頭銜，試行負(fù)責(zé)人制。不叫總經(jīng)理，不叫總監(jiān)和組長(zhǎng)——所有崗位名稱(chēng)簡(jiǎn)化為"某某方向負(fù)責(zé)人"。管理角色跟著業(yè)務(wù)走，不是一個(gè)固定身份：你今天帶這個(gè)方向，就有管理標(biāo)簽；明天方向調(diào)了，標(biāo)簽跟著摘掉。

這種扁平化，在日常協(xié)作帶來(lái)了一些非常具體的結(jié)果。比如，開(kāi)會(huì)時(shí)，沒(méi)人需要"向上管理"了。

一位參與跨部門(mén)協(xié)作的員工描述了他的直觀體感："不管你是什么角色，有問(wèn)題會(huì)上直接提，當(dāng)場(chǎng)拍掉。誰(shuí)是責(zé)任人，馬上就定。不需要層層匯報(bào)。"

這種扁平和做事導(dǎo)向的文化，肉眼可見(jiàn)地帶來(lái)一種工作氛圍的變化："大家不是拼體力、拼加班——而是變成了怎么聰明、高效地做事。"

甚至跨部門(mén)合作都更順暢了。Hy3 preview要上到產(chǎn)品線(xiàn)，"比如上元寶、CodeBuddy……模型同學(xué)跟產(chǎn)品側(cè)一拉群，當(dāng)天就推進(jìn)。大家的思路很明確——以事為導(dǎo)向。"該內(nèi)部人士說(shuō)。

"因?yàn)檎麄€(gè)騰訊都在加速的狀態(tài)中。因?yàn)槲覀冃陆▓F(tuán)隊(duì)的文化基調(diào)，就是要把這事搞成。"

三四個(gè)月很難盡善盡美。

"bench表現(xiàn)挺好的，但它還沒(méi)有到真實(shí)世界去被'毒打'過(guò)。"一位內(nèi)部人士表達(dá)了她的擔(dān)憂(yōu)，但這也是混元先推出過(guò)程性版本的原因——更快更多獲得真實(shí)世界反饋，才更有機(jī)會(huì)變得強(qiáng)大。

更重要的是，這個(gè)加速度是面向未來(lái)的。換句話(huà)說(shuō)，只有迭代速度持續(xù)加快，混元在這個(gè)注定是長(zhǎng)周期的AI競(jìng)賽中，才能得以持續(xù)改善。

一個(gè)既快又慢的新紀(jì)元

在AI競(jìng)賽中，有一個(gè)反直覺(jué)的規(guī)律：在任何一個(gè)時(shí)間截面上判斷"誰(shuí)贏了"，幾乎注定是錯(cuò)的。

2023年初所有人說(shuō)Google完了，三年后王者歸來(lái)，如今又重新追趕。2024年中Meta是開(kāi)源之王，一年后翻車(chē)，再之后以全新面目重來(lái)。DeepSeek V3以極低成本震驚世界，三個(gè)月后行業(yè)又向前走了一大步，直至這幾天又帶來(lái)了驚人的"性?xún)r(jià)比"。領(lǐng)先和落后不斷交替，沒(méi)有誰(shuí)能鎖定贏面。

行業(yè)真正在獎(jiǎng)勵(lì)的，并非某一次發(fā)布的"最強(qiáng)"，而是方向選擇的正確性、持續(xù)迭代的能力、以及把模型能力轉(zhuǎn)化為用戶(hù)價(jià)值的效率。

Google用近三年證明了這一點(diǎn)。不僅是底座變強(qiáng)，更是Gemini和Google產(chǎn)品矩陣的深度整合；這一舉措還在加碼，今年首次設(shè)立了"首席AI架構(gòu)師"一職，直接向皮查伊匯報(bào)，只干一件事——加速把AI模型整合進(jìn)Google全產(chǎn)品線(xiàn)。Meta的Muse Spark從一開(kāi)始就嵌入WhatsApp和Instagram，服務(wù)32億用戶(hù)。當(dāng)?shù)鬃芰θ諠u趨同，底座和場(chǎng)景的咬合深度就是長(zhǎng)期勝負(fù)手。

Token經(jīng)濟(jì)學(xué)在加速這個(gè)趨勢(shì)。中國(guó)大模型API價(jià)格在過(guò)去兩年里已經(jīng)下降了90%以上。當(dāng)推理的邊際成本趨近于零，單純賣(mài)Token的商業(yè)模式注定不可持續(xù)。真正的價(jià)值在于Token被用來(lái)做什么——用在哪個(gè)場(chǎng)景、解決什么問(wèn)題，這需要模型、場(chǎng)景和工程系統(tǒng)的深度咬合，而不是benchmark上多0.5%。

騰訊豐富的場(chǎng)景里，每天覆蓋數(shù)以?xún)|計(jì)的用戶(hù)。這些場(chǎng)景產(chǎn)生的反饋密度和迭代驅(qū)動(dòng)力，是純做底座API的所團(tuán)隊(duì)不具備的。Hy3 preview在元寶和Workbuddy等十余個(gè)騰訊核心業(yè)務(wù)場(chǎng)景的先行落地，以及RL與復(fù)雜真實(shí)場(chǎng)景的相互依存——都指向這個(gè)長(zhǎng)周期的競(jìng)爭(zhēng)邏輯。

一位內(nèi)部人士給了一個(gè)耐人尋味的比喻："可以把它理解成一個(gè)清華畢業(yè)生。學(xué)完了，終于下山了。他行萬(wàn)里路的起點(diǎn)，就是要充分在各種場(chǎng)景里深度沉淀。"

不是出道即巔峰——是出道即起點(diǎn)。

如果它是一顆新種子，如今似乎已經(jīng)證明它能發(fā)芽。接下來(lái)的問(wèn)題是——土壤里的養(yǎng)分能不能順暢滋養(yǎng)它。

畢竟AI競(jìng)爭(zhēng)，不再只是模型的單一競(jìng)爭(zhēng)，更是模型能力、場(chǎng)景理解、工程能力、產(chǎn)品能力和上下文深度的乘數(shù)效應(yīng)。真正的壁壘在別人不容易復(fù)制的場(chǎng)景積累和系統(tǒng)能力里。

所有人都在同時(shí)奔跑，真正的考驗(yàn)還在后面。

在面向未來(lái)漫長(zhǎng)的旅程中，大模型仍在一種"各領(lǐng)風(fēng)騷幾個(gè)月"的階段。就像Google迎頭趕上，不久后又有Claude強(qiáng)勁崛起，在編碼智能體的新戰(zhàn)場(chǎng)上，定義了方向，OpenAI緊隨其后，布林不得不再次啟動(dòng)戰(zhàn)時(shí)機(jī)制。Meta的新?tīng)顟B(tài)保持多久，也不得而知。

沒(méi)有永遠(yuǎn)的領(lǐng)先者，也沒(méi)有永遠(yuǎn)的落后者。但確定的是，巨頭一旦走在正確的道路上，加速度會(huì)比想象的更快。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.