網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里春節(jié)突襲，用千問(wèn)3.5把頂尖模型干成了白菜價(jià)

2026-02-17 14:27:33　來(lái)源: 知危

浙江舉報(bào)

分享至

自 AI 概念火熱之后，要說(shuō)每年過(guò)年最熱鬧的地方在哪里？知危覺(jué)得答案得是各個(gè)大廠的 AI 實(shí)驗(yàn)室和各個(gè)媒體編輯部了。

昨晚剛過(guò)完年，馬年的第一天，AI 界的 “ 源神 ” Qwen3.5（千問(wèn) 3.5 ）就突然發(fā)布，雖說(shuō)之前已經(jīng)有 Qwen3.5 的信息傳出，心里已經(jīng)做好了預(yù)期準(zhǔn)備，但是仔細(xì)看了看這次的新模型特性，還是得感嘆一句，不愧是源神??！

作為開(kāi)源界的扛把子，這次新發(fā)的 Qwen3.5-Plus 不僅在推理、編程、Agent 智能體等全方位基準(zhǔn)評(píng)估中均表現(xiàn)優(yōu)異，還在視覺(jué)理解能力的權(quán)威評(píng)測(cè)中斬獲數(shù)項(xiàng)性能最佳，性能媲美 Gemini3-Pro 等一線閉源模型。

如果說(shuō)性能提升是預(yù)期內(nèi)的，那這次更新最令人吃驚的是其同等參數(shù)下的性能表現(xiàn)提升十分驚人。之前萬(wàn)億參數(shù)的 Qwen3-max，在如今，被只有 4000 億參數(shù)的 Qwen3.5-Plus 所超越。只用不到一半的參數(shù)，就能帶來(lái)更強(qiáng)的性能，直接的影響就是大眾在算力上的花費(fèi)更低了。同等性能，Qwen3.5-Plus每百萬(wàn) token 現(xiàn)在最低只要 8 毛錢。這比以性價(jià)比著稱的 DeepSeek 還要便宜數(shù)倍。在杭州，一公斤白菜也就賣這價(jià)。

一般來(lái)說(shuō)，大語(yǔ)言模型界向來(lái)奉行 Scaling Law，即誰(shuí)的參數(shù)大，誰(shuí)的性能就可能更好，那么這次的千問(wèn) 3.5 怎么就反其道而行之，參數(shù)變小了，性能反而提升了呢？

這就不得不提到千問(wèn)大模型團(tuán)隊(duì)在語(yǔ)言模型架構(gòu)上的不斷精進(jìn)。

我們思考一下過(guò)去幾年 AI 界的情況，正是因?yàn)榇蠹姨^(guò)于遵守 Scaling Law，導(dǎo)致那些做模型的沒(méi)怎么賺到錢。反而是老黃這個(gè)賣顯卡的，市值一飛沖天，一度登頂全球市值第一。

參數(shù)暴漲帶來(lái)的直接影響就是：我能訓(xùn)練得起，但是用不起了。這在應(yīng)用落地上可不是啥好消息。所以，千問(wèn) 3.5 就換了個(gè)思路，既然現(xiàn)在參數(shù)的邊際效應(yīng)逐漸遞減，那么我們就想辦法提升每個(gè)參數(shù)的性價(jià)比。

總的來(lái)說(shuō)，千問(wèn) 3.5 之所以能縮小參數(shù)，主要是這幾方面的技術(shù)突破，涉及到技術(shù)方面的事情稍微有點(diǎn)枯燥，咱們就盡量短著點(diǎn)說(shuō)。

首先是混合注意力機(jī)制。這個(gè)大家應(yīng)該都聽(tīng)爛了，不管是訓(xùn)練還是推理，注意力機(jī)制所占據(jù)的計(jì)算量都是最大的，原因就是它需要讓每個(gè)詞和每個(gè)詞之間都做（點(diǎn)積）計(jì)算，來(lái)算出詞與詞之間的關(guān)聯(lián)度。所以，這種算法就有個(gè)大問(wèn)題，當(dāng)文本量越來(lái)越長(zhǎng)之后，每多一個(gè)詞，需要的計(jì)算量都是遞增的，比如只有十個(gè)詞的時(shí)候，你多一個(gè)詞可能只要多算 10 次，但是當(dāng)達(dá)到 10 萬(wàn)上下文時(shí)，你再加一個(gè)詞，就得多算十萬(wàn)次了，這也是為什么語(yǔ)言模型這么難解決上下文長(zhǎng)度的原因。而混合注意力機(jī)制，就是在標(biāo)準(zhǔn)注意力機(jī)制的基礎(chǔ)上，引入了一種 “ 按需計(jì)算 ” 的動(dòng)態(tài)策略，能根據(jù)語(yǔ)義的重要程度進(jìn)行 “ 差異化處理 ”，如果我發(fā)現(xiàn)某個(gè)詞不重要，比如 “ 我養(yǎng)了一只狗 ” 里面的 “ 只 ”，你把 “ 只 ” 說(shuō)成 “ 條 ”、“ 個(gè) ” 大家也能看懂，那我就不去和每個(gè)前文做計(jì)算，只計(jì)算它身邊的少部分詞，而重要的詞，比如這句話里的 “ 狗 ”，你換成其它的 “ 貓 ”、“ 豬 ” 就完全變意思了，這就會(huì)去做全局計(jì)算，這樣就能讓效率和精度同時(shí)提升。

第二點(diǎn)就是比傳統(tǒng)混合專家（ MOE ）更極致的稀疏架構(gòu)，MOE 架構(gòu)在 DeepSeek V3 那會(huì)就火過(guò)一陣，簡(jiǎn)單理解一下，這就好像把龐大的參數(shù)量，按照知識(shí)分類，分成不同的專家，這樣就能通過(guò)減少激活的參數(shù)，加快推理速度。而千問(wèn) 3.5 通過(guò)更加極致的專家分類，讓整個(gè) 397B 參數(shù)的模型，最小只需要激活 17B，這計(jì)算量就一下減少了 20 多倍。

剩下的還有原生多 Token 預(yù)測(cè)，通過(guò)多同時(shí)生成幾個(gè)詞，加快推理的速度，以及 25 年剛拿了最佳論文獎(jiǎng)的用于精確控制輸出結(jié)果的門控機(jī)制之類的技術(shù)，這四項(xiàng)技術(shù)相輔相成，當(dāng)它們同時(shí)作用于一個(gè)模型時(shí)，帶來(lái)的效率躍遷是顛覆性的。想想，每次推理僅激活 17B，卻可以實(shí)現(xiàn)與 GPT-5.2、Gemini-3-pro 同級(jí)的性能表現(xiàn)。與上一代超萬(wàn)億的Qwen3-Max 相比，Qwen3.5-Plus 還以 4000 億參數(shù)實(shí)現(xiàn)了性能上的超越，部署顯存占用更是降低 60% 。同時(shí)，推理吞吐量最高提升至 19 倍，推理效率大幅提升。

總之，千問(wèn)3.5通過(guò)這些技術(shù)突破，讓模型盡量減少無(wú)用的計(jì)算，這樣不僅能使用小參數(shù)獲得更好的性能，還能大大減少部署模型對(duì)硬件的苛刻要求。

這些技術(shù)非常前沿，但對(duì)普通人來(lái)說(shuō)，想要感知技術(shù)那實(shí)在是太難了。

那巧了不是，這次的千問(wèn) 3.5 還有個(gè)非常 “ 好用 ” 的更新，除了這些架構(gòu)上的新技術(shù)，這次的千問(wèn) 3.5 在自身能力上，也是展現(xiàn)了團(tuán)隊(duì)對(duì)于未來(lái)趨勢(shì)的判斷，那就是“ 原生多模態(tài) ”。

和一般的語(yǔ)言模型通過(guò)文字標(biāo)簽來(lái)理解圖片不同，原生多模態(tài)，是能直接看懂圖像、視頻、音頻的。它們之間的差別猶如盲人摸象，一個(gè)只能看到局部，而原生多模態(tài)，則是能完完整整的繞著大象看。

之所以說(shuō)它 “ 好用 ”，是因?yàn)橛辛嗽嗄B(tài)，你就不只能通過(guò)文字和 AI 聊天，你還能通過(guò)圖像，更準(zhǔn)確的讓 AI 知道你的意思。

說(shuō)得多不如上手一試，我們?cè)诘谝粫r(shí)間拿到千問(wèn)3.5的使用資格后也是快速的上手試了試，一上手我就給新模型來(lái)了個(gè)下馬威，直接給它來(lái)一個(gè)洗車難題。

結(jié)果，回答還沒(méi)出，這跳 Token 的速度就把我震驚到了。

這思考鏈 chua~chua~ 的，一行接一行的蹦出來(lái)，不愧是加持了四項(xiàng)架構(gòu)黑科技的千問(wèn) 3.5，而且，它不僅回答得快，這答的也好，在思考完畢后，簡(jiǎn)單直接的給出它最終的答案 ——開(kāi)車過(guò)去。

你看，這第一題就把其它某些模型給比下去了，這給了我極大的信心，秉承測(cè)不死就往死里測(cè)的精神，接下來(lái)的測(cè)試會(huì)直接上一個(gè)臺(tái)階。

首先，測(cè)試一下編程能力，我讓千問(wèn) 3.5 直接幫我寫一個(gè)貪吃蛇的小游戲，問(wèn)題一提出來(lái)，千問(wèn) 3.5 就開(kāi)始對(duì)任務(wù)進(jìn)行快速拆解。

等思路捋清之后，這代碼和之前一樣，寫得飛快，超長(zhǎng)的上下文也是一次就讓整個(gè)代碼輸出完成。

等它結(jié)束后，拿千問(wèn) 3.5 給的代碼去測(cè)試，果不其然，一次性成功，中間我沒(méi)有給過(guò)任何的其它提示，代碼編寫出來(lái)的貪吃蛇游戲完整度也非常的高，這個(gè)任務(wù)從功能上來(lái)說(shuō)，處理得非常完美。

但只有功能還不夠，于是我又給它提出要求，讓它做好看點(diǎn)，加上特效試試。

程序太長(zhǎng)，這里就不展示所有代碼，對(duì)于果，夸獎(jiǎng)的話我不想多說(shuō)，大家直接看動(dòng)圖。

之后我又測(cè)試了讓它去做一個(gè)創(chuàng)新類的游戲，我告訴它，做一個(gè)坦克大戰(zhàn)，但是肉鴿版！

千問(wèn) 3.5 依舊是先思考思路，拆分任務(wù)。

然后chua~chua~的用超長(zhǎng)的token，把代碼一口氣寫出來(lái)。

這是它完成的第一版游戲，可以說(shuō)相當(dāng)完善，而且非常好玩，坦克不僅有等級(jí)，而且每升一級(jí)都能選一個(gè)威能提升，要知道，這些都是我只說(shuō)了一句話讓它做到的。

而這，是我讓它改進(jìn)視覺(jué)后的效果。。。

中間我也僅僅只是說(shuō)了八個(gè)字：讓這個(gè)游戲好看點(diǎn)。

到這里，編程已經(jīng)沒(méi)什么好挑剔的了，但是，讓它僅僅是編程可沒(méi)用到任何多模態(tài)的能力，所以第二項(xiàng)，就是要試試它對(duì)圖像的理解到底有多深！

首先，我讓它根據(jù)這個(gè)圖片來(lái)幫我找找茬。

在它短暫的思考過(guò)后，直接給出了 6 處不同的結(jié)論，其中有一處女孩的泳衣顏色居然還在思考后，自己給否定掉了，這真的有點(diǎn)像人在對(duì)比圖像，然后再思考是不是了。

不過(guò)最后從答案上來(lái)看，它還是有兩處錯(cuò)誤的，一個(gè)是男人的頭發(fā)，一個(gè)是那女孩的蝴蝶結(jié)沒(méi)找到，但是大家要注意，我給的是一張圖片而不是兩張，它并不能直接去對(duì)比兩幅圖的像素，它是需要理解這個(gè)圖是分上下的，然后理解上下還有很多相似的圖像，然后再?gòu)南嗨频膱D像中找到不對(duì)的畫面，這對(duì)于一個(gè)語(yǔ)言模型來(lái)說(shuō)，這個(gè)結(jié)果已經(jīng)夠驚人了。

之后我又給了它一張圖片，這次它不僅能知道圖片里是什么，甚至還能理解反光，最離譜的是，它居然從細(xì)節(jié)信息中，讀出了這張圖片可能是 AI 生成的，而事實(shí)也確實(shí)如此，只能說(shuō)它的圖片識(shí)別能力，至少在識(shí)別 AI 上，已經(jīng)超越大部分人類了！

圖像，編碼似乎都不能難到它，接下來(lái)，我得給它一個(gè)終極考驗(yàn)，讓它看視頻?？匆曨l和圖片的難度可是天差地別，圖片只有一張，視頻可是一連串的，而且視頻還有分鏡、角度等因素，千問(wèn) 3.5 想要讀懂視頻，必須對(duì)每個(gè)鏡頭都能理解到位才行。

首先來(lái)個(gè)簡(jiǎn)單的，我讓它看看這個(gè)視頻中，這個(gè)帥氣的男人打球技術(shù)如何。

結(jié)果讓我吃驚，它先從整體概況給出答案，然后再分析技術(shù)細(xì)節(jié)分析了戰(zhàn)術(shù)策略，還知道最后扣籃了。甚至還給出了面對(duì)這種對(duì)手要怎么改進(jìn)，這完全就像一個(gè)籃球教練在看著你的動(dòng)作一步步的給你分析，最后給你指導(dǎo)。

看它完成的這么棒，我只能繼續(xù)加大力度，這次我給它來(lái)了個(gè)畫中畫！這是一個(gè)小貓?jiān)谧冯娔X屏幕里的元素的視頻，千問(wèn) 3.5 要理解它，首先得分辨屏幕和現(xiàn)實(shí)。

結(jié)果只能說(shuō)完全難不倒它??！

它不僅知道小貓?jiān)谄聊磺?，它甚至還知道里面的游戲名字叫什么，然后分析畫面，為什么小貓會(huì)抓屏幕?？梢哉f(shuō)它完全知道怎么回事。

視頻完全拿捏，那如果讓千問(wèn) 3.5 去根據(jù)視頻要求來(lái)編程呢？

我錄制了一段訪問(wèn)某品牌網(wǎng)站的視頻。

我告訴它，讓它先看視頻，分析一下視頻的內(nèi)容是什么，然后，直接讓它根據(jù)視頻內(nèi)容，編寫出類似的網(wǎng)頁(yè)。

中間只是提醒它一次，把沒(méi)有的圖片，用色塊表示。

它的編程速度是這樣的。

而這，就是它給的結(jié)果。

不能說(shuō)一模一樣吧，也至少能說(shuō)從功能上，幾乎沒(méi)有差別。

隨后我又測(cè)試了一些其它的視頻畫面。

比如奇怪的搖滾貓。

到現(xiàn)在我其實(shí)已經(jīng)對(duì)它的能力折服了，不過(guò)最后，我還得再測(cè)試一下工作場(chǎng)景，所以我給了它一段動(dòng)畫軟件的視頻。讓它告訴我這里的是什么內(nèi)容。

結(jié)果也在意料之中，經(jīng)過(guò)之前的洗禮，我已經(jīng)見(jiàn)怪不怪了，千問(wèn) 3.5 很好的看出了這是什么軟件，視頻在做什么內(nèi)容，也基本把畫面中所有的文字都讀懂了，可以說(shuō)，它完全的理解了這個(gè)視頻。

那么，這次的測(cè)試到這里就結(jié)束了，不知道大家意識(shí)到?jīng)]有，在前文的多模態(tài)那部分，我就提到了一點(diǎn)，多模態(tài)的部分代表著千問(wèn)他們對(duì)未來(lái)趨勢(shì)的判斷。

所以這就有個(gè)問(wèn)題。

拋開(kāi)價(jià)格戰(zhàn)的喧囂，為什么，阿里要死磕 “ 以小勝大 ” 和 “ 原生多模態(tài) ”？

答案很可能就是：智能體。

前段時(shí)間，一直改名一直火的 AI Agent OpenClaw，相信關(guān)注 AI 行業(yè)的人應(yīng)該都知道。它是一個(gè)通過(guò)大語(yǔ)言模型自動(dòng)幫你辦公的助手，只需要告訴它你要干什么，它直接就能在后臺(tái)操作電腦把你想做的事情做完，而要實(shí)現(xiàn)它，那么多模態(tài)的能力是必不可少的，它必須得從畫面中理解現(xiàn)在的電腦在干什么，然后才能指導(dǎo)自己去做。

但這就導(dǎo)致了非常重要的痛點(diǎn)難題：一個(gè)是如果我考慮隱私想自己部署，能力強(qiáng)的模型我用不起，能力弱的又沒(méi)有用，而如果直接調(diào)用API，假如任務(wù)卡住的話，干一個(gè)活，一晚上幾百美元就沒(méi)了。。。

在國(guó)內(nèi)，吐槽它太耗 Token 的人也不少。

而千問(wèn) 3.5 可能是這些問(wèn)題目前的最優(yōu)解，既開(kāi)源，API 也便宜，想自己搭也行，給了大家自由的空間。

在 AI 亟需應(yīng)用落地的時(shí)代，盲目的追求“大”語(yǔ)言模型可能越來(lái)越不是一個(gè)明智的選擇，而像千問(wèn) 3.5 這樣，不僅針對(duì)真實(shí)的需求做出對(duì)應(yīng)的改進(jìn)，而且還堅(jiān)持開(kāi)源，說(shuō)實(shí)話，就算是我想找茬，我也找不出要說(shuō)它不好的點(diǎn)在哪。

可能唯一要吐槽的點(diǎn)就在于，這么好的模型，為什么我今年才用到！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.