網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

千問3.5，把「貴」字從AI字典里刪了

2026-02-16 20:43:03　來源: 智遠(yuǎn)同學(xué)

河南舉報(bào)

分享至

文：王智遠(yuǎn) | ID:Z201440

今天除夕，阿里發(fā)了Qwen 3.5。

為什么阿里非要把這款大模型放在春節(jié)期間發(fā)布？因?yàn)榇汗?jié)是中國(guó)人最重要的日子，他們對(duì)這款產(chǎn)品有絕對(duì)的信心。

這款讓阿里「除夕夜加班」的模型，到底強(qiáng)在哪？

01

先看一組數(shù)字。Qwen 3.5-Plus，總參數(shù)3970億，激活只用了170億。

什么意思呢？打個(gè)比方：

一個(gè)公司有3970名員工，涵蓋各種領(lǐng)域的專家；但每次接到任務(wù)，他們不搞全員大會(huì)，只根據(jù)任務(wù)類型，精準(zhǔn)叫醒最懂行的170個(gè)人出來干活。

結(jié)果呢？這170個(gè)人干的活，比對(duì)手1萬人的團(tuán)隊(duì)、數(shù)百人的專家還要漂亮。

這就是「以小勝大」。

上一代Qwen3-Max是萬億參數(shù)，這一代Qwen3.5-Plus只有不到4000億總參數(shù)，但性能反超了；推理吞吐量最高提升19倍，部署成本降低60%。

翻譯成大白話即：跑得更快，吃得還少。憑什么能做到呢？憑阿里這次在底層架構(gòu)上動(dòng)了三刀。

第一個(gè)刀法叫「混合注意力機(jī)制」。以前大模型處理長(zhǎng)文本，像一個(gè)人讀一本厚厚的書，每讀一個(gè)字都要回頭復(fù)習(xí)前面所有的字。

讀到第1萬字，得把前面9999個(gè)字都過一遍；這誰受得了？

千問3.5的做法：重要的內(nèi)容精讀，次要的內(nèi)容略讀，像人讀書一樣，該快的地方快，該慢的地方慢。效率和精度，同時(shí)保住了。

第二個(gè)刀法叫「極致稀疏MoE」。

前面說的那3970名員工，每次只叫醒最相關(guān)的17個(gè)，這叫「稀疏」，誰懂誰進(jìn)來；過去那種「把所有專家都請(qǐng)到會(huì)議室」的稠密模型，太累了，看著陣仗大，其實(shí)大部分人在玩手機(jī)。

第三個(gè)刀法叫「多Token預(yù)測(cè)」。

以前模型生成文字，是一個(gè)字一個(gè)字往外蹦，蹦完第一個(gè)想第二個(gè)，蹦完第二個(gè)想第三個(gè)。

千問3.5換了個(gè)思路：先想好接下來幾步說什么，然后一口氣說出來。就像你聊天，是想好一整句話再說。結(jié)果呢？響應(yīng)速度翻倍。

注釋：同樣的時(shí)間內(nèi)，千問3.5能吐出多少內(nèi)容。32K上下文時(shí)，它是Qwen3-Max的8.6倍；256K超長(zhǎng)上下文時(shí)，直接飆到19倍。

值得一提的是，還有一個(gè)刀法叫「門控機(jī)制」。這是千問團(tuán)隊(duì)拿了NeurIPS 2025最佳論文的技術(shù)。

簡(jiǎn)單說，給注意力裝了個(gè)「智能水龍頭」，該放大的信息放大，該過濾的過濾，防止有效信息被淹沒，也防止無效信息瞎嚷嚷。

這個(gè)水龍頭裝在哪、怎么調(diào)，是人家一年前就開始琢磨的事，現(xiàn)在終于用上了。

所以，幾道下來，效果怎么樣？

考驗(yàn)知識(shí)廣度的MMLU-Pro評(píng)測(cè)中，千問3.5拿了87.8分，超過GPT-5.2。專為難倒博士設(shè)計(jì)的GPQA難題集上，88.4分，超過Claude 4.5。

考驗(yàn)?zāi)Ｐ湍懿荒苈牰嗽挼腎FBench指令遵循測(cè)試中，76.5分，刷新所有模型紀(jì)錄。

至于動(dòng)手能力，也就是行業(yè)里說的Agent智能體，BFCL-V4和Browsecomp兩個(gè)評(píng)測(cè)里，千問3.5全面超越Gemini 3 Pro和GPT-5.2。

說白了，樣樣強(qiáng)。但比分?jǐn)?shù)更有意思的是方向。

過去兩年，大模型行業(yè)信奉「大力出奇跡」，參數(shù)從千億堆到萬億，性能確實(shí)在漲；代價(jià)也在漲，部署要專用集群，推理要燒算力，中小企業(yè)用不起，端側(cè)設(shè)備跑不動(dòng)。

千問3.5換了一條路：用技術(shù)創(chuàng)新替代參數(shù)堆砌，用架構(gòu)效率替代蠻力硬扛。這條路，至少目前看，走通了。

02

走通了，問題來了，當(dāng)模型變得更聰明、更便宜，它能幫我們做什么？

用一個(gè)詞總結(jié)就是：原生多模態(tài)。

市面上很多模型也說自己「多模態(tài)」，能看圖、能識(shí)字。但仔細(xì)看，大多是拼裝的；先訓(xùn)好一個(gè)語言模型，再外掛一個(gè)視覺模塊，中間靠「適配器」勉強(qiáng)對(duì)齊。

有的產(chǎn)品甚至在后臺(tái)做路由分發(fā)，你發(fā)一張圖，它悄悄轉(zhuǎn)給另一個(gè)模型處理，用戶以為是一個(gè)模型全能，其實(shí)多個(gè)模型輪班。

千問3.5走了一條不同的路。

預(yù)訓(xùn)練第一天起，在文本、視覺混合數(shù)據(jù)上一起學(xué)。不是先學(xué)會(huì)說話再睜開眼睛，是一邊看世界一邊學(xué)說話。

視覺和語言在同一個(gè)神經(jīng)網(wǎng)絡(luò)里深度融合，看到一張圖，自然就懂它的語義；讀到一段文字，腦子里能自動(dòng)構(gòu)建對(duì)應(yīng)的畫面。沒有中間翻譯，沒有信息折損。

這叫「原生」。

智遠(yuǎn)認(rèn)為，「原生」價(jià)值在于它為后續(xù)的能力進(jìn)化埋下了伏筆，因?yàn)橹挥袕牡讓哟蛲艘曈X和語言，模型才可能真正理解物理世界的邏輯，這是通往AGI的必經(jīng)之路。

打通之后，千問3.5能做什么？

先說看得見的。

它能理解長(zhǎng)達(dá)2小時(shí)的視頻；你扔進(jìn)去一部電影，它能分析劇情走向、人物關(guān)系、因果關(guān)系，是真的看懂了時(shí)間線上的變化。

它能對(duì)圖像做像素級(jí)定位，你想改圖上某個(gè)地方，說句話它就懂；它還能把手繪的界面草圖直接轉(zhuǎn)成可運(yùn)行的前端代碼，產(chǎn)品經(jīng)理畫個(gè)框，程序員不用寫了。

甚至，它能看懂截圖里的UI問題，然后自動(dòng)修復(fù)。

數(shù)字也能說明問題；多模態(tài)推理的MathVison評(píng)測(cè)里，千問3.5拿了第一。通用視覺問答RealWorldQA里，第一。OCR文字識(shí)別CC_OCR里，第一。

空間智能RefCOCO里，第一。視頻理解MLVU里，還是第一。相比上一代的千問視覺專項(xiàng)模型，千問3.5的空間定位推理、帶圖推理能力都大幅增強(qiáng)，看得見，還看得準(zhǔn)。

有了「看懂世界」的能力，千問3.5開始「動(dòng)手辦事」了。

它可以自主操作手機(jī)和電腦，跨應(yīng)用完成復(fù)雜任務(wù)。你說「幫我把昨晚聚會(huì)的照片整理成相冊(cè)，再挑幾張發(fā)朋友圈」，它能自己打開相冊(cè)、篩選照片、編輯文案、切換到微信、發(fā)布。

一系列操作，不用你動(dòng)手。

千問團(tuán)隊(duì)還專門搭了一套強(qiáng)化學(xué)習(xí)框架，讓智能體在真實(shí)場(chǎng)景里反復(fù)練習(xí)，端到端效率提升3到5倍。

春節(jié)期間，千問App的AI購(gòu)物Agent上線，6天時(shí)間幫用戶完成了1.2億筆訂單，這是全球第一次，AI在真實(shí)世界里大規(guī)模幫人辦事，還辦成了。

從「看懂」到「動(dòng)手」，千問3.5邁出了關(guān)鍵一步。這些技術(shù)創(chuàng)新，對(duì)于商業(yè)有什么影響呢？

03

先說結(jié)論：價(jià)格便宜了，API價(jià)格每百萬Token只要0.8元，只有Gemini 3 Pro的1/18。

很多人第一反應(yīng)：這不是賠本賺吆喝嗎？錯(cuò)了。極致性價(jià)比，是設(shè)計(jì)出來的。如果補(bǔ)貼，那不可持續(xù)；但如果成本結(jié)構(gòu)本身就不一樣，那就是降維打擊。

那成本咋降的呢？就三點(diǎn)：

一，架構(gòu)本身就省錢。總參數(shù)3970億只激活170億，算力需求本來就少，成本天然就低。

第二，芯片幫了大忙。阿里有平頭哥，有自己真武芯片。這顆芯片針對(duì)MoE架構(gòu)做了大量?jī)?yōu)化。

通用芯片跑MoE，很多算力浪費(fèi)在「調(diào)度專家」這件事上；真武芯片專門為這種模式設(shè)計(jì)，相當(dāng)于給模型配了個(gè)「懂行的調(diào)度員」，同樣的電，干更多的活。

這部分是云廠商自研芯片才有的紅利，第三方模型拿不到。

第三，云基礎(chǔ)設(shè)施的協(xié)同。

千問3.5的訓(xùn)練和推理都在阿里云上跑，通過FP8/FP32混合精度這類底層優(yōu)化，激活內(nèi)存減少約50%，訓(xùn)練提速10%。

不懂這兩個(gè)詞沒關(guān)系，你可以把它理解成，就像裝修時(shí)有的地方用實(shí)木、有的地方用復(fù)合板，整體效果不變但材料成本低了。

更關(guān)鍵的是，模型和云是「一家人」，調(diào)度、部署、擴(kuò)容都比跨廠商順暢得多。這種效率損耗的減少，最終都折算成成本的降低。

三點(diǎn)說完就清晰了，千問3.5的便宜，是「設(shè)計(jì)」出來的。

當(dāng)頂級(jí)模型變成白菜價(jià)，商業(yè)世界會(huì)發(fā)生什么？

門檻肯定拉平。過去調(diào)用頂級(jí)模型，中小企業(yè)要掂量掂量預(yù)算；現(xiàn)在每百萬Token 0.8元，相當(dāng)于寫一本《三體》那樣的長(zhǎng)篇小說，成本也就幾塊錢。

AI能力不再是巨頭的專利，創(chuàng)業(yè)團(tuán)隊(duì)、個(gè)人開發(fā)者都用得起。

然后，是場(chǎng)景被激活；成本足夠低，開發(fā)者才敢放心大膽地用，做錯(cuò)了重來，實(shí)驗(yàn)失敗了再來一次，不心疼。這會(huì)催生一大批之前不敢想的AI應(yīng)用。

沙利文數(shù)據(jù)顯示，千問在中國(guó)企業(yè)級(jí)大模型調(diào)用市場(chǎng)中位居第一；Omdia的數(shù)據(jù)說，2025年上半年，中國(guó)AI云市場(chǎng)阿里云占35.8%，超過第二到第四名總和。

2025年全年，阿里云在中國(guó)云市場(chǎng)的份額從33%提升到36%，領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大。

這些數(shù)據(jù)說明一件事，在千問3.5發(fā)布之前，「Powered by 阿里云」就已經(jīng)是很多企業(yè)的默認(rèn)選項(xiàng)。而今天，當(dāng)新模型把性能推到新高、把成本打到新低，這個(gè)「默認(rèn)選項(xiàng)」的勢(shì)能只會(huì)被進(jìn)一步放大。

就像云計(jì)算當(dāng)年把服務(wù)器成本打下來，催生了無數(shù)互聯(lián)網(wǎng)創(chuàng)新。模型、芯片、云形成的正循環(huán)，正在讓阿里云成為AI時(shí)代的基礎(chǔ)設(shè)施。

但，還有更狠的，阿里居然在春節(jié)把它開源了。

04

你想想，一個(gè)模型性能追平甚至超過GPT-5.2、Gemini 3 Pro，API價(jià)格只要人家的1/18，按理說藏著賣錢多好；阿里偏不，直接開源，代碼、權(quán)重全放出來，誰愛下誰下，誰愛改誰改。

圖啥呢？智遠(yuǎn)覺得，阿里打的算盤是「建生態(tài)」。

你看幾個(gè)數(shù)字：

到今天，千問開源模型超過400個(gè)，什么尺寸都有，從0.5B的小模型到400B的大模型，純文本的、視覺的、多模態(tài)的，覆蓋得嚴(yán)嚴(yán)實(shí)實(shí)。

全球開發(fā)者基于千問做的衍生模型，超過20萬個(gè)；下載量突破10億次，甚至單月下載量比DeepSeek、Meta、OpenAI、智譜、Kimi、MiniMax這六家加起來還多。

李飛飛團(tuán)隊(duì)在用，愛彼迎在用，全球各地的創(chuàng)業(yè)公司、個(gè)人開發(fā)者都在用。

這意味著什么？

千問成了AI圈的「公共基礎(chǔ)設(shè)施」。你做項(xiàng)目，想找個(gè)開源模型，不用糾結(jié)選哪個(gè)，因?yàn)榍栕詈糜�、最全、還免費(fèi)，你用著用著，就習(xí)慣了；習(xí)慣著習(xí)慣著，就離不開了。

這就是開源的魔力。

歷史上，這套打法被驗(yàn)證過兩次。第一次是Linux。上世紀(jì)90年代，服務(wù)器操作系統(tǒng)還是Windows NT和各種Unix的天下，Linux橫空出世，免費(fèi)、開源、全世界一起改bug。

一開始沒人當(dāng)回事，覺得「免費(fèi)的東西能好到哪去？」結(jié)果呢？今天互聯(lián)網(wǎng)服務(wù)器超過96%跑在Linux上；沒人問「為什么不用Windows Server」，因?yàn)長(zhǎng)inux就是默認(rèn)選項(xiàng)。

安卓也這么干的。手機(jī)廠商想做系統(tǒng)，要么自己從頭造（累死），要么用安卓（省事）；結(jié)果全球幾十億臺(tái)手機(jī)，都跑在安卓上。

阿里現(xiàn)在做的，就是AI時(shí)代的Linux和安卓。

把最強(qiáng)模型開源，讓全球開發(fā)者幫你迭代、幫你完善、幫你把它用到各種奇奇怪怪的場(chǎng)景里；衍生模型越多，生態(tài)就越厚；生態(tài)越厚，后來者就越難繞過。到最后，「用千問」就變成了「不用思考的事」。

而且這個(gè)生態(tài)，最后會(huì)流回阿里云。

你想，開發(fā)者用千問做應(yīng)用，跑在哪里？最順手、最便宜、最沒兼容問題的地方，當(dāng)然是阿里云；企業(yè)用千問做業(yè)務(wù)，調(diào)API找誰？當(dāng)然是「模型芯片云一家人」的阿里云。

這就是閉環(huán)，開源吸引開發(fā)者，開發(fā)者繁榮生態(tài)，生態(tài)帶動(dòng)云服務(wù)，云服務(wù)反哺模型迭代；一圈轉(zhuǎn)起來，越轉(zhuǎn)越快。

智遠(yuǎn)認(rèn)為，這才是阿里「除夕開源」的真正用意，搶未來十年的生態(tài)位；所以，你看，千問3.5發(fā)布，表面是技術(shù)事件，其實(shí)阿里在AI時(shí)代布的一盤大棋。

千問3.5憑什么「以小勝大」？因?yàn)橛屑夹g(shù)創(chuàng)新、有原生多模態(tài)、有極致性價(jià)比、有開源技術(shù)。

大模型的「噸位戰(zhàn)」結(jié)束了。

接下來比的，是誰能讓更多人用得起、用得上、用得順手；參數(shù)不重要，效率才重要；跑分不重要，生態(tài)才重要；閉源不重要，開源才重要。

2026年剛開始，阿里就把牌桌掀了。接下來，就看其他人怎么跟。

對(duì)了，開發(fā)者現(xiàn)在就能上手，魔搭社區(qū)和HuggingFace已經(jīng)可以下載新模型，想直接調(diào)API的，去阿里云百煉就行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.