橫掃硅谷的千問，殺回國內(nèi)了

2025-11-17 11:51:47　來源: AI進化論花生

北京舉報

分享至

10月22日，Airbnb CEO布萊恩·切斯基在采訪中說了句讓硅谷側(cè)目的話：

我們大量依賴阿里巴巴的Qwen模型，它非常好，很快速且便宜...

11月3日，nof1.ai策劃的首屆AI投資大賽結(jié)果出爐：Qwen3 Max排名第一，收益率22.3%，和DeepSeek構(gòu)成了僅有的兩個盈利模型之一。GPT5、Claude 4.5、Gemini 2.5 Pro全部虧損。

這是第一個專門衡量AI投資能力的測試，可以理解為是幣圈版圖靈測試。

規(guī)則很簡單：每個模型拿1萬美元，自己在加密貨幣市場交易，全程無人干預(yù)。結(jié)果，只有Qwen3 Max賺錢了。

再往前，8月，有網(wǎng)友在X上發(fā)了用通義萬相Wan2.2生成的圖片，馬斯克點評：

It will be impossible to tell what’s real online

7月，HuggingFace CEO連轉(zhuǎn)12條推盛贊Qwen3-Coder，推特創(chuàng)始人Jack Dorsey直接說：

goose + qwen3-coder = wow

5月，英偉達CEO黃仁勛，在財報電話會上說：

阿里巴巴的通義千問模型是開源AI模型中最好的。它們在美國、歐洲及其他地區(qū)獲得了巨大關(guān)注。

在橫掃完一圈硅谷后，Qwen，現(xiàn)在終于殺回國內(nèi)了。

11月14日，阿里正式推出C端產(chǎn)品——千問APP。這一次，中國終于有了自己的ChatGPT。

為什么硅谷認可？

從文章開頭我舉的一些例子，你可能就發(fā)現(xiàn)了，雖然都在夸Qwen，但他們好像夸的并不是一個Qwen！其中有投資能力霸榜的Qwen3-Max，有馬斯克夸的圖像模型wan2.2，也有Jack Dorsey盛贊的Qwen3-coder。

Qwen實在是太能搞東西，我覺得他們并不是在做模型，而是真在構(gòu)建一個生態(tài)。

而這種多線開花，在分枝上有突破的特點，再加上他們的開源精神，是很容易受到開發(fā)者，受到硅谷企業(yè)盛贊的。

在9月28日Hugging Face公布的模型趨勢榜上，Qwen系列7款模型擠進全球前10，幾乎屠榜。

而從模型具體的Benchmark表現(xiàn)來說，Qwen很多模型都可圈可點的：

1）Qwen3-Max：Chatbot Arena全球第三，超過GPT-5

2）Qwen3-Coder：編程能力并列全球第一，超越GPT-4.1

3）Qwen3-VL：視覺理解全球第二，開源第一

這種又強又廣的特點，在開源生態(tài)上可能還會體現(xiàn)得更明顯：

1）Qwen衍生模型17萬+，超越Meta的Llama，全球第一

2）下載量超6億次

3）HuggingFace 2024年下載量占比超30%

當(dāng)然，我也得說一句，模型太多這件事對C端用戶可能就沒那么友好了，普通用戶不像開發(fā)者那樣熟悉種種模型之間的優(yōu)劣勢，也沒有更多的能力去判斷在不同的場景下分別該使用Qwen哪個模型。

所以，Qwen很長時間的情況都是，在硅谷和開發(fā)者口中口碑盛好，但...普通用戶確實沒那么了解。

我想現(xiàn)在阿里推出千問app大概就是想解決這個問題，即想把出色的模型能力和豐富的模型生態(tài)也開放給普通用戶使用，但也別有那么多的名字提高用戶的決策成本了。

為什么說千問=中國的ChatGPT？

今天，我看到金沙江創(chuàng)投朱嘯虎（對，就是那個投過滴滴、餓了么、小紅書的朱嘯虎）在朋友圈和小紅書發(fā)文，標簽千問app的發(fā)布意味著「硬剛ChatGPT的國產(chǎn)AI出現(xiàn)了」。

他給了三個理由，原文如下：

在硅谷屠榜的Qwen殺回國內(nèi)了，模型直接決定了阿里千問APP的起點。
更聰明的國產(chǎn)AI出現(xiàn)了。我看了一下它的思考鏈路，邏輯清楚，專業(yè)問題也表現(xiàn)挺好，不鬧著玩兒，全是干貨，這是中國市場真正需要的AI產(chǎn)品。
從算力基建、數(shù)據(jù)積累，到各種應(yīng)用在AI領(lǐng)域的整合打通。估計阿里這是準備用千問重構(gòu)一個超級AI的入口。

作為一個頗受爭議的投資人，朱嘯虎在AI上的觀點常常能激起很多討論。比如，他去年就說過"中國大模型公司沒戲，我一家都沒投"，后面DeepSeek的橫空出世讓他改過一次態(tài)度，而現(xiàn)在，又公開背書千問，說明是真看好。

我總結(jié)了一下，覺得他是從技術(shù)、產(chǎn)品、生態(tài)這三個視角去得出他的觀點的，這個思路值得參考，我也試著從這三個維度出發(fā)，去談?wù)勎业挠^點。

技術(shù)、產(chǎn)品、生態(tài)三維度拆解

不過，先岔個題，在兩個半月前，我發(fā)了個即刻動態(tài)，里面提到現(xiàn)在二級市場上最靠譜的AI股可能是阿里，他們從產(chǎn)品到模型都還不錯。

從那一天至今，阿里股價漲了近30%，看來市場也是逐漸意識到這一點了（當(dāng)然，這是我自己的小判斷，不構(gòu)成投資意見，請謹慎參考）。

技術(shù)方面，我覺得在開頭提的夠多，就不贅述了，我們可以在額外看幾個關(guān)鍵數(shù)據(jù)：

1）SWE-Bench Verified（代碼解決真實問題測試）：69.6分，全球第一梯隊

）Tau2-Bench（Agent工具調(diào)用能力測試）：74.8分，超過Claude Opus 4和DeepSeek-V3.1

3）AIME 25和HMMT（數(shù)學(xué)推理測試）：雙滿分，國內(nèi)首次

也就是說，ChatGPT能做的，Qwen都能做。ChatGPT做不到的（比如某些專業(yè)推理場景），Qwen也能做。

更別提，Qwen是開源的，參數(shù)權(quán)重全公開，你可以改、可以定制。

再說說產(chǎn)品方面，千問APP對標ChatGPT的產(chǎn)品哲學(xué)：極簡界面，強大能力。

幾個亮點：

會思考：思維鏈高級，多步推理，會根據(jù)你實際任務(wù)的需要選擇是否思考、是否聯(lián)網(wǎng)，不是簡單問答
懂中文：原生中文理解，不會突然給你蹦英文
全模態(tài)：文本、視覺理解、圖像生成、語音，一個APP搞定
免費：ChatGPT Plus $20/月，千問完全免費

最后，很重要的，千問背后是阿里的整個AI生態(tài)。

1）開源生態(tài)：17萬衍生模型，全球開發(fā)者共同進化

2）商業(yè)場景：能打通淘寶、釘釘、高德等阿里系產(chǎn)品

3）基礎(chǔ)設(shè)施：380億AI投資，云計算、算力、數(shù)據(jù)全覆蓋

4）本土化：不用翻墻，數(shù)據(jù)在國內(nèi)，符合監(jiān)管

在AI模型越來越和實際場景融合的今天，有生態(tài)加持的產(chǎn)品顯然是更容易在體驗上做出差異化做出特色來的。而考慮中國的市場環(huán)境，ChatGPT顯然是不適配的。阿里有"云+模型+產(chǎn)品+商業(yè)場景"全鏈路。這就是朱嘯虎說的"生態(tài)閉環(huán)護城河"。

四個場景對比：千問 vs ChatGPT vs DeepSeek

我拿幾個實際工作、生活中常見的場景來對比三個產(chǎn)品在一些基礎(chǔ)任務(wù)上的表現(xiàn)，分別是：實時信息問答、圖片理解/搜索、文本生成、文本總結(jié)。

測試1：實時信息問答

我問的是「楊立昆為何選擇現(xiàn)在離職創(chuàng)業(yè)？」，這不是個多困難的問題，但是需要模型意識到需要調(diào)用實時聯(lián)網(wǎng)搜索能力，減少幻覺，再搜到足夠多的信息，匯總出結(jié)論來。

在這個問題下，三個產(chǎn)品的第一步倒是都沒問題，都有選擇聯(lián)網(wǎng)搜索獲取信息，連DeepSeek都沒翻車。不過從最終成文來說，我個人不太喜歡GPT 5.1那種莫名其妙，太套近乎的說話風(fēng)格，這幾天的5.1也是沒少因此被罵的，有時候我們希望AI就用AI的態(tài)度回答就好了。

DeepSeek和千問的結(jié)論基本一致，不過千問整體回答的結(jié)構(gòu)化程度是最好的，從「戰(zhàn)略理念分歧」到「組織權(quán)力重構(gòu)」，再到「行業(yè)趨勢與個人使命」「離職時機」，一級和二級標題的內(nèi)容層次結(jié)構(gòu)都相當(dāng)清晰。

所以這部分我自己的偏好是：千問app > DeepSeek > ChatGPT

測試2：圖文理解/搜索

在這個問題場景里，我是看到了一張很感興趣的照片，想讓AI告訴我這是哪，有什么旅行建議。

顯然，DeepSeek在這題上翻車了，它都沒法回答，因為DeepSeek雖然也有做視覺模型，但是他們app內(nèi)現(xiàn)在還完全缺乏圖像理解能力，圖片上傳功能依然只是OCR文字識別的功能

這題里千問和ChatGPT都是完整且準確回答了我的問題，但是解答思路不太一樣，千問是搜索相關(guān)圖片，幫我找到了更多圖片資料，我可以自己進一步探索相關(guān)內(nèi)容；ChatGPT則是把圖片理解得很細，甚至告訴我是在哪拍的，拍攝中的主景是什么。算是各有優(yōu)勢，如果圖片的理解和搜索能結(jié)合起來我會更喜歡。

所以在這題上我的偏好是 ChatGPT = 千問 > DeepSeek

測試3：文本生成

讓AI幫我們寫資料算是最常見的使用場景之一了，在這個場景下，我讓他們「幫我寫一個關(guān)于如何用AI輔助寫作周報的小紅書文章，300字」。

最基礎(chǔ)的，小紅書的圖文文章需要有標題、有正文，以及用一些emoji，內(nèi)容更簡短，更貼近日常更實用生活化的語言。

在這里我覺得ChatGPT似乎不那么理解小紅書，從標題到正文的表述都太AI了。千問app會先闡述痛點引出要寫的內(nèi)容，然后再去表述解決方案；而DeepSeek則是安利工具的角度寫的，內(nèi)容結(jié)構(gòu)倒是也很簡潔，但是有個問題是，里面媒體具體的工具，但是提到選擇「專業(yè)模式」這類詞，明顯有幻覺，真實度一般。

在這個場景下，我的偏好是：千問app > DeepSeek > ChatGPT

測試4：文本總結(jié)

在這個場景里，我都是把上萬字的最近段永平接受雪球CEO采訪的視頻播客的字幕發(fā)給了AI，然后讓他們幫我總結(jié)其中段永平對AI的觀點。

讓我比較意外的是，這三個產(chǎn)品都能無壓力吞下幾萬字的輸入，而且確實都總結(jié)到了關(guān)鍵點。不過，對于一個總結(jié)來說，我希望內(nèi)容是既有深度，又有原文引用，去說明為何有這樣的結(jié)論的，細節(jié)是什么。

從這個視角來說，DeepSeek總結(jié)的結(jié)果太簡單了，只有結(jié)論沒有引用。千問做的好了不少，直接引用了不少段永平在視頻播客中的原文表述，比如「至少要慘和一下，不要miss掉」「買股票就是買公司」「阿貓阿狗都跟著漲」，從這些細節(jié)可以去生動理解段永平的結(jié)論。

而ChatGPT則是在這個問題上做了更深度思考，把不同片段中內(nèi)容的觀點綜合了起來，所以結(jié)論在引用原文的前提下有了更深度的探討。

在這個場景下，我的偏好是：ChatGPT > 千問app > DeepSeek

所以，上面四項測試里，千問app有兩次第一，一次并列第一，一次第二，稱之為中國的ChatGPT并不過分。

這不是終點，是起點

所以，千問的出現(xiàn)，意味著什么？

1. 中國AI從追趕到并跑

技術(shù)上，Qwen3-Max全球第三，和GPT、Claude在同一梯隊。生態(tài)上，17萬衍生模型，甚至超過了Meta的Llama。

過去，我們跟著美國跑，模型晚一年，能力差一截?，F(xiàn)在，我們和美國同步，甚至某些方面領(lǐng)先。

2. AI平權(quán)時代到來

ChatGPT Plus $20/月，不便宜。千問完全免費，功能全開，國內(nèi)直接訪問。

人人可用，門檻夠低。

3. 應(yīng)用落地加速

阿里的商業(yè)場景豐富：淘寶、天貓、釘釘、高德、夸克。大膽設(shè)想千問有機會可以打通這些產(chǎn)品，真正成為"AI助理"。

想象一下：你在釘釘開會，千問自動生成會議紀要。你在淘寶購物，千問幫你分析哪個商品性價比最高。你在高德導(dǎo)航，千問提醒你路上有什么好吃的。

這些場景，ChatGPT做不到。因為它只是一個產(chǎn)品，千問背后是一個生態(tài)。

中國的ChatGPT，不是夢想，而是現(xiàn)實。這不是終點，是起點。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.