国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

參數(shù)破萬億!阿里Qwen3-Max-Thinking發(fā)布,編程能力“踢館”Gemini與Claude

0
分享至


作者|冬梅

阿里突發(fā)最強(qiáng)旗艦?zāi)P?,總參?shù)過萬億

就在剛剛,Qwen3-Max-Thinking 正式版突然發(fā)布,總參數(shù)規(guī)模超過 1 萬億(1T),位于目前全球最大規(guī)模 AI 模型行列,預(yù)訓(xùn)練數(shù)據(jù)規(guī)模高達(dá) 36T Tokens,覆蓋大量高質(zhì)量語料。

Qwen3-Max 是阿里通義團(tuán)隊(duì)迄今規(guī)模最大、能力最強(qiáng)的語言模型,該版本包括 Base、Instruct 和 Thinking 多種形式。


在多項(xiàng)權(quán)威基準(zhǔn)測試中表現(xiàn)優(yōu)異,Qwen3-Max-Thinking 性能可與 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等閉源頂級(jí)模型競爭甚至超越。


具體而言,Qwen3-Max-Thinking 在多項(xiàng)關(guān)鍵 AI 基準(zhǔn)測試中達(dá)到了或刷新了全球 SOTA 表現(xiàn):

  • 在包含事實(shí)科學(xué)知識(shí)、復(fù)雜推理和編程能力在內(nèi)的 19 項(xiàng)權(quán)威基準(zhǔn)測試中取得極高水平,有記錄顯示其綜合表現(xiàn)可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等業(yè)內(nèi)領(lǐng)先模型。

  • 在數(shù)學(xué)推理基準(zhǔn)測試中,該模型曾在預(yù)覽階段實(shí)現(xiàn) AIME 25 和 HMMT 25 滿分(即 100% 準(zhǔn)確率),這一表現(xiàn)被認(rèn)為代表了高難度數(shù)學(xué)推理能力。

  • 相較于此前的 Instruct 版本,Thinking 版本在 Agent 工具調(diào)用、復(fù)雜邏輯和深度推理任務(wù)中表現(xiàn)出更優(yōu)的能力。

這些測試覆蓋了科學(xué)知識(shí)問答(如 GPQA Diamond)、數(shù)學(xué)推理(如 IMO 等級(jí)測試)、代碼編程(如 LiveCodeBench)等多個(gè)領(lǐng)域,是衡量大型語言模型綜合能力的重要指標(biāo)。


為實(shí)現(xiàn)上述性能突破,千問團(tuán)隊(duì)在官方博客中稱為 Qwen3-Max-Thinking 引入兩項(xiàng)核心創(chuàng)新:

  • 自適應(yīng)工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器,現(xiàn)已上線;

  • 測試時(shí)擴(kuò)展技術(shù)(Test-Time Scaling),顯著提升推理性能,在關(guān)鍵推理基準(zhǔn)上超越 Gemini 3 Pro。

那么,這兩項(xiàng)核心創(chuàng)新到底什么意思?

首先是自適應(yīng)工具調(diào)用能力,據(jù)千問團(tuán)隊(duì)介紹,與早期需要用戶手動(dòng)選擇工具的方法不同,Qwen3-Max-Thinking 能在對(duì)話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。

該能力源于專門設(shè)計(jì)的訓(xùn)練流程:在完成初步的工具使用微調(diào)后,模型在多樣化任務(wù)上使用基于規(guī)則和模型的反饋進(jìn)行了進(jìn)一步訓(xùn)練。實(shí)驗(yàn)表明,搜索和記憶工具能有效緩解幻覺、提供實(shí)時(shí)信息訪問并支持更個(gè)性化的回復(fù)。代碼解釋器允許用戶執(zhí)行代碼片段并應(yīng)用計(jì)算推理來解決復(fù)雜問題。這些功能共同提供了流暢且強(qiáng)大的對(duì)話體驗(yàn)。

再來說說測試時(shí)擴(kuò)展。該技術(shù)是指在推理階段分配額外計(jì)算資源以提升模型性能的技術(shù)。研發(fā)團(tuán)隊(duì)提出了一種經(jīng)驗(yàn)累積式、多輪迭代的測試時(shí)擴(kuò)展策略。

不同于簡單增加并行推理路徑數(shù)量 N(這往往導(dǎo)致冗余推理),團(tuán)隊(duì)對(duì)并行軌跡數(shù)量進(jìn)行限制并將節(jié)省的計(jì)算資源用于由“經(jīng)驗(yàn)提取”機(jī)制引導(dǎo)的迭代式自我反思。

該機(jī)制從過往推理輪次中提煉關(guān)鍵洞見,使模型避免重復(fù)推導(dǎo)已知結(jié)論,轉(zhuǎn)而聚焦于未解決的不確定性。關(guān)鍵在于,相比直接引用原始推理軌跡,該機(jī)制實(shí)現(xiàn)了更高的上下文利用效率,在相同上下文窗口內(nèi)能更充分地融合歷史信息。在大致相同的 token 消耗下,該方法持續(xù)優(yōu)于標(biāo)準(zhǔn)的并行采樣與聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

這些技術(shù)改善了模型處理復(fù)雜任務(wù)時(shí)的自主規(guī)劃、推理鏈構(gòu)建和決策能力。

千問 App PC 端和網(wǎng)頁端已經(jīng)第一時(shí)間上新這一 Qwen 系列最強(qiáng)模型,現(xiàn)在即可免費(fèi)體驗(yàn)。API(qwen3-max-2026-01-23)也已開放。

體驗(yàn)地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

網(wǎng)友:中國大模型卷瘋了!

在模型發(fā)布消息傳出后,社交平臺(tái)上也迅速出現(xiàn)了大量討論。一部分網(wǎng)友的關(guān)注點(diǎn)集中在模型能力本身,語氣中帶著明顯的驚訝與認(rèn)可。

有海外開發(fā)者在 X 上表示,自己已經(jīng)習(xí)慣看到 Qwen 在多個(gè)榜單上“反超”其他模型。

“Qwen 總是能跑贏其他模型,”一位用戶調(diào)侃道,同時(shí)也提出了更偏產(chǎn)品層面的期待,希望 Qwen 能在 Android 端做出“更簡潔、更有辨識(shí)度的應(yīng)用設(shè)計(jì)”,認(rèn)為模型能力已經(jīng)走在前面,產(chǎn)品體驗(yàn)還有進(jìn)一步打磨空間。


也有不少聲音將 Qwen 的發(fā)布節(jié)奏與國際頭部廠商作對(duì)比。一位網(wǎng)友直言,通義千問團(tuán)隊(duì)在模型更新和能力披露上的頻率,甚至“已經(jīng)超過了 OpenAI”。在他看來,這種持續(xù)、高密度的迭代和公開溝通,本身就是一種對(duì)開發(fā)者更友好的信號(hào),至少讓外界清楚知道模型在什么階段、解決了哪些問題。


還有用戶的反饋則更為直接。一位名為 Harriett Solid 的網(wǎng)友在評(píng)論中寫道:“這正是我一直在等的 Qwen 發(fā)布版本?!边@類評(píng)價(jià)并未展開具體技術(shù)細(xì)節(jié),但從情緒上看,顯然將 Qwen3-Max-Thinking 視為一次“到位”的升級(jí),而不是過渡性產(chǎn)品。


整體來看,網(wǎng)友評(píng)論呈現(xiàn)出兩個(gè)明顯特點(diǎn):一方面,對(duì) Qwen 在推理能力和更新速度上的認(rèn)可度較高;另一方面,討論已經(jīng)開始從“模型是否強(qiáng)”延伸到“產(chǎn)品體驗(yàn)、生態(tài)建設(shè)是否匹配當(dāng)前能力”。

這也從側(cè)面反映出,隨著模型能力逼近甚至進(jìn)入全球第一梯隊(duì),外界對(duì)通義千問的期待,正在從單點(diǎn)技術(shù)突破,轉(zhuǎn)向更完整的產(chǎn)品與平臺(tái)層面。

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
短線交易新規(guī)!證監(jiān)會(huì),發(fā)布!

短線交易新規(guī)!證監(jiān)會(huì),發(fā)布!

錢眼
2026-03-07 19:26:35
第22波打擊,以色列本土告急,美國承認(rèn),伊朗的確很難打

第22波打擊,以色列本土告急,美國承認(rèn),伊朗的確很難打

小嵩
2026-03-07 13:13:26
72小時(shí)內(nèi),王毅和六國通話,宣布一項(xiàng)重大決定,伊朗或?qū)⒂瓉硎锕?>
    </a>
        <h3>
      <a href=等等talk
2026-03-06 20:44:08
諾貝爾文學(xué)獎(jiǎng)最值得看的12本書,一生至少要讀一次

諾貝爾文學(xué)獎(jiǎng)最值得看的12本書,一生至少要讀一次

洞見
2026-03-05 15:17:24
記者:除非重返歐冠,否則曼聯(lián)無法與曼城競爭安德森、沃頓

記者:除非重返歐冠,否則曼聯(lián)無法與曼城競爭安德森、沃頓

懂球帝
2026-03-07 23:14:14
德牧被棄服務(wù)區(qū),因體型大屢次被毆打,它到底做錯(cuò)了什么?

德牧被棄服務(wù)區(qū),因體型大屢次被毆打,它到底做錯(cuò)了什么?

Magic寵物社
2026-03-05 19:50:03
美國準(zhǔn)備對(duì)谷愛凌征收100%所得稅

美國準(zhǔn)備對(duì)谷愛凌征收100%所得稅

難得君
2026-02-28 14:18:08
44歲范冰冰車內(nèi)趕場賣面膜!素顏發(fā)福變大媽,昔日頂流如今只剩奔波

44歲范冰冰車內(nèi)趕場賣面膜!素顏發(fā)福變大媽,昔日頂流如今只剩奔波

八卦王者
2026-03-06 11:18:36
遼寧鐵人球迷意難平!不僅因?yàn)?-3慘敗泰山,更是因?yàn)橐韵挛妩c(diǎn)!

遼寧鐵人球迷意難平!不僅因?yàn)?-3慘敗泰山,更是因?yàn)橐韵挛妩c(diǎn)!

田先生籃球
2026-03-07 20:40:14
落魄!27歲狀元被發(fā)展聯(lián)盟認(rèn)領(lǐng),擁有歷史級(jí)天賦,現(xiàn)在想打回NBA

落魄!27歲狀元被發(fā)展聯(lián)盟認(rèn)領(lǐng),擁有歷史級(jí)天賦,現(xiàn)在想打回NBA

你的籃球頻道
2026-03-07 07:53:30
“港獨(dú)”影帝黃秋生:從千萬豪宅到臺(tái)灣詐騙,如今塑料袋打包家當(dāng)

“港獨(dú)”影帝黃秋生:從千萬豪宅到臺(tái)灣詐騙,如今塑料袋打包家當(dāng)

呀古銅
2026-02-26 10:30:33
吳石案中沉默的傳遞者:唯一逃出的"女傭"林阿香,頂尖的紅色信使

吳石案中沉默的傳遞者:唯一逃出的"女傭"林阿香,頂尖的紅色信使

顧史
2026-03-07 13:39:40
德媒:德國太天真了,我們最大的幻想,就是信了中國是個(gè)現(xiàn)代強(qiáng)國

德媒:德國太天真了,我們最大的幻想,就是信了中國是個(gè)現(xiàn)代強(qiáng)國

聚焦最新動(dòng)態(tài)
2026-03-07 00:02:29
偷稅小花要復(fù)出了?張凌赫田曦薇有仇?許凱毀容?張?jiān)讫埬仍质??姨太問?>
    </a>
        <h3>
      <a href=毒舌扒姨太
2026-03-06 22:31:39
有沒有人裝B正好撞到你擅長的領(lǐng)域上?網(wǎng)友:停頓一下,繼續(xù)補(bǔ)刀

有沒有人裝B正好撞到你擅長的領(lǐng)域上?網(wǎng)友:停頓一下,繼續(xù)補(bǔ)刀

夜深愛雜談
2026-02-27 22:43:52
美要求Planet衛(wèi)星延后96小時(shí),伊朗讓美損失多到了動(dòng)搖軍心的地步

美要求Planet衛(wèi)星延后96小時(shí),伊朗讓美損失多到了動(dòng)搖軍心的地步

嘯鷹評(píng)
2026-03-07 19:04:12
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國本土執(zhí)行斬首行動(dòng)

準(zhǔn)備同歸于盡!伊朗或啟用“沉睡小組”,在美國本土執(zhí)行斬首行動(dòng)

東極妙嚴(yán)
2026-03-06 13:43:35
章澤天現(xiàn)身巴黎時(shí)裝周與名媛熱聊,自信又大方,很美,扎著麻花辮

章澤天現(xiàn)身巴黎時(shí)裝周與名媛熱聊,自信又大方,很美,扎著麻花辮

星河不入我
2026-03-06 20:38:53
平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關(guān)鍵環(huán)節(jié)曝光

平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關(guān)鍵環(huán)節(jié)曝光

壹月情感
2026-03-05 16:00:17
2026-03-07 23:36:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

日本求美國給個(gè)準(zhǔn)話 美方避而不談

頭條要聞

日本求美國給個(gè)準(zhǔn)話 美方避而不談

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

本地
家居
游戲
親子
軍事航空

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

家居要聞

暖棕撞色 輕法奶油風(fēng)

《殺戮尖塔2》破44萬在線!輝煌神作再創(chuàng)新高

親子要聞

有些一個(gè)人去產(chǎn)檢的孕婦不值得可憐!網(wǎng)友:出事了罵一頓都是輕的

軍事要聞

美第三個(gè)航母打擊群據(jù)稱準(zhǔn)備部署至中東

無障礙瀏覽 進(jìn)入關(guān)懷版