網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克的Grok 4.3悄悄上線，跑分評(píng)測(cè)出爐

2026-05-02 17:06:34　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】Grok 4.3 是 xAI 一次務(wù)實(shí)升級(jí)：更便宜、更快、更像能干活的助手。但它在硬推理、穩(wěn)定性和可信度上，仍落后 GPT-5.5 與 Claude Opus 4.7。

xAI 發(fā)布 Grok 4.3，沒有把聲量拉到最大，馬斯克甚至沒單獨(dú)發(fā)推，看起來只是個(gè)過渡版本。

https://x.com/elonmusk/status/2045590599206875216

它更像一次安靜的產(chǎn)品換擋：把模型放進(jìn) API，把價(jià)格打下來，把工具能力補(bǔ)上，再告訴開發(fā)者可以從舊版 Grok 遷移過來。

沒有 AGI 宏大敘事，也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實(shí)。

對(duì)普通消費(fèi)者來說，Grok 4.3 最重要的變化并非某個(gè)榜單分?jǐn)?shù)漲了幾分，而是 AI 助手正在變得更便宜、更快，也更像一個(gè)能替人完成文件、表格、演示文稿的合格助手。

然而，Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性價(jià)比很強(qiáng)的新模型，也是一款仍有明顯天花板的模型。

消費(fèi)者真正需要關(guān)心的，是它在哪些場(chǎng)景能省錢省時(shí)間，在哪些場(chǎng)景會(huì)因?yàn)榕袛嗖粶?zhǔn)、想太久或說太多，反而增加成本。

它確實(shí)變強(qiáng)了

尤其像一個(gè)更會(huì)干活的助手

Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分，比 Grok 4.20 0309 v2 高 4 分，也超過 Claude Sonnet 4.6 和 Muse Spark。

這個(gè)提升不算小，尤其在 xAI 自家模型線里，Grok 4.3 已經(jīng)是目前最強(qiáng)的一檔。

更值得看的是代理任務(wù)表現(xiàn)。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo，相比 Grok 4.20 0309 v2 的 1179，提升了 321 分。

這個(gè)榜單更接近日�！缸� AI 做事」的場(chǎng)景，比如整理資料、執(zhí)行復(fù)雜步驟、處理真實(shí)工作流。這對(duì)普通用戶有實(shí)際意義。

讓 AI 幫忙寫周報(bào)、搭表格、做方案、拆會(huì)議紀(jì)要、生成 PPT，Grok 4.3 的體驗(yàn)會(huì)比前代更完整。

Grok 可以創(chuàng)建演示文稿、文檔和電子表格，可以在一個(gè)計(jì)算機(jī)環(huán)境里寫代碼、運(yùn)行代碼、安裝依賴并產(chǎn)出文件。

對(duì)不懂代碼的用戶來說，這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作，可能會(huì)被壓縮成一句指令。

這也是 AI 消費(fèi)級(jí)產(chǎn)品真正該競(jìng)爭(zhēng)的地方——用戶更在意它能不能把一個(gè)報(bào)銷表做完，把一份旅行計(jì)劃排清楚，把一封語(yǔ)氣得體的郵件寫好。

Grok 4.3 在這部分的進(jìn)步，是真進(jìn)步。

更便宜

是這次最直接的產(chǎn)品賣點(diǎn)

Grok 4.3 的價(jià)格很有侵略性。

它的 API 價(jià)格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元，相比 Grok 4.20 輸入價(jià)格低約 40%，輸出價(jià)格低約 60%。

Artificial Analysis 測(cè)算，運(yùn)行整套 Intelligence Index 評(píng)測(cè)成本約為 395 美元，比 Grok 4.20 0309 v2 低約 20%。

這會(huì)影響消費(fèi)者，只是方式?jīng)]那么直觀。

大多數(shù)普通人不會(huì)直接調(diào)用 API，但他們會(huì)用到基于 API 構(gòu)建的產(chǎn)品。

AI 寫作工具、客服機(jī)器人、語(yǔ)音助理、教育應(yīng)用、辦公插件，背后都要為模型調(diào)用付費(fèi)。

當(dāng)?shù)讓幽Ｐ蛢r(jià)格下降，應(yīng)用廠商有空間降低訂閱費(fèi)，或者在同樣價(jià)格下提供更多次數(shù)、更長(zhǎng)上下文、更復(fù)雜任務(wù)。

Grok 4.3 還有一個(gè)優(yōu)勢(shì)是速度。

Artificial Analysis 的 xAI 模型頁(yè)顯示，它是 xAI 當(dāng)前輸出速度最快的模型之一，約 196 Tokens/s，屬于很快的一檔。

對(duì)語(yǔ)音聊天、實(shí)時(shí)客服、長(zhǎng)文生成和批量?jī)?nèi)容處理來說，等待時(shí)間會(huì)直接影響體驗(yàn)。

但速度有一個(gè)細(xì)節(jié)容易被忽略：Grok 4.3 的首 Token 延遲并不低。

它會(huì)先「想一會(huì)兒」，然后快速輸出。

長(zhǎng)答案里，這種速度優(yōu)勢(shì)明顯；短對(duì)話里，用戶可能先感受到停頓，再感受到快。

用于客服、語(yǔ)音助手、移動(dòng)端聊天時(shí)，這個(gè)差異會(huì)被放大。

它更會(huì)說人話

這是 Grok 的隱藏優(yōu)勢(shì)

Grok 一直有一個(gè)微妙優(yōu)勢(shì)：語(yǔ)氣更像真人。

Hacker News 上有人提到，一些英語(yǔ)非母語(yǔ)用戶認(rèn)為 Grok 在把握文本語(yǔ)氣、正式程度和微妙人際表達(dá)上，比其他模型更自然。

有人拿它和 ChatGPT、Claude 比，認(rèn)為 Grok 在非正式朋友語(yǔ)氣、同事溝通、語(yǔ)音輸入識(shí)別上表現(xiàn)更貼近真實(shí)交流。

https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平臺(tái)海量口語(yǔ)化表達(dá)訓(xùn)練。

它更容易捕捉社交網(wǎng)絡(luò)里的語(yǔ)氣、節(jié)奏、松弛感等；它也可能因此繼承社交網(wǎng)絡(luò)的噪音、偏見和表達(dá)習(xí)慣。

對(duì) C 端用戶來說，這種「更自然」的能力會(huì)讓 Grok 在寫消息、口語(yǔ)轉(zhuǎn)寫、語(yǔ)音助手、輕辦公場(chǎng)景里很討喜。

它未必最聰明，但可能更像一個(gè)愿意按你的語(yǔ)氣說話的助手。

Yes, BUT...

它比不過 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的問題，是它看起來已經(jīng)進(jìn)入第一梯隊(duì)邊緣，卻還沒站到最前面。

Grok 4.3 的 Intelligence Index 為 53，GPT-5.5 為 60，Claude Opus 4.7 為 57。

這個(gè)差距不只是排行榜上的幾分。

對(duì)普通消費(fèi)者來說，它會(huì)體現(xiàn)在復(fù)雜推理、代碼調(diào)試、長(zhǎng)文核查、專業(yè)咨詢和多步驟任務(wù)的穩(wěn)定性上。

在 GDPval-AA 上，Grok 4.3 的提升很大，但仍落后 GPT-5.5 xhigh 276 Elo，按標(biāo)準(zhǔn) Elo 公式，面對(duì) GPT-5.5 的預(yù)期勝率約 17%。

它在幻覺控制上也有代價(jià)。

Grok 4.3 的 AA-Omniscience Accuracy（準(zhǔn)確率）提升 8 分，但 Non-Hallucination Rate（非幻覺率）下降 8 分。

這里的準(zhǔn)確率和非幻覺率是不同的，準(zhǔn)確率只看你答對(duì)了多少，而非幻覺率是看你沒答出來的問題里面，有多少是模型老實(shí)承認(rèn)自己不會(huì)的——不會(huì)但振振有詞，就是所謂的「幻覺」。

換言之，Grok 4.3 的知識(shí)覆蓋率變高了，但也更容易出現(xiàn)幻覺了。

而消費(fèi)者最怕的情況就是 AI 答得很流暢、很自信、很像那么回事，結(jié)果關(guān)鍵事實(shí)錯(cuò)了。

人類已經(jīng)很擅長(zhǎng)自信地犯錯(cuò)，機(jī)器不必急著加入這個(gè)傳統(tǒng)項(xiàng)目。

這意味著，在醫(yī)療、法律、金融、學(xué)術(shù)和工程等高風(fēng)險(xiǎn)場(chǎng)景里，Grok 4.3 仍需要謹(jǐn)慎使用。

它適合幫用戶起草、整理、生成初稿，適合做低風(fēng)險(xiǎn)的輔助工作；涉及最終判斷，GPT-5.5 和 Claude Opus 4.7 仍更穩(wěn)。

長(zhǎng)上下文和工具能力很好

但消費(fèi)者買賬的是結(jié)果

Grok 4.3 提供 100 萬 Token 上下文窗口，這對(duì)長(zhǎng)文檔、代碼庫(kù)、合同、報(bào)告和資料庫(kù)很有吸引力。

用戶可以丟進(jìn)去更多材料，讓模型在更完整的信息環(huán)境里工作。

對(duì)研究、辦公和創(chuàng)作來說，這是一種實(shí)用能力。

它還支持文本和圖像輸入，輸出文本，并圍繞工具調(diào)用、網(wǎng)頁(yè)搜索、X 搜索、代碼執(zhí)行、文件搜索、RAG 等能力加強(qiáng)。

xAI 還推出了 Custom Voices、語(yǔ)音代理、TTS 和 STT 等產(chǎn)品，把 Grok 的邊界從文字?jǐn)U展到語(yǔ)音。

對(duì)普通用戶來說，未來的 Grok 可能不只是一個(gè)聊天框，而是一個(gè)能讀文件、查網(wǎng)頁(yè)、寫表格、說話、聽話的多模態(tài)助手。

問題在于，功能多不等于體驗(yàn)好。

消費(fèi)級(jí) AI 的競(jìng)爭(zhēng)，最后會(huì)回到三個(gè)樸素標(biāo)準(zhǔn)：少等、少錯(cuò)、少折騰。

Grok 4.3 在「少等」和「少花錢」上明顯前進(jìn)，在「少錯(cuò)」上還沒給出足夠強(qiáng)的答案。

Grok 4.3 的準(zhǔn)確定位：

性價(jià)比模型，不是最強(qiáng)模型

Grok 4.3 最適合的定位，是一款高性價(jià)比的工作型模型。

它適合高頻內(nèi)容生成、語(yǔ)氣改寫、長(zhǎng)文本初篩、語(yǔ)音產(chǎn)品、客服場(chǎng)景、批量辦公任務(wù)、輕量級(jí)代理工作流。

它也適合那些對(duì)成本敏感、對(duì)響應(yīng)速度敏感、對(duì)最強(qiáng)推理沒有執(zhí)念的產(chǎn)品。

很多消費(fèi)者并不需要每次都調(diào)用最強(qiáng)模型，就像不應(yīng)該只是為了買菜開超跑，除非另有所圖。

但如果任務(wù)要求深度推理、嚴(yán)謹(jǐn)事實(shí)核查、復(fù)雜代碼、數(shù)學(xué)證明、長(zhǎng)期項(xiàng)目記憶和專業(yè)判斷，Grok 4.3 還不該成為第一選擇。

GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔(dān)這些高價(jià)值、高風(fēng)險(xiǎn)任務(wù)。

這次 xAI 的策略很清楚：先把模型做得足夠強(qiáng)，再把價(jià)格打下來，用速度和工具能力擴(kuò)大可用場(chǎng)景。

它沒有贏下「最聰明模型」的頭銜，但可能會(huì)贏走一部分真實(shí)使用量。

因?yàn)槭袌?chǎng)并不總獎(jiǎng)勵(lì)最強(qiáng)者，也獎(jiǎng)勵(lì)夠強(qiáng)、夠快、夠便宜的選擇。

Grok 4.3 的意義正在這里。它把 xAI 從一個(gè)經(jīng)常靠馬斯克聲量吸引注意的模型供應(yīng)商，往更務(wù)實(shí)的 API 和消費(fèi)級(jí)工具競(jìng)爭(zhēng)者方向推進(jìn)了一步。

它看起來很好，確實(shí)很好；只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。

消費(fèi)者可以期待它降價(jià)、提速、讓更多 AI 應(yīng)用變得便宜。

也該記住，在需要真正聰明和可靠的地方，Grok 4.3 仍然只是備選項(xiàng)。

參考資料：

https://artificialanalysis.ai/models/grok-4-3

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

馬斯克翻車了！一邊告OpenAI，一邊偷偷蒸餾ChatGPT

新智元 2026-05-01 17:07:52
34 跟貼 34
黃仁勛GTC直言：現(xiàn)在是OpenClaw的時(shí)代，SaaS都將變AgaaS

機(jī)器之心Pro 2026-03-17 17:22:21
9 跟貼 9

撕開Claude Code真相：讓它好用的98.4%，是工程不是AI

新智元 2026-05-01 13:30:20
5 跟貼 5

馬斯克的GPU也在摸魚？狂囤幾十萬張顯卡，只有11%在干活

新智元 2026-05-02 14:15:57
2 跟貼 2
電動(dòng)車好嗎？馬斯克來華訪問備受關(guān)注，北京天壇馬哥說觀點(diǎn)

北京妙姐 2026-05-01 06:03:00
0 跟貼 0

AI能改10萬行代碼，卻讓你走路去洗車！Karpathy戳破「鋸齒狀智能」

新智元 2026-05-01 17:08:00
1 跟貼 1

馬斯克拿1萬億工資，為什么大家都覺得超值

雷科技 2025-11-08 14:17:34
0 跟貼 0
馬斯克的小目標(biāo)：星艦10000發(fā)/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
10 跟貼 10

GPU神話松動(dòng)，AI真正的戰(zhàn)場(chǎng)變了

虎嗅APP 2026-05-01 01:19:11
24 跟貼 24
騰訊混元CL-bench續(xù)作發(fā)布，讓大模型讀懂你的日常生活

機(jī)器之心Pro 2026-05-01 19:53:00
1 跟貼 1
花500元在淘寶定制一款個(gè)人AI智能體，是不是智商稅？

經(jīng)濟(jì)觀察報(bào) 2026-04-30 23:13:25
1 跟貼 1
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
0 跟貼 0
黃仁勛的“五層蛋糕”：AI的底層戰(zhàn)爭(zhēng)，是能源戰(zhàn)爭(zhēng)（附全文）

鈦媒體APP 2026-03-11 21:03:21
0 跟貼 0
蘋果官方App誤打包了Claude.md，這么大的公司也Vibe Coding�。�

量子位 2026-05-02 12:33:55
4 跟貼 4
在四五年內(nèi)，在太空運(yùn)行大規(guī)模AI將比地面更劃算

每日經(jīng)濟(jì)新聞 2026-01-22 12:48:26
0 跟貼 0
貝佐斯創(chuàng)業(yè)，馬斯克嘲笑，兩人的恩怨糾葛20年

量子位 2025-11-22 12:44:22
0 跟貼 0
圖靈獎(jiǎng)得主：勸年輕人別學(xué)計(jì)算機(jī)，行業(yè)紅利正在消失

DeepTech深科技 2026-05-02 18:30:19
0 跟貼 0
Karpathy：很多App就不該出生,人類護(hù)城河只剩理解,CPU將淪為配角

機(jī)器之心Pro 2026-05-01 20:44:49
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
DeepSeek用V4重畫了坐標(biāo)系

鈦媒體APP 2026-05-01 09:52:15
10 跟貼 10
這事兒能喘這么大氣兒啊

肥羅愛追劇 2026-04-30 09:09:11
3 跟貼 3
斯諾克世錦賽吳宜澤驚艷長(zhǎng)臺(tái)，國(guó)產(chǎn)新星挑戰(zhàn)艾倫！

月不染塵自皎潔s 2026-05-01 07:08:08
7 跟貼 7
吳宜澤一開場(chǎng)就火力全開連續(xù)硬核進(jìn)攻，艾倫：他是怎么做到的？

全力說體育 2026-05-01 07:16:58
30 跟貼 30
魏翔艾倫爆笑小品！都督，浪大，再唱的話就喝飽了

騎著蝸牛追導(dǎo)彈85 2026-04-30 09:40:00
0 跟貼 0
重要調(diào)整！央視直播世錦賽有變，CCTV不直播吳宜澤VS艾倫

極度說球 2026-04-30 06:55:56
10 跟貼 10
艾倫無視裁判，吳宜澤表情炸裂！2026世錦賽笑料十足瞬間！

來斯文 2026-05-02 08:40:47
1 跟貼 1
馬斯克4秒掙的錢相當(dāng)于普通人一年的收入

每日經(jīng)濟(jì)新聞 2026-01-21 00:05:31
1 跟貼 1
中國(guó)為什么出不了馬斯克？馬斯克回答一針見血，不服不行！

趣料加工廠 2026-04-30 11:28:56
2 跟貼 2
兔子提議限制機(jī)器人武器化

天天觀影視 2026-05-01 12:19:18
1 跟貼 1
導(dǎo)演不謹(jǐn)慎了啊

小島追劇 2026-05-01 22:35:00
0 跟貼 0
車載語(yǔ)音助手終于能聽懂人話了

薛定諤的BUG 2026-05-01 17:35:35
0 跟貼 0
美國(guó)國(guó)防部長(zhǎng)已下令從德國(guó)撤出5000名駐軍，撤軍工作將在未來6至12個(gè)月內(nèi)完成

魯中晨報(bào) 2026-05-02 07:55:05
14939 跟貼 14939
斯諾克最新戰(zhàn)報(bào)！吳宜澤狀態(tài)回升，暴打兩桿破百，10-8領(lǐng)先小鋼炮

郝小小看體育 2026-05-02 18:56:43
1 跟貼 1
谷歌給老車換大腦：語(yǔ)音助手4月30日上車

硅嶼手記 2026-05-01 04:05:16
0 跟貼 0
斯諾克世錦賽第13日：吳宜澤4連鞭勝艾倫，希金斯創(chuàng)里程碑

淺暮雪 2026-05-01 09:43:35
3 跟貼 3
死板不懂變，再厲害也成不了氣候

二虎撩劇 2026-05-01 01:10:37
1 跟貼 1
斯諾克世錦賽：吳宜澤6-2艾倫，中國(guó)新星強(qiáng)勢(shì)晉級(jí)決賽

九分看世界 2026-05-02 02:45:48
2 跟貼 2
艾倫對(duì)中國(guó)球員非常友好

噶噶香的晚餐 2026-05-01 11:24:03
0 跟貼 0
吳宜澤7-7艾倫：不得不承認(rèn)的5個(gè)事實(shí)與超1小時(shí)鏖戰(zhàn)

郭夷包工頭 2026-05-02 06:25:51
3 跟貼 3
現(xiàn)場(chǎng)直拍！巴恩斯一條龍隔扣艾倫+死亡纏繞哈登，年輕真好！

全力說體育 2026-05-02 09:13:14
8 跟貼 8

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

15116文章數(shù) 66829關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

家居

游戲

時(shí)尚

親子

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

馬斯克的Grok 4.3悄悄上線，跑分評(píng)測(cè)出爐

AI熱潮耗盡庫(kù)存，Mac Mini起售調(diào)高200美元

媒體：美國(guó)突然"翻臉" 對(duì)歐洲連打"三拳"一氣呵成

媒體：美國(guó)突然"翻臉" 對(duì)歐洲連打"三拳"一氣呵成

休賽期總冠軍，輪到休斯頓火箭

白百何罕曬大兒子 18歲元寶越來越帥

雷軍很努力 小米還是跌破了30港元大關(guān)

新紀(jì)錄！零跑汽車4月交付達(dá)71387臺(tái)

態(tài)度原創(chuàng)

色塊與筆觸的激情之旅！

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

LCK第二賽段：沒有Chovy，GEN就是中游隊(duì)伍！GEN三局戰(zhàn)勝DK

連衣裙還得是“法式”，性感嫵媚卻不輕浮

麻麻們都喜歡的兒子

AI熱潮耗盡庫(kù)存，Mac Mini起售調(diào)高200美元

雷軍很努力小米還是跌破了30港元大關(guān)

新紀(jì)錄！零跑汽車4月交付達(dá)71387臺(tái)

色塊與筆觸的激情之旅！

靈動(dòng)實(shí)用生活藝術(shù)場(chǎng)

LCK第二賽段：沒有Chovy，GEN就是中游隊(duì)伍！GEN三局戰(zhàn)勝DK