国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克的Grok 4.3悄悄上線,跑分評(píng)測(cè)出爐

0
分享至


新智元報(bào)道

編輯:艾倫

【新智元導(dǎo)讀】Grok 4.3 是 xAI 一次務(wù)實(shí)升級(jí):更便宜、更快、更像能干活的助手。但它在硬推理、穩(wěn)定性和可信度上,仍落后 GPT-5.5 與 Claude Opus 4.7。

xAI 發(fā)布 Grok 4.3,沒有把聲量拉到最大,馬斯克甚至沒單獨(dú)發(fā)推,看起來只是個(gè)過渡版本。


https://x.com/elonmusk/status/2045590599206875216

它更像一次安靜的產(chǎn)品換擋:把模型放進(jìn) API,把價(jià)格打下來,把工具能力補(bǔ)上,再告訴開發(fā)者可以從舊版 Grok 遷移過來。

沒有 AGI 宏大敘事,也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實(shí)。

對(duì)普通消費(fèi)者來說,Grok 4.3 最重要的變化并非某個(gè)榜單分?jǐn)?shù)漲了幾分,而是 AI 助手正在變得更便宜、更快,也更像一個(gè)能替人完成文件、表格、演示文稿的合格助手。

然而,Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性價(jià)比很強(qiáng)的新模型,也是一款仍有明顯天花板的模型。

消費(fèi)者真正需要關(guān)心的,是它在哪些場(chǎng)景能省錢省時(shí)間,在哪些場(chǎng)景會(huì)因?yàn)榕袛嗖粶?zhǔn)、想太久或說太多,反而增加成本。

它確實(shí)變強(qiáng)了

尤其像一個(gè)更會(huì)干活的助手

Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超過 Claude Sonnet 4.6 和 Muse Spark。


這個(gè)提升不算小,尤其在 xAI 自家模型線里,Grok 4.3 已經(jīng)是目前最強(qiáng)的一檔。

更值得看的是代理任務(wù)表現(xiàn)。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。


這個(gè)榜單更接近日!缸 AI 做事」的場(chǎng)景,比如整理資料、執(zhí)行復(fù)雜步驟、處理真實(shí)工作流。這對(duì)普通用戶有實(shí)際意義。

讓 AI 幫忙寫周報(bào)、搭表格、做方案、拆會(huì)議紀(jì)要、生成 PPT,Grok 4.3 的體驗(yàn)會(huì)比前代更完整。

Grok 可以創(chuàng)建演示文稿、文檔和電子表格,可以在一個(gè)計(jì)算機(jī)環(huán)境里寫代碼、運(yùn)行代碼、安裝依賴并產(chǎn)出文件。

對(duì)不懂代碼的用戶來說,這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作,可能會(huì)被壓縮成一句指令。

這也是 AI 消費(fèi)級(jí)產(chǎn)品真正該競(jìng)爭(zhēng)的地方——用戶更在意它能不能把一個(gè)報(bào)銷表做完,把一份旅行計(jì)劃排清楚,把一封語(yǔ)氣得體的郵件寫好。

Grok 4.3 在這部分的進(jìn)步,是真進(jìn)步。

更便宜

是這次最直接的產(chǎn)品賣點(diǎn)

Grok 4.3 的價(jià)格很有侵略性。

它的 API 價(jià)格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元,相比 Grok 4.20 輸入價(jià)格低約 40%,輸出價(jià)格低約 60%。


Artificial Analysis 測(cè)算,運(yùn)行整套 Intelligence Index 評(píng)測(cè)成本約為 395 美元,比 Grok 4.20 0309 v2 低約 20%。


這會(huì)影響消費(fèi)者,只是方式?jīng)]那么直觀。

大多數(shù)普通人不會(huì)直接調(diào)用 API,但他們會(huì)用到基于 API 構(gòu)建的產(chǎn)品。

AI 寫作工具、客服機(jī)器人、語(yǔ)音助理、教育應(yīng)用、辦公插件,背后都要為模型調(diào)用付費(fèi)。

當(dāng)?shù)讓幽P蛢r(jià)格下降,應(yīng)用廠商有空間降低訂閱費(fèi),或者在同樣價(jià)格下提供更多次數(shù)、更長(zhǎng)上下文、更復(fù)雜任務(wù)。

Grok 4.3 還有一個(gè)優(yōu)勢(shì)是速度。

Artificial Analysis 的 xAI 模型頁(yè)顯示,它是 xAI 當(dāng)前輸出速度最快的模型之一,約 196 Tokens/s,屬于很快的一檔。


對(duì)語(yǔ)音聊天、實(shí)時(shí)客服、長(zhǎng)文生成和批量?jī)?nèi)容處理來說,等待時(shí)間會(huì)直接影響體驗(yàn)。

但速度有一個(gè)細(xì)節(jié)容易被忽略:Grok 4.3 的首 Token 延遲并不低。

它會(huì)先「想一會(huì)兒」,然后快速輸出。

長(zhǎng)答案里,這種速度優(yōu)勢(shì)明顯;短對(duì)話里,用戶可能先感受到停頓,再感受到快。

用于客服、語(yǔ)音助手、移動(dòng)端聊天時(shí),這個(gè)差異會(huì)被放大。

它更會(huì)說人話

這是 Grok 的隱藏優(yōu)勢(shì)

Grok 一直有一個(gè)微妙優(yōu)勢(shì):語(yǔ)氣更像真人。

Hacker News 上有人提到,一些英語(yǔ)非母語(yǔ)用戶認(rèn)為 Grok 在把握文本語(yǔ)氣、正式程度和微妙人際表達(dá)上,比其他模型更自然。

有人拿它和 ChatGPT、Claude 比,認(rèn)為 Grok 在非正式朋友語(yǔ)氣、同事溝通、語(yǔ)音輸入識(shí)別上表現(xiàn)更貼近真實(shí)交流。


https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平臺(tái)海量口語(yǔ)化表達(dá)訓(xùn)練。

它更容易捕捉社交網(wǎng)絡(luò)里的語(yǔ)氣、節(jié)奏、松弛感等;它也可能因此繼承社交網(wǎng)絡(luò)的噪音、偏見和表達(dá)習(xí)慣。

對(duì) C 端用戶來說,這種「更自然」的能力會(huì)讓 Grok 在寫消息、口語(yǔ)轉(zhuǎn)寫、語(yǔ)音助手、輕辦公場(chǎng)景里很討喜。

它未必最聰明,但可能更像一個(gè)愿意按你的語(yǔ)氣說話的助手。

Yes, BUT...

它比不過 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的問題,是它看起來已經(jīng)進(jìn)入第一梯隊(duì)邊緣,卻還沒站到最前面。

Grok 4.3 的 Intelligence Index 為 53,GPT-5.5 為 60,Claude Opus 4.7 為 57。

這個(gè)差距不只是排行榜上的幾分。

對(duì)普通消費(fèi)者來說,它會(huì)體現(xiàn)在復(fù)雜推理、代碼調(diào)試、長(zhǎng)文核查、專業(yè)咨詢和多步驟任務(wù)的穩(wěn)定性上。

在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按標(biāo)準(zhǔn) Elo 公式,面對(duì) GPT-5.5 的預(yù)期勝率約 17%。

它在幻覺控制上也有代價(jià)。

Grok 4.3 的 AA-Omniscience Accuracy(準(zhǔn)確率)提升 8 分,但 Non-Hallucination Rate(非幻覺率)下降 8 分。


這里的準(zhǔn)確率和非幻覺率是不同的,準(zhǔn)確率只看你答對(duì)了多少,而非幻覺率是看你沒答出來的問題里面,有多少是模型老實(shí)承認(rèn)自己不會(huì)的——不會(huì)但振振有詞,就是所謂的「幻覺」。

換言之,Grok 4.3 的知識(shí)覆蓋率變高了,但也更容易出現(xiàn)幻覺了。

而消費(fèi)者最怕的情況就是 AI 答得很流暢、很自信、很像那么回事,結(jié)果關(guān)鍵事實(shí)錯(cuò)了。

人類已經(jīng)很擅長(zhǎng)自信地犯錯(cuò),機(jī)器不必急著加入這個(gè)傳統(tǒng)項(xiàng)目。

這意味著,在醫(yī)療、法律、金融、學(xué)術(shù)和工程等高風(fēng)險(xiǎn)場(chǎng)景里,Grok 4.3 仍需要謹(jǐn)慎使用。

它適合幫用戶起草、整理、生成初稿,適合做低風(fēng)險(xiǎn)的輔助工作;涉及最終判斷,GPT-5.5 和 Claude Opus 4.7 仍更穩(wěn)。

長(zhǎng)上下文和工具能力很好

但消費(fèi)者買賬的是結(jié)果

Grok 4.3 提供 100 萬 Token 上下文窗口,這對(duì)長(zhǎng)文檔、代碼庫(kù)、合同、報(bào)告和資料庫(kù)很有吸引力。


用戶可以丟進(jìn)去更多材料,讓模型在更完整的信息環(huán)境里工作。

對(duì)研究、辦公和創(chuàng)作來說,這是一種實(shí)用能力。

它還支持文本和圖像輸入,輸出文本,并圍繞工具調(diào)用、網(wǎng)頁(yè)搜索、X 搜索、代碼執(zhí)行、文件搜索、RAG 等能力加強(qiáng)。

xAI 還推出了 Custom Voices、語(yǔ)音代理、TTS 和 STT 等產(chǎn)品,把 Grok 的邊界從文字?jǐn)U展到語(yǔ)音。

對(duì)普通用戶來說,未來的 Grok 可能不只是一個(gè)聊天框,而是一個(gè)能讀文件、查網(wǎng)頁(yè)、寫表格、說話、聽話的多模態(tài)助手。

問題在于,功能多不等于體驗(yàn)好。

消費(fèi)級(jí) AI 的競(jìng)爭(zhēng),最后會(huì)回到三個(gè)樸素標(biāo)準(zhǔn):少等、少錯(cuò)、少折騰。

Grok 4.3 在「少等」和「少花錢」上明顯前進(jìn),在「少錯(cuò)」上還沒給出足夠強(qiáng)的答案。

Grok 4.3 的準(zhǔn)確定位:

性價(jià)比模型,不是最強(qiáng)模型

Grok 4.3 最適合的定位,是一款高性價(jià)比的工作型模型。

它適合高頻內(nèi)容生成、語(yǔ)氣改寫、長(zhǎng)文本初篩、語(yǔ)音產(chǎn)品、客服場(chǎng)景、批量辦公任務(wù)、輕量級(jí)代理工作流。

它也適合那些對(duì)成本敏感、對(duì)響應(yīng)速度敏感、對(duì)最強(qiáng)推理沒有執(zhí)念的產(chǎn)品。

很多消費(fèi)者并不需要每次都調(diào)用最強(qiáng)模型,就像不應(yīng)該只是為了買菜開超跑,除非另有所圖。

但如果任務(wù)要求深度推理、嚴(yán)謹(jǐn)事實(shí)核查、復(fù)雜代碼、數(shù)學(xué)證明、長(zhǎng)期項(xiàng)目記憶和專業(yè)判斷,Grok 4.3 還不該成為第一選擇。

GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔(dān)這些高價(jià)值、高風(fēng)險(xiǎn)任務(wù)。

這次 xAI 的策略很清楚:先把模型做得足夠強(qiáng),再把價(jià)格打下來,用速度和工具能力擴(kuò)大可用場(chǎng)景。

它沒有贏下「最聰明模型」的頭銜,但可能會(huì)贏走一部分真實(shí)使用量。

因?yàn)槭袌?chǎng)并不總獎(jiǎng)勵(lì)最強(qiáng)者,也獎(jiǎng)勵(lì)夠強(qiáng)、夠快、夠便宜的選擇。

Grok 4.3 的意義正在這里。它把 xAI 從一個(gè)經(jīng)常靠馬斯克聲量吸引注意的模型供應(yīng)商,往更務(wù)實(shí)的 API 和消費(fèi)級(jí)工具競(jìng)爭(zhēng)者方向推進(jìn)了一步。

它看起來很好,確實(shí)很好;只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。

消費(fèi)者可以期待它降價(jià)、提速、讓更多 AI 應(yīng)用變得便宜。

也該記住,在需要真正聰明和可靠的地方,Grok 4.3 仍然只是備選項(xiàng)。

參考資料:

https://artificialanalysis.ai/models/grok-4-3

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越來越多車主直接棄車,不走報(bào)廢流程,內(nèi)行:聰明人都這么選

越來越多車主直接棄車,不走報(bào)廢流程,內(nèi)行:聰明人都這么選

小李子體育
2026-05-02 04:53:06
曝火箭隊(duì)內(nèi)氛圍從沒好過!今夏或再引進(jìn)超級(jí)球星 與杜蘭特組雙核

曝火箭隊(duì)內(nèi)氛圍從沒好過!今夏或再引進(jìn)超級(jí)球星 與杜蘭特組雙核

羅說NBA
2026-05-02 18:15:50
斯諾克世錦賽:第61桿破百到手!吳宜澤單桿清臺(tái),8-7領(lǐng)先小鋼炮

斯諾克世錦賽:第61桿破百到手!吳宜澤單桿清臺(tái),8-7領(lǐng)先小鋼炮

劉姚堯的文字城堡
2026-05-02 17:27:41
四川成都一女子曬出235平大平層,一進(jìn)去就不想出來,太漂亮了

四川成都一女子曬出235平大平層,一進(jìn)去就不想出來,太漂亮了

輝哥說動(dòng)漫
2026-05-02 16:29:19
尿酸危機(jī),席卷中國(guó)

尿酸危機(jī),席卷中國(guó)

DT商業(yè)觀察
2026-04-29 11:59:38
2場(chǎng)半決賽全創(chuàng)紀(jì)錄!小鋼炮被炮轟,墨菲加入克堡百破百俱樂部!

2場(chǎng)半決賽全創(chuàng)紀(jì)錄!小鋼炮被炮轟,墨菲加入克堡百破百俱樂部!

劉姚堯的文字城堡
2026-05-02 09:01:57
復(fù)興島太太太火爆了!“這可能是上海最居中的復(fù)興島派對(duì)了吧……網(wǎng)友花式點(diǎn)贊!

復(fù)興島太太太火爆了!“這可能是上海最居中的復(fù)興島派對(duì)了吧……網(wǎng)友花式點(diǎn)贊!

上海楊浦
2026-05-02 18:50:03
6-0橫掃!中國(guó)隊(duì)殺瘋了:U17亞洲杯首戰(zhàn)大勝躍升頭名,劍指世界杯

6-0橫掃!中國(guó)隊(duì)殺瘋了:U17亞洲杯首戰(zhàn)大勝躍升頭名,劍指世界杯

大秦壁虎白話體育
2026-05-01 21:28:26
茅臺(tái)1935暴跌60%!批發(fā)價(jià)跌破千元,白酒行業(yè)泡沫要破了嗎?

茅臺(tái)1935暴跌60%!批發(fā)價(jià)跌破千元,白酒行業(yè)泡沫要破了嗎?

慧眼看世界哈哈
2026-05-02 15:37:42
外媒嚇壞了!當(dāng)著日本航母的面,055竟然發(fā)射鷹擊-20?

外媒嚇壞了!當(dāng)著日本航母的面,055竟然發(fā)射鷹擊-20?

混沌錄
2026-04-29 23:29:12
人民日?qǐng)?bào):換主食抗炎6周見效!研究發(fā)現(xiàn):腸道菌群是“調(diào)節(jié)器”

人民日?qǐng)?bào):換主食抗炎6周見效!研究發(fā)現(xiàn):腸道菌群是“調(diào)節(jié)器”

腸菌科普
2026-04-29 09:17:59
江蘇進(jìn)入汛期 天氣迎轉(zhuǎn)折雨水登場(chǎng)

江蘇進(jìn)入汛期 天氣迎轉(zhuǎn)折雨水登場(chǎng)

金臺(tái)資訊
2026-05-02 08:46:14
斬殺中年男性的三件套:陽(yáng)痿、失業(yè)和心梗!

斬殺中年男性的三件套:陽(yáng)痿、失業(yè)和心梗!

燈錦年
2026-04-30 10:04:05
打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

細(xì)說職場(chǎng)
2026-04-28 10:39:02
鄭智為何動(dòng)怒?克雷桑真犯規(guī)了嗎?慢動(dòng)作逐幀分析:結(jié)論來了

鄭智為何動(dòng)怒?克雷桑真犯規(guī)了嗎?慢動(dòng)作逐幀分析:結(jié)論來了

足球大腕
2026-05-02 12:47:29
709元2K顯示器:一線連正在殺死桌面 clutter

709元2K顯示器:一線連正在殺死桌面 clutter

硬核玩家2哈
2026-05-01 20:28:18
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
男籃世預(yù)賽賽程公布:7月3日主場(chǎng)戰(zhàn)日本 6日中立場(chǎng)地戰(zhàn)中國(guó)臺(tái)北

男籃世預(yù)賽賽程公布:7月3日主場(chǎng)戰(zhàn)日本 6日中立場(chǎng)地戰(zhàn)中國(guó)臺(tái)北

醉臥浮生
2026-05-02 17:55:24
淚目了!河南三門峽24歲女子上午領(lǐng)結(jié)婚證,下午丈夫就出車禍癱瘓

淚目了!河南三門峽24歲女子上午領(lǐng)結(jié)婚證,下午丈夫就出車禍癱瘓

社會(huì)日日鮮
2026-05-02 10:24:30
為何俄羅斯不擔(dān)心芯片、光刻機(jī)斷供?除了中國(guó),其他國(guó)家都不擔(dān)心

為何俄羅斯不擔(dān)心芯片、光刻機(jī)斷供?除了中國(guó),其他國(guó)家都不擔(dān)心

南風(fēng)不及你溫柔
2026-05-01 10:21:03
2026-05-02 21:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15116文章數(shù) 66829關(guān)注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫(kù)存,Mac Mini起售調(diào)高200美元

頭條要聞

媒體:美國(guó)突然"翻臉" 對(duì)歐洲連打"三拳"一氣呵成

頭條要聞

媒體:美國(guó)突然"翻臉" 對(duì)歐洲連打"三拳"一氣呵成

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財(cái)經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

汽車要聞

新紀(jì)錄!零跑汽車4月交付達(dá)71387臺(tái)

態(tài)度原創(chuàng)

藝術(shù)
家居
游戲
時(shí)尚
親子

藝術(shù)要聞

色塊與筆觸的激情之旅!

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

LCK第二賽段:沒有Chovy,GEN就是中游隊(duì)伍!GEN三局戰(zhàn)勝DK

連衣裙還得是“法式”,性感嫵媚卻不輕浮

親子要聞

麻麻們都喜歡的兒子

無障礙瀏覽 進(jìn)入關(guān)懷版