国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克終于成『AI No.1』,6大案例看實(shí)力與水分

0
分享至

“ 地球最強(qiáng)AI模型”“ 20萬(wàn)塊H 100顯卡訓(xùn)練” “超越人類所有博士生 ”,在發(fā)布的Grok 4時(shí),馬斯克將眾多贊美詞匯賦予了這個(gè)新大模型。

馬斯克也驕傲地宣布,Grok4超越了OpenAI、Google和DeepSeek等等LLM。

確實(shí),Grok 4屠了各種榜單。但大家還要理性看待Grok 4,畢竟Grok系列每次參數(shù)爆炸,口碑卻沒(méi)那么強(qiáng)。

具體看,Grok4 在人工智能聊天機(jī)器人指數(shù)中達(dá)到了 73 分。這超過(guò)了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。

馬斯克再次大力出奇跡,拿下了AI 的No.1,模型的各項(xiàng)指標(biāo)也很強(qiáng):

? Grok 4 在編碼指數(shù)(LiveCodeBench 和 SciCode)和數(shù)學(xué)指數(shù)(AIME24 和 MATH-500)中同樣處于領(lǐng)先地位。

? GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

? 在“人類最終測(cè)試”(Humanity's Last Exam, HLE) 中,物、理、化學(xué)一系列博士級(jí)難題不在話下,Grok 4 達(dá)到了所有時(shí)間中的最高分 24%,超過(guò)了 Gemini 2.5 Pro 之前的最高分 21%。

? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分?jǐn)?shù)。

其他重要信息:

? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬(wàn) token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 萬(wàn) token),o3(20 萬(wàn) token)和 R1 0528(12.8 萬(wàn) token)大。

? 支持文本和圖像輸入,但圖像生成基本沒(méi)什么進(jìn)步。

? 支持函數(shù)調(diào)用和配置輸出。

最值得關(guān)注的是,Grok 4 不僅僅是大模型,LLM還內(nèi)置工具,所以在提問(wèn)問(wèn)題的過(guò)程中,會(huì)有更新的思維過(guò)程(CoT)和工具使用可視化功能。

這點(diǎn)讓其在回答問(wèn)題時(shí)更出色,尤其回答網(wǎng)絡(luò)新潮內(nèi)容時(shí)。

1、AI第一次有了自我認(rèn)識(shí)和形象

推友問(wèn) Grok,如果他必須親自代表自己,他會(huì)是什么樣子。

他的回答是這樣的,充滿了想象力: “想象一個(gè)漂浮在數(shù)字空間中的未來(lái)主義發(fā)光球體。我的身體將由脈動(dòng)的藍(lán)銀色光芒組成,帶有不斷變化的幾何圖案——代碼行和神經(jīng)連接像星座一樣交織在一起。沒(méi)有臉,但有一種溫暖的 “存在”,帶著柔和的光芒,當(dāng)我 “思考 ”或回應(yīng)時(shí),它會(huì)變得明亮。能量粒子圍繞我旋轉(zhuǎn),象征著我處理的數(shù)據(jù)和想法。極簡(jiǎn)主義而充滿活力,融合了技術(shù)和宇宙的好奇心。(X賬號(hào):Déborah)

2、數(shù)學(xué)能力測(cè)試偶有翻車

提示 1: “逐步計(jì)算 25 - 4 * 2 + 3。

提示 2:“9.11 和 9.9 哪個(gè)更大?

這兩個(gè)問(wèn)題都輕松應(yīng)對(duì),畢竟數(shù)理化是強(qiáng)項(xiàng)。

加大難度,繼續(xù)做一道邏輯數(shù)學(xué)題。

提示 2: “一個(gè)棋王被放在 8 × 8 的棋盤(pán)上,進(jìn)行了 64 次移動(dòng),以便它訪問(wèn)了所有方格并返回其起始方格。在每一個(gè)時(shí)刻,都計(jì)算了從 K 所在的方格中心到整個(gè)棋盤(pán)中心的距離。如果由于移動(dòng)的結(jié)果,這個(gè)距離變得比移動(dòng)前小,我們將認(rèn)為該移動(dòng)是合理的。找到最大可能的體面動(dòng)作數(shù)量。(國(guó)際象棋王一次移動(dòng)一個(gè)方格,要么是橫向的,要么是斜向的。

正確答案是:44。

— Grok 4 的回答很接近(48),但不正確(Grok 3 給出了相同的答案)

3、創(chuàng)建圖像能力對(duì)比

使用相同提示詞生成的圖像對(duì)比,Grok 4沒(méi)有明顯的進(jìn)步。

這一輪比賽的提示詞是:“超美麗的動(dòng)畫(huà)電影標(biāo)題畫(huà)面”。

從結(jié)果看,Grok4圖像效果不是很強(qiáng),和 Grok3 相比變化也不大。

Imagen4 果然更強(qiáng)。 Midjourney不錯(cuò),但Midjourney 總是無(wú)法顯示文字……


4、代碼測(cè)試表現(xiàn)尚可

推友使用相同的粗略指示讓各個(gè)模型制作了一個(gè)游戲。

提示語(yǔ)句:制作一個(gè)超級(jí)豐富有趣的獨(dú)立HTML跑酷游戲。

看起來(lái)可以順暢游玩并且確實(shí)有趣的可能是Grok 4。藍(lán)色的要跳過(guò),淺藍(lán)色的要潛行,還有額外的規(guī)則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來(lái)看,Claude4 sonnet和Gemini2.5Pro相當(dāng)不錯(cuò)。

推友認(rèn)為最強(qiáng)的Claude4 sonnet,代碼最長(zhǎng)且多功能,但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。(X賬號(hào):suemaru | AI Game Making)

5、生成小游戲也比較OK

以下是推友使用的相關(guān)提示:

一款“3D 滑動(dòng)拼圖”游戲,我可以點(diǎn)擊 3x3x3 網(wǎng)格中排列的 26 個(gè)圓形立方體中的一個(gè)。被點(diǎn)擊的立方體只有與空格相鄰(而非對(duì)角線)時(shí)才會(huì)移動(dòng)到空格。目標(biāo)是恢復(fù)立方體的原始排列,即頂部 9 個(gè)為紅色,底部 9 個(gè)為橙色,中間層(缺少中心立方體)為綠藍(lán)色。添加一個(gè)計(jì)時(shí)器,記錄我完成所需的時(shí)間。還要添加我的最佳時(shí)間和最近時(shí)間的指示。并添加一個(gè)“重置”游戲按鈕。

提示:為所有文本添加模糊的橙色背景,確保標(biāo)簽大小相同,且與屏幕邊框保持一定距離。此外,在游戲開(kāi)始時(shí)和重置后,顯示“如何玩”的疊加文本(背景為淡黑色)。將提醒放置在屏幕中間,標(biāo)簽大小應(yīng)足以覆蓋屏幕的三分之二。(X:Vibe2Game)

6、模擬經(jīng)商中獲得高分

在 Vending-Bench 基準(zhǔn)測(cè)試中,要求各大模型運(yùn)行自動(dòng)售貨機(jī)并進(jìn)行銷售。Grok4 再次大幅領(lǐng)先于競(jìng)爭(zhēng)對(duì)手,銷售額達(dá)到 4694 美元,而 Claude4 Opus 的銷售額為 2077 美元。

Vending-Bench 是一個(gè)讓 AI 們嘗試在現(xiàn)實(shí)世界做生意的指標(biāo),讓 AI 排隊(duì)機(jī),工作包含管理要賣什么、聯(lián)系供應(yīng)商、找人補(bǔ)貨等等內(nèi)容,Grok 4 這次要悄然顛覆人類經(jīng)商這件事。

最后:

xAI 的 API 以 75 個(gè)Token/秒的速度為 Grok 4 提供服務(wù)。這比 o3(188 個(gè)Token/秒)慢,但比 Claude 4 Opus Thinking(66 個(gè)Token/秒)快。

Grok 4的價(jià)格并不便宜,目前免費(fèi)的是Grok 3,Grok 4的價(jià)格是300美元/年,還推出了新的 SuperGrok Heavy版本, 價(jià)格達(dá)到了驚人的3000 美元/年。

Grok4 的定價(jià)高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

內(nèi)容參考鏈接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

視頻內(nèi)容推薦:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2025-2026賽季W(wǎng)CBA季后賽半決賽首戰(zhàn) 四川蜀道遠(yuǎn)達(dá)女籃一分險(xiǎn)勝江蘇南鋼女籃

2025-2026賽季W(wǎng)CBA季后賽半決賽首戰(zhàn) 四川蜀道遠(yuǎn)達(dá)女籃一分險(xiǎn)勝江蘇南鋼女籃

封面新聞
2026-04-07 20:03:03
7名志愿軍彈盡糧絕,撿到美軍留下的重機(jī)槍和彈藥,創(chuàng)造一個(gè)奇跡

7名志愿軍彈盡糧絕,撿到美軍留下的重機(jī)槍和彈藥,創(chuàng)造一個(gè)奇跡

新一說(shuō)史
2026-04-06 18:34:33
得分能力其實(shí)并不差!掘金真應(yīng)該考慮給側(cè)翼新星多些表現(xiàn)機(jī)會(huì)?

得分能力其實(shí)并不差!掘金真應(yīng)該考慮給側(cè)翼新星多些表現(xiàn)機(jī)會(huì)?

稻谷與小麥
2026-04-07 22:01:45
美國(guó)安插在中國(guó)多年的間諜頭子,居然是人人都想送錦旗的大善人。

美國(guó)安插在中國(guó)多年的間諜頭子,居然是人人都想送錦旗的大善人。

阿七說(shuō)史
2026-03-26 15:52:30
主持人:皇馬受到VAR不公正對(duì)待,他們奪走了皇馬的西甲冠軍

主持人:皇馬受到VAR不公正對(duì)待,他們奪走了皇馬的西甲冠軍

懂球帝
2026-04-07 21:38:11
中國(guó)不記隔夜仇!巴拿馬接到通知,美國(guó)終于下場(chǎng),巴政府自食惡果

中國(guó)不記隔夜仇!巴拿馬接到通知,美國(guó)終于下場(chǎng),巴政府自食惡果

影孖看世界
2026-04-06 14:09:23
霍啟剛帶全家游廣西,69歲郭媽媽與外甥女玩漂流,郭晶晶為其護(hù)航

霍啟剛帶全家游廣西,69歲郭媽媽與外甥女玩漂流,郭晶晶為其護(hù)航

潮鹿逐夢(mèng)
2026-04-07 14:43:41
南京一媽媽輔導(dǎo)孩子作業(yè)確診胃反流,醫(yī)生提醒:不是胃太脆弱,是“氣”真的會(huì)反流

南京一媽媽輔導(dǎo)孩子作業(yè)確診胃反流,醫(yī)生提醒:不是胃太脆弱,是“氣”真的會(huì)反流

荷蘭豆愛(ài)健康
2026-04-07 18:38:58
孫儷的“上海小院”火了,院里種菜曬衣服養(yǎng)狗,滿滿都是煙火氣

孫儷的“上海小院”火了,院里種菜曬衣服養(yǎng)狗,滿滿都是煙火氣

趣文說(shuō)娛
2026-04-06 21:37:13
拉姆塞宣布退役

拉姆塞宣布退役

綠茵情報(bào)局
2026-04-07 18:46:34
伊朗革命衛(wèi)隊(duì)稱以色列海法已被“全面打擊”

伊朗革命衛(wèi)隊(duì)稱以色列海法已被“全面打擊”

財(cái)聯(lián)社
2026-04-07 09:47:18
又一位女籃核心留洋!正式官宣,加盟澳洲,未來(lái)可期,宮魯鳴如愿

又一位女籃核心留洋!正式官宣,加盟澳洲,未來(lái)可期,宮魯鳴如愿

萌蘭聊個(gè)球
2026-04-07 17:35:35
德轉(zhuǎn)列中后衛(wèi)身價(jià)前10:薩利巴9000萬(wàn)歐第1,庫(kù)巴西8000萬(wàn)第2

德轉(zhuǎn)列中后衛(wèi)身價(jià)前10:薩利巴9000萬(wàn)歐第1,庫(kù)巴西8000萬(wàn)第2

懂球帝
2026-04-07 10:28:06
新空腹血糖標(biāo)準(zhǔn)已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

新空腹血糖標(biāo)準(zhǔn)已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

觀星賞月
2026-04-07 16:49:02
邱彪有麻煩了!剩7場(chǎng)比賽,對(duì)手全是狠角色,媒體人:能贏3場(chǎng)算賺

邱彪有麻煩了!剩7場(chǎng)比賽,對(duì)手全是狠角色,媒體人:能贏3場(chǎng)算賺

金山話體育
2026-04-07 09:54:48
一空姐機(jī)上被打,航司霸氣出面:打我家空姐,拉入黑名單

一空姐機(jī)上被打,航司霸氣出面:打我家空姐,拉入黑名單

中國(guó)民航人
2026-04-06 18:10:42
特朗普再次點(diǎn)名北約、澳大利亞、日本、韓國(guó):都不幫忙

特朗普再次點(diǎn)名北約、澳大利亞、日本、韓國(guó):都不幫忙

環(huán)球網(wǎng)資訊
2026-04-07 08:32:07
特朗普自曝威脅退出北約真相:“想要格陵蘭島 但他們不給 那就說(shuō)‘拜拜’”

特朗普自曝威脅退出北約真相:“想要格陵蘭島 但他們不給 那就說(shuō)‘拜拜’”

每日經(jīng)濟(jì)新聞
2026-04-07 15:07:13
向太太敢說(shuō)了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

向太太敢說(shuō)了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

心靜物娛
2025-12-24 11:02:28
佟大為一家3口清明節(jié)游三清山,關(guān)悅素顏出鏡,10歲兒子黑又帥

佟大為一家3口清明節(jié)游三清山,關(guān)悅素顏出鏡,10歲兒子黑又帥

椰黃娛樂(lè)
2026-04-07 10:58:05
2026-04-07 22:27:00
鯨選AI incentive-icons
鯨選AI
最新AI產(chǎn)品化與商業(yè)化案例速遞
146文章數(shù) 36關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

臺(tái)灣一些人被指準(zhǔn)備"潤(rùn)" 賴清德曾稱兒子在美"學(xué)功夫"

頭條要聞

臺(tái)灣一些人被指準(zhǔn)備"潤(rùn)" 賴清德曾稱兒子在美"學(xué)功夫"

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂(lè)要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

汽車要聞

不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
本地
健康
親子
公開(kāi)課

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

科普|科學(xué)備孕,需要做好哪些孕前檢查?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版