国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5幾個預測:用戶翻倍,編程登頂,屠殺一眾模型

0
分享至

在GPT-4橫空出世后,始終不見新一代大模型。暌違2年半,大家的心情如下,終于在今晚等到了GPT-5。

毫無意外,GPT-5登頂了大模型各種測評榜單。OpenAI發(fā)布的GPT-5四個模型,在Artificial Analysis Intelligence Index v2.2中排名如下:

GPT-5 (high)– 得分 69

GPT-5 (medium)– 得分 68

GPT-5 (low)– 得分 63

GPT-5 (minimal)– 得分 44

解釋下,在這個綜合指數(shù)排名中,官方說明里列出了 8 個子基準——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每個模型的得分是在這 8 組測試中表現(xiàn)的匯總(通常是加權平均或標準化后的平均值)。

但其實GPT-5最大的跨越,是統(tǒng)一智能架構。

現(xiàn)在,用戶不用費力區(qū)分什么時候用4o,什么時候用o3等眾多模型,ChatGPT將統(tǒng)一用GPT-5提供服務,它整合了高效響應模型和深度推理模型(GPT-5 thinking),通過實時智能路由自動判斷何時快速響應,減少不必要的算力浪費;自主判斷何時深度思考,給用戶最深刻的回答。

而在LLM Arena 更新的榜單中,GPT-5拿到幾乎所有類別的第一名,包括數(shù)學、指令遵循、多輪對話、編碼、WebDev等等,僅僅創(chuàng)意性寫作這個類別上稍弱于 Gemini 2.5pro。

具體看,GPT-5在多個權威基準測試中取得了突破性成績:

1)數(shù)學推理:AIME 2025 無工具輔助達到 94.6%;

2)多模態(tài)理解:MMMU 基準測試達到 84.2%;

3)科學推理:GPT-5 Pro 在 GPQA 測試中無工具輔助達到 88.4%;

4)代碼編程: 在 SWE-bench Verified(軟件工程任務)中:GPT-5直接回答準確率為 52.8%,加入思考鏈后提升至 74.9%,相比之下GPT-4o 表現(xiàn)為 30.8%,OpenAI o3 為 69.1%。

在 Aider Polyglot(多語言代碼編輯任務)中:GPT-5加入思考鏈后準確率達 88.0%,無思考僅 26.7%,而 GPT-4o 為 25.8%,OpenAI o3 為 79.6%。

所以,GPT-5依托思考鏈技術,在復雜任務中表現(xiàn)得更得心應手。

多說一句,GPT-5 在編程方面擊敗了 Claude Opus 4.1,成為全球最佳編程模型!連Cursor和微軟Copilot都第一時間接入了GPT-5 ,以后AI Coding市場要更熱鬧了。

拋開GPT-5的能力升級,更為重要的意圖改進,可能是在以下三點:

1、

相比上一代模型大幅減少幻覺和廢話,讓AI更可信。

與 GPT-4o 相比:GPT-5事實性錯誤減少 45%;開放事實上的幻覺減少 6 倍;缺失數(shù)據(jù)上的欺騙性回答減少 80%。

直播中舉例,沒有數(shù)據(jù)的問題,不會像以前直接遣詞造句,裝模做樣地編造回答?,F(xiàn)在會直接告訴無法回答,還會給一個解決方案。這也意味著GPT-5 更準確,更誠實。

雖然宣稱GPT-5的幻覺率大幅減少,但是OpenAI的工作人員幻覺率可挺高,直播中出現(xiàn)了大烏龍。

這張翻車的直播PPT圖中,柱狀圖顯示 數(shù)值52.8 比 69.1 高,而 69.1 又被顯示為與 30.8 相同量級。

或許是因為AI,人類數(shù)學能力已經(jīng)出現(xiàn)了大幅衰退,笑Cry。

2、

GPT-5 更具有多維的人類情感,而不是單純的討好人類。

GPT-5這次新增 4 個聊天個性:憤世嫉俗者、機器人、傾聽者、書呆子。可在設置中的 Customize ChatGPT 里自主選擇。而且GPT-5 將諂媚(AI 過度奉承)減少了>60%。當你犯錯時,會減少“你是對的”。

3、在健康領域的回答更實用。

GPT-5在 HealthBench 基準測試中得分創(chuàng)歷史新高,達到 46.2%。直播中,一位患上癌癥的女性將診斷書輸入 ChatGPT,ChatGPT 將GPT-5將難懂的語言整理得易于理解。

當然,還有這點不得不提,就是OpenAI竟然玩起了性價比。將GPT-5 與 Claude Opus 4.1 進行比較,可見GPT-5 要便宜得多。

便宜到底好不好用,以下這些海外生成的案例可參考:

1、音樂節(jié)拍器生成測試

現(xiàn)實世界的信息是多模態(tài)的——文字、圖像、音頻、視頻等多種形式共同構成了人類的認知輸入。我們測試Chat GPT5 對音樂領域規(guī)則的理解,也考驗其將抽象需求轉化為,可執(zhí)行邏輯的工程化能力。

生成的音樂很帶感,網(wǎng)友直呼:“我的耳朵要懷孕了”,“也許它會徹底改變音樂產(chǎn)業(yè)“

@sama

2、建筑生成器

GPT-5也能協(xié)助建筑行業(yè)進行工作,全程沒碰過一行代碼,卻非常智能的生成了3D樓房。

“做一個程序化的粗野主義建筑生成器,能讓我通過拖拽以各種酷炫方式編輯建筑”,然后又讓它 “再改進一下

3、簡筆畫對比

GPT-5 在自行車測試中的表現(xiàn)比 4o 好得多。

GPT-5 在和Claude Sonnet 4測試繪制游戲手柄中也好很多

4、指示GPT-5創(chuàng)建一個音樂可視化工具 + 迷你作曲家

5、編碼能力測試

在發(fā)布會上,主講人宣稱對安全系統(tǒng)進行了一系列的升級,國外網(wǎng)友(@PranavJoshi28)對 AI 能否設計并實現(xiàn)一個 “安全、規(guī)范、可維護” 的后端身份認證與權限系統(tǒng)進行了的綜合測試,這一項測試既涉及具體技術的落地,也考驗對安全最佳實踐和工程化思想的理解。

提示詞:創(chuàng)建基礎的 RBAC(基于角色的訪問控制) 使用 JWT(JSON Web Token) 密碼存儲應使用 bcrypt,但首先要將密碼與 pepper(一種額外的加密鹽)結合,并用 SHA-256(生成 32 字節(jié))進行哈希處理,之后再用 bcrypt 加密,以避免 72 字節(jié)的截斷問題 需維護遷移文件(不使用 ORM 或查詢構建器),并設有單獨的 up(升級)和 down(降級)文件夾 使用 Zod 進行類型檢查和 schema 驗證 生成訪問令牌和刷新令牌(支持令牌輪換) 使用刷新令牌數(shù)據(jù)庫來實現(xiàn)令牌的黑名單管理、撤銷或過期處理

國外網(wǎng)友評價:大部分準確,需要較少的調(diào)整。

但網(wǎng)友測試GPT-5,檢測出9.9-9.11=-0.21,這種難以想象的錯誤。

在GPT-5發(fā)布后,鯨哥預測:

?因為GPT-5 人人可免費使用,以及回答效率更高,OpenAI的全球用戶在今天周月活數(shù)7億基礎上將翻倍。

?AI編程將走出小眾,程序員大面積失業(yè)。因為GPT-5編程能力出眾,一直拒絕OpenAI收購的Cursor,都第一時間接入了GPT-5,你就知道未來大部分AI編程軟件,會齊刷刷都接入GPT-5,AI編程效率進一步提高。

?GPT-5的多模態(tài),以及多尺寸,將幫助其占領大多數(shù)AI場景, 很多大模型將因為競爭性不足,而被GPT-5踢了場子。

盡管馬斯克還不服氣,認為Grok 4 Heavy還占據(jù)著最智能的大模型寶座,但是GPT-5這次務實地推進,將改變除了桂冠外的一切。

一位國外網(wǎng)友站在長遠的角度評價,GPT-5 只是點火器:

? GPT-5.5 Copilot+(內(nèi)部測試階段)

? GPT-6 → AGI 認知層

? Sora + Sky + Whisper = 完全感官認知

? AutoCode + Memory API = 世界操作系

你認可嗎?



https://x.com/godofprompt/status/1953529048971588015

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人民日報再發(fā)聲,言辭犀利,網(wǎng)友:董宇輝恐要“社會性死亡”了

人民日報再發(fā)聲,言辭犀利,網(wǎng)友:董宇輝恐要“社會性死亡”了

閱微札記
2026-04-07 20:02:14
Lululemon新色發(fā)圈搶爆了,80元Lululemon新色發(fā)圈炒到280元!

Lululemon新色發(fā)圈搶爆了,80元Lululemon新色發(fā)圈炒到280元!

秀我廣元
2026-04-06 22:10:25
2026聯(lián)賽首位下課主帥產(chǎn)生!李霄鵬接手寧波?球迷:要不韓鵬去吧

2026聯(lián)賽首位下課主帥產(chǎn)生!李霄鵬接手寧波?球迷:要不韓鵬去吧

刀鋒體育
2026-04-07 11:22:35
剛剛,直線猛拉!漲停潮來了

剛剛,直線猛拉!漲停潮來了

中國基金報
2026-04-07 11:18:11
東莞首個市級兒童公園爛尾?官方回應:不再按原計劃推進

東莞首個市級兒童公園爛尾?官方回應:不再按原計劃推進

南方都市報
2026-04-07 11:28:09
國家下重手,全國教師嚴查風暴來襲,有4類老師的飯碗恐怕是不保

國家下重手,全國教師嚴查風暴來襲,有4類老師的飯碗恐怕是不保

貓叔東山再起
2026-04-05 11:05:06
10個“不行”的男人有8個會去p?原因竟是……

10個“不行”的男人有8個會去p?原因竟是……

性學研究僧
2026-04-07 19:45:45
跨越一萬公里的清算:48小時逐客令,阿根廷一刀切斷伊朗南美命脈

跨越一萬公里的清算:48小時逐客令,阿根廷一刀切斷伊朗南美命脈

環(huán)球格局觀
2026-04-04 20:52:35
晚節(jié)不保?楊亞洲也沒想到,倪萍如今會以這種方式讓人操碎了心

晚節(jié)不保?楊亞洲也沒想到,倪萍如今會以這種方式讓人操碎了心

阿纂看事
2026-04-07 14:28:10
2026江蘇高校排名:東大跌至第9!西浦第2搶眼,3所雙非表現(xiàn)強勢

2026江蘇高校排名:東大跌至第9!西浦第2搶眼,3所雙非表現(xiàn)強勢

Delete丨CC
2026-04-07 17:15:36
貴陽康養(yǎng)職業(yè)大學黨委統(tǒng)戰(zhàn)部副部長左乾榮接受紀律審查和監(jiān)察調(diào)查

貴陽康養(yǎng)職業(yè)大學黨委統(tǒng)戰(zhàn)部副部長左乾榮接受紀律審查和監(jiān)察調(diào)查

知知貴陽
2026-04-07 14:35:31
東契奇治傷更多細節(jié):在西班牙接受注射 里夫斯情比他更不確定

東契奇治傷更多細節(jié):在西班牙接受注射 里夫斯情比他更不確定

羅說NBA
2026-04-07 05:30:50
亞馬遜再裁1.4萬人:裁員名單完全隨機 中國區(qū)團隊或遭整體裁撤

亞馬遜再裁1.4萬人:裁員名單完全隨機 中國區(qū)團隊或遭整體裁撤

快科技
2026-04-07 16:39:08
每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

蜉蝣說
2026-04-03 16:26:35
撒貝寧章子怡當初分手真相曝光!章媽媽:我女兒掙的是你70倍

撒貝寧章子怡當初分手真相曝光!章媽媽:我女兒掙的是你70倍

觀魚聽雨
2026-04-05 19:11:39
官媒為張雪鳴不平!他贏了全世界,卻要栽在關系戶這?

官媒為張雪鳴不平!他贏了全世界,卻要栽在關系戶這?

娛樂故事
2026-04-06 20:01:36
張本智和這段采訪的含金量還在上升,他評價松島和王楚欽很到位

張本智和這段采訪的含金量還在上升,他評價松島和王楚欽很到位

李汪手工制作
2026-04-07 08:58:14
北京15分大逆轉!3-11名大變!深圳殺進前3,廣東一夜成最大輸家

北京15分大逆轉!3-11名大變!深圳殺進前3,廣東一夜成最大輸家

后仰大風車
2026-04-06 23:11:29
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
歷史獨一檔!約基奇再創(chuàng)NBA史詩紀錄,全聯(lián)盟僅他一人做到

歷史獨一檔!約基奇再創(chuàng)NBA史詩紀錄,全聯(lián)盟僅他一人做到

夜白侃球
2026-04-07 15:06:30
2026-04-07 22:24:49
鯨選AI incentive-icons
鯨選AI
最新AI產(chǎn)品化與商業(yè)化案例速遞
146文章數(shù) 36關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

頭條要聞

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
家居
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

數(shù)碼要聞

1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

家居要聞

雅致愜意 感知生活之美

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版