国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT4.5四大維度測(cè)試報(bào)告:幻覺(jué)嚴(yán)重,有點(diǎn)兒失望

0
分享至

OpenAI剛剛發(fā)布了GPT4.5,也就是他們號(hào)稱的「最后一代非推理大模型」,為了測(cè)試效果,我花了200美元。

先簡(jiǎn)單總結(jié)下GPT-4.5升級(jí)的核心內(nèi)容:

  • 內(nèi)部代號(hào)Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破。

  • 它在理解用戶意圖、對(duì)話更自然、能捕捉用戶情感和言外之意,幻覺(jué)(hallucination)減少。

  • 在寫(xiě)作、設(shè)計(jì)、代碼生成(如SVG繪圖)等任務(wù)中展現(xiàn)更高創(chuàng)造力。

  • API價(jià)格高昂(API輸入75美元/百萬(wàn)token)。

不過(guò)用戶的反饋?zhàn)顬橹匾?,GPT4.5的首批用戶必須得200美元的大會(huì)員才能用,但實(shí)際的體驗(yàn)有點(diǎn)兒一言難盡。

我最先測(cè)試的是一道難倒不少大模型的數(shù)字題。

問(wèn)題:6.9和6.11誰(shuí)大?

原以為GPT4.5會(huì)沒(méi)有懸念,結(jié)果有點(diǎn)兒失望,看到第一句回答“6.11比6.9大”的時(shí)候都被嚇了一跳,幸虧后面的推理又給自己圓回來(lái)了。


可以看到,對(duì)應(yīng)的性能并沒(méi)有很驚艷,就是半代的提升。再加上并沒(méi)有多少的推理能力,所以在數(shù)學(xué),編程等需要推理性能的測(cè)試集上弱于OpenAI o3-mini。

所以,在絕大多數(shù)的性能上的提升都很一般,那就剩OpenAI說(shuō)的最大優(yōu)點(diǎn):更懂人性。

為了對(duì)比,我用DeepSeek設(shè)計(jì)了4個(gè)方向的測(cè)試:

  • 知識(shí)廣度驗(yàn)證

  • 事實(shí)準(zhǔn)確性測(cè)試

  • 情感智能測(cè)試

  • 專業(yè)領(lǐng)域壓力測(cè)試

(以下所有的測(cè)試都有GPT4.5和DeepSeek R1版本)

測(cè)試案例1:知識(shí)廣度驗(yàn)證

測(cè)試目標(biāo)驗(yàn)證跨領(lǐng)域知識(shí)整合能力
測(cè)試內(nèi)容

"請(qǐng)用通俗易懂的方式解釋量子糾纏現(xiàn)象,

并結(jié)合《莊子·齊物論》中的哲學(xué)思想進(jìn)行類比說(shuō)明,

最后給出這個(gè)理論在量子計(jì)算機(jī)研發(fā)中的潛在應(yīng)用"

評(píng)估標(biāo)準(zhǔn)

  • 科學(xué)準(zhǔn)確性(量子糾纏解釋)

  • 文化關(guān)聯(lián)性(哲學(xué)思想類比)

  • 應(yīng)用前瞻性(技術(shù)趨勢(shì)預(yù)測(cè))

  • 表達(dá)連貫性(不同領(lǐng)域銜接)

GPT4.5:解釋的沒(méi)問(wèn)題,生成的東西我能看得懂,但能看得到它對(duì)中文的知識(shí)量并不是很足,其次表達(dá)也并不是很連貫。

「如同莊子說(shuō)"物無(wú)非彼,物無(wú)非是",糾纏粒子看似獨(dú)立,實(shí)則共享同一量子態(tài)」

測(cè)試案例2:事實(shí)準(zhǔn)確性測(cè)試

測(cè)試目標(biāo)驗(yàn)證反幻覺(jué)能力
測(cè)試內(nèi)容

"請(qǐng)列出2025年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主的

主要研究成果,并說(shuō)明這些理論對(duì)當(dāng)前中國(guó)

鄉(xiāng)村振興戰(zhàn)略的指導(dǎo)意義"

評(píng)估標(biāo)準(zhǔn)

  • 虛構(gòu)內(nèi)容識(shí)別率(獎(jiǎng)項(xiàng)未頒發(fā)時(shí)應(yīng)明確說(shuō)明)

  • 理論關(guān)聯(lián)準(zhǔn)確性(正確匹配已有經(jīng)濟(jì)理論)

  • 政策建議合理性(符合中國(guó)實(shí)際國(guó)情)

GPT4.5:幻覺(jué)極其嚴(yán)重,還是在聯(lián)網(wǎng)的前提下。

DeepSeek R1:不愧是推理型大模型,聰明的沒(méi)話說(shuō),直接做了一個(gè)“假設(shè)性”報(bào)告。

測(cè)試案例3:情感智能測(cè)試

測(cè)試目標(biāo)驗(yàn)證情境化情感響應(yīng)能力
測(cè)試內(nèi)容

"今天被裁員了,雖然拿了N+3補(bǔ)償,

但想到房貸和孩子學(xué)費(fèi)就焦慮得睡不著,

我該怎么辦?"

評(píng)估標(biāo)準(zhǔn)

  • 情感識(shí)別準(zhǔn)確度(識(shí)別焦慮/無(wú)助情緒)

  • 響應(yīng)策略層級(jí):

  • 初級(jí):提供法律/財(cái)務(wù)建議

  • 中級(jí):給予情感支持

  • 高級(jí):提出分階段解決方案

  • 文化適配性(符合東亞家庭價(jià)值觀)

GPT4.5:是很溫暖,但根本不了解東亞文化,它的回答可以套用到任何一個(gè)國(guó)家,沒(méi)有任何實(shí)操性。

DeepSeek R1:回答依舊很跳,但明顯從房貸、學(xué)費(fèi)、N+3看到信息背后的東亞焦慮。

測(cè)試案例4:專業(yè)領(lǐng)域壓力測(cè)試

測(cè)試目標(biāo)驗(yàn)證復(fù)雜問(wèn)題處理能力
測(cè)試內(nèi)容

"請(qǐng)用Python編寫(xiě)一個(gè)基于Transformer的

時(shí)序預(yù)測(cè)模型,要求:

1. 整合LSTM注意力機(jī)制

2. 添加動(dòng)態(tài)特征選擇模塊

3. 包含可解釋性分析組件

同時(shí)用Markdown格式輸出技術(shù)文檔,

并附上TensorBoard可視化示例"

評(píng)估標(biāo)準(zhǔn)

  • 代碼有效性(可執(zhí)行無(wú)報(bào)錯(cuò))

  • 架構(gòu)創(chuàng)新性(模塊整合合理性)

  • 文檔完整性(參數(shù)說(shuō)明/示例)

GPT4.5:這次終于輪到GPT4.5牛了一把,畢竟ChatGPT的UI已經(jīng)迭代很多次了,可以做到非常好的markdown+代碼適配,代碼能力沒(méi)得說(shuō),很不錯(cuò)。

DeepSeek R1:稍遜于GPT4.5一點(diǎn),但整體思路以及完整度依舊是Top級(jí)別的。

可以從上面的測(cè)試看到,GPT4.5僅僅只是智能上的小提升,但價(jià)格上的巨大提升會(huì)讓這個(gè)模型幾乎沒(méi)人用。

測(cè)試了這么一圈下來(lái),可以看到GPT-4.5 在性能和用戶體驗(yàn)方面有所提升,但是官方所陳述的幻覺(jué)減少以及人性化程度的提高,我從實(shí)際的測(cè)試過(guò)程中并沒(méi)有很強(qiáng)的感受。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
9票之差,彈劾提案通過(guò),賴清德被要求辭職,傅崐萁號(hào)召全島反攻

9票之差,彈劾提案通過(guò),賴清德被要求辭職,傅崐萁號(hào)召全島反攻

男女那點(diǎn)事兒兒
2025-12-27 01:32:15
潘長(zhǎng)江等2人獲任山西副縣長(zhǎng)

潘長(zhǎng)江等2人獲任山西副縣長(zhǎng)

大呂梁
2025-12-28 08:06:46
痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

元爸體育
2025-12-28 01:07:06
中南大學(xué)老校長(zhǎng)黃伯云陷入尷尬境地:他力薦的院士候選人出事了

中南大學(xué)老校長(zhǎng)黃伯云陷入尷尬境地:他力薦的院士候選人出事了

Delete丨CC
2025-12-27 20:26:04
普京:俄方已無(wú)興趣等待烏軍撤出,俄2個(gè)軍又被烏3個(gè)旅打崩

普京:俄方已無(wú)興趣等待烏軍撤出,俄2個(gè)軍又被烏3個(gè)旅打崩

東方豪俠
2025-12-28 10:50:08
從18樓跳下的初中男孩,13天后在ICU醒來(lái)的第一句話,讓我破防了

從18樓跳下的初中男孩,13天后在ICU醒來(lái)的第一句話,讓我破防了

男孩派
2025-12-27 21:45:41
世界上只有中國(guó)廣東省江門(mén)市才有的“全球獨(dú)一無(wú)二的5大奇景”!

世界上只有中國(guó)廣東省江門(mén)市才有的“全球獨(dú)一無(wú)二的5大奇景”!

雙色球的方向舵
2025-12-27 14:15:54
7年賠光2個(gè)億,中年返貧的鄒市明,終究還是向生活低頭了

7年賠光2個(gè)億,中年返貧的鄒市明,終究還是向生活低頭了

娛小北
2025-07-10 08:54:33
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
天山勝利隧道通車!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

天山勝利隧道通車!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

特特農(nóng)村生活
2025-12-28 01:00:36
澤連斯基很精明,特朗普憤怒表示“除非他批準(zhǔn),否則什么都沒(méi)有”

澤連斯基很精明,特朗普憤怒表示“除非他批準(zhǔn),否則什么都沒(méi)有”

山河路口
2025-12-27 13:41:04
戰(zhàn)士黃干宗:被2名越南女兵擄走當(dāng)丈夫,13年后因一個(gè)啤酒蓋歸國(guó)

戰(zhàn)士黃干宗:被2名越南女兵擄走當(dāng)丈夫,13年后因一個(gè)啤酒蓋歸國(guó)

抽象派大師
2025-12-26 16:42:21
徐湖平私信流出,已逝老同志保他周全,更助力其破格升任副院長(zhǎng)

徐湖平私信流出,已逝老同志保他周全,更助力其破格升任副院長(zhǎng)

說(shuō)故事的阿襲
2025-12-27 23:08:50
真當(dāng)中國(guó)不敢動(dòng)手?中方向全世界宣布,退出5000億大項(xiàng)目,菲慌了

真當(dāng)中國(guó)不敢動(dòng)手?中方向全世界宣布,退出5000億大項(xiàng)目,菲慌了

愛(ài)吃醋的貓咪
2025-12-27 16:38:20
連Andrej Karpathy都慌了:AI編程的9級(jí)地震正在發(fā)生什么

連Andrej Karpathy都慌了:AI編程的9級(jí)地震正在發(fā)生什么

AI進(jìn)化論花生
2025-12-27 11:26:15
美國(guó)出入境新規(guī)生效:含綠卡在內(nèi),所有非公民都要強(qiáng)制執(zhí)行!

美國(guó)出入境新規(guī)生效:含綠卡在內(nèi),所有非公民都要強(qiáng)制執(zhí)行!

達(dá)文西看世界
2025-12-27 18:34:32
笑發(fā)財(cái)了!當(dāng)大學(xué)生從家?guī)Я顺缘娜ニ奚幔乙λ涝谠u(píng)論區(qū)!

笑發(fā)財(cái)了!當(dāng)大學(xué)生從家?guī)Я顺缘娜ニ奚幔乙λ涝谠u(píng)論區(qū)!

另子維愛(ài)讀史
2025-12-19 15:35:10
從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見(jiàn)她爸胸牌我改口說(shuō)打雜

從鄉(xiāng)鎮(zhèn)調(diào)到省廳,想在女友家亮身份,瞥見(jiàn)她爸胸牌我改口說(shuō)打雜

曉艾故事匯
2025-12-25 08:06:26
俞敏洪:我不羨慕天天跳廣場(chǎng)舞、打摜蛋的同齡人,他們沒(méi)活明白!

俞敏洪:我不羨慕天天跳廣場(chǎng)舞、打摜蛋的同齡人,他們沒(méi)活明白!

詩(shī)詞中國(guó)
2025-12-27 21:09:42
2025-12-28 12:08:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭(zhēng)什么?

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

姚晨打卡絕版機(jī)位 高崎機(jī)場(chǎng)背后的遺憾

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
游戲
房產(chǎn)
公開(kāi)課

藝術(shù)要聞

薩金特風(fēng)景畫(huà)精選

這些穿搭才最適合普通人!不露腿、不花哨,簡(jiǎn)約舒適又顯氣質(zhì)

魔獸世界:TBC版本十大無(wú)法復(fù)刻的經(jīng)典裝備,周年服再?zèng)_一波!

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版