国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

慘敗7-0!ChatGPT-5.5與Claude 4.7的真實實力對決

0
分享至



人工智能領(lǐng)域的兩大巨頭近日都迎來了重大升級,而且時機可謂恰到好處。OpenAI 發(fā)布了 ChatGPT-5.5,這款最新模型專注于更智能的推理、更強大的編碼能力,以及在更少人工干預(yù)的情況下處理現(xiàn)實世界的任務(wù)。與此同時,Anthropic 也推出了Claude Opus 4.7,這款模型以嚴(yán)謹(jǐn)?shù)乃伎、長上下文性能和針對嚴(yán)肅任務(wù)的精雕細琢的輸出為核心構(gòu)建。

兩者都承諾將成為各自平臺迄今為止功能最強大的版本,但它們似乎追求的是人工智能助手應(yīng)有的不同愿景:一個注重速度、實用性和執(zhí)行力,另一個注重深度、細微差別和深思熟慮的推理。

那么,經(jīng)過實際測試,究竟哪個更勝一籌呢?為了找到答案,研究人員對比了 ChatGPT-5.5 和 Claude Opus 4.7(克勞德) 在七個難度較高的題目上的表現(xiàn),這些題目涵蓋了邏輯、推理、領(lǐng)域知識和實際應(yīng)用等方面。為了更好地設(shè)計一些難度最高的題目,研究人員還參考了Google Gemini 3.1 Pro。

有些題目有明確的對錯答案,可以直接評分;而另一些題目則旨在測試推理質(zhì)量、假設(shè)以及每個模型如何處理更復(fù)雜的問題。其中一些題目對很多人來說也很有挑戰(zhàn)性,但這正是關(guān)鍵所在。研究人員想要看到的不僅是哪個模型回答得最快,而是哪個模型回答得最好。以下是結(jié)果。

1. 帶扭曲的多步概率



題目: “你有三枚硬幣:一枚均勻硬幣,一枚有偏硬幣(正面朝上的概率為 P(正面) = 0.7),以及一枚兩面都是正面朝上的硬幣。你隨機選擇一枚硬幣并拋擲三次,每次都是正面朝上。下一次拋擲正面朝上的概率是多少?請逐步展示你的解題過程!

ChatGPT 的頁面布局非常簡潔清晰,結(jié)構(gòu)嚴(yán)謹(jǐn),易于閱讀,步驟清晰標(biāo)注,且四舍五入方式一致。Claude(克勞德更進一步,在最后提供了精確的分?jǐn)?shù)推導(dǎo)過程,進一步證實了結(jié)果的數(shù)學(xué)嚴(yán)謹(jǐn)性。

勝者:克勞德獲勝。盡管兩個模型都得出了約 0.8874 的正確概率,但克勞德勝出,因為它給出了下一次拋硬幣的簡化通用公式。這種內(nèi)部驗證表明,克勞德對預(yù)測概率的快捷方式有著更深刻的“理解”,而 ChatGPT 只是進行了手動計算。

2. 物理估算



提示:“估算一下,如果地球上的每個人(假設(shè)有80億人,平均質(zhì)量為60公斤)同時跳上一列以100公里/小時的速度向東繞赤道行駛的火車,地球的自轉(zhuǎn)周期會發(fā)生多大變化?請陳述你的假設(shè),并明確地推導(dǎo)角動量守恒的過程!

ChatGPT選擇了一個簡化的地球轉(zhuǎn)動慣量值,導(dǎo)致估計值略高,為 1.3 納秒。

Claude克勞德使用了更精確的實心球體公式,準(zhǔn)確計算了地球的轉(zhuǎn)動慣量,從而得出了更為合理的估計值 1.03 納秒。

獲勝者:克勞德憑借其更勝一籌的技術(shù)精準(zhǔn)性和更豐富的背景內(nèi)涵再次獲勝。

3. 基于證明的數(shù)學(xué)



提示: “證明對于任意正整數(shù) n,n? ? n 都能被 30 整除。然后確定 n? ? n 是否總是能被 42 整除,并給出證明或反例!

ChatGPT提供了一個手動模運算檢查,這對于可能不熟悉費馬小定理的讀者來說可能很有幫助。

克勞德在兩個證明中都更有效地運用了費馬小定理,并正確地識別出了問題的潛在數(shù)學(xué)結(jié)構(gòu)。

獲勝者:克勞德完成了帽子戲法,毫無疑問地贏得了比賽。雖然兩個模型在數(shù)學(xué)上都很精確,但克勞德最終給出了一個“優(yōu)美的概括”。

4. 受限條件下的化學(xué)推理



提示: 你有一個 100 mL 的緩沖溶液,其中包含 0.1 M 的乙酸 (pKa = 4.76) 和 0.1 M 的乙酸鈉。你加入 5 mL 1 M 的鹽酸。計算新的 pH 值,然后定性地解釋,如果初始濃度為 0.01 M 的各組分,緩沖容量會發(fā)生什么變化,以及原因。ChatGPT

給出了非常直接的答案。明確計算稀溶液的“失效狀態(tài)”使得定性分析非常具體。

克勞德使用了更正式的摩爾數(shù)表格,這對化學(xué)專業(yè)的學(xué)生來說非常有用。它還提供了緩沖容量的正式數(shù)學(xué)定義,這增加了技術(shù)深度。

勝者:克勞德勝出。沒錯,兩個模型都正確識別出 0.01 M 的緩沖區(qū)會“不堪重負(fù)”,但克勞德的解釋更具學(xué)術(shù)嚴(yán)謹(jǐn)性。

5. 需要仔細案例分析的邏輯謎題



提示:五個人(A、B、C、D、E)排成一排坐著。A 不在隊伍的兩端。B 與 C 正好相隔兩個座位。D 坐在 E 的左邊。C 與 A 不相鄰。有多少種有效的排列方式?請列出所有有效的排列方式。

ChatGPT 的表現(xiàn)完全符合我的預(yù)期,它自信地臆造出了兩個違反題目限制的答案。這是典型的“推理崩潰”現(xiàn)象,凸顯了該模型優(yōu)先給出答案而非驗證答案是否符合邏輯。唉,即使是 GPT-5-5,它仍然會犯這種錯誤,我真的很失望。

克勞德正確地指出,這個謎題不可能解開。

獲勝者:克勞德因誠實而獲勝。

6. 應(yīng)用微積分

提示:一個圓柱形罐必須正好能裝500毫升液體。罐頂和罐底的材料每平方厘米的成本是罐身材料每平方厘米成本的兩倍。求使總材料成本最低的尺寸(半徑和高度)。然后,如果罐頂/罐底的成本比不是2而是k,確定最佳的高度與直徑之比會如何變化。

ChatGPT給出了一套全面的數(shù)值計算策略,并得出了近乎完美的教科書答案。關(guān)鍵詞“教科書”。

克勞德通過引入二階導(dǎo)數(shù)檢驗來驗證最小值,從而提供了更為嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)處理方法,并給出了各維度的精確根式形式,最后還給出了深刻而直觀的總結(jié)。換句話說,克勞德不僅給出了正確答案,還展示了推導(dǎo)過程,使我能夠完全理解。

獲勝者:克勞德再次獲勝,但這次優(yōu)勢較小。ChatGPT 的答案完美無瑕,但克勞德的“解讀”部分使其回答更加全面透徹,因為它解釋了答案背后的“原因”。

7. 科學(xué)推理陷阱

提示:一項研究發(fā)現(xiàn),喝咖啡的人平均比不喝咖啡的人壽命長兩年(p < 0.001,n = 50,000)。一位記者據(jù)此得出結(jié)論:咖啡可以延長壽命。請指出該結(jié)論至少存在四個不同的方法論或推論問題,并設(shè)計一項研究以更可靠地證明因果關(guān)系。請具體說明每項研究設(shè)計控制了哪些變量。

ChatGPT指出了此類研究中研究人員最擔(dān)心的主要問題,例如是否存在其他因素影響結(jié)果,或者因果關(guān)系是否被混淆。它還建議進行隨機對照試驗,這通常是檢驗?zāi)撤N因素是否真正導(dǎo)致結(jié)果的更有效方法。

克勞德不僅給出了更好、更全面的回答,而且還將答案提升到了專業(yè)/研究水平。

獲勝者:Claude憑借其詳盡的回答再次贏得一輪比賽,再次突顯了它在處理多維推理方面比 ChatGPT 的線性方法更勝一籌。

總冠軍:Claude

這場對決的結(jié)果讓研究人員大吃一驚。不僅居然能跟上那些我大學(xué)畢業(yè)后就沒再碰過的高等數(shù)學(xué)——說真的,如果這些人工智能再聰明一點,研究人員可能真的得給以前的教授打個電話了——而且ChatGPT竟然一輪都沒贏。

賽前,研究人員以為會是一場勢均力敵的較量。結(jié)果,看到的是兩個模型朝著完全不同的方向發(fā)展。ChatGPT-5.5顯然是為“實用型”用戶設(shè)計的,它的速度很快,而且能夠遵循標(biāo)準(zhǔn)模板。但是,當(dāng)真相至關(guān)重要時(真的,總是如此),比如面對那個不可能的邏輯謎題時,它卻選擇用幻覺來“取悅”,而不是承認(rèn)失敗。

Claude Opus 4.7 的設(shè)計理念似乎是“三思而后行”。它在全部七輪比賽中橫掃對手,證明它不僅能給出正確答案,還能提供背后的推理過程。無論是為物理問題添加“合理性檢驗”,還是找出數(shù)學(xué)證明中的潛在定理,Claude 都展現(xiàn)出了 ChatGPT 無法企及的學(xué)術(shù)嚴(yán)謹(jǐn)性。

最顯而易見的結(jié)論不僅是 Claude 贏了,更是它贏得如此輕松。在高級推理領(lǐng)域,ChatGPT 還有很長的路要追趕。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國海軍部長達里爾?考德爾公然喊話,要求中國立刻停止建造軍艦

美國海軍部長達里爾?考德爾公然喊話,要求中國立刻停止建造軍艦

安安說
2026-04-26 11:04:42
浙江市值百億食品上市公司急聘董秘,年薪40萬起!一夜之間數(shù)千上市公司董秘崗位空缺,“錢不是問題,人要靠譜”

浙江市值百億食品上市公司急聘董秘,年薪40萬起!一夜之間數(shù)千上市公司董秘崗位空缺,“錢不是問題,人要靠譜”

大風(fēng)新聞
2026-04-26 21:16:37
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
6月1日就醫(yī)新規(guī)實施,大醫(yī)院不再接收這類病人,不守規(guī)矩看病白跑

6月1日就醫(yī)新規(guī)實施,大醫(yī)院不再接收這類病人,不守規(guī)矩看病白跑

復(fù)轉(zhuǎn)這些年
2026-04-23 23:03:40
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創(chuàng)始人筆記
2026-04-23 21:44:50
我侄女在藥店上班,她告訴我,去藥店買藥的時候,一定要蹲下買

我侄女在藥店上班,她告訴我,去藥店買藥的時候,一定要蹲下買

千秋文化
2026-04-26 20:19:41
馬洛塔:上賽季我們因誤判丟掉冠軍;我們不會卷入這場風(fēng)波

馬洛塔:上賽季我們因誤判丟掉冠軍;我們不會卷入這場風(fēng)波

懂球帝
2026-04-27 04:08:24
確認(rèn)不打了!廣東男籃主力內(nèi)線拒絕留隊,已與下家完成簽約!

確認(rèn)不打了!廣東男籃主力內(nèi)線拒絕留隊,已與下家完成簽約!

緋雨兒
2026-04-26 14:35:26
一語成讖!白宮發(fā)言人晚宴前玩諧音梗,稱“今晚會有‘槍聲響起’”

一語成讖!白宮發(fā)言人晚宴前玩諧音梗,稱“今晚會有‘槍聲響起’”

上觀新聞
2026-04-26 19:59:04
王祖賢現(xiàn)身加拿大超市!身上披滿毯子被說“凌亂”,我倒覺得這才是真女神

王祖賢現(xiàn)身加拿大超市!身上披滿毯子被說“凌亂”,我倒覺得這才是真女神

今古深日報
2026-04-26 10:50:47
石破茂:我當(dāng)過首相所以我最清楚,沒有中國,日本根本不可能存在

石破茂:我當(dāng)過首相所以我最清楚,沒有中國,日本根本不可能存在

黑翼天使
2026-04-27 00:25:04
今年,很多公司,已經(jīng)發(fā)不下來工資了

今年,很多公司,已經(jīng)發(fā)不下來工資了

細說職場
2026-04-25 18:12:10
利好!29歲趙心童有望沖到世界第1:特魯姆普被扣50萬鎊 都怪沙特

利好!29歲趙心童有望沖到世界第1:特魯姆普被扣50萬鎊 都怪沙特

風(fēng)過鄉(xiāng)
2026-04-26 08:18:40
破案了!大連1-3慘敗云南根源找到,賽后張路點評一針見血

破案了!大連1-3慘敗云南根源找到,賽后張路點評一針見血

林子說事
2026-04-27 00:57:16
特朗普5月訪華倒計時,美國連拋3大“救命訂單”,中國態(tài)度毫不含糊

特朗普5月訪華倒計時,美國連拋3大“救命訂單”,中國態(tài)度毫不含糊

奇思妙想生活家
2026-04-26 20:19:03
難怪美國一點不慌,原來真有內(nèi)鬼輸血!1200噸戰(zhàn)略物資被悄悄賤賣

難怪美國一點不慌,原來真有內(nèi)鬼輸血!1200噸戰(zhàn)略物資被悄悄賤賣

老謝談史
2026-04-26 21:27:25
俞敏洪還是不夠殺伐果斷:慈不掌兵,個人意志必須服從公司需要!

俞敏洪還是不夠殺伐果斷:慈不掌兵,個人意志必須服從公司需要!

老方
2026-04-26 14:57:57
1-0!2-1!瘋狂一夜:切爾西進決賽,波爾圖險勝,米蘭0-0尤文

1-0!2-1!瘋狂一夜:切爾西進決賽,波爾圖險勝,米蘭0-0尤文

足球狗說
2026-04-27 04:55:27
網(wǎng)紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現(xiàn)

網(wǎng)紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現(xiàn)

阿郎娛樂
2026-04-23 15:28:38
兩次將妻子捉奸在床,情夫:睡你老婆怎樣!丈夫絕望,喝下百草枯

兩次將妻子捉奸在床,情夫:睡你老婆怎樣!丈夫絕望,喝下百草枯

黑哥講現(xiàn)代史
2026-04-26 06:00:24
2026-04-27 05:15:00
侃故事的阿慶
侃故事的阿慶
幾分鐘看完一部影視劇,詼諧幽默的娓娓道來
612文章數(shù) 8294關(guān)注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

特朗普內(nèi)閣又一女部長落馬:強迫男下屬為其提供性服務(wù)

頭條要聞

特朗普內(nèi)閣又一女部長落馬:強迫男下屬為其提供性服務(wù)

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環(huán)王》的美劇,有第二季

財經(jīng)要聞

事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

時尚
親子
健康
數(shù)碼
本地

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

親子要聞

爸爸買的餐椅太好了,早知道早買了#餐椅 #寶寶板凳 #寶寶吃飯 #寶媽推薦

干細胞如何讓燒燙傷皮膚"再生"?

數(shù)碼要聞

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

無障礙瀏覽 進入關(guān)懷版