国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI甩出GPT-5.5 Instant!幻覺暴降52%,話少三成,全員免費

0
分享至


智東西
作者 王涵
編輯 冰倩

智東西5月6日報道,今天,OpenAI正式推出GPT?5.5 Instant版,將從今天開始向所有ChatGPT用戶逐步推出,取代GPT?5.3 Instant成為默認模型。

此次更新主要體現(xiàn)在日常交互上,GPT?5.5 Instant的對話語氣更加自然,回答準確率更高且更緊湊,并且當用戶使用個性化功能時,模型還能夠調(diào)取過往的對話記錄,補充背景信息。

Sam Altman第一時間轉(zhuǎn)發(fā)官宣推文“強推”這一模型,并稱:“速度、智能、個性,再加上強大的記憶與個性化能力,這幾方面的改進組合在一起,當它們同時發(fā)揮作用時,給人的感覺已經(jīng)遠不止是各部分簡單的相加,而是一種整體大于部分之和的體驗?!?/p>


在內(nèi)部評估中,在醫(yī)學、法律和金融等領(lǐng)域,GPT?5.5 Instant的幻覺率比GPT?5.3 Instant減少了52.5%。

基準測試方面,在衡量科學圖表推理準確度的CharXiv-reasoning中,GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模態(tài)專家推理測試MMMU-Pro中,GPT-5.5 Instant的準確率提升了6.8%。

在文檔解析任務(wù)中,GPT-5.5 Instant的錯誤率降低了2.1%,相對降幅約14.4%。在博士級科學問答測試中,GPT-5.5 Instant的準確率提升了7.1%。在數(shù)學競賽AIME 2025中,其準確率漲了15.8%




在API中,GPT?5.5 Instant的名稱為“chat?latest”。對于付費用戶,GPT?5.3 Instant在退役前還將保留三個月,可通過模型配置設(shè)置進行訪問。

基于過往對話、上傳文件及已連接Gmail的增強個性化功能,正在向網(wǎng)頁端的Plus和Pro用戶推出,即將登陸移動端,并計劃在未來幾周內(nèi)擴展至Free、Go、Business和Enterprise用戶。

記憶來源功能正在向網(wǎng)頁端所有ChatGPT個人版套餐用戶推出,并將很快登陸移動端。特定個性化來源的可用性可能因地區(qū)而異。

在OpenAI官宣推文下方有,網(wǎng)友注意到了該模型的AIME成績的提升,認為“這表面上是產(chǎn)品更新,實則是純粹的推理能力升級,絕不僅僅是聊天的微調(diào)。這是一種“偷偷”發(fā)布思考模型的方式?!?/p>


還有網(wǎng)友發(fā)現(xiàn):“‘更溫暖、更簡潔’這兩點恰恰是用戶真正抱怨過的地方。有意思的是,今年最大的一次模型升級,本質(zhì)上卻更像是一次‘性格補丁’?!?/p>


但也有不少網(wǎng)友對這次升級并不買賬,他們想要的是更實用的功能更新。甚至還有網(wǎng)友在懷念GPT-4o。



一、圖像解析能力提高,虛假信息減少52.5%

在內(nèi)部評估中,對于涵蓋醫(yī)學、法律和金融等領(lǐng)域的高風險提示,GPT?5.5 Instant生成的虛假信息比GPT?5.3 Instant減少了52.5%。在用戶曾標記存在事實錯誤的特別具有挑戰(zhàn)性的對話中,它也減少了37.3%的不準確說法。

GPT-5.5 Instant提升了圖像解析、STEM學科(科學、技術(shù)、工程和數(shù)學)問答水平,還可智能判斷是否調(diào)用網(wǎng)絡(luò)搜索,從而給出更優(yōu)質(zhì)的回復。

從案例中可以看出,GPT?5.5 Instant一開始認可了錯誤的解法,但隨后發(fā)現(xiàn)將x=3代回原方程時不成立。它識別出了實際的代數(shù)錯誤(用戶移項有誤),然后使用求根公式得出了正確的解。


而GPT?5.3 Instant雖然也發(fā)現(xiàn)了x=3不成立,但就此止步,錯誤地得出沒有實數(shù)解的結(jié)論,而不是重新檢查代數(shù)步驟并求解修正后的二次方程。


二、回答更緊湊,字數(shù)減少30.2%

此外,GPT?5.5 Instant的回答更加緊湊、切中要點,同時在保持溫暖感和個性化。

該模型能夠在傳達相同信息且更具實用性的同時,減少冗長和過度格式化導致的回答過長問題。其還會減少不必要的追問,并避免如隨意添加表情符號等讓回答顯得雜亂。



GPT?5.5 Instant使用的字數(shù)減少了30.2%,行數(shù)減少了29.2%。其回答語氣把握得當:非正式、實用且適合工作場合,同時避免了過度解釋。該模型針對不同情況提供了可實際使用的腳本,始終圍繞“界限”來闡述問題。

GPT?5.3的回答則更完整,尤其是“不要做什么”的部分,但對于一個非正式的日常建議類提示來說,略顯過于復雜,其結(jié)構(gòu)和推敲程度可能超出了用戶的實際需求。

三、自動檢索歷史對話,記憶來源功能全系上線

GPT?5.5 Instant還能利用過往聊天記錄、上傳的文件以及Gmail中的上下文信息,從而使回答更具個性化。

該模型可智能判斷何時融入個性化元素以優(yōu)化回復,同時其檢索歷史對話、匹配上下文的速度大幅提升,無需用戶反復重復表述。



可以看到,GPT?5.5 Instant的回答能夠更好地引用過往對話和相關(guān)的已連接數(shù)據(jù),從而提供更細致、高度個性化的建議。而GPT?5.3 Instant的回答雖然考慮到了用戶位于舊金山這一因素,但對于推薦嘗試的地方,給出的建議仍較為籠統(tǒng)。

ChatGPT全系模型現(xiàn)已上線記憶來源功能。用戶可查看個性化回答所引用的上下文依據(jù),并獲得自主管控權(quán)限。

當模型生成個性化回復時,用戶能夠追溯答案所依托的具體上下文,包括已保存記憶及歷史對話記錄;對于過時、失效或無關(guān)的信息,可隨時進行刪除與更正。

此外,用戶分享對話內(nèi)容時,記憶來源信息不會對外展示。同時該功能支持多種隱私管控方式:可單獨刪除不愿被引用的歷史對話,在設(shè)置界面編輯或清空已保存記憶,也可使用臨時對話模式,全程不調(diào)用、不更新個人記憶。


結(jié)語:交互質(zhì)量與用戶可控性提升

在基礎(chǔ)能力趨于收斂的背景下,“怎么讓模型回答地更讓用戶舒服?”成為大模型廠商思考的問題。

GPT?5.5 Instant的更新給出了OpenAI的答案::其一,其減少了在專業(yè)知識問答方面的幻覺率;其二,回答的簡潔度與語氣調(diào)控被納入優(yōu)化目標;其三,記憶來源功能建立信任基礎(chǔ)。

客觀而言,這類“體驗型更新”難以通過傳統(tǒng)基準測試完全量化其價值,其真實效果還將取決于用戶在長期使用中的主觀感受。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國國務(wù)院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

美國國務(wù)院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

魯中晨報
2026-05-02 18:03:06
聞泰科技“帶帽”首日一字跌停 封單超41億元

聞泰科技“帶帽”首日一字跌停 封單超41億元

財聞
2026-05-06 11:08:36
1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

阿器談史
2026-04-26 14:13:38
新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

發(fā)現(xiàn)新西蘭
2026-05-06 13:20:33
提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

雪狼侃體育
2026-05-06 19:18:33
蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

倫倫媽愛歷史
2026-05-02 10:01:48
斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務(wù),從2028年起計劃參與北約輪換式防空任務(wù),并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務(wù),從2028年起計劃參與北約輪換式防空任務(wù),并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

魯中晨報
2026-05-06 19:54:03
1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

興趣知識
2026-05-05 17:43:16
牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

柏銘銳談
2026-05-04 20:40:53
小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

月滿大江流
2026-05-06 16:58:31
妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

千秋文化
2026-03-25 21:49:57
估值數(shù)億美元,A.O.史密斯中國要賣了

估值數(shù)億美元,A.O.史密斯中國要賣了

融資中國
2026-05-05 09:59:32
以色列死局已定,無人能救!

以色列死局已定,無人能救!

大國觀察眼
2026-04-28 06:05:05
賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

熱搜摘要官
2026-05-05 18:09:18
內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

夜白侃球
2026-05-06 15:19:02
伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

混沌錄
2026-04-30 00:12:11
“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

美芽
2026-05-06 18:30:49
森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

羅說NBA
2026-05-06 05:52:40
官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

北青網(wǎng)-北京青年報
2026-05-06 19:59:03
吳宜澤:奧沙利文在決賽關(guān)鍵時刻給我發(fā)短信,讓我試著打出自己的風格

吳宜澤:奧沙利文在決賽關(guān)鍵時刻給我發(fā)短信,讓我試著打出自己的風格

懂球帝
2026-05-05 21:25:07
2026-05-06 20:35:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機
公開課
軍事航空

親子要聞

童心寄星河,這份航天熱愛太珍貴。

房產(chǎn)要聞

遙遙領(lǐng)先!這個澄邁頂流紅盤,憑什么持續(xù)霸榜

手機要聞

蘋果折疊屏iPhone Ultra機模再曝,展開后形態(tài)酷似iPad mini

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進入關(guān)懷版