網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

面向開發(fā)者的GPT-5來了！一覽所有新特性！

2025-08-08 14:07:47　來源: JavaEdge

上海舉報(bào)

分享至

點(diǎn)擊下方“JavaEdge”，選擇“設(shè)為星標(biāo)”

第一時(shí)間關(guān)注技術(shù)干貨！

本文已收錄在Github，關(guān)注我，緊跟本系列專欄文章，咱們下篇再續(xù)！

魔都架構(gòu)師 | 全網(wǎng)30W技術(shù)追隨者
大廠分布式系統(tǒng)/數(shù)據(jù)中臺(tái)實(shí)戰(zhàn)專家
主導(dǎo)交易系統(tǒng)百萬級(jí)流量調(diào)優(yōu) & 車聯(lián)網(wǎng)平臺(tái)架構(gòu)
AIGC應(yīng)用開發(fā)先行者 | 區(qū)塊鏈落地實(shí)踐者
以技術(shù)驅(qū)動(dòng)創(chuàng)新，我們的征途是改變世界！
實(shí)戰(zhàn)干貨：編程嚴(yán)選網(wǎng)

OpenAI最先進(jìn)的編碼與智能體任務(wù)模型

0 簡介

北京時(shí)間2025年8月8日凌晨一點(diǎn)，正式在 API 平臺(tái)發(fā)布 GPT?5——我們迄今為止在編碼和智能體任務(wù)方面表現(xiàn)最佳的模型。

GPT?5 在關(guān)鍵編碼基準(zhǔn)測試中處于行業(yè)SOTA。

SOTA

State of the Art,，直譯為最先進(jìn)水平或當(dāng)前最優(yōu)。

在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域，它有一個(gè)比較明確的專業(yè)含義：

指在某一特定任務(wù)或基準(zhǔn)測試（benchmark）上，當(dāng)前所有公開已知方法中性能最高的記錄。
它并不是一個(gè)固定標(biāo)準(zhǔn)，而是會(huì)隨著新的技術(shù)和模型出現(xiàn)不斷被刷新。

舉例理解：

假設(shè)業(yè)界有一個(gè)代碼理解的測試集（比如 HumanEval），過去最好成績是 90 分，那就是當(dāng)時(shí)的 SOTA。
如果 GPT-5 在這個(gè)測試?yán)锬昧?94 分，就刷新了 SOTA，也就是說它成了“新的最強(qiáng)王者”。

意義：

技術(shù)標(biāo)桿：說明 GPT-5 在該任務(wù)上的表現(xiàn)，已經(jīng)超過所有已知的模型或方法。
行業(yè)信號(hào)：會(huì)被學(xué)術(shù)界和產(chǎn)業(yè)界視作重要突破，引發(fā)跟進(jìn)研究或應(yīng)用。
商業(yè)價(jià)值：在市場宣傳中，SOTA 能有效傳遞“性能最好”的競爭優(yōu)勢(shì)。

可將SOTA 理解成 AI 競賽的世界紀(jì)錄—— 只要有新選手刷新紀(jì)錄，它就會(huì)被改寫。

在 SWE-bench Verified 測試中得分 74.9%，在 Aider polyglot 測試中得分 88%。我們訓(xùn)練了GPT?5，使其成為真正編碼協(xié)作伙伴。擅長生成高質(zhì)量代碼并處理諸如修復(fù)漏洞、修改代碼及解答復(fù)雜代碼庫相關(guān)問題等任務(wù)。具備可控性和協(xié)作性——能以極高精度執(zhí)行非常詳細(xì)指令，并在工具調(diào)用前及期間提前解釋其操作原因。前端編碼方面也表現(xiàn)出色，內(nèi)部測試在 70% 前端 Web 開發(fā)任務(wù)表現(xiàn)優(yōu)于 OpenAI o3。

與初創(chuàng)公司和企業(yè)早期測試者合作，使用真實(shí)世界編碼任務(wù)對(duì) GPT?5 訓(xùn)練。除了編碼基準(zhǔn)測試SOTA，截至目前，GPT?5 還是[customer A]、[customer B]和[customer C]的默認(rèn)模型：

Cursor表示，GPT?5“具有顯著的智能，易于操控，甚至擁有其他模型中不具備的人格特質(zhì)”
Windsurf指出，GPT?5 在其評(píng)估中達(dá)到最先進(jìn)水平，且“與其他前沿模型相比，工具調(diào)用錯(cuò)誤率僅為其一半”

GPT?5 在持續(xù)型智能體任務(wù)中同樣表現(xiàn)卓越——在兩個(gè)月前剛發(fā)布的工具調(diào)用基準(zhǔn)測試 τ2-bench telecom 中，以 96.7% 成績刷新業(yè)界最優(yōu)水平。在事實(shí)準(zhǔn)確性基準(zhǔn)測試 LongFact 和 FActScore 中，GPT?5 錯(cuò)誤率僅為 o3 的五分之一。GPT?5 改進(jìn)的工具智能使其能夠可靠地串聯(lián)數(shù)十次工具調(diào)用（無論串行還是并行），保持路徑一致性，這使其在執(zhí)行復(fù)雜的現(xiàn)實(shí)世界端到端任務(wù)時(shí)表現(xiàn)得遠(yuǎn)優(yōu)于其他模型。它還更精確地遵循工具指令，更好地處理工具錯(cuò)誤，并在長背景信息內(nèi)容檢索方面表現(xiàn)出色。Manus表示，GPT?5 “在各種智能體任務(wù)中表現(xiàn)出色，即使在未修改任何代碼或調(diào)整提示的情況下”。Inditex指出：“真正讓 [GPT?5] 脫穎而出的是其推理的深度：細(xì)致入微、多層次的答案，體現(xiàn)了對(duì)實(shí)際主題的深刻理解?！?/p>

API

API 中引入新功能，讓開發(fā)人員對(duì)模型回復(fù)具有更多控制權(quán)。GPT?5 支持：

新的verbosity參數(shù)（取值：低、中、高），幫助控制控制回答是簡短扼要 or 詳盡全面
reasoning_effort參數(shù)可設(shè)置為最小值，以更快獲取答案，無需先行大量推理
新增一種工具類型——自定義工具——使 GPT?5 能用純文本而非 JSON 調(diào)用工具。自定義工具支持基于背景信息無關(guān)文法的約束配置

將在 API 中發(fā)布 GPT?5 的三版——gpt-5、gpt-5-mini和gpt-5-nano——以賦予開發(fā)人員更多靈活性，在性能、成本和延遲權(quán)衡。ChatGPT 中的 GPT?5 是包含推理、非推理和路由器模型的系統(tǒng)，但 API 平臺(tái)中的 GPT?5 是驅(qū)動(dòng) ChatGPT 實(shí)現(xiàn)最佳性能的推理模型。GPT?5 的最小推理模型與 ChatGPT 中的非推理模型是不同模型，且更適合開發(fā)者。

如需了解 ChatGPT 中的 GPT?5，以及更多關(guān)于 ChatGPT 改進(jìn)的信息，請(qǐng)?jiān)L問我們的博客[LINK]。如需了解更多關(guān)于企業(yè)如何積極采用 GPT?5 的信息，請(qǐng)參閱我們的企業(yè)博客?。

編碼

迄今發(fā)布最強(qiáng)大編碼模型。編碼基準(zhǔn)測試和實(shí)際應(yīng)用場景中均優(yōu)于 o3，且經(jīng)過專門優(yōu)化，在 Cursor、Windsurf 和 Codex CLI 等智能體編碼產(chǎn)品中表現(xiàn)尤為出色。GPT?5 給我們的 Alpha 測試者留下了深刻印象，在他們多次內(nèi)部私密評(píng)估中創(chuàng)下了多項(xiàng)紀(jì)錄。

1 實(shí)際編碼任務(wù)的早期反饋 Cursor

“我們的團(tuán)隊(duì)發(fā)現(xiàn)，GPT-5 具有顯著的智能，易于操控，甚至擁有任何其他模型中不具備的人格特質(zhì)。它不僅能發(fā)現(xiàn)那些難以察覺的深層隱藏漏洞，還能運(yùn)行長時(shí)間的多輪后臺(tái)任務(wù)，確保復(fù)雜任務(wù)順利完成——這些正是過去其他模型難以解決的問題。它已成為我們?nèi)粘９ぷ鞯牡昧ぞ?，從?guī)劃和實(shí)施 PR 到完成端到端構(gòu)建，無所不能。”

Cursor 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Michael Truell

Windsurf

“GPT-5 在我們內(nèi)部評(píng)估中表現(xiàn)優(yōu)異，該評(píng)估主要衡量模型在真實(shí)軟件工程任務(wù)中的性能。我們還發(fā)現(xiàn)，該模型相較于其他前沿模型，工具調(diào)用錯(cuò)誤率降低了一半。它能夠以連貫且易于理解的方式持續(xù)解決復(fù)雜任務(wù)?！?/blockquote>
Windsurf 工程主管 Edison Zhang
Vercel
“GPT-5 通過了我們所有測試。我們?cè)谑褂盟M(jìn)行 v0.dev 開發(fā)時(shí)的初步印象是，它是目前最佳的前端 AI 模型，在美學(xué)感知和代碼質(zhì)量方面均達(dá)到頂尖水平，堪稱獨(dú)樹一幟。它在硬核計(jì)算機(jī)科學(xué)與藝術(shù)感知能力的交匯點(diǎn)上表現(xiàn)卓越，標(biāo)志著從過去簡單的代碼補(bǔ)全功能到能夠跨設(shè)備和屏幕運(yùn)行的全棧應(yīng)用的跨越式發(fā)展?！?/blockquote>
Vercel 首席執(zhí)行官兼創(chuàng)始人 Guillermo Rauch
JetBrains
“GPT-5 正在改變編碼游戲規(guī)則。作為默認(rèn)模型，它使 JetBrains AI 助手和編碼智能體 Junie 的性能和質(zhì)量提升了超過 1.5 倍?！睂?duì)于我們?nèi)碌臒o代碼平臺(tái) Kineto，GPT-5 使其構(gòu)建的應(yīng)用在設(shè)計(jì)、前端和整體體驗(yàn)方面實(shí)現(xiàn)了端到端質(zhì)量的翻倍。
Kirill Skrygan，JetBrains 首席執(zhí)行官
Factory
GPT-5 在規(guī)劃和長背景信息可靠性方面表現(xiàn)卓越，尤其擅長與 Factory 的 Code Droid 協(xié)同執(zhí)行復(fù)雜的異步重構(gòu)任務(wù)。它擁有強(qiáng)大的智能體功能，增強(qiáng)了 Code Droid 繪制影響圖、細(xì)致收集背景信息、提出分步計(jì)劃、生成精確差異、更新測試和運(yùn)行持續(xù)集成 (CI) 的能力。
Factory 聯(lián)合創(chuàng)始人兼首席技術(shù)官 Eno Reyes
Lovable
“我們對(duì) GPT-5 的內(nèi)部測試表明，它將使數(shù)百萬 Lovable 用戶在應(yīng)用開發(fā)過程中走得更遠(yuǎn)。它能夠通過單個(gè)提示生成高級(jí)應(yīng)用，并能夠調(diào)試現(xiàn)有大型項(xiàng)目中的復(fù)雜問題。它在處理大型代碼庫的推理和代碼重構(gòu)以提高可維護(hù)性方面表現(xiàn)出色?！?/blockquote>
Lovable AI 負(fù)責(zé)人 Alexandre Pesant
Gitlab
“GPT-5 在復(fù)雜的軟件工程任務(wù)中表現(xiàn)出色。該模型始終只需更少的工具調(diào)用即可解決問題，同時(shí)生成更穩(wěn)定可靠、更易于維護(hù)的代碼。GPT-5 的可靠性和效率讓我們對(duì)部署它充滿信心?！?/blockquote>
GitLab 首席技術(shù)官 Sabrina Farmer
Augment Code
“GPT-5 是一款領(lǐng)先的編碼模型。它在跨文件推理和依賴關(guān)系解析方面表現(xiàn)尤為出色，并且在進(jìn)行大規(guī)模代碼修改時(shí)能夠謹(jǐn)慎操作并進(jìn)行明確驗(yàn)證。我們認(rèn)為這是一種適用于大型項(xiàng)目場景的理想選擇，尤其是在涉及多個(gè)文件的更改并需要考慮整個(gè)項(xiàng)目范圍內(nèi)的限制條件時(shí)。”
Augment Code 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Guy Gur-Ari
GitHub
“在我們的評(píng)估中，我們發(fā)現(xiàn) OpenAI 的 GPT-5 在 o3 的先進(jìn)推理能力基礎(chǔ)上進(jìn)一步提升，使開發(fā)人員能夠解決更復(fù)雜的問題——從代碼重構(gòu)到處理大型代碼庫。我們很高興將這一技術(shù)引入 GitHub Copilot，助力數(shù)百萬開發(fā)人員利用這一全新智能，解決更宏大的技術(shù)挑戰(zhàn)?！?/blockquote>
GitHub 首席執(zhí)行官 Thomas Dohmke
Cognition
“GPT-5 相較于之前的 OpenAI 模型（如 GPT-4.1）代表了巨大的飛躍。我們認(rèn)為 GPT-5 處于智能體能力的前沿，并在需要復(fù)雜代碼理解的任務(wù)中表現(xiàn)出色。在我們的初級(jí) SWE 評(píng)估中，GPT-5 在代碼探索和規(guī)劃方面表現(xiàn)尤為突出。”
Cognition 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Scott Wu
2 評(píng)測 SWE-bench Verified
在基于真實(shí)軟件工程任務(wù)的 SWE-bench Verified 評(píng)估中，GPT?5 的得分達(dá)到 74.9%，較 o3 版本的 69.1% 有所提升。GPT?5以更高效率和速度獲得高分：與 o3 在高推理強(qiáng)度下相比，GPT?5 的輸出令牌數(shù)量減少 22%，工具調(diào)用次數(shù)減少 45%。
在 SWE-bench Verified? 基準(zhǔn)測試中，模型會(huì)獲得代碼倉庫和問題描述，并需要生成補(bǔ)丁來解決問題。文本標(biāo)簽用于標(biāo)識(shí)推理強(qiáng)度。我們的評(píng)分排除了 500 個(gè)問題中的 23 個(gè)，因其解決方案在我們的測試環(huán)境中無法穩(wěn)定通過。GPT?5 收到一個(gè)簡短的提示，強(qiáng)調(diào)要徹底驗(yàn)證解決方案；而相同的提示對(duì) o3 沒有幫助。
Aider polyglot
在評(píng)估代碼編輯能力的 Aider polyglot 測試中，GPT?5 以88% 的得分刷新紀(jì)錄，其錯(cuò)誤率較 o3 版本降低了三分之二。

Aider Polyglot?
在 Aider Polyglot? (diff) 中，模型會(huì)收到來自 Exercism 的編碼練習(xí)，且必須將其解決方案以代碼差異的形式編寫出來。推理模型在高推理強(qiáng)度下運(yùn)行。
GPT?5 在深度分析代碼庫方面表現(xiàn)出色，能夠精準(zhǔn)解答關(guān)于代碼模塊運(yùn)作機(jī)制及相互協(xié)作的問題。在像 OpenAI 的強(qiáng)化學(xué)習(xí)框架這樣復(fù)雜的代碼庫中，我們發(fā)現(xiàn) GPT?5 能夠幫助我們分析和解答關(guān)于代碼的問題，從而加速我們?nèi)粘９ぷ鞯男省?/p>
3 前端工程
在為 Web 應(yīng)用生成前端代碼時(shí)，GPT?5 展現(xiàn)出更優(yōu)的審美水準(zhǔn)、更強(qiáng)的能力和更高的準(zhǔn)確性。在與 o3 的并排比較中，GPT?5 在 70% 的情況下更受我們的測試人員青睞。
以下是一些精選的有趣示例，展示 GPT?5 僅需單次提示就能完成的任務(wù)：
3.1 Espresso Lab 網(wǎng)站
提示：請(qǐng)為一項(xiàng)服務(wù)設(shè)計(jì)一個(gè)美觀且真實(shí)的登錄頁，該服務(wù)面向頂級(jí)咖啡愛好者，提供每月 200 美元的訂閱計(jì)劃，包含咖啡烘焙設(shè)備租賃及專業(yè)指導(dǎo)，助其打造完美意式濃縮咖啡。目標(biāo)受眾為舊金山灣區(qū)的中年人群，可能從事科技行業(yè)，受過良好教育，擁有可支配收入，并對(duì)咖啡的藝術(shù)與科學(xué)充滿熱情。優(yōu)化轉(zhuǎn)化率，以實(shí)現(xiàn) 6 個(gè)月的訂閱注冊(cè)。
3.2 音頻步進(jìn)序列器應(yīng)用
提示：在單個(gè) HTML 文件中創(chuàng)建單頁應(yīng)用，滿足以下要求：
名稱：音頻步進(jìn)序列器
堆棧：WebAudio API。
目標(biāo)：16 步鼓網(wǎng)格。
功能：節(jié)奏、搖擺、模式保存/加載、導(dǎo)出 WAV（渲染簡單緩沖區(qū)）。
界面應(yīng)具有未來感，讓播放變得有趣！
3.3 外太空游戲
提示：制作一款 2D 太空游戲，玩家可以駕駛飛船，躲避并摧毀小行星，并與其他由計(jì)算機(jī)控制的 AI 進(jìn)行空戰(zhàn)。在飛船設(shè)計(jì)上要富有創(chuàng)意。確保游戲玩法正常且有趣。將代碼輸出到單個(gè) next.js 頁面文件 (page.tsx) 中，該文件可直接粘貼到由 create-next-app 創(chuàng)建的 next.js 應(yīng)用中，并附帶運(yùn)行所需的任何背景信息或說明。
更多 GPT?5 生成示例，訪問這里?的圖庫。
4 編碼協(xié)作
GPT?5 不僅是出色的程序員，還是更優(yōu)秀的協(xié)作者，尤其在 Cursor、Windsurf 和 Codex CLI 等智能體編碼產(chǎn)品中表現(xiàn)突出。在運(yùn)行過程中，GPT?5 能夠在工具調(diào)用間隙輸出執(zhí)行計(jì)劃、狀態(tài)更新和操作摘要。相比我們以往的模型，GPT?5 在執(zhí)行復(fù)雜任務(wù)時(shí)更具主動(dòng)性，無需等待用戶確認(rèn)指令，也不會(huì)因任務(wù)復(fù)雜度高而遲疑。
當(dāng)用戶請(qǐng)求為其餐廳創(chuàng)建網(wǎng)站時(shí)，GPT?5 會(huì)快速制定計(jì)劃、搭建應(yīng)用框架、安裝依賴項(xiàng)、生成網(wǎng)站內(nèi)容、運(yùn)行構(gòu)建流程以檢查編譯錯(cuò)誤、總結(jié)工作成果，并提出潛在的下一步建議。完整創(chuàng)建網(wǎng)站的實(shí)際耗時(shí)約為三分鐘。
5 智能體任務(wù)和早期反饋
除智能體編碼外，GPT?5 在各類智能體任務(wù)中的表現(xiàn)都更為出色。GPT?5 在指令遵循（在 o3?mini 評(píng)分下，Scale MultiChallenge? 上的得分達(dá)到 69.6%）和工具調(diào)用（在 τ2 -bench telecom 上的得分達(dá)到 96.7%）的基準(zhǔn)測試中創(chuàng)下了新紀(jì)錄。通過增強(qiáng)的工具智能，GPT?5 能更可靠地串聯(lián)多個(gè)操作步驟來完成現(xiàn)實(shí)世界任務(wù)。
Manus
“GPT-5 是一個(gè)重大飛躍。它在我們的內(nèi)部基準(zhǔn)測試中取得了迄今為止單個(gè)模型的最佳性能。GPT-5 在各種智能體任務(wù)中都表現(xiàn)出色，即使在我們尚未修改任何代碼或調(diào)整提示詞之前。通過新的前導(dǎo)消息機(jī)制和更精準(zhǔn)的工具控制體系，我們的智能體在穩(wěn)定性和可控性方面實(shí)現(xiàn)了質(zhì)的飛躍。”
Manus 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Yichao ‘Peak’ Ji
Mercado Libre
“GPT-5 在所有評(píng)估模型中表現(xiàn)最為出色。工具執(zhí)行精度較 o4-mini 提升了 9%，較 GPT-4.1 提升了 36%，而工具與消息的綜合準(zhǔn)確率分別提升了 24% 和 47%。新的 ‘verbosity’ 參數(shù)是獲得恰當(dāng)細(xì)節(jié)水平答案的關(guān)鍵，從而提升了模型的回復(fù)質(zhì)量?！?/blockquote>Notion
“GPT-5 在智能與速度之間實(shí)現(xiàn)了完美的平衡。作為我們首個(gè)引入 Notion AI 的推理模型，它在處理長期任務(wù)時(shí)表現(xiàn)出色，成功率較之前提升了 15%。其快速響應(yīng)能力，尤其在低推理模式下，使 GPT-5 成為解決復(fù)雜任務(wù)的一站式理想選擇?！?/blockquote>
Notion AI 工程主管 Abhishek Modi
Genspark
“GPT-5 在 Genspark 的 Super Agent 基準(zhǔn)測試中，相較于 GPT-4.1，用戶滿意度提升了 79%。該基準(zhǔn)測試旨在評(píng)估復(fù)雜工具使用及具有挑戰(zhàn)性的端到端任務(wù)。與我們的實(shí)時(shí)系統(tǒng)相比，GPT-5 還使不滿意的響應(yīng)減少了 34%，這對(duì)系統(tǒng)可靠性至關(guān)重要。此外，GPT-5 在 HTML 和 PowerPoint 生成方面展現(xiàn)出更強(qiáng)大的創(chuàng)造性判斷力，能夠生成更精致、更現(xiàn)代的設(shè)計(jì)，并更好地遵循指令。”
Genspark 聯(lián)合創(chuàng)始人兼首席技術(shù)官 Kay Zhu
Inditex
GPT-5 不僅會(huì)響應(yīng)，更懂得預(yù)判。它徹底改變了我們將銷售數(shù)據(jù)轉(zhuǎn)化為可操作洞察的方式，能夠主動(dòng)分析背景信息并提前提供建議，甚至在我們想到提問之前就已完成，從而節(jié)省了無數(shù)次迭代。其對(duì)提示的精準(zhǔn)解讀——對(duì)語氣、范圍和結(jié)構(gòu)的精確控制——結(jié)合細(xì)致入微、多層次的推理能力，使其更像是一位專家級(jí)合作伙伴，而非單純的工具。
Inditex 數(shù)據(jù)與 AI 負(fù)責(zé)人 Oscar Mateos Ventura
Zendesk
“在 Zendesk，我們正在將 GPT-5 直接集成到我們的生產(chǎn)工作流程中。在我們的 AI 智能體中，它能夠提供更完整、更少遺漏細(xì)節(jié)的回復(fù)，將回退升級(jí)率降低了超過 20%。在 App Builder 中，它比之前快了 25 至 30%，并能夠?qū)崿F(xiàn)每分鐘多達(dá) 3 至 4 倍的提示迭代——這極大地加快了客戶的開發(fā)速度?！?/blockquote>
Zendesk 產(chǎn)品、工程與 AI 部門總裁 Shashi Upadhyay
Canva
“GPT-5 代表了人工智能領(lǐng)域的一次重大飛躍。我們特別對(duì)其在編碼、多步驟任務(wù)和智能體系統(tǒng)方面的能力印象深刻，我們的評(píng)估顯示，其在完成復(fù)雜任務(wù)的成功率上提升了 44%。該模型能夠理解并遵循更復(fù)雜、更精細(xì)的提示，我們還觀察到它能夠解決此前大型語言模型 (LLMs) 無法一次性解決的問題?！?/blockquote>
Canva AI 產(chǎn)品負(fù)責(zé)人 Danny Wu
Atlassian
“在測試中，GPT-5 在 Rovo 的多智能體協(xié)調(diào)以及 RovoDev 的編碼任務(wù)中均表現(xiàn)出色。它能夠輕松處理模糊性，明確用戶意圖，并有效調(diào)度子智能體以完成復(fù)雜的多步驟任務(wù)——包括深入研究。在各種場景下，它都能以更高的令牌效率提供高質(zhì)量解決方案，使其成為需要大量推理的開發(fā)工作流的強(qiáng)大工具。”
Atlassian AI 與產(chǎn)品工程高級(jí)副總裁兼負(fù)責(zé)人 Taroon Mandhana
Harvey
“在我們對(duì) GPT-5 的早期訪問中，該模型在所有領(lǐng)域，尤其是我們所在的法律領(lǐng)域，實(shí)現(xiàn)自主行為的潛力是顯而易見的。該模型在法律推理、工具使用與協(xié)調(diào)以及長篇文書起草能力方面有著令人印象深刻的結(jié)合——這些都是我們用例中至關(guān)重要的能力。”
Harvey 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Winston Weinberg
BBVAClay優(yōu)步 (Uber)
GPT-5 擅長編寫代碼和處理技術(shù)任務(wù)，從而實(shí)現(xiàn)工作流程的自動(dòng)化。在某一案例中，模型甚至幫助我們完成了一項(xiàng)非常戰(zhàn)略性的任務(wù)，原本需要二到三周的時(shí)間，現(xiàn)在只需幾個(gè)小時(shí)即可完成，展現(xiàn)出令人驚嘆的主動(dòng)性。”GPT-5 因其速度和處理西班牙語的能力脫穎而出，在準(zhǔn)確性方面超越了舊模型，并且運(yùn)行速度是舊模型的兩倍。”
BBVA 全球 AI 應(yīng)用負(fù)責(zé)人 Elena Alfaro
“GPT-5 是一個(gè)重大飛躍。它在我們的內(nèi)部基準(zhǔn)測試中取得了迄今為止單個(gè)模型的最佳性能。GPT-5 在各種智能體任務(wù)中都表現(xiàn)出色，即使在我們尚未修改任何代碼或調(diào)整提示詞之前。通過新的前導(dǎo)消息機(jī)制和更精準(zhǔn)的工具控制體系，我們的智能體在穩(wěn)定性和可控性方面實(shí)現(xiàn)了質(zhì)的飛躍?！?/blockquote>6 工具調(diào)用
我們努力優(yōu)化了工具調(diào)用機(jī)制，以滿足開發(fā)者的實(shí)際需求。GPT?5 在遵循工具指令、處理工具錯(cuò)誤以及自主實(shí)現(xiàn)串行或并行的多工具調(diào)用方面表現(xiàn)更佳。當(dāng)收到指令時(shí)，GPT?5 還可以在工具調(diào)用前及期間輸出前置消息，以便在執(zhí)行較長的智能體任務(wù)時(shí)向用戶更新進(jìn)度。
兩個(gè)月前，Sierra.ai 發(fā)布了τ2-bench telecom 測試基準(zhǔn)，該基準(zhǔn)作為高難度工具使用評(píng)估體系，重點(diǎn)揭示了語言模型在用戶可變更環(huán)境狀態(tài)下的性能顯著衰減現(xiàn)象。根據(jù)其發(fā)布報(bào)告?，所有參評(píng)模型的得分均未超過 49%。而 GPT?5 的得分為 97%。
在 τ2-bench? 測試中，模型必須使用工具來完成一項(xiàng)客戶服務(wù)任務(wù)，其中可能存在能夠與系統(tǒng)交互并根據(jù)系統(tǒng)狀態(tài)采取行動(dòng)的用戶。推理模型在高推理強(qiáng)度下運(yùn)行。
GPT?5 在長背景信息性能方面也展現(xiàn)出顯著提升。在 OpenAI-MRCR（一種衡量長背景信息檢索能力的指標(biāo)）中，GPT?5 的表現(xiàn)優(yōu)于 o3 和 GPT?4.1，且隨著輸入長度的增加，這種優(yōu)勢(shì)會(huì)顯著擴(kuò)大。
在 OpenAI-MRCR?（多輪共指解析）中，多個(gè)相同的“針”用戶請(qǐng)求被插入到由相似請(qǐng)求和響應(yīng)組成的長“草堆”中，模型被要求重現(xiàn)第 i 個(gè)“針”的響應(yīng)。平均匹配比率衡量模型回復(fù)與正確答案之間的平均字符串匹配比率。在 256k 最大輸入令牌處的數(shù)據(jù)點(diǎn)代表 128k 至 256k 輸入令牌范圍內(nèi)的平均值，依此類推。這里，256k 代表 256 × 1,024 = 262,114 個(gè)令牌。推理模型在高推理強(qiáng)度下運(yùn)行。
還開源BrowseComp Long Context，評(píng)估長背景信息問答的新基準(zhǔn)。在此基準(zhǔn)中，模型會(huì)收到用戶查詢、一長串相關(guān)搜索結(jié)果，并必須基于搜索結(jié)果回答問題。設(shè)計(jì)時(shí)，旨在使其具有現(xiàn)實(shí)性、挑戰(zhàn)性，并確?；鶞?zhǔn)答案絕對(duì)可靠。對(duì)輸入量為 128K 至 256K 令牌的數(shù)據(jù)，GPT?5 的正確率 89%。
在 API 中，所有 GPT?5 模型最多可接受 272,000 個(gè)輸入令牌，并生成最多 128,000 個(gè)推理及輸出令牌，總上下文長度為 400,000 個(gè)令牌。
事實(shí)性
GPT?5 比我們之前的模型更值得信賴。在 LongFact 和 FactScore 基準(zhǔn)測試的提示下，GPT?5 的事實(shí)錯(cuò)誤率比 o3 低約 80%。這使得 GPT?5 尤其適用于正確性要求高的智能體任務(wù)場景，特別是在代碼生成、數(shù)據(jù)處理和決策支持等關(guān)鍵領(lǐng)域。
分?jǐn)?shù)越高越差。LongFact? 和 FActScore? 由開放式事實(shí)求證問題組成。使用基于LLM的評(píng)分系統(tǒng)，通過瀏覽功能對(duì)這些基準(zhǔn)測試中的提示進(jìn)行事實(shí)核查，并測量事實(shí)錯(cuò)誤陳述的比例。推理模型采用了高推理強(qiáng)度。搜索功能未啟用。
通常，GPT?5 經(jīng)過訓(xùn)練后能夠更好地認(rèn)識(shí)到自身的局限性，并更有效地應(yīng)對(duì)突發(fā)狀況。我們還對(duì) GPT?5 進(jìn)行了訓(xùn)練，使其在健康相關(guān)問題上更加準(zhǔn)確。與所有語言模型一樣，建議在重要場合使用 GPT?5 時(shí)進(jìn)行驗(yàn)證。
7 新功能 7.1 最低推理強(qiáng)度
開發(fā)人員可通過 API 中的reasoning_effort參數(shù)控制 GPT?5 的推理耗時(shí)。除原低、中（默認(rèn)值）和高三檔參數(shù)外，GPT?5 還支持最低模式，該模式會(huì)將 GPT?5 的推理強(qiáng)度降到到最低，以快速返回答案。
調(diào)高，可優(yōu)化輸出質(zhì)量
降低，可提升響應(yīng)速度
并非所有任務(wù)都能通過額外的推理獲得同等收益，建議根據(jù)實(shí)際應(yīng)用場景測試調(diào)參，以確定最佳配置方案。
如相對(duì)簡單的長背景信息檢索任務(wù)中，提升推理能力（低以上級(jí)別）帶來的增益有限，但視覺推理基準(zhǔn)測試 CharXiv Reasoning?（在新窗口中打開）能提升幾個(gè)百分點(diǎn)。
GPT?5 的推理強(qiáng)度在不同任務(wù)上帶來不同收益。對(duì)于 CharXiv 推理任務(wù)，GPT?5 被授予訪問一個(gè) Python 工具的權(quán)限。
7.2 Verbosity
為調(diào)控 GPT?5 回答的默認(rèn)長度，新增verbosityAPI 參數(shù)，該參數(shù)支持低、中（默認(rèn)值）和高三檔可選值。如果顯式指令與冗余參數(shù)發(fā)生沖突，則顯式指令優(yōu)先。例如，如果您讓 GPT?5“寫一篇五段論文章”，該模型的回復(fù)始終應(yīng)包含五段內(nèi)容，無論冗長程度如何（不過，各段落的長度可能有所不同）。
Verbosity=low
Why is the sky blue?
Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.
Verbosity=medium
Why is the sky blue?
Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.
We don’t see a violet sky because:
The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.
At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.
Verbosity=high
Why is the sky blue?
The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.
Key points:
Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”
Why not violet?
The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.
Together, that makes the scattered light we perceive look mainly blue.
Why are sunsets red/orange?
Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.
Other influences:
Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.
If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.
7.3 工具調(diào)用前的前置消息
如果收到指令，GPT?5 將在工具調(diào)用前及調(diào)用期間輸出用戶可見的前置消息。與隱藏的推理消息不同，這些可見的消息使 GPT?5 能夠向用戶傳達(dá)計(jì)劃和進(jìn)展，幫助最終用戶理解其在工具調(diào)用背后的方法和意圖。
7.4 自定義工具
正推出一種新的工具類型，即自定義工具，它允許 GPT?5 使用純文本而非 JSON 調(diào)用工具。為了限制 GPT?5 遵循自定義工具格式，開發(fā)人員可以提供正則表達(dá)式，甚至更詳細(xì)的背景信息無關(guān)文法?。
之前，為開發(fā)人員自定義工具設(shè)計(jì)的接口要求必須采用 JSON 格式調(diào)用，而 JSON 是 Web API 及開發(fā)人員群體廣泛使用的通用格式。然而，要輸出有效的 JSON，模型必須完美地轉(zhuǎn)義所有引號(hào)、反斜杠、換行符和其他控制字符。盡管我們的模型經(jīng)過充分訓(xùn)練能夠輸出 JSON 格式，但當(dāng)輸入內(nèi)容較長時(shí)（例如數(shù)百行代碼或一份 5 頁報(bào)告），其出錯(cuò)概率會(huì)顯著上升。借助自定義工具，GPT?5 可以將工具輸入以純文本形式編寫，無需對(duì)所有需要轉(zhuǎn)義的字符進(jìn)行轉(zhuǎn)義處理。
在 SWE-bench 中，使用自定義工具而非 JSON 工具進(jìn)行驗(yàn)證時(shí)，GPT?5 的得分與之前大致相同。
8 安全性
GPT?5 在安全性方面取得了重大突破，是一款更加穩(wěn)健、可靠且實(shí)用的新型模型。與我們之前的模型相比，GPT?5 出現(xiàn)幻覺的可能性顯著降低，能夠更誠實(shí)地向用戶傳達(dá)其行為和能力，并在確保安全邊界的前提下，盡可能提供最有用答案。
9 可用性和定價(jià)
GPT?5 現(xiàn)已在 API 平臺(tái)以三種規(guī)格提供：gpt-5、gpt-5-mini和gpt-5-nano。它支持回復(fù) API、聊天完成 API，并作為 Codex CLI 的默認(rèn)模型。API 中的所有 GPT?5 模型均支持reasoning_effort和verbosityAPI 參數(shù)，以及自定義工具。此外，它們還支持并行工具調(diào)用、內(nèi)置工具（Web 搜索、文件搜索、圖像生成等）、核心 API 功能（流式處理、結(jié)構(gòu)化輸出等），以及節(jié)省成本的功能，如提示緩存和批量 API。
查看 GPT?5 文檔?、定價(jià)詳情?和提示指南，立即開始使用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.