OpenAI 的 o3 正式登場，我們總結了這 7 個最關鍵的信息點

2025-04-17 14:01:48　來源: 硅星GenAI

上海舉報

分享至

在 ChatGPT 問世近一年半后，OpenAI 再次邁出關鍵一步。

2025 年 4 月 16 日，OpenAI 正式發(fā)布新一代推理模型 o3 及輕量版 o4-mini，這是繼 GPT-4 Turbo 之后，首次從底層架構、訓練策略到能力定位全面重構的模型更新。相比以往，這一次的關鍵詞不再是“更強的生成能力”，而是“更清晰的推理路徑、更主動的工具調(diào)度、更真實的問題感知”。

官方?jīng)]有過多渲染“AGI 臨近”這樣的宏大敘事，卻實實在在交付了一個“能讀圖、能思考、能動手”的智能體雛形——它能看懂你上傳的手寫公式，也能自己查資料、調(diào)用工具鏈、重構任務解法，真正從“助手”邁向“代理者”（Agent）。

如果我們將視野從參數(shù)躍遷拉回到結構演化，o3 的出現(xiàn)，標志著一個重要趨勢：訓練范式的極限已現(xiàn)，推理結構的重塑正在成為 AI 進化的主戰(zhàn)場。

OpenAI 在這個關鍵節(jié)點推出 o3 系列，不止是一次模型升級，更像是一種范式上的聲明，也是一種技術坐標系的重新標定。

2025 年 4 月 16 日，OpenAI 正式發(fā)布新一代推理模型 o3 及輕量版 o4-mini。它們不僅性能領先，更在“結構”與“能力”上開啟了范式轉(zhuǎn)折：不再僅僅強調(diào)上下文長度和生成流暢度，而是從根本上強調(diào)推理路徑的清晰性、工具調(diào)用的主動性，以及圖文信息的融合處理能力。

為更好理解這一變革，我們系統(tǒng)梳理了 OpenAI 官方發(fā)布的產(chǎn)品博客內(nèi)容，并結合團隊在 X 平臺 AMA 中的回應與解讀，從七個方面提煉出 o3 系列模型在推理方式、結構策略與實際應用中的關鍵進展，輔以我們對趨勢脈絡的觀察，供開發(fā)者與關注 AI 基礎設施演進的讀者參考。

OpenAI 團隊在 X 平臺上舉辦的 AMA 總結

發(fā)布和路線圖

- 強化微調(diào)（GA）將很快對公開微調(diào)或具有推理模型的強化學習（RL）可用

- OpenAI 計劃在未來幾個月發(fā)布一個優(yōu)秀的開源模型，并歡迎開發(fā)者反饋以改進其實用性

- API 中的新圖像生成功能將很快可用

- API 中的 o3-mini 永遠不會支持視覺功能，但 o4-mini 已經(jīng)支持視覺功能，目前作為具有圖像輸入的推理迷你模型可用

- o3 今天已在 API 中提供，更高級的 o3-pro 模型正在開發(fā)中，并將很快發(fā)布

模型性能和用法

- GPT-4.1 系列模型專門針對編碼和代理任務進行訓練；模型選擇取決于用戶的工作流程以及所需的性能、成本和延遲之間的平衡

- o3 在處理困難的編碼問題或廣泛的主題搜索時最為強大，而 o4-mini 則速度更快，在大多數(shù)場景中性能相當，更適合快速交互或較小的編碼任務

- o4-mini 具有更高的速率限制，在涉及視覺、數(shù)學、科學和某些編碼任務的評估中與 o3 相當；o3 在處理深奧知識和細微任務方面具有明顯優(yōu)勢

- 微調(diào) GPT-4.1 可以提高針對特定用例的性能，減少提示中所需的示例數(shù)量；GPT-4.1 經(jīng)過訓練以探索可能的解決方案、自我反思和自我糾正

- o3 和 o4-mini 都提供 200k 個 token 的上下文窗口，最大輸出 100k 個 token，并已通過內(nèi)部和第三方進行網(wǎng)絡安全評估；兩者均未達到高風險閾值，但仍然是迄今為止最強大的模型

- 模型具有分析圖像細節(jié)的工具；o3 在從 PDF 中提取結構化數(shù)據(jù)方面特別有效 - 如從“注意力就是一切”論文中完美提取表格所示

- 與 GPT-4.1 相比，GPT-4.1-mini 在圖像分析方面具有更低的成本

API 功能和支持工具

- 在 Responses API 中，開發(fā)者消息和系統(tǒng)消息之間的切換是自動處理的；向 o3 發(fā)送系統(tǒng)消息或向 GPT-4.1 發(fā)送開發(fā)者消息會導致自動轉(zhuǎn)換

- API 中提供了一個推理努力參數(shù)，用于控制 o 系列模型的成本，特別是在它們變得越來越具有代理性時，允許優(yōu)化工具使用

- 目前，ChatCompletions 或 Responses API 不支持托管工具；然而，一旦支持可用，開發(fā)者將獲得對啟用工具的控制權

- 在 Responses API 中支持推理摘要（推理跟蹤），提供更清晰的可見性，以便在模型解決問題和調(diào)用各種工具時了解推理步驟

- SDK 自動將 Pydantic 架構轉(zhuǎn)換為兼容的 JSON 架構，以處理“additionalProperties”等屬性

- 在 o3 和 o4-mini 的推理階段，積極使用工具如網(wǎng)絡搜索、文件搜索和代碼解釋器；目前，這些工具在 ChatGPT 中得到支持，但在 API 中尚未支持 - 將很快添加支持

代理 SDK 和 Codex CLI

- OpenAI 正在積極開發(fā)線程支持以改進代理 SDK 中的對話歷史和保留

- 他們對為 Agents SDK 提出的低代碼平臺建議很感興趣，并邀請反饋最有用的功能通過 Agents SDK 調(diào)用外部模型提供商已得到支持

- Codex CLI 包含多個文檔化的批準模式，允許用戶按操作或會話選擇模式；Codex CLI 并非旨在取代 Cursor、Windsurf 或 Lovable 等 IDE 工具；相反，它旨在在用戶在主 IDE 中工作時運行后臺任務

- 將 Codex 的編碼能力與深度研究能力進行比較取決于所選的模型（o3 或 o4-mini）；Codex 專門利用函數(shù)調(diào)用，直接在用戶的計算機上執(zhí)行命令

- 新模型主要在通用瀏覽、Python/代碼執(zhí)行工具以及有助于開發(fā)者的用戶定義工具上進行訓練

GPT-4.1 和模型命名

- GPT-4.1 通過 API 發(fā)布而非 ChatGPT，因為它專門針對 API 使用場景進行了優(yōu)化，例如指令遵循、長上下文管理、編碼和工具使用

- GPT-4.5 雖然更強大，但速度較慢且計算密集，因此 GPT-4.1 為開發(fā)者提供了一種更快、更經(jīng)濟的選項

- GPT-4.1 的一些改進已經(jīng)集成到 ChatGPT 中，并將繼續(xù)集成更多改進

- OpenAI 承認了模型名稱如“4o”和“o4”之間的命名混淆，并計劃不久后簡化模型命名

推理能力的躍升：o3 vs o1，為什么是質(zhì)變？

首先要介紹OpenAI o3，它是OpenAI最強大的推理模型，它推動了ChatGPT在編碼、數(shù)學、科學、視覺感知等領域的發(fā)展。它在 Codeforces、SWE-bench（無需構建特定于模型的自定義支架）和 MMMU 等基準測試中創(chuàng)造了新的 SOTA。

OpenAI o3非常適合進行多方面分析的復雜查詢，而且并不會給出簡單的答案。它在分析圖像、圖表和圖形等可視化任務方面表現(xiàn)尤為突出。在外部專家的評估中，o3 在高難度的任務中比 OpenAI o1 少犯 20% 的大錯誤，尤其是在編程、商務/咨詢和創(chuàng)意構思等領域表現(xiàn)出色。早期的測試人員強調(diào)了它作為思想伙伴的嚴謹分析能力，并強調(diào)了它生成和批判性評估新假設的能力--尤其是在生物學、數(shù)學和工程學方面。

OpenAI o4-mini 是一個較小的模型，為實現(xiàn)快速、經(jīng)濟高效的推理而進行了優(yōu)化--就其大小和成本而言，它實現(xiàn)了卓越的性能，尤其是在數(shù)學、編碼和視覺任務方面。它是 AIME 2024 和 2025 上表現(xiàn)最佳的基準模型。在專家評估中，它在非 STEM 任務以及數(shù)據(jù)科學等領域的表現(xiàn)也優(yōu)于其前身 o3-mini。由于效率高，o4-mini 比 o3 支持更高的使用限制，因此對于需要推理的問題來說，o4-mini 是高容量、高吞吐量的理想選擇。

OpenAI O3 是解決復雜編碼問題或廣泛主題搜索的最佳選擇，而 o4-mini 速度更快，在大多數(shù)情況下同樣強大，更適合快速交互或較小的編碼任務。o3 和 o4-mini 均提供 20 萬個令牌的上下文窗口，最大輸出令牌數(shù)為 10 萬個，并且已經(jīng)過內(nèi)部和第三方的網(wǎng)絡安全評估；雖然均未達到高風險閾值，但仍然是目前性能最強的模型。

外部專家評估員對這兩個模型的評價是，與前代產(chǎn)品相比，由于智能化程度的提高和網(wǎng)絡資源的加入，這兩個模型都能更好地跟上指令，并提供更有用、更可驗證的回答。與以前的推理模型迭代相比，這兩個模型應該會讓人感覺更自然、更會說話，特別是它們會參考記憶和過去的對話，使回答更個性化、更相關。

RL 再次被證實：強化學習成性能提升主引擎

在 OpenAI o3 的整個開發(fā)過程中，我們觀察到大規(guī)模強化學習呈現(xiàn)出與 GPT 系列預訓練相同的趨勢，既 "更多計算 = 更佳性能 "。通過回溯擴展路徑，我們在訓練計算和推理時間上都增加了一個數(shù)量級，但仍能看到明顯的性能提升，這驗證了模型的性能會隨著思考時間的增加而不斷提高。

在延遲和成本與 OpenAI o1 相當?shù)那闆r下，o3 在 ChatGPT 中提供了更高的性能，而且我們已經(jīng)驗證，如果讓它思考更長時間，其性能會繼續(xù)攀升。

我們還通過強化學習訓練這兩種模型使用工具--不僅教它們?nèi)绾问褂霉ぞ?，還教它們推理何時使用工具。它們根據(jù)預期結果部署工具的能力，使它們在開放式情境中，尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據(jù)早期測試者的報告，這種進步既體現(xiàn)在學術基準上，也體現(xiàn)在實際任務中。

圖像即語言：首次實現(xiàn)“視覺參與推理鏈”

這兩款模型模型首次具備將圖像直接融入他們的思維鏈中的能力。它們不僅能看到圖像，還能用圖像進行思考。這開啟了一種融合視覺和文字推理的新的問題解決方式，體現(xiàn)在它們在多模態(tài)基準測試中的一流性能上。

人們可以上傳白板、教科書圖表或手繪草圖的照片，而模型可以對其進行解讀--即使圖像模糊、顛倒或質(zhì)量不高。通過使用工具，模型可以在推理過程中對圖片進行旋轉(zhuǎn)、縮放或變換等操作。

這些模型在視覺感知任務上具有同類最佳的準確性，使其能夠解決以前無法解決的問題。

調(diào)用工具不是技能，而是策略判斷

OpenAI o3 和 o4-mini 可以訪問 ChatGPT 中的工具，也可以通過 API 中的函數(shù)調(diào)用訪問用戶的自定義工具。這些模型經(jīng)過訓練，能夠推理如何解決問題，選擇何時以及如何使用工具，以正確的輸出格式快速生成詳細周到的答案--通常不超過一分鐘。

例如，用戶可能會問：“與去年相比，加州的夏季能源使用情況如何？”。模型可以在網(wǎng)絡上搜索公共數(shù)據(jù)，編寫 Python 代碼以建立預測路徑，并生成圖表或圖像，還能解釋預測背后的關鍵因素，將多個工具調(diào)用串聯(lián)起來。通過推理，模型可以對遇到的信息做出必要的反應和調(diào)整。例如，它們可以在搜索提供商的幫助下多次搜索網(wǎng)絡，查看結果，并在需要更多信息時嘗試新的搜索。

這種靈活的戰(zhàn)略方法使模型能夠處理需要獲取模型內(nèi)置知識以外的最新信息、擴展推理、綜合和跨模態(tài)生成輸出的任務。

成本效能邊界再擴：更強，更便宜

OpenAI o3 和 o4-mini 是我們發(fā)布過的最智能的模型，而且它們通常比其前身 OpenAI o1 和 o3-mini 更高效。例如，在 2025 年 AIME 數(shù)學競賽中，o3 的性價比前沿嚴格優(yōu)于 o1，同樣，o4-mini 的前沿也嚴格優(yōu)于 o3-mini。一般來說，我們預計在大多數(shù)實際應用中，o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更便宜。

模型安全：推理力進化背后的底線重構

模型能力的每一次提升都需要相應的安全性改進。對于 OpenAI o3 和 o4-mini，我們完全重建了安全培訓數(shù)據(jù)，在生物威脅（生物風險）、惡意軟件生成和越獄等領域添加了新的拒絕提示。更新后的數(shù)據(jù)使 o3 和 o4-mini 在我們的內(nèi)部拒絕基準（如指令分級、越獄）上取得了優(yōu)異的表現(xiàn)。除了在模型拒絕方面表現(xiàn)出色外，我們還開發(fā)了系統(tǒng)級緩解措施，以標記前沿風險領域的危險提示。與圖像生成方面的早期工作類似，我們訓練了一個推理 LLM 監(jiān)測器，該監(jiān)測器根據(jù)人類編寫的、可解釋的安全規(guī)范工作。當應用于生物風險時，該監(jiān)控器在我們的人類紅隊活動中成功標記了約 99% 的對話。

我們用迄今為止最嚴格的安全計劃對兩種型號進行了壓力測試。根據(jù)我們更新的 "準備框架"，我們對 o3 和 o4-mini 進行了框架所涵蓋的三個跟蹤能力領域的評估：生物與化學、網(wǎng)絡安全和人工智能自我改進。根據(jù)這些評估結果，我們確定 o3 和 o4-mini 在所有三個類別中均低于該框架的 "高 "閾值。我們在隨附的系統(tǒng)卡中公布了這些評估的詳細結果。

Codex CLI 發(fā)布：最小代理化入口

我們還將分享一項新實驗：Codex CLI，一種可在終端運行的輕量級編碼代理。它可直接在電腦上運行，旨在最大限度地發(fā)揮 o3 和 o4-mini 等模型的推理能力，并即將支持 GPT-4.1 等其他 API 模型。

通過向模型傳遞屏幕截圖或低保真草圖，并結合本地代碼訪問，您可以從命令行獲得多模態(tài)推理的好處。我們將其視為將模型與用戶及其電腦連接起來的最小接口。現(xiàn)在，Codex CLI 已在 github.com/openai/codex（在新窗口中打開）上完全開源。

與此同時，我們還啟動了一項 100 萬美元的計劃，以支持使用 Codex CLI 和 OpenAI 模型的項目。我們將評估并接受以 API 點數(shù)形式遞增的 25,000 美元資助申請。提案可在此處提交。

從今天起，ChatGPT Plus、Pro 和 Team 用戶將在型號選擇器中看到 o3、o4-mini 和 o4-mini-high，取代 o1、o3-mini 和 o3-mini-high。ChatGPT 企業(yè)和教育用戶將在一周后獲得訪問權限。免費用戶可以在提交查詢之前，通過在構成器中選擇 "Think "來試用 o4-mini。所有計劃的費率限制與上一組模型相比保持不變。

o3 現(xiàn)已在 API 中可用，更先進的 o3-pro 模型正在開發(fā)中，預計將在幾周后發(fā)布支持全部工具的 OpenAI o3-pro。目前，專業(yè)版用戶仍可訪問 o1-pro。

目前，開發(fā)人員還可以通過 Chat Completions API 和 Responses API 訪問 o3 和 o4-mini（某些開發(fā)人員需要驗證其組織（在新窗口中打開）才能訪問這些模型）。Responses API 支持推理摘要，能夠保留函數(shù)調(diào)用周圍的推理標記以提高性能，不久還將支持內(nèi)置工具，如網(wǎng)絡搜索、文件搜索和模型推理中的代碼解釋器。要開始使用，請瀏覽我們的文檔（在新窗口中打開），并隨時關注更多更新。

今天的更新反映了我們模型的發(fā)展方向：我們正在將 o 系列的專業(yè)推理能力與 GPT 系列的更多自然對話能力和工具使用能力融合在一起。通過整合這些優(yōu)勢，我們未來的模型將支持無縫、自然的對話，以及主動的工具使用和高級問題解決。

https://openai.com/index/introducing-o3-and-o4-mini/

https://x.com/btibor91/status/1912608982063349897?utm_source=chatgpt.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.