国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI 的 o3 正式登場,我們總結了這 7 個最關鍵的信息點

0
分享至

在 ChatGPT 問世近一年半后,OpenAI 再次邁出關鍵一步。

2025 年 4 月 16 日,OpenAI 正式發(fā)布新一代推理模型 o3 及輕量版 o4-mini,這是繼 GPT-4 Turbo 之后,首次從底層架構、訓練策略到能力定位全面重構的模型更新。相比以往,這一次的關鍵詞不再是“更強的生成能力”,而是“更清晰的推理路徑、更主動的工具調(diào)度、更真實的問題感知”。

官方?jīng)]有過多渲染“AGI 臨近”這樣的宏大敘事,卻實實在在交付了一個“能讀圖、能思考、能動手”的智能體雛形——它能看懂你上傳的手寫公式,也能自己查資料、調(diào)用工具鏈、重構任務解法,真正從“助手”邁向“代理者”(Agent)。

如果我們將視野從參數(shù)躍遷拉回到結構演化,o3 的出現(xiàn),標志著一個重要趨勢:訓練范式的極限已現(xiàn),推理結構的重塑正在成為 AI 進化的主戰(zhàn)場。

OpenAI 在這個關鍵節(jié)點推出 o3 系列,不止是一次模型升級,更像是一種范式上的聲明,也是一種技術坐標系的重新標定。

2025 年 4 月 16 日,OpenAI 正式發(fā)布新一代推理模型 o3 及輕量版 o4-mini。它們不僅性能領先,更在“結構”與“能力”上開啟了范式轉(zhuǎn)折:不再僅僅強調(diào)上下文長度和生成流暢度,而是從根本上強調(diào)推理路徑的清晰性、工具調(diào)用的主動性,以及圖文信息的融合處理能力。

為更好理解這一變革,我們系統(tǒng)梳理了 OpenAI 官方發(fā)布的產(chǎn)品博客內(nèi)容,并結合團隊在 X 平臺 AMA 中的回應與解讀,從七個方面提煉出 o3 系列模型在推理方式、結構策略與實際應用中的關鍵進展,輔以我們對趨勢脈絡的觀察,供開發(fā)者與關注 AI 基礎設施演進的讀者參考。

OpenAI 團隊在 X 平臺上舉辦的 AMA 總結

發(fā)布和路線圖

- 強化微調(diào)(GA)將很快對公開微調(diào)或具有推理模型的強化學習(RL)可用

- OpenAI 計劃在未來幾個月發(fā)布一個優(yōu)秀的開源模型,并歡迎開發(fā)者反饋以改進其實用性

- API 中的新圖像生成功能將很快可用

- API 中的 o3-mini 永遠不會支持視覺功能,但 o4-mini 已經(jīng)支持視覺功能,目前作為具有圖像輸入的推理迷你模型可用

- o3 今天已在 API 中提供,更高級的 o3-pro 模型正在開發(fā)中,并將很快發(fā)布

模型性能和用法

- GPT-4.1 系列模型專門針對編碼和代理任務進行訓練;模型選擇取決于用戶的工作流程以及所需的性能、成本和延遲之間的平衡

- o3 在處理困難的編碼問題或廣泛的主題搜索時最為強大,而 o4-mini 則速度更快,在大多數(shù)場景中性能相當,更適合快速交互或較小的編碼任務

- o4-mini 具有更高的速率限制,在涉及視覺、數(shù)學、科學和某些編碼任務的評估中與 o3 相當;o3 在處理深奧知識和細微任務方面具有明顯優(yōu)勢

- 微調(diào) GPT-4.1 可以提高針對特定用例的性能,減少提示中所需的示例數(shù)量;GPT-4.1 經(jīng)過訓練以探索可能的解決方案、自我反思和自我糾正

- o3 和 o4-mini 都提供 200k 個 token 的上下文窗口,最大輸出 100k 個 token,并已通過內(nèi)部和第三方進行網(wǎng)絡安全評估;兩者均未達到高風險閾值,但仍然是迄今為止最強大的模型

- 模型具有分析圖像細節(jié)的工具;o3 在從 PDF 中提取結構化數(shù)據(jù)方面特別有效 - 如從“注意力就是一切”論文中完美提取表格所示

- 與 GPT-4.1 相比,GPT-4.1-mini 在圖像分析方面具有更低的成本

API 功能和支持工具

- 在 Responses API 中,開發(fā)者消息和系統(tǒng)消息之間的切換是自動處理的;向 o3 發(fā)送系統(tǒng)消息或向 GPT-4.1 發(fā)送開發(fā)者消息會導致自動轉(zhuǎn)換

- API 中提供了一個推理努力參數(shù),用于控制 o 系列模型的成本,特別是在它們變得越來越具有代理性時,允許優(yōu)化工具使用

- 目前,ChatCompletions 或 Responses API 不支持托管工具;然而,一旦支持可用,開發(fā)者將獲得對啟用工具的控制權

- 在 Responses API 中支持推理摘要(推理跟蹤),提供更清晰的可見性,以便在模型解決問題和調(diào)用各種工具時了解推理步驟

- SDK 自動將 Pydantic 架構轉(zhuǎn)換為兼容的 JSON 架構,以處理“additionalProperties”等屬性

- 在 o3 和 o4-mini 的推理階段,積極使用工具如網(wǎng)絡搜索、文件搜索和代碼解釋器;目前,這些工具在 ChatGPT 中得到支持,但在 API 中尚未支持 - 將很快添加支持

代理 SDK 和 Codex CLI

- OpenAI 正在積極開發(fā)線程支持以改進代理 SDK 中的對話歷史和保留

- 他們對為 Agents SDK 提出的低代碼平臺建議很感興趣,并邀請反饋最有用的功能通過 Agents SDK 調(diào)用外部模型提供商已得到支持

- Codex CLI 包含多個文檔化的批準模式,允許用戶按操作或會話選擇模式;Codex CLI 并非旨在取代 Cursor、Windsurf 或 Lovable 等 IDE 工具;相反,它旨在在用戶在主 IDE 中工作時運行后臺任務

- 將 Codex 的編碼能力與深度研究能力進行比較取決于所選的模型(o3 或 o4-mini);Codex 專門利用函數(shù)調(diào)用,直接在用戶的計算機上執(zhí)行命令

- 新模型主要在通用瀏覽、Python/代碼執(zhí)行工具以及有助于開發(fā)者的用戶定義工具上進行訓練

GPT-4.1 和模型命名

- GPT-4.1 通過 API 發(fā)布而非 ChatGPT,因為它專門針對 API 使用場景進行了優(yōu)化,例如指令遵循、長上下文管理、編碼和工具使用

- GPT-4.5 雖然更強大,但速度較慢且計算密集,因此 GPT-4.1 為開發(fā)者提供了一種更快、更經(jīng)濟的選項

- GPT-4.1 的一些改進已經(jīng)集成到 ChatGPT 中,并將繼續(xù)集成更多改進

- OpenAI 承認了模型名稱如“4o”和“o4”之間的命名混淆,并計劃不久后簡化模型命名

推理能力的躍升:o3 vs o1,為什么是質(zhì)變?

首先要介紹OpenAI o3,它是OpenAI最強大的推理模型,它推動了ChatGPT在編碼、數(shù)學、科學、視覺感知等領域的發(fā)展。它在 Codeforces、SWE-bench(無需構建特定于模型的自定義支架)和 MMMU 等基準測試中創(chuàng)造了新的 SOTA。

OpenAI o3非常適合進行多方面分析的復雜查詢,而且并不會給出簡單的答案。它在分析圖像、圖表和圖形等可視化任務方面表現(xiàn)尤為突出。在外部專家的評估中,o3 在高難度的任務中比 OpenAI o1 少犯 20% 的大錯誤,尤其是在編程、商務/咨詢和創(chuàng)意構思等領域表現(xiàn)出色。早期的測試人員強調(diào)了它作為思想伙伴的嚴謹分析能力,并強調(diào)了它生成和批判性評估新假設的能力--尤其是在生物學、數(shù)學和工程學方面。

OpenAI o4-mini 是一個較小的模型,為實現(xiàn)快速、經(jīng)濟高效的推理而進行了優(yōu)化--就其大小和成本而言,它實現(xiàn)了卓越的性能,尤其是在數(shù)學、編碼和視覺任務方面。它是 AIME 2024 和 2025 上表現(xiàn)最佳的基準模型。在專家評估中,它在非 STEM 任務以及數(shù)據(jù)科學等領域的表現(xiàn)也優(yōu)于其前身 o3-mini。由于效率高,o4-mini 比 o3 支持更高的使用限制,因此對于需要推理的問題來說,o4-mini 是高容量、高吞吐量的理想選擇。

OpenAI O3 是解決復雜編碼問題或廣泛主題搜索的最佳選擇,而 o4-mini 速度更快,在大多數(shù)情況下同樣強大,更適合快速交互或較小的編碼任務。o3 和 o4-mini 均提供 20 萬個令牌的上下文窗口,最大輸出令牌數(shù)為 10 萬個,并且已經(jīng)過內(nèi)部和第三方的網(wǎng)絡安全評估;雖然均未達到高風險閾值,但仍然是目前性能最強的模型。

外部專家評估員對這兩個模型的評價是,與前代產(chǎn)品相比,由于智能化程度的提高和網(wǎng)絡資源的加入,這兩個模型都能更好地跟上指令,并提供更有用、更可驗證的回答。與以前的推理模型迭代相比,這兩個模型應該會讓人感覺更自然、更會說話,特別是它們會參考記憶和過去的對話,使回答更個性化、更相關。

RL 再次被證實:強化學習成性能提升主引擎

在 OpenAI o3 的整個開發(fā)過程中,我們觀察到大規(guī)模強化學習呈現(xiàn)出與 GPT 系列預訓練相同的趨勢,既 "更多計算 = 更佳性能 "。通過回溯擴展路徑,我們在訓練計算和推理時間上都增加了一個數(shù)量級,但仍能看到明顯的性能提升,這驗證了模型的性能會隨著思考時間的增加而不斷提高。

在延遲和成本與 OpenAI o1 相當?shù)那闆r下,o3 在 ChatGPT 中提供了更高的性能,而且我們已經(jīng)驗證,如果讓它思考更長時間,其性能會繼續(xù)攀升。

我們還通過強化學習訓練這兩種模型使用工具--不僅教它們?nèi)绾问褂霉ぞ?,還教它們推理何時使用工具。它們根據(jù)預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據(jù)早期測試者的報告,這種進步既體現(xiàn)在學術基準上,也體現(xiàn)在實際任務中。

圖像即語言:首次實現(xiàn)“視覺參與推理鏈”

這兩款模型模型首次具備將圖像直接融入他們的思維鏈中的能力。它們不僅能看到圖像,還能用圖像進行思考。這開啟了一種融合視覺和文字推理的新的問題解決方式,體現(xiàn)在它們在多模態(tài)基準測試中的一流性能上。

人們可以上傳白板、教科書圖表或手繪草圖的照片,而模型可以對其進行解讀--即使圖像模糊、顛倒或質(zhì)量不高。通過使用工具,模型可以在推理過程中對圖片進行旋轉(zhuǎn)、縮放或變換等操作。

這些模型在視覺感知任務上具有同類最佳的準確性,使其能夠解決以前無法解決的問題。

我們還通過強化學習訓練這兩種模型使用工具--不僅教它們?nèi)绾问褂霉ぞ?,還教它們推理何時使用工具。它們根據(jù)預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據(jù)早期測試者的報告,這種進步既體現(xiàn)在學術基準上,也體現(xiàn)在實際任務中。

調(diào)用工具不是技能,而是策略判斷

OpenAI o3 和 o4-mini 可以訪問 ChatGPT 中的工具,也可以通過 API 中的函數(shù)調(diào)用訪問用戶的自定義工具。這些模型經(jīng)過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,以正確的輸出格式快速生成詳細周到的答案--通常不超過一分鐘。

例如,用戶可能會問:“與去年相比,加州的夏季能源使用情況如何?”。模型可以在網(wǎng)絡上搜索公共數(shù)據(jù),編寫 Python 代碼以建立預測路徑,并生成圖表或圖像,還能解釋預測背后的關鍵因素,將多個工具調(diào)用串聯(lián)起來。通過推理,模型可以對遇到的信息做出必要的反應和調(diào)整。例如,它們可以在搜索提供商的幫助下多次搜索網(wǎng)絡,查看結果,并在需要更多信息時嘗試新的搜索。

這種靈活的戰(zhàn)略方法使模型能夠處理需要獲取模型內(nèi)置知識以外的最新信息、擴展推理、綜合和跨模態(tài)生成輸出的任務。

成本效能邊界再擴:更強,更便宜

OpenAI o3 和 o4-mini 是我們發(fā)布過的最智能的模型,而且它們通常比其前身 OpenAI o1 和 o3-mini 更高效。例如,在 2025 年 AIME 數(shù)學競賽中,o3 的性價比前沿嚴格優(yōu)于 o1,同樣,o4-mini 的前沿也嚴格優(yōu)于 o3-mini。一般來說,我們預計在大多數(shù)實際應用中,o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更便宜。

模型安全:推理力進化背后的底線重構

模型能力的每一次提升都需要相應的安全性改進。對于 OpenAI o3 和 o4-mini,我們完全重建了安全培訓數(shù)據(jù),在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。更新后的數(shù)據(jù)使 o3 和 o4-mini 在我們的內(nèi)部拒絕基準(如指令分級、越獄)上取得了優(yōu)異的表現(xiàn)。除了在模型拒絕方面表現(xiàn)出色外,我們還開發(fā)了系統(tǒng)級緩解措施,以標記前沿風險領域的危險提示。與圖像生成方面的早期工作類似,我們訓練了一個推理 LLM 監(jiān)測器,該監(jiān)測器根據(jù)人類編寫的、可解釋的安全規(guī)范工作。當應用于生物風險時,該監(jiān)控器在我們的人類紅隊活動中成功標記了約 99% 的對話。

我們用迄今為止最嚴格的安全計劃對兩種型號進行了壓力測試。根據(jù)我們更新的 "準備框架",我們對 o3 和 o4-mini 進行了框架所涵蓋的三個跟蹤能力領域的評估:生物與化學、網(wǎng)絡安全和人工智能自我改進。根據(jù)這些評估結果,我們確定 o3 和 o4-mini 在所有三個類別中均低于該框架的 "高 "閾值。我們在隨附的系統(tǒng)卡中公布了這些評估的詳細結果。

Codex CLI 發(fā)布:最小代理化入口

我們還將分享一項新實驗:Codex CLI,一種可在終端運行的輕量級編碼代理。它可直接在電腦上運行,旨在最大限度地發(fā)揮 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1 等其他 API 模型。

通過向模型傳遞屏幕截圖或低保真草圖,并結合本地代碼訪問,您可以從命令行獲得多模態(tài)推理的好處。我們將其視為將模型與用戶及其電腦連接起來的最小接口。現(xiàn)在,Codex CLI 已在 github.com/openai/codex(在新窗口中打開)上完全開源。

與此同時,我們還啟動了一項 100 萬美元的計劃,以支持使用 Codex CLI 和 OpenAI 模型的項目。我們將評估并接受以 API 點數(shù)形式遞增的 25,000 美元資助申請。提案可在此處提交。

從今天起,ChatGPT Plus、Pro 和 Team 用戶將在型號選擇器 中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。ChatGPT 企業(yè)和教育用戶 將在一周后獲得訪問權限。免費用戶可以在提交查詢之前,通過在構成器中選擇 "Think "來試用 o4-mini。所有計劃的費率限制與上一組模型相比保持不變。

o3 現(xiàn)已在 API 中可用,更先進的 o3-pro 模型正在開發(fā)中,預計將在幾周后發(fā)布支持全部工具的 OpenAI o3-pro。目前,專業(yè)版用戶仍可訪問 o1-pro。

目前,開發(fā)人員還可以通過 Chat Completions API 和 Responses API 訪問 o3 和 o4-mini(某些開發(fā)人員需要驗證其組織(在新窗口中打開)才能訪問這些模型)。Responses API 支持推理摘要,能夠保留函數(shù)調(diào)用周圍的推理標記以提高性能,不久還將支持內(nèi)置工具,如網(wǎng)絡搜索、文件搜索和模型推理中的代碼解釋器。要開始使用,請瀏覽我們的文檔(在新窗口中打開),并隨時關注更多更新。

今天的更新反映了我們模型的發(fā)展方向:我們正在將 o 系列的專業(yè)推理能力與 GPT 系列的更多自然對話能力和工具使用能力融合在一起。通過整合這些優(yōu)勢,我們未來的模型將支持無縫、自然的對話,以及主動的工具使用和高級問題解決。

https://openai.com/index/introducing-o3-and-o4-mini/

https://x.com/btibor91/status/1912608982063349897?utm_source=chatgpt.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄羅斯全境響起導彈警報聲,伊朗陸軍司令確定已死亡

俄羅斯全境響起導彈警報聲,伊朗陸軍司令確定已死亡

史政先鋒
2026-02-28 22:13:45
直降1300元!新機官宣:3月11日,正式開售!

直降1300元!新機官宣:3月11日,正式開售!

科技堡壘
2026-02-27 11:25:29
壽命延長40倍?Cell:高劑量維生素B3(NR),逆轉(zhuǎn)致死性代謝缺陷

壽命延長40倍?Cell:高劑量維生素B3(NR),逆轉(zhuǎn)致死性代謝缺陷

時光派健康抗衰
2026-02-27 17:52:58
伊朗警察部隊情報部門司令身亡

伊朗警察部隊情報部門司令身亡

澎湃新聞
2026-03-01 19:03:17
特朗普怎么都沒想到:哈梅內(nèi)伊死前做的最后一項安排,會如此厲害

特朗普怎么都沒想到:哈梅內(nèi)伊死前做的最后一項安排,會如此厲害

起喜電影
2026-03-01 18:09:39
72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財經(jīng)
2026-02-22 10:38:14
交易被湖人坑苦了!年薪1150萬,場均4+3,詐騙犯讓老鷹白丟神射

交易被湖人坑苦了!年薪1150萬,場均4+3,詐騙犯讓老鷹白丟神射

你的籃球頻道
2026-03-01 14:10:49
以色列宣稱打死40名伊朗軍事指揮官

以色列宣稱打死40名伊朗軍事指揮官

每日經(jīng)濟新聞
2026-03-01 19:08:15
伊朗,曾經(jīng)是中東最發(fā)達的國家,如今為何淪落成“爛泥扶不上墻”

伊朗,曾經(jīng)是中東最發(fā)達的國家,如今為何淪落成“爛泥扶不上墻”

文史達觀
2025-06-24 06:45:04
65歲大媽直言:我選兒媳婦就一個要求,她的父母晚年必須有退休金

65歲大媽直言:我選兒媳婦就一個要求,她的父母晚年必須有退休金

清水家庭故事
2026-02-28 08:59:28
視察安慶期間,毛主席了解到陳獨秀兒子陳松年在窯廠當苦工、處境困窘,當即批示:“要給予照顧”

視察安慶期間,毛主席了解到陳獨秀兒子陳松年在窯廠當苦工、處境困窘,當即批示:“要給予照顧”

源溯歷史
2025-12-20 16:22:13
周大福鑲金發(fā)夾賣2080元引熱議,“?!弊植糠纸鹬?.42克,部分已賣斷貨;銷售:是miumiu的“高替”

周大福鑲金發(fā)夾賣2080元引熱議,“?!弊植糠纸鹬?.42克,部分已賣斷貨;銷售:是miumiu的“高替”

臺州交通廣播
2026-03-01 10:55:14
這老師真是絕代美人啊!

這老師真是絕代美人??!

東方不敗然多多
2026-03-01 01:09:31
陳浩民一家阿聯(lián)酋度假,妻子蔣麗莎凌晨突然更新,IP在阿布扎比

陳浩民一家阿聯(lián)酋度假,妻子蔣麗莎凌晨突然更新,IP在阿布扎比

八斗小先生
2026-03-01 08:55:57
主動投案,華潤集團副總經(jīng)理韓嵩被查

主動投案,華潤集團副總經(jīng)理韓嵩被查

都市快報橙柿互動
2026-02-28 20:12:56
人民幣升破6.84,高息定存美元的人慌了!4.5%利率難抵匯率損失,有人10萬本金反虧超2千

人民幣升破6.84,高息定存美元的人慌了!4.5%利率難抵匯率損失,有人10萬本金反虧超2千

時代財經(jīng)
2026-03-01 11:30:08
網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應

快科技
2026-02-27 21:58:15
阿聯(lián)酋迪拜再次傳出爆炸聲

阿聯(lián)酋迪拜再次傳出爆炸聲

財聯(lián)社
2026-03-01 12:46:06
最懂 AI 的那撥人,都在讓自家孩子學什么?看完這篇刷屏文章,我終于不焦慮了

最懂 AI 的那撥人,都在讓自家孩子學什么?看完這篇刷屏文章,我終于不焦慮了

AI范兒
2026-02-28 13:06:42
留給大清的時間,真的不多了

留給大清的時間,真的不多了

我是歷史其實挺有趣
2026-01-03 08:50:37
2026-03-01 19:44:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
243文章數(shù) 14關注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

中國游客遭遇航班熔斷 轉(zhuǎn)機四趟耗時48小時回國

頭條要聞

中國游客遭遇航班熔斷 轉(zhuǎn)機四趟耗時48小時回國

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

健康
數(shù)碼
親子
教育
時尚

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

親子要聞

春日敏感肌自救指南,你get了嗎?

教育要聞

2026高考500分以下,重點關注這8所大學,就業(yè)堪比211!

普通人穿衣不需要太復雜!顏色恰當、搭配和諧,高級又耐看

無障礙瀏覽 進入關懷版