国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布GPT-4.1:開發(fā)者“特供”,超越4o,但還沒遙遙領(lǐng)先

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

就在上周,關(guān)于OpenAI下一代大模型即將發(fā)布的傳聞不斷。從業(yè)內(nèi)消息到代碼庫中發(fā)現(xiàn)的新模型標識(如“o4-mini”、“o3”),種種跡象都指向眼前的發(fā)布——可能命名為GPT-4.1,被視為GPT-4o的有力繼承者。

現(xiàn)在,靴子終于落地。OpenAI這次沒有讓大家等太久,正式推出了備受期待的GPT-4.1系列,完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是,這次更新的焦點并非面向大眾用戶,僅通過API接口提供服務(wù),OpenAI官方文檔直言不諱地指出,這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini,在編碼能力、指令遵循、長文本處理等核心維度實現(xiàn)了進步,并輔以全新定價策略,其知識庫也已刷新至2024年6月。OpenAI的核心目標明確:為構(gòu)建Agent應(yīng)用的開發(fā)者提供更強悍、更可靠且更經(jīng)濟的基礎(chǔ)設(shè)施。

#01

編程評測表現(xiàn)優(yōu)于GPT-4.5

編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數(shù)據(jù)顯示,在衡量真實世界軟件工程能力的SWE-bench Verified基準測試中,GPT-4.1取得了54.6% 的分數(shù),相比GPT-4o的33.2%,實現(xiàn)了高達21.4個絕對百分點的提升。

更令人玩味的是,這一成績甚至比定位更高的GPT-4.5(38.0%)還要高出不少,上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務(wù)、生成能實際運行并通過測試的代碼方面有了質(zhì)的飛躍。

不僅如此,GPT-4.1在代碼處理的細節(jié)上也更為精進。例如,它在處理代碼差異(diffs)方面更加可靠,根據(jù)Aider's polyglot diff benchmark,其表現(xiàn)甚至超越了GPT-4.5。官方還特別提到,模型進行無關(guān)編輯(extraneous edits)的頻率從GPT-4o的9%顯著降低到了2%。

對于前端開發(fā)者而言,GPT-4.1生成的網(wǎng)頁應(yīng)用在功能性和美觀性上也更勝一籌,在內(nèi)部測試中,人類評估者有80%的時間更偏好GPT-4.1的作品。同時,為了支持更大規(guī)模的代碼編輯,GPT-4.1的最大輸出Token限制也提升至32,768個(GPT-4o為16,384個)。據(jù)OpenAI官方,來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升,他們觀察到GPT-4.1在實際代碼生成和代碼審查任務(wù)中效率更高、錯誤更少。

指令遵循能力的提升同樣是本次更新的重中之重。模型現(xiàn)在能更精準地理解和執(zhí)行復(fù)雜、多步驟的指令。在Scale's MultiChallenge基準測試(評估多輪對話中的指令遵循能力)中,GPT-4.1得分38.3%,較GPT-4o提升了10.5個絕對百分點。

而在IFEval測試(驗證模型遵循格式、長度、禁用詞等具體約束的能力)中,得分也從81.0%提升至87.4%。OpenAI內(nèi)部評估也顯示,特別是在處理困難指令時,GPT-4.1的改進尤為明顯。這種可靠性的增強,對于構(gòu)建能夠自主完成任務(wù)的AI Agent系統(tǒng)至關(guān)重要,能有效減少開發(fā)者“手把手教”的負擔(dān)。

來自Blue J(稅務(wù)場景)和Hex(SQL生成)等合作伙伴的真實案例也表明,GPT-4.1在處理復(fù)雜規(guī)則和歧義、遵循細微指令方面表現(xiàn)更佳,顯著提高了應(yīng)用準確性和開發(fā)效率。

#02

全系支持百萬級長文本處理

全系標配且真正“可用”的百萬級長文本處理能力,是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1,連同mini和nano版本,都支持高達100萬Token的上下文窗口(遠超GPT-4o的128k)。OpenAI此次特別強調(diào),這不僅僅是窗口大小的提升,更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經(jīng)典的“大海撈針”(Needle in a Haystack)測試結(jié)果顯示,GPT-4.1系列能在1M長度的文本中穩(wěn)定、準確地找到隱藏信息。

為了證明模型在更接近真實世界復(fù)雜場景下的長文本能力,OpenAI還開源了兩套新的評估基準:OpenAI-MRCR(測試在長文本中區(qū)分和檢索多個相似信息點的能力)和Graphwalks(評估需要跨文本多處進行邏輯跳轉(zhuǎn)和推理的多跳推理能力)。

測試結(jié)果表明,GPT-4.1在這些更具挑戰(zhàn)性的任務(wù)上,相比前代有顯著優(yōu)勢,并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應(yīng)用場景來說,無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領(lǐng)域的早期用戶反饋,GPT-4.1在處理多份復(fù)雜長文檔、提取精確信息、進行跨文檔推理方面,準確性顯著提高,克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。

當然,處理百萬Token的延遲也是開發(fā)者關(guān)心的,官方給出的初步數(shù)據(jù)是,GPT-4.1處理128k Token時首個Token的p95延遲約15秒,1M Token則可能需要半分鐘左右,而mini和nano版本則會快得多。

#03

更好的多模態(tài)

此外,GPT-4.1家族的視覺理解能力也保持了高水準。特別是GPT-4.1 mini,在MMMU、MathVista等多個視覺基準測試上的表現(xiàn)甚至優(yōu)于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準Video-MME(無字幕長視頻問答)上取得了72.0%的新SOTA成績。

伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優(yōu)化,GPT-4.1系列的價格相當“香”:

  • GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token),官方稱比GPT-4o的中位數(shù)查詢成本低26%。

  • GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60,在性能接近甚至超越GPT-4o的同時,成本和延遲大幅降低。

  • GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40,成為OpenAI有史以來最便宜、最快速的模型,且同樣支持1M上下文。

此外,Prompt Caching(提示緩存)的折扣從之前的50%提高到了75%,對于需要重復(fù)傳遞相同上下文的應(yīng)用能大幅節(jié)約成本。同時,使用Batch API(批量處理)還能享受額外的50%折扣。

需要注意的是,隨著GPT-4.1系列的登場,之前作為預(yù)覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布,該API將在2025年7月14日正式關(guān)閉,給予開發(fā)者3個月的過渡時間,鼓勵大家遷移到性能更優(yōu)、成本更低的GPT-4.1系列。

#04

進步了,但很難全贏

GPT-4.1的發(fā)布,被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應(yīng),而非一次顛覆性的技術(shù)突破。有不少評論直接指出,盡管進步顯著,但在某些特定基準上,如Aider Polyglot編碼測試,GPT-4.1(約52%)與Google Gemini 2.5 Pro(據(jù)報道約73%)相比仍有差距。

來自第三方基準平臺(如與ChatLLM服務(wù)相關(guān)的Livebench)的早期結(jié)果在一定程度上支持了這種觀點:雖然確認GPT-4.1相較于GPT-4o有所改進('It's better than GPT-4o'),但同時將其描述為一次“增量更新”(incremental update)。更值得注意的是,在OpenAI重點宣傳的編碼能力方面,該基準評估認為其表現(xiàn)“似乎并未優(yōu)于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領(lǐng)域的競爭已進入到更細分、更針對性的能力比拼階段,而非全面的代際碾壓。

而談及OpenAI,其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1,到內(nèi)部代號般的o1、o3、o4系列(還分low/medium/high/mini/pro各種后綴),再到ChatGPT界面上令人困惑的模型選項(4o、o3-mini、o1、Deep Research、4.5、帶任務(wù)調(diào)度的4o...),“像正常人一樣給模型命名”似乎成了一項不可能完成的任務(wù)。這對于一個力求普及AI技術(shù)的公司而言,無疑增加了用戶的理解成本。

盡管如此,OpenAI此次GPT-4.1系列的發(fā)布,仍然釋放了一個明確的信號:OpenAI沒有忘記開發(fā)者。GPT-4.5的官方API接下來一周內(nèi)也可以免費使用,每分鐘3次請求,一天200次,TPM1萬。

不過相較于GPT-4o在多模態(tài)交互上的驚艷問世,GPT-4.1系列更像是一次深入生產(chǎn)環(huán)節(jié)的“內(nèi)功”修煉,精準解決了開發(fā)者在編碼、指令控制、長文本處理等核心痛點。這種API優(yōu)先、強調(diào)實用性和性價比的策略同時,不僅是對自身模型效率提升的自信展示,也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。

或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發(fā)布也已箭在弦上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

掉了顆大白兔糖
2026-02-25 07:07:28
美國要變天了?

美國要變天了?

安安說
2026-01-20 10:11:06
紐約期金突破5420美元/盎司

紐約期金突破5420美元/盎司

每日經(jīng)濟新聞
2026-03-02 15:25:10
500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

情感大頭說說
2026-03-01 13:41:53
美以伊激戰(zhàn)48小時!三方損失全曝光,誰最慘?后續(xù)走向徹底明朗

美以伊激戰(zhàn)48小時!三方損失全曝光,誰最慘?后續(xù)走向徹底明朗

起喜電影
2026-03-02 12:46:05
2026手機套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

2026手機套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

透視到底
2026-03-01 10:16:29
乾隆登基后,平反了諸多被雍正打壓的叔伯,為何不愿平反其大伯?

乾隆登基后,平反了諸多被雍正打壓的叔伯,為何不愿平反其大伯?

鶴羽說個事
2026-03-01 18:29:37
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
“重大作戰(zhàn)”,要打多久?

“重大作戰(zhàn)”,要打多久?

中國新聞周刊
2026-02-28 20:19:57
比賽還沒開打,巴薩先迎一個致命壞消息,國王杯晉級決賽基本沒戲

比賽還沒開打,巴薩先迎一個致命壞消息,國王杯晉級決賽基本沒戲

零度眼看球
2026-03-02 13:58:36
克宮:俄方正與伊朗領(lǐng)導(dǎo)層保持持續(xù)接觸

克宮:俄方正與伊朗領(lǐng)導(dǎo)層保持持續(xù)接觸

環(huán)球網(wǎng)資訊
2026-03-02 19:21:46
搞笑圖片第1148期:為什么老年人總能在網(wǎng)上買到我們想不到的東西

搞笑圖片第1148期:為什么老年人總能在網(wǎng)上買到我們想不到的東西

今天的快樂
2026-03-01 21:03:56
錢再多也沒用!身價千萬的撒貝寧,面對家庭牽掛煩心事還是太多了

錢再多也沒用!身價千萬的撒貝寧,面對家庭牽掛煩心事還是太多了

不甜的李子
2026-03-02 16:59:30
苦等多年,中國最強地級市,終于要建機場了

苦等多年,中國最強地級市,終于要建機場了

快刀財經(jīng)
2026-03-01 22:15:01
小米上架米家燃氣灶3猛火版,到手價899元

小米上架米家燃氣灶3猛火版,到手價899元

ZAEKE知客
2026-02-27 12:41:13
股民系好安全帶了,明天3月3號,A股牛市能否再次歷史重演?

股民系好安全帶了,明天3月3號,A股牛市能否再次歷史重演?

股市皆大事
2026-03-02 16:12:09
劉詩詩吳奇隆突然官宣!女方罕見發(fā)聲:一切早已注定...

劉詩詩吳奇隆突然官宣!女方罕見發(fā)聲:一切早已注定...

草莓解說體育
2026-03-01 15:10:45
突發(fā)!真主黨二號核心被定點清除,以色列再下狠手

突發(fā)!真主黨二號核心被定點清除,以色列再下狠手

老馬拉車莫少裝
2026-03-02 12:49:32
你占過最大的便宜是啥?網(wǎng)友:我也是,撿漏一個老公

你占過最大的便宜是啥?網(wǎng)友:我也是,撿漏一個老公

帶你感受人間冷暖
2026-02-25 00:17:46
2026-03-02 20:00:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
244文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

時尚
藝術(shù)
教育
健康
本地

從每天只睡4小時到8小時:一個失眠者的自救指南

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

教育要聞

26考研:理工專業(yè)成高分重災(zāi)區(qū),401分排名128位,390分只能調(diào)劑

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時總相宜

無障礙瀏覽 進入關(guān)懷版