国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需再訓(xùn)練微調(diào),一個(gè)輔助系統(tǒng)讓GPT-5.2準(zhǔn)確率飆到創(chuàng)紀(jì)錄的75%

0
分享至



編輯 | 杜偉、陳陳

什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現(xiàn)原地暴漲一截。

在看了「AI 推理和自我改進(jìn)系統(tǒng)」初創(chuàng)公司 Poetiq 的最新評(píng)測(cè)之后,有人得出了這樣的結(jié)論。



部分截圖

近日,Poetiq 表示其使用 ARC-AGI-2 測(cè)試集,在他們的系統(tǒng)上(稱(chēng)為 meta-system)運(yùn)行了 GPT-5.2 X-High。該測(cè)試集通常被用來(lái)衡量當(dāng)前 SOTA 模型在復(fù)雜抽象推理任務(wù)上的表現(xiàn)。

結(jié)果顯示,在相同的 Poetiq 測(cè)試平臺(tái)上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數(shù)據(jù)集上的成績(jī)高達(dá) 75%,這比之前的 SOTA 高出了約 15%,同時(shí)每個(gè)問(wèn)題的成本低于 8 美元。

這里的 PUBLIC-EVAL 是 ARC 測(cè)試的一部分,前者一般包含基礎(chǔ)推理任務(wù)和標(biāo)準(zhǔn)的 NLP、數(shù)學(xué)推理測(cè)試,適合廣泛的模型評(píng)測(cè),數(shù)據(jù)集更為公開(kāi)、標(biāo)準(zhǔn);后者包含更多復(fù)雜且富有挑戰(zhàn)性的推理問(wèn)題,考察模型的抽象推理、常識(shí)推理、創(chuàng)新能力等,是針對(duì)高水平模型的推理極限測(cè)試。



下圖展示了各個(gè) SOTA 模型在 PUBLIC-EVAL 數(shù)據(jù)集上的成績(jī)分布:



Poetiq 還特別強(qiáng)調(diào)了,其沒(méi)有對(duì) GPT-5.2 進(jìn)行任何再訓(xùn)練或模型特定的優(yōu)化。

在如此短的時(shí)間內(nèi),相較于 Poetiq 之前在 PUBLIC-EVAL 數(shù)據(jù)集上測(cè)試的其他模型,GPT-5.2 在準(zhǔn)確率和價(jià)格方面實(shí)現(xiàn)了顯著改進(jìn)。

Poetiq 進(jìn)一步做出設(shè)想:如果在 PUBLIC-EVAL 測(cè)試中表現(xiàn)好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測(cè)試中,那么「GPT-5.2 X-High + Poetiq」會(huì)比以往任何系統(tǒng)配置都更強(qiáng)、更好。

ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結(jié)果。如果這個(gè)成績(jī)能保持下去,他們的系統(tǒng)看起來(lái)能很好地處理模型交換。不過(guò),在 OpenAI API 的基礎(chǔ)設(shè)施問(wèn)題解決之前,結(jié)果還沒(méi)有得到完全驗(yàn)證!

這里的模型交換指的是:系統(tǒng)通過(guò)切換不同的模型來(lái)應(yīng)對(duì)不同的任務(wù)需求,而無(wú)需對(duì)系統(tǒng)或模型進(jìn)行大規(guī)模的調(diào)整或重新訓(xùn)練。



OpenAI 總裁 Greg Brockman 也轉(zhuǎn)推表示:GPT-5.2 在 ARC-AGI-2 上超越人類(lèi)基準(zhǔn)成績(jī)。



對(duì)于全新的測(cè)試結(jié)果,評(píng)論區(qū)提出了更多問(wèn)題,比如「每個(gè)任務(wù)平均需要多長(zhǎng)時(shí)間」。

Poetiq 回復(fù)稱(chēng),「我們現(xiàn)在沒(méi)有專(zhuān)門(mén)收集這些統(tǒng)計(jì)數(shù)據(jù),最簡(jiǎn)單的問(wèn)題大概在 8 到 10 分鐘后就能完成,而最難的問(wèn)題必須在 12 小時(shí)之前終止,以保持在時(shí)間限制內(nèi)。所以,未來(lái)肯定還有改進(jìn)的空間。」



還有人指出「大部分改進(jìn)似乎來(lái)自于測(cè)試框架和協(xié)調(diào)機(jī)制,而不是任何模型特定的調(diào)優(yōu)。沒(méi)有訓(xùn)練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

可問(wèn)題是:為什么在這個(gè)設(shè)置中,X-High 每個(gè)任務(wù)的成本比 High 還要低?是因?yàn)樗ㄟ^(guò)更早找到正確的解決方案而更快收斂,還是因?yàn)闇y(cè)試框架更積極地修剪了無(wú)效的推理過(guò)程?

對(duì)于這個(gè)問(wèn)題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點(diǎn)。



6 人團(tuán)隊(duì)打造 Meta-system 系統(tǒng)

Poetiq 是一支由 6 位研究員和工程師組成的團(tuán)隊(duì),有多位核心成員來(lái)自 Google DeepMind 。

  • Ian Fischer (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 曾是 Google DeepMind 的資深研究員;
  • Shumeet Baluja (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 同樣出身于 Google/DeepMind 的資深專(zhuān)家。



Poetiq 能夠取得上述成績(jī),關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))

Meta-system 不依賴(lài)特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓(xùn)練或微調(diào)模型本身,這意味著它能隨著新模型發(fā)布快速適配并提升性能。

Poetiq meta-system 構(gòu)建了一種迭代式推理過(guò)程,其與傳統(tǒng)一次性生成答案的方法不同,有兩個(gè)主要機(jī)制:

  • 迭代式的問(wèn)題求解循環(huán):系統(tǒng)并不是只向模型提出一次問(wèn)題,而是利用大語(yǔ)言模型(LLM)生成一個(gè)潛在的解決方案,隨后接收反饋、分析反饋,并再次調(diào)用 LLM 對(duì)方案進(jìn)行改進(jìn)。這種多步驟、自我改進(jìn)的過(guò)程,使系統(tǒng)能夠逐步構(gòu)建并不斷完善最終答案。
  • 自我審計(jì)(Self-Auditing):系統(tǒng)能夠自主審計(jì)自身的運(yùn)行進(jìn)度,并自行判斷何時(shí)已經(jīng)獲得足夠的信息、當(dāng)前解決方案是否令人滿(mǎn)意,從而決定終止整個(gè)過(guò)程。這種自我監(jiān)控機(jī)制對(duì)于避免不必要的計(jì)算浪費(fèi)、有效降低整體成本至關(guān)重要。

Poetiq 還特別強(qiáng)調(diào),他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的,而且系統(tǒng)從未直接接觸過(guò) ARC-AGI 任務(wù)集,但依然在多個(gè)不同模型上取得跨版本、跨模型族的性能提升,說(shuō)明 meta-system 對(duì) reasoning 策略具有良好的泛化能力。

正是這種靈活、強(qiáng)大且具備遞歸能力的架構(gòu),使得 Poetiq 這樣一支小規(guī)模團(tuán)隊(duì),能夠在極短時(shí)間內(nèi)取得一系列最先進(jìn)(SOTA)的成果。

對(duì)于這個(gè) meta-system,有人認(rèn)為「太棒了。在模型之上構(gòu)建智能,而不是在模型內(nèi)部構(gòu)建,意味著可以在幾個(gè)小時(shí)內(nèi)適配新模型,非常高明。適配開(kāi)源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過(guò)程本身的基本規(guī)律,而不是模型特定的怪癖!



參考鏈接:
https://poetiq.ai/posts/arcagi_verified/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
德媒:中國(guó)技術(shù)最大的原罪,就是害德國(guó)人太上癮了,想戒都戒不掉

德媒:中國(guó)技術(shù)最大的原罪,就是害德國(guó)人太上癮了,想戒都戒不掉

椰青美食分享
2025-12-28 16:36:39
張本智和這回估計(jì)真要哭了。

張本智和這回估計(jì)真要哭了。

小光侃娛樂(lè)
2025-12-28 19:30:03
尿是黃色!金子也是黃色!德國(guó)男子為了提煉黃金,煮了五千升尿液

尿是黃色!金子也是黃色!德國(guó)男子為了提煉黃金,煮了五千升尿液

扶蘇聊歷史
2025-12-25 16:18:51
68年周恩來(lái)念會(huì)議分組名單,毛主席聽(tīng)著眼睛一亮:哪個(gè)是李德生?

68年周恩來(lái)念會(huì)議分組名單,毛主席聽(tīng)著眼睛一亮:哪個(gè)是李德生?

歷史龍?jiān)w
2025-12-27 15:20:05
國(guó)家衛(wèi)健委喊話:快去醫(yī)院退門(mén)診押金,已退90億

國(guó)家衛(wèi)健委喊話:快去醫(yī)院退門(mén)診押金,已退90億

東方豪俠
2025-12-27 07:58:12
伊朗扣船硬剛美國(guó),不到24小時(shí),俄羅斯也出手,特朗普急得干瞪眼

伊朗扣船硬剛美國(guó),不到24小時(shí),俄羅斯也出手,特朗普急得干瞪眼

云上烏托邦
2025-12-26 19:07:17
賴(lài)昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

賴(lài)昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

古書(shū)記史
2025-12-12 11:21:38
討厭一個(gè)人,其實(shí)不用翻臉的,最有水平的處理方式是:森田理論

討厭一個(gè)人,其實(shí)不用翻臉的,最有水平的處理方式是:森田理論

德魯克博雅管理
2025-12-09 17:05:19
“阿詩(shī)瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

“阿詩(shī)瑪”楊麗坤:精神失常后生下兩個(gè)兒子,丈夫用一生懷念她

小熊侃史
2025-12-19 11:04:19
17歲差零實(shí)錘!姆巴佩 伊萬(wàn)卡Excel之戀 童裝3小時(shí)售空

17歲差零實(shí)錘!姆巴佩 伊萬(wàn)卡Excel之戀 童裝3小時(shí)售空

羅氏八卦
2025-12-27 23:20:03
離婚后,前夫送我一箱蘋(píng)果,三年后我打開(kāi)箱子號(hào)啕大哭

離婚后,前夫送我一箱蘋(píng)果,三年后我打開(kāi)箱子號(hào)啕大哭

秀秀情感課堂
2025-12-27 13:55:03
萬(wàn)科境內(nèi)債跌至面值25%

萬(wàn)科境內(nèi)債跌至面值25%

地產(chǎn)微資訊
2025-12-28 17:15:40
姚啟圣平定臺(tái)灣后,發(fā)現(xiàn)康熙對(duì)自己有殺意,留下了三個(gè)錦囊來(lái)應(yīng)對(duì)

姚啟圣平定臺(tái)灣后,發(fā)現(xiàn)康熙對(duì)自己有殺意,留下了三個(gè)錦囊來(lái)應(yīng)對(duì)

飯小妹說(shuō)歷史
2025-12-24 09:14:17
特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

面包夾知識(shí)
2025-12-27 00:00:32
食品安全問(wèn)題已經(jīng)到了令人發(fā)指的地步!是監(jiān)管問(wèn)題,更是犯罪成本太低了!

食品安全問(wèn)題已經(jīng)到了令人發(fā)指的地步!是監(jiān)管問(wèn)題,更是犯罪成本太低了!

思如哲思
2025-12-02 06:37:41
1958年,2億只麻雀一夜之間沒(méi)了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來(lái)得太猛,還得厚著臉皮找蘇聯(lián)救急

1958年,2億只麻雀一夜之間沒(méi)了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來(lái)得太猛,還得厚著臉皮找蘇聯(lián)救急

歷史回憶室
2025-12-26 11:11:27
西伯利亞零下71度如何生活?當(dāng)?shù)嘏灾毖裕钆陆鉀Q生理問(wèn)題

西伯利亞零下71度如何生活?當(dāng)?shù)嘏灾毖,最怕解決生理問(wèn)題

忠于法紀(jì)
2025-12-10 11:23:33
湖人更多內(nèi)幕曝光:開(kāi)會(huì)虎頭蛇尾仍有不滿(mǎn) 詹姆斯東契奇回避采訪

湖人更多內(nèi)幕曝光:開(kāi)會(huì)虎頭蛇尾仍有不滿(mǎn) 詹姆斯東契奇回避采訪

羅說(shuō)NBA
2025-12-28 08:50:17
廣東今晨多個(gè)市縣寒冷預(yù)警生效!氣溫將逐漸回升,晝夜溫差大

廣東今晨多個(gè)市縣寒冷預(yù)警生效!氣溫將逐漸回升,晝夜溫差大

南方都市報(bào)
2025-12-28 10:04:41
2025-12-28 20:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴(lài)清德彈劾案通過(guò) 對(duì)賴(lài)是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
教育
時(shí)尚
公開(kāi)課
軍事航空

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

教育要聞

低情商校長(zhǎng)的5種行為,希望你一個(gè)也沒(méi)有

瑞典拉普蘭:凜冽北境的萬(wàn)物平衡之道

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版