国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需再訓(xùn)練微調(diào),一個(gè)輔助系統(tǒng)讓GPT-5.2準(zhǔn)確率飆到創(chuàng)紀(jì)錄的75%

0
分享至



編輯 | 杜偉、陳陳

什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現(xiàn)原地暴漲一截。

在看了「AI 推理和自我改進(jìn)系統(tǒng)」初創(chuàng)公司 Poetiq 的最新評(píng)測(cè)之后,有人得出了這樣的結(jié)論。



部分截圖

近日,Poetiq 表示其使用 ARC-AGI-2 測(cè)試集,在他們的系統(tǒng)上(稱為 meta-system)運(yùn)行了 GPT-5.2 X-High。該測(cè)試集通常被用來(lái)衡量當(dāng)前 SOTA 模型在復(fù)雜抽象推理任務(wù)上的表現(xiàn)。

結(jié)果顯示,在相同的 Poetiq 測(cè)試平臺(tái)上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數(shù)據(jù)集上的成績(jī)高達(dá) 75%,這比之前的 SOTA 高出了約 15%,同時(shí)每個(gè)問(wèn)題的成本低于 8 美元。

這里的 PUBLIC-EVAL 是 ARC 測(cè)試的一部分,前者一般包含基礎(chǔ)推理任務(wù)和標(biāo)準(zhǔn)的 NLP、數(shù)學(xué)推理測(cè)試,適合廣泛的模型評(píng)測(cè),數(shù)據(jù)集更為公開(kāi)、標(biāo)準(zhǔn);后者包含更多復(fù)雜且富有挑戰(zhàn)性的推理問(wèn)題,考察模型的抽象推理、常識(shí)推理、創(chuàng)新能力等,是針對(duì)高水平模型的推理極限測(cè)試。



下圖展示了各個(gè) SOTA 模型在 PUBLIC-EVAL 數(shù)據(jù)集上的成績(jī)分布:



Poetiq 還特別強(qiáng)調(diào)了,其沒(méi)有對(duì) GPT-5.2 進(jìn)行任何再訓(xùn)練或模型特定的優(yōu)化。

在如此短的時(shí)間內(nèi),相較于 Poetiq 之前在 PUBLIC-EVAL 數(shù)據(jù)集上測(cè)試的其他模型,GPT-5.2 在準(zhǔn)確率和價(jià)格方面實(shí)現(xiàn)了顯著改進(jìn)。

Poetiq 進(jìn)一步做出設(shè)想:如果在 PUBLIC-EVAL 測(cè)試中表現(xiàn)好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測(cè)試中,那么「GPT-5.2 X-High + Poetiq」會(huì)比以往任何系統(tǒng)配置都更強(qiáng)、更好。

ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結(jié)果。如果這個(gè)成績(jī)能保持下去,他們的系統(tǒng)看起來(lái)能很好地處理模型交換。不過(guò),在 OpenAI API 的基礎(chǔ)設(shè)施問(wèn)題解決之前,結(jié)果還沒(méi)有得到完全驗(yàn)證。」

這里的模型交換指的是:系統(tǒng)通過(guò)切換不同的模型來(lái)應(yīng)對(duì)不同的任務(wù)需求,而無(wú)需對(duì)系統(tǒng)或模型進(jìn)行大規(guī)模的調(diào)整或重新訓(xùn)練。



OpenAI 總裁 Greg Brockman 也轉(zhuǎn)推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準(zhǔn)成績(jī)。



對(duì)于全新的測(cè)試結(jié)果,評(píng)論區(qū)提出了更多問(wèn)題,比如「每個(gè)任務(wù)平均需要多長(zhǎng)時(shí)間」。

Poetiq 回復(fù)稱,「我們現(xiàn)在沒(méi)有專門收集這些統(tǒng)計(jì)數(shù)據(jù),最簡(jiǎn)單的問(wèn)題大概在 8 到 10 分鐘后就能完成,而最難的問(wèn)題必須在 12 小時(shí)之前終止,以保持在時(shí)間限制內(nèi)。所以,未來(lái)肯定還有改進(jìn)的空間?!?/p>



還有人指出「大部分改進(jìn)似乎來(lái)自于測(cè)試框架和協(xié)調(diào)機(jī)制,而不是任何模型特定的調(diào)優(yōu)。沒(méi)有訓(xùn)練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

可問(wèn)題是:為什么在這個(gè)設(shè)置中,X-High 每個(gè)任務(wù)的成本比 High 還要低?是因?yàn)樗ㄟ^(guò)更早找到正確的解決方案而更快收斂,還是因?yàn)闇y(cè)試框架更積極地修剪了無(wú)效的推理過(guò)程?

對(duì)于這個(gè)問(wèn)題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點(diǎn)。



6 人團(tuán)隊(duì)打造 Meta-system 系統(tǒng)

Poetiq 是一支由 6 位研究員和工程師組成的團(tuán)隊(duì),有多位核心成員來(lái)自 Google DeepMind 。

  • Ian Fischer (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 曾是 Google DeepMind 的資深研究員;
  • Shumeet Baluja (聯(lián)合創(chuàng)始人 & 聯(lián)席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



Poetiq 能夠取得上述成績(jī),關(guān)鍵在于其構(gòu)建的meta-system(元系統(tǒng))。

Meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓(xùn)練或微調(diào)模型本身,這意味著它能隨著新模型發(fā)布快速適配并提升性能。

Poetiq meta-system 構(gòu)建了一種迭代式推理過(guò)程,其與傳統(tǒng)一次性生成答案的方法不同,有兩個(gè)主要機(jī)制:

  • 迭代式的問(wèn)題求解循環(huán):系統(tǒng)并不是只向模型提出一次問(wèn)題,而是利用大語(yǔ)言模型(LLM)生成一個(gè)潛在的解決方案,隨后接收反饋、分析反饋,并再次調(diào)用 LLM 對(duì)方案進(jìn)行改進(jìn)。這種多步驟、自我改進(jìn)的過(guò)程,使系統(tǒng)能夠逐步構(gòu)建并不斷完善最終答案。
  • 自我審計(jì)(Self-Auditing):系統(tǒng)能夠自主審計(jì)自身的運(yùn)行進(jìn)度,并自行判斷何時(shí)已經(jīng)獲得足夠的信息、當(dāng)前解決方案是否令人滿意,從而決定終止整個(gè)過(guò)程。這種自我監(jiān)控機(jī)制對(duì)于避免不必要的計(jì)算浪費(fèi)、有效降低整體成本至關(guān)重要。

Poetiq 還特別強(qiáng)調(diào),他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的,而且系統(tǒng)從未直接接觸過(guò) ARC-AGI 任務(wù)集,但依然在多個(gè)不同模型上取得跨版本、跨模型族的性能提升,說(shuō)明 meta-system 對(duì) reasoning 策略具有良好的泛化能力。

正是這種靈活、強(qiáng)大且具備遞歸能力的架構(gòu),使得 Poetiq 這樣一支小規(guī)模團(tuán)隊(duì),能夠在極短時(shí)間內(nèi)取得一系列最先進(jìn)(SOTA)的成果。

對(duì)于這個(gè) meta-system,有人認(rèn)為「太棒了。在模型之上構(gòu)建智能,而不是在模型內(nèi)部構(gòu)建,意味著可以在幾個(gè)小時(shí)內(nèi)適配新模型,非常高明。適配開(kāi)源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過(guò)程本身的基本規(guī)律,而不是模型特定的怪癖?!?/p>



參考鏈接:
https://poetiq.ai/posts/arcagi_verified/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
那對(duì)迎著槍口前進(jìn)的年輕情侶

那對(duì)迎著槍口前進(jìn)的年輕情侶

玖奌雜貨鋪
2026-01-10 19:14:44
單打四強(qiáng)出爐!國(guó)乒3人晉級(jí),陳幸同絕殺張本美和;韓日均剩獨(dú)苗

單打四強(qiáng)出爐!國(guó)乒3人晉級(jí),陳幸同絕殺張本美和;韓日均剩獨(dú)苗

莼侃體育
2026-01-11 05:00:21
35歲少婦出軌被騙財(cái)騙色,高顏值曝光,現(xiàn)場(chǎng)對(duì)話流出原配現(xiàn)場(chǎng)沉默

35歲少婦出軌被騙財(cái)騙色,高顏值曝光,現(xiàn)場(chǎng)對(duì)話流出原配現(xiàn)場(chǎng)沉默

老貓觀點(diǎn)
2026-01-06 09:00:24
電動(dòng)兩輪車新國(guó)標(biāo):一場(chǎng)從“限速上牌”到“智慧網(wǎng)聯(lián)”的產(chǎn)業(yè)升維

電動(dòng)兩輪車新國(guó)標(biāo):一場(chǎng)從“限速上牌”到“智慧網(wǎng)聯(lián)”的產(chǎn)業(yè)升維

鋅財(cái)經(jīng)
2026-01-08 20:15:11
馬杜羅之子:馬杜羅在美國(guó)監(jiān)獄說(shuō)“我們很好,我們是斗士”

馬杜羅之子:馬杜羅在美國(guó)監(jiān)獄說(shuō)“我們很好,我們是斗士”

參考消息
2026-01-11 11:02:23
兩個(gè)中國(guó)最“硬”的男人:一個(gè)給國(guó)家交稅1400億卻家破人亡,一個(gè)喝掉2噸茅臺(tái)把虧損廠干到萬(wàn)億,這才是頂級(jí)狠人!

兩個(gè)中國(guó)最“硬”的男人:一個(gè)給國(guó)家交稅1400億卻家破人亡,一個(gè)喝掉2噸茅臺(tái)把虧損廠干到萬(wàn)億,這才是頂級(jí)狠人!

寄史言志
2026-01-09 18:47:15
馬杜羅被綁后,加拿大總理立刻訪華,行程安排比李在明還有求生欲

馬杜羅被綁后,加拿大總理立刻訪華,行程安排比李在明還有求生欲

梁訊
2026-01-11 04:37:10
特朗普太牛了!在白宮會(huì)晤石油巨頭時(shí)舉重若輕:突然起身去欣賞“工地”

特朗普太牛了!在白宮會(huì)晤石油巨頭時(shí)舉重若輕:突然起身去欣賞“工地”

回旋鏢
2026-01-10 13:30:41
218:213!美眾議院投票出爐,特朗普松口撤軍,美國(guó)霸權(quán)或?qū)⒈桓膶?xiě)

218:213!美眾議院投票出爐,特朗普松口撤軍,美國(guó)霸權(quán)或?qū)⒈桓膶?xiě)

妙知
2026-01-10 19:59:10
霍啟剛公布個(gè)人名下財(cái)產(chǎn)!全球共有35個(gè)物業(yè),收租頗豐生活卻節(jié)儉

霍啟剛公布個(gè)人名下財(cái)產(chǎn)!全球共有35個(gè)物業(yè),收租頗豐生活卻節(jié)儉

阿纂看事
2026-01-10 22:39:19
錢再多有什么用?67歲身價(jià)千萬(wàn)的李幼斌,給所有中老年人提了個(gè)醒

錢再多有什么用?67歲身價(jià)千萬(wàn)的李幼斌,給所有中老年人提了個(gè)醒

夢(mèng)史
2026-01-10 14:02:41
成都61歲男子將長(zhǎng)約17cm紅薯塞入肛門,卡住無(wú)法取出,紅薯尺寸過(guò)大,最終手術(shù)取出

成都61歲男子將長(zhǎng)約17cm紅薯塞入肛門,卡住無(wú)法取出,紅薯尺寸過(guò)大,最終手術(shù)取出

觀威海
2026-01-10 16:54:03
問(wèn)題到底出在哪里?為什么那么多人不信官方說(shuō)法…

問(wèn)題到底出在哪里?為什么那么多人不信官方說(shuō)法…

慧翔百科
2026-01-10 13:44:32
數(shù)千萬(wàn)波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

數(shù)千萬(wàn)波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

南宗歷史
2026-01-10 16:15:24
船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報(bào)警

船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報(bào)警

大象新聞
2026-01-11 10:01:13
特朗普直接念出來(lái)了,魯比奧快“碎”了…

特朗普直接念出來(lái)了,魯比奧快“碎”了…

觀察者網(wǎng)
2026-01-10 22:50:08
“豆腐2刀咋可能切成8塊?”家長(zhǎng)質(zhì)疑題目出錯(cuò)了,反被老師打臉

“豆腐2刀咋可能切成8塊?”家長(zhǎng)質(zhì)疑題目出錯(cuò)了,反被老師打臉

妍妍教育日記
2026-01-09 20:20:36
馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國(guó)

馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國(guó)

跟著老李看世界
2026-01-10 00:02:23
從扣船到炸港僅數(shù)小時(shí),俄軍讓北約明白,手伸太長(zhǎng)必被砍

從扣船到炸港僅數(shù)小時(shí),俄軍讓北約明白,手伸太長(zhǎng)必被砍

星辰夜語(yǔ)
2026-01-10 11:55:24
人民日?qǐng)?bào)罕見(jiàn)“鐘才平”四連評(píng),釋放極強(qiáng)政策信號(hào),信息量巨大!

人民日?qǐng)?bào)罕見(jiàn)“鐘才平”四連評(píng),釋放極強(qiáng)政策信號(hào),信息量巨大!

識(shí)局Insight
2026-01-10 13:23:53
2026-01-11 11:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說(shuō)"我們很好我們是斗士"

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說(shuō)"我們很好我們是斗士"

體育要聞

詹皇曬照不滿打手沒(méi)哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂(lè)要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
教育
游戲
房產(chǎn)

動(dòng)物紋回潮,那很狂野了

手機(jī)要聞

恭喜小米17 Pro系列!恭喜華為Mate 80!友商加油

教育要聞

“這就是補(bǔ)課的下場(chǎng)”,家長(zhǎng)曬學(xué)霸女兒高一成績(jī),哀嘆著

《GTA6》開(kāi)發(fā)慢6大原因!逆天NPC、超強(qiáng)反作弊等

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版