国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

無需再訓練微調,一個輔助系統讓GPT-5.2準確率飆到創(chuàng)紀錄的75%

0
分享至



編輯 | 杜偉、陳陳

什么?決定 AI 上限的已不再是底座模型,而是外圍的「推理編排」(Orchestration)。

在 LLM 完全不變的前提下,僅靠一套 Agentic System,就能讓 AI 的智力表現原地暴漲一截。

在看了「AI 推理和自我改進系統」初創(chuàng)公司 Poetiq 的最新評測之后,有人得出了這樣的結論。



部分截圖

近日,Poetiq 表示其使用 ARC-AGI-2 測試集,在他們的系統上(稱為 meta-system)運行了 GPT-5.2 X-High。該測試集通常被用來衡量當前 SOTA 模型在復雜抽象推理任務上的表現。

結果顯示,在相同的 Poetiq 測試平臺上,GPT?5.2 X?High 在完整的 PUBLIC-EVAL 數據集上的成績高達 75%,這比之前的 SOTA 高出了約 15%,同時每個問題的成本低于 8 美元。

這里的 PUBLIC-EVAL 是 ARC 測試的一部分,前者一般包含基礎推理任務和標準的 NLP、數學推理測試,適合廣泛的模型評測,數據集更為公開、標準;后者包含更多復雜且富有挑戰(zhàn)性的推理問題,考察模型的抽象推理、常識推理、創(chuàng)新能力等,是針對高水平模型的推理極限測試。



下圖展示了各個 SOTA 模型在 PUBLIC-EVAL 數據集上的成績分布:



Poetiq 還特別強調了,其沒有對 GPT-5.2 進行任何再訓練或模型特定的優(yōu)化。

在如此短的時間內,相較于 Poetiq 之前在 PUBLIC-EVAL 數據集上測試的其他模型,GPT-5.2 在準確率和價格方面實現了顯著改進。

Poetiq 進一步做出設想:如果在 PUBLIC-EVAL 測試中表現好的規(guī)律能夠延續(xù)到 ARC Prize 官方的 SEMI-PRIVATE 測試中,那么「GPT-5.2 X-High + Poetiq」會比以往任何系統配置都更強、更好。

ARC Prize 總裁 Greg Kamradt 表示,「很高興看到 Poetiq 發(fā)布 GPT-5.2 X-High 的結果。如果這個成績能保持下去,他們的系統看起來能很好地處理模型交換。不過,在 OpenAI API 的基礎設施問題解決之前,結果還沒有得到完全驗證!

這里的模型交換指的是:系統通過切換不同的模型來應對不同的任務需求,而無需對系統或模型進行大規(guī)模的調整或重新訓練



OpenAI 總裁 Greg Brockman 也轉推表示:GPT-5.2 在 ARC-AGI-2 上超越人類基準成績。



對于全新的測試結果,評論區(qū)提出了更多問題,比如「每個任務平均需要多長時間」。

Poetiq 回復稱,「我們現在沒有專門收集這些統計數據,最簡單的問題大概在 8 到 10 分鐘后就能完成,而最難的問題必須在 12 小時之前終止,以保持在時間限制內。所以,未來肯定還有改進的空間。」



還有人指出「大部分改進似乎來自于測試框架和協調機制,而不是任何模型特定的調優(yōu)。沒有訓練變更的情況下,ARC-AGI-2 上提高了大約 15%,這表明僅在搜索、路由和終止邏輯方面就還有很大的提升空間」。

可問題是:為什么在這個設置中,X-High 每個任務的成本比 High 還要低?是因為它通過更早找到正確的解決方案而更快收斂,還是因為測試框架更積極地修剪了無效的推理過程?

對于這個問題,Poetiq 肯定了「X-High 只是比 High 更快地收斂到正確的答案」這一觀點。



6 人團隊打造 Meta-system 系統

Poetiq 是一支由 6 位研究員和工程師組成的團隊,有多位核心成員來自 Google DeepMind 。

  • Ian Fischer (聯合創(chuàng)始人 & 聯席 CEO): 曾是 Google DeepMind 的資深研究員;
  • Shumeet Baluja (聯合創(chuàng)始人 & 聯席 CEO): 同樣出身于 Google/DeepMind 的資深專家。



Poetiq 能夠取得上述成績,關鍵在于其構建的meta-system(元系統)。

Meta-system 不依賴特定的大模型,可以與任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是訓練或微調模型本身,這意味著它能隨著新模型發(fā)布快速適配并提升性能。

Poetiq meta-system 構建了一種迭代式推理過程,其與傳統一次性生成答案的方法不同,有兩個主要機制:

  • 迭代式的問題求解循環(huán):系統并不是只向模型提出一次問題,而是利用大語言模型(LLM)生成一個潛在的解決方案,隨后接收反饋、分析反饋,并再次調用 LLM 對方案進行改進。這種多步驟、自我改進的過程,使系統能夠逐步構建并不斷完善最終答案。
  • 自我審計(Self-Auditing):系統能夠自主審計自身的運行進度,并自行判斷何時已經獲得足夠的信息、當前解決方案是否令人滿意,從而決定終止整個過程。這種自我監(jiān)控機制對于避免不必要的計算浪費、有效降低整體成本至關重要。

Poetiq 還特別強調,他們所有 meta-system 的適配工作是在新模型發(fā)布前完成的,而且系統從未直接接觸過 ARC-AGI 任務集,但依然在多個不同模型上取得跨版本、跨模型族的性能提升,說明 meta-system 對 reasoning 策略具有良好的泛化能力。

正是這種靈活、強大且具備遞歸能力的架構,使得 Poetiq 這樣一支小規(guī)模團隊,能夠在極短時間內取得一系列最先進(SOTA)的成果。

對于這個 meta-system,有人認為「太棒了。在模型之上構建智能,而不是在模型內部構建,意味著可以在幾個小時內適配新模型,非常高明。適配開源模型,并且成功遷移到新的封閉模型,這表明捕捉到的東西是推理過程本身的基本規(guī)律,而不是模型特定的怪癖!



參考鏈接:
https://poetiq.ai/posts/arcagi_verified/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

A股:剛剛,大消息傳來,信號很明確,不出意外,下周一要變天了

云鵬敘事
2025-12-28 00:00:03
換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

藍色海邊
2025-12-27 07:14:15
湖南驚現“江心城堡”!耗資千萬,就為枕著波浪睡覺?

湖南驚現“江心城堡”!耗資千萬,就為枕著波浪睡覺?

GA環(huán)球建筑
2025-12-26 15:03:49
豆瓣8.6到9.6,今年最頂級的劇,都在這

豆瓣8.6到9.6,今年最頂級的劇,都在這

獨立魚
2025-12-26 22:29:08
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
卡梅。喝簟栋⒎策_》第四部及第五部未能拍成,將舉行新聞發(fā)布會

卡梅。喝簟栋⒎策_》第四部及第五部未能拍成,將舉行新聞發(fā)布會

IT之家
2025-12-27 20:52:05
王詩齡好慘,參加糖心旦晚宴,刻意與何超蓮挨著,卻被何超蓮無視

王詩齡好慘,參加糖心旦晚宴,刻意與何超蓮挨著,卻被何超蓮無視

小娛樂悠悠
2025-12-28 09:50:38
顧客稱在店內飲用星巴克競品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應

顧客稱在店內飲用星巴克競品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應

揚子晚報
2025-12-27 23:20:23
身高兩米女生穿明制漢服去北京故宮引民眾圍觀

身高兩米女生穿明制漢服去北京故宮引民眾圍觀

輿情底牌
2025-12-28 09:42:05
漂亮岳母突然懷孕,可岳父已經去世一年了,詢問下,岳母說都怪我

漂亮岳母突然懷孕,可岳父已經去世一年了,詢問下,岳母說都怪我

神奇的錘子
2024-07-08 21:49:17
原來是他娶了譚維維!被譽為“不老男神”,曾在海拔5600米上求婚

原來是他娶了譚維維!被譽為“不老男神”,曾在海拔5600米上求婚

韓馳
2025-12-25 20:04:01
大波業(yè)主的傳奇

大波業(yè)主的傳奇

求實處
2025-12-28 00:00:09
鄒兆龍憑什么拿《黑客帝國》分紅?因為劇組一個條件,只有他答應

鄒兆龍憑什么拿《黑客帝國》分紅?因為劇組一個條件,只有他答應

一盅情懷
2025-12-13 15:00:04
5艘航母逼近中國近海,特朗普直接打明牌,逼著中國接招!

5艘航母逼近中國近海,特朗普直接打明牌,逼著中國接招!

奉壹數碼
2025-12-26 22:02:25
順差一萬億美元是什么概念?放在200年前,八國聯軍早到家門口了

順差一萬億美元是什么概念?放在200年前,八國聯軍早到家門口了

文史道
2025-12-23 16:15:36
看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

洞見
2025-12-26 21:13:17
可怕!斷親戚率高達63%!斷親現象已成為未來趨勢

可怕!斷親戚率高達63%!斷親現象已成為未來趨勢

另子維愛讀史
2025-12-26 16:11:17
慈禧洗澡后獨留李蓮英伺候,房間里常傳出痛呼,宮女忍不住窺門簾

慈禧洗澡后獨留李蓮英伺候,房間里常傳出痛呼,宮女忍不住窺門簾

宅家伍菇涼
2025-12-27 16:34:05
蘋果折疊屏iPhone尺寸縮水?比預期更小,造型神似護照本

蘋果折疊屏iPhone尺寸縮水?比預期更小,造型神似護照本

環(huán)球網資訊
2025-12-28 09:38:17
全軍覆沒!網貸公司盯上印度市場,結果反被三哥收割得體無完膚!

全軍覆沒!網貸公司盯上印度市場,結果反被三哥收割得體無完膚!

青青子衿
2025-12-26 04:42:30
2025-12-28 13:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12000文章數 142522關注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭什么?

頭條要聞

男子愛奇藝會員充值到2043年遭遇退費難:房貸才30年

頭條要聞

男子愛奇藝會員充值到2043年遭遇退費難:房貸才30年

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機位 高崎機場背后的遺憾

財經要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

本地
教育
數碼
公開課
軍事航空

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

教育要聞

1分鐘搞懂成都高三一診高線!精準定位高考目標

數碼要聞

三星發(fā)布Music Studio 5/7全新Wi-Fi音箱,AI功能加持

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進入關懷版