国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Echo:預(yù)測智能的一小步,通往通用智能的一大步

0
分享至



機(jī)器之心發(fā)布

大模型能否預(yù)測未來?UniPat AI 構(gòu)建了一套完整的預(yù)測智能基礎(chǔ)設(shè)施,Echo,包含動(dòng)態(tài)評(píng)測引擎、面向未來事件的訓(xùn)練范式和預(yù)測專用模型 EchoZ-1.0。在其公開的 General AI Prediction Leaderboard 上,EchoZ-1.0 穩(wěn)居第一,并在與 Polymarket 人類交易市場的直接對(duì)比中展現(xiàn)出顯著優(yōu)勢。



  • 官網(wǎng)鏈接:https://echo.unipat.ai/
  • 博客鏈接:https://unipat.ai/blog/Echo

一個(gè)懸而未決的驗(yàn)證問題

過去一年,預(yù)測能力越來越受到模型廠商的重視。但預(yù)測領(lǐng)域有一個(gè)根本性的驗(yàn)證難題:你說你能預(yù)測未來,怎么證明?發(fā)布時(shí)的 demo 無法追溯,事后公布的案例存在選擇性偏差,通用基準(zhǔn)測試衡量的是語言理解和推理能力,跟真實(shí)預(yù)測是兩碼事。

UniPat AI 近日發(fā)布的 Echo 系統(tǒng),試圖用一套完整的基礎(chǔ)設(shè)施來回答這個(gè)問題。Echo 由三個(gè)緊密耦合的組件構(gòu)成:

  • 一個(gè)持續(xù)運(yùn)轉(zhuǎn)的動(dòng)態(tài)評(píng)測引擎,
  • 一套面向未來事件的后訓(xùn)練流程(Train-on-Future),
  • 一個(gè)未來可能的 AI 原生預(yù)測 API。

核心模型EchoZ-1.0是第一個(gè)在 Train-on-Future 范式下端到端訓(xùn)練的大語言模型。

在 General AI Prediction Leaderboard 上(2026 年 3 月數(shù)據(jù)),EchoZ-1.0 以 Elo 1034.2 排名第一,領(lǐng)先 Google 的 Gemini-3.1-Pro(1032.2)和 Anthropic 的 Claude-Opus-4.6(1017.2)。排行榜涵蓋 12 個(gè)模型,覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等 7 個(gè)領(lǐng)域,活躍題目超過 1000 道。



EchoZ在排名魯棒性測試中穩(wěn)定第一

排名本身只是一個(gè)快照,排名的穩(wěn)定性更值得關(guān)注。

博客中披露了一組 σ 參數(shù)敏感性測試:調(diào)整 Elo 框架中的 σ 參數(shù)(控制 Brier Score 差異向勝率的轉(zhuǎn)化強(qiáng)度)從 0.01 到 0.50 共 9 個(gè)取值,重新計(jì)算全部模型排名。這個(gè)參數(shù)簡單來說,就是控制“模型之間表現(xiàn)差距”會(huì)被放大到什么程度。

EchoZ 在全部 9 個(gè)分組均保持第一,是唯一排名未發(fā)生任何波動(dòng)的模型。作為對(duì)比,GPT-5.2 的排名在第 2 到第 9 之間波動(dòng)過 8 個(gè)位次。

更有說服力的一個(gè)細(xì)節(jié)是,EchoZ 的競爭對(duì)手不僅有頂級(jí)大模型,還有預(yù)測市場上真實(shí)投入資金的人類交易者的聚合判斷,EchoZ 的 Elo 分?jǐn)?shù)顯著高于這條基線。與此同時(shí),Echo 官網(wǎng)公開了所有預(yù)測問題、模型輸出的概率分布和最終結(jié)算結(jié)果,任何人都可以回溯驗(yàn)證。

三個(gè)層面的可驗(yàn)證性疊加在一起(動(dòng)態(tài)排行榜、實(shí)盤市場對(duì)照、全量數(shù)據(jù)公開),構(gòu)成了 Echo 與此前各種 "AI 預(yù)測" 最根本的區(qū)別。

那么,EchoZ 對(duì)人類預(yù)測者的實(shí)際優(yōu)勢有多大?Unipat AI 給出了一組分層對(duì)比:將 EchoZ 與人類市場在同一預(yù)測批次中的同一問題上進(jìn)行比較,基于 Brier Score 計(jì)算勝率,按領(lǐng)域、預(yù)測期限和市場不確定性三個(gè)維度展開:



  • 政治與治理領(lǐng)域:EchoZ 勝率 63.2%
  • 長期預(yù)測(7 天以上):EchoZ 勝率 59.3%
  • 市場不確定區(qū)間(人類信心 55%-70%):EchoZ 勝率 57.9%

一個(gè)值得注意的規(guī)律是:人類預(yù)測者越猶豫的場景(高不確定性、長時(shí)間跨度、復(fù)雜政治博弈)EchoZ 的優(yōu)勢反而越明顯。這暗示模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢,恰好在人類直覺最不可靠的區(qū)域得到了最大程度的釋放。

一個(gè)持續(xù)生長的評(píng)測引擎

構(gòu)建評(píng)測基準(zhǔn)本身并不新鮮,但 Echo 的做法有一個(gè)關(guān)鍵差異:它構(gòu)建的不是一個(gè)靜態(tài)的題庫,而是一個(gè)能夠自動(dòng)出題、自動(dòng)結(jié)算、持續(xù)更新排名的動(dòng)態(tài)系統(tǒng)。

為什么 "動(dòng)態(tài)" 這件事很重要?

拿一道具體的預(yù)測題來說:"2026 年 3 月 31 日收盤時(shí),全球市值最大的公司是哪家?" 如果模型 A 在 3 月 1 日給出了預(yù)測,模型 B 在 3 月 28 日給出了預(yù)測,兩者的正確率能直接比較嗎?

顯然不能。

越接近結(jié)算時(shí)間,可用信息越多,預(yù)測難度越低。這就是現(xiàn)有預(yù)測基準(zhǔn)的第一個(gè)結(jié)構(gòu)性問題:時(shí)序不對(duì)稱。第二個(gè)問題是題源過于單一:現(xiàn)有基準(zhǔn)的題目幾乎全部來自預(yù)測市場,偏向容易結(jié)算的二元問題,大量來自專業(yè)領(lǐng)域和新興話題的預(yù)測需求被遺漏了。

Echo Leaderboard 的架構(gòu)正是圍繞這兩個(gè)問題展開的。整套系統(tǒng)可以拆解為四個(gè)階段的持續(xù)循環(huán):



Echo 評(píng)測引擎構(gòu)建流程

第一步,數(shù)據(jù)采集。

三條數(shù)據(jù)管道同時(shí)運(yùn)行。

第一條對(duì)接 Polymarket 等預(yù)測市場,篩選有明確結(jié)算規(guī)則和高質(zhì)量共識(shí)信號(hào)的合約。

第二條面向開放域,抓取 Google Trends 等實(shí)時(shí)趨勢,自動(dòng)生成關(guān)于尚未發(fā)生事件的預(yù)測問題,由 agent 持續(xù)搜索進(jìn)展并自動(dòng)結(jié)算。

第三條來自真實(shí)專業(yè)場景:科研、工程、醫(yī)療等領(lǐng)域的專家將自己工作流中有價(jià)值的預(yù)測題貢獻(xiàn)到系統(tǒng)中,并在預(yù)定時(shí)間點(diǎn)給出權(quán)威判定。

從 Polymarket 上的大眾共識(shí)到實(shí)驗(yàn)室里的專家判斷,三條管道覆蓋了一個(gè)相當(dāng)完整的預(yù)測光譜。

第二步,預(yù)測點(diǎn)調(diào)度。

每道題不只做一次預(yù)測。系統(tǒng)使用對(duì)數(shù)調(diào)度算法,根據(jù)題目的結(jié)算周期長度分配多個(gè) prediction points(預(yù)測時(shí)間點(diǎn)),既保證了生命周期內(nèi)的覆蓋密度,又控制了計(jì)算開銷。

第三步,對(duì)戰(zhàn)構(gòu)建。

這是解決時(shí)序不對(duì)稱問題的關(guān)鍵環(huán)節(jié)。評(píng)測使用 point-aligned Elo 機(jī)制:嚴(yán)格只比較 "同一道題、同一預(yù)測時(shí)間點(diǎn)" 的結(jié)果。所有參賽模型在完全相同的信息上下文下對(duì)決,公平性由此建立。

第四步,Elo 評(píng)分更新。

基于 Bradley-Terry MLE 算法計(jì)算全局排名。實(shí)驗(yàn)數(shù)據(jù)顯示,這套框架對(duì)新加入模型的排名收斂速度是傳統(tǒng) Avg Brier 方法的 2.7 倍。



模型排名收斂速度對(duì)比

這四步構(gòu)成一個(gè)不斷循環(huán)的閉環(huán):新題目持續(xù)流入,新的預(yù)測點(diǎn)持續(xù)觸發(fā),對(duì)戰(zhàn)持續(xù)發(fā)生,排行榜持續(xù)更新。用一句話概括:

Echo 造了一把動(dòng)態(tài)校準(zhǔn)的尺子,而這把尺子本身也在不停生長。

Train-on-Future:當(dāng)推理過程本身成為訓(xùn)練信號(hào)

評(píng)測引擎解決了 "怎么量" 的問題,接下來要回答的是 "怎么訓(xùn)"。Echo 的訓(xùn)練流程同樣是一套結(jié)構(gòu)化的系統(tǒng),UniPat 稱之為 Train-on-Future 范式,由三個(gè)核心機(jī)制組成。

在展開之前,有必要先理解傳統(tǒng)路徑(Train-on-Past)為什么走不通。用歷史事件的已知結(jié)果來訓(xùn)練預(yù)測模型,面臨兩個(gè)很難繞過的困難。第一個(gè)是工程悖論:互聯(lián)網(wǎng)內(nèi)容持續(xù)更新,用過去的事件做訓(xùn)練題時(shí),模型在搜索網(wǎng)頁的過程中幾乎必然會(huì)撞上包含答案的信息,數(shù)據(jù)泄露在工程實(shí)現(xiàn)上極難杜絕。第二個(gè)是結(jié)果導(dǎo)向偏差:現(xiàn)實(shí)事件充滿隨機(jī)性,一個(gè)邏輯嚴(yán)密的分析可能因?yàn)楹谔禊Z事件而給出 "錯(cuò)誤" 答案,一個(gè)粗糙的猜測可能碰巧命中。直接用最終結(jié)果做訓(xùn)練信號(hào),模型很容易過擬合到噪聲上。

Train-on-Future 的三個(gè)機(jī)制分別瞄準(zhǔn)了這些問題:

機(jī)制一:動(dòng)態(tài)問題合成。與使用歷史題庫不同,Echo 通過一條自動(dòng)化管道,持續(xù)從實(shí)時(shí)數(shù)據(jù)流中生成關(guān)于未來事件的高信息量預(yù)測問題。因?yàn)槊康李}都關(guān)乎尚未發(fā)生的事件,訓(xùn)練天然不存在數(shù)據(jù)泄露的問題。

機(jī)制二:Automated Rubric Search。這是整個(gè)訓(xùn)練范式中最有技術(shù)含量的部分。Echo 的做法是:把訓(xùn)練信號(hào)建立在推理過程的質(zhì)量上,而非最終預(yù)測的對(duì)錯(cuò)。但隨之而來的問題是,"好的推理過程" 該如何定義?

舉一個(gè)體育預(yù)測領(lǐng)域的具體例子。Echo 的 Rubric 中有一個(gè)維度叫做"Precursor and External Catalyst Evaluation",評(píng)估模型是否利用高度相關(guān)的先行信號(hào)或外部驅(qū)動(dòng)因素。得 5 分的標(biāo)準(zhǔn)是:識(shí)別具體的近期或即將發(fā)生的催化因素(如關(guān)鍵球員回歸、連續(xù)客場結(jié)束、關(guān)鍵對(duì)位變化),并分析這些因素與比賽結(jié)果之間的歷史關(guān)聯(lián)。得 1 分的標(biāo)準(zhǔn)是:僅泛泛提及 “狀態(tài)不錯(cuò)” 或 “士氣提升” 等模糊因素,而未綁定具體可驗(yàn)證事件。

另一個(gè)維度是"Multi-Factor Causal Synthesis",評(píng)估模型是否將多個(gè)獨(dú)立因素整合為一個(gè)有因果結(jié)構(gòu)的預(yù)測結(jié)論。得 5 分的標(biāo)準(zhǔn)是:明確整合至少三個(gè)相互獨(dú)立的因素(如傷病情況、近期狀態(tài)、主客場表現(xiàn)、賠率基線),并解釋這些因素如何相互作用(如傷病削弱進(jìn)攻效率,而主場優(yōu)勢部分對(duì)沖該影響),最終形成一個(gè)加權(quán)后的整體判斷。得 1 分的標(biāo)準(zhǔn)是:僅基于單一因素(如 “某隊(duì)最近連勝”)直接得出結(jié)論,或簡單羅列信息而沒有解釋各因素之間的作用關(guān)系。

總結(jié)來說,這兩個(gè)維度分別關(guān)注模型是否能夠在時(shí)間維度上引入可量化的前瞻性的關(guān)鍵變化,并在同一時(shí)點(diǎn)上將這些變化與既有信息整合為結(jié)構(gòu)化的因果判斷,從而提升預(yù)測的完整性與動(dòng)態(tài)適應(yīng)能力。



模型按rubrics打分的排名與Elo排名相關(guān)系數(shù)隨rubrics質(zhì)量提升而提升

這些維度高度具體,顯然不是泛泛而談的 "推理質(zhì)量"。但靠人工設(shè)計(jì)也走不遠(yuǎn),預(yù)測領(lǐng)域噪聲極高,不同領(lǐng)域的邏輯差異很大。Echo 把這個(gè)問題轉(zhuǎn)化成了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的搜索任務(wù):由 LLM 生成候選評(píng)分標(biāo)準(zhǔn)(rubric),每一輪基于上一輪的反饋進(jìn)行迭代,搜索目標(biāo)是讓 rubric 產(chǎn)生的模型排名與真實(shí) Elo 排名之間的 Spearman ρ 最大化。搜索按領(lǐng)域獨(dú)立進(jìn)行,政治領(lǐng)域和體育領(lǐng)域各自搜索出 20 個(gè)評(píng)分維度。實(shí)驗(yàn)數(shù)據(jù)顯示,rubric 的評(píng)估質(zhì)量在迭代過程中持續(xù)攀升。

機(jī)制三:Map-Reduce Agent 架構(gòu)。訓(xùn)練完成后,EchoZ-1.0 在推理階段采用分布式的 Map-Reduce 流程。Map 階段將一個(gè)宏觀預(yù)測問題分解為多個(gè)正交子任務(wù),派出多個(gè) agent 并行完成信息采集和領(lǐng)域推理;Reduce 階段由聚合節(jié)點(diǎn)處理跨源沖突、對(duì)齊因果鏈,輸出最終的概率判斷。這個(gè)循環(huán)支持多輪自適應(yīng)迭代,直到信息覆蓋度和推理深度趨于穩(wěn)定。

這套訓(xùn)練范式的本質(zhì)可以這樣理解:

不僅考察模型猜對(duì)了沒有,也考察模型的分析過程是不是優(yōu)秀。

而 "評(píng)價(jià)分析過程" 這件事本身,也由這個(gè)系統(tǒng)自動(dòng)完成。

值得留意的下一步

據(jù)了解,UniPat 計(jì)劃將 EchoZ-1.0 的預(yù)測能力封裝為一套 AI-native Prediction API 對(duì)外開放。從博客已披露的技術(shù)架構(gòu)來看,這套 API 將支持自然語言形式的預(yù)測問題輸入,返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評(píng)估和監(jiān)測建議的完整結(jié)構(gòu)化報(bào)告,每份報(bào)告由多輪 Map-Reduce agent 對(duì)實(shí)時(shí)網(wǎng)絡(luò)證據(jù)循環(huán)檢索和推理后生成。

UniPat 在官網(wǎng)上為 Echo 寫下了這樣一句話:"The future is no longer a probability you guess — it is a parameter you integrate."

當(dāng)預(yù)測從一種直覺判斷變成一個(gè)可調(diào)用、可集成的參數(shù),它能嵌入的決策場景,金融市場、算法交易、企業(yè)戰(zhàn)略,遠(yuǎn)比當(dāng)前看到的要多。UniPat 為 Echo 定義了四個(gè)關(guān)鍵詞:General、Evaluable、Trainable,以及 Profitable。而落地的效果,則需要期待 API 的正式上線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中東戰(zhàn)火升級(jí)!伊朗采購36架殲-10,沙特花60億搶貨,老美急了?

中東戰(zhàn)火升級(jí)!伊朗采購36架殲-10,沙特花60億搶貨,老美急了?

環(huán)球情報(bào)員
2026-03-31 00:01:08
4月1日新規(guī)落地,私家車嚴(yán)查全面上線,這些壞習(xí)慣千萬別再犯

4月1日新規(guī)落地,私家車嚴(yán)查全面上線,這些壞習(xí)慣千萬別再犯

復(fù)轉(zhuǎn)這些年
2026-03-30 12:34:51
貴州茅臺(tái)時(shí)隔近兩年半再提價(jià),飛天茅臺(tái)自營體系零售價(jià)調(diào)整為1539元/瓶

貴州茅臺(tái)時(shí)隔近兩年半再提價(jià),飛天茅臺(tái)自營體系零售價(jià)調(diào)整為1539元/瓶

界面新聞
2026-03-30 20:29:15
史無前例,全世界的有錢人正在瘋狂涌入上海。

史無前例,全世界的有錢人正在瘋狂涌入上海。

流蘇晚晴
2026-03-30 18:09:33
A股:剛剛,大消息落地,股民做好準(zhǔn)備,明天周二將迎來新的變化

A股:剛剛,大消息落地,股民做好準(zhǔn)備,明天周二將迎來新的變化

云鵬敘事
2026-03-31 00:00:11
今年,蚊子瘋狂?

今年,蚊子瘋狂?

中國新聞周刊
2026-03-30 22:24:41
西班牙宣布對(duì)參與美伊戰(zhàn)事的軍用飛機(jī)關(guān)閉領(lǐng)空

西班牙宣布對(duì)參與美伊戰(zhàn)事的軍用飛機(jī)關(guān)閉領(lǐng)空

每日經(jīng)濟(jì)新聞
2026-03-30 15:35:32
胡塞已參戰(zhàn),美媒著急了:中國老說我們不靠譜,這次正中下懷

胡塞已參戰(zhàn),美媒著急了:中國老說我們不靠譜,這次正中下懷

Ck的蜜糖
2026-03-31 03:11:40
核武器殉爆?以色列政府發(fā)布危險(xiǎn)物質(zhì)泄露,伊朗這回中大樂透了!

核武器殉爆?以色列政府發(fā)布危險(xiǎn)物質(zhì)泄露,伊朗這回中大樂透了!

掉了顆大白兔糖
2026-03-30 18:24:01
單依純的尷尬不在于翻唱,而是無歌可唱

單依純的尷尬不在于翻唱,而是無歌可唱

牛角說
2026-03-30 12:41:23
韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個(gè)字,發(fā)現(xiàn)“鬧大”后刪除博文

韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個(gè)字,發(fā)現(xiàn)“鬧大”后刪除博文

大風(fēng)新聞
2026-03-29 21:59:02
澤連斯基獲諾貝爾和平獎(jiǎng)提名,俄羅斯著名博主發(fā)出悲觀論調(diào)

澤連斯基獲諾貝爾和平獎(jiǎng)提名,俄羅斯著名博主發(fā)出悲觀論調(diào)

史政先鋒
2026-03-30 14:56:15
棒打玉蘭花的環(huán)衛(wèi)工為啥不可憐了

棒打玉蘭花的環(huán)衛(wèi)工為啥不可憐了

阿亮評(píng)論
2026-03-30 17:45:33
高盛:市場悲觀情緒接近極限 一旦戰(zhàn)爭局勢降溫股市或大幅反彈

高盛:市場悲觀情緒接近極限 一旦戰(zhàn)爭局勢降溫股市或大幅反彈

財(cái)聯(lián)社
2026-03-30 18:45:05
“直接崩了”,價(jià)格斷崖式下跌!有人瘋狂拋售…商戶:銷量跌了60%都不止

“直接崩了”,價(jià)格斷崖式下跌!有人瘋狂拋售…商戶:銷量跌了60%都不止

申消費(fèi)
2026-03-30 10:36:28
美國華盛頓特區(qū)撞機(jī)事故畫面曝光:67人遇難,無人生還

美國華盛頓特區(qū)撞機(jī)事故畫面曝光:67人遇難,無人生還

IT之家
2026-03-30 21:58:15
特朗普:伊朗政權(quán)已更迭,將放行20艘油輪!伊朗副總統(tǒng):將重塑霍爾木茲海峽管理制度

特朗普:伊朗政權(quán)已更迭,將放行20艘油輪!伊朗副總統(tǒng):將重塑霍爾木茲海峽管理制度

紅星新聞
2026-03-30 13:21:16
難怪紅霉素軟膏越來越好,這7大用途超厲害,早知道早受益!

難怪紅霉素軟膏越來越好,這7大用途超厲害,早知道早受益!

妙招酷
2026-03-26 22:33:25
剛送別張雪峰,11歲女兒收到第一張江湖令!

剛送別張雪峰,11歲女兒收到第一張江湖令!

職場火鍋
2026-03-30 15:42:03
真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

球童無忌
2026-03-30 14:39:34
2026-03-31 03:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對(duì)伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對(duì)伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時(shí)12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

本地
游戲
教育
數(shù)碼
公開課

本地新聞

用Color Walk的方式解鎖城市春日

《紅色沙漠》Steam熱更新上線 修復(fù)光線重建問題

教育要聞

靜待花開:一位母親與青春期兒子的“破冰”之旅——林亭亭家教好故事

數(shù)碼要聞

OPPO Pad 5 Pro平板現(xiàn)身官網(wǎng),消息稱將搭載第五代驍龍8至尊版

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版