国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型預(yù)言家誕生!中國(guó)團(tuán)隊(duì)登頂全球榜單,馬斯克預(yù)言被改寫?

0
分享至



大模型圈,變天了。

近日,一份名為FutureX的全球動(dòng)態(tài)評(píng)測(cè)榜單刷新了成績(jī)。北京中關(guān)村學(xué)院信息智能團(tuán)隊(duì)自主研發(fā)的智能體系統(tǒng)Milkyway,以60.9分的絕對(duì)優(yōu)勢(shì)霸榜!



這個(gè)分?jǐn)?shù)有多夸張?

作為對(duì)比,由埃隆·馬斯克(Elon Musk)旗下xAI打造、曾被寄予厚望的Grok-4,在這份榜單上僅拿到了25.9分。Milkyway的得分是它的一倍還多(Grok-4曾拿下該項(xiàng)目的首期冠軍)。

陳天橋團(tuán)隊(duì)的MiroFlow框架(搭載GPT-5等),得分也高達(dá)57.5分。它在最難的Level 4依然能逼近50分大關(guān),對(duì)復(fù)雜不確定性的掌控力令人驚嘆。



智譜的GLM-5-thinking則拿到37.3分,深度求索的DeepSeek-V3.2-thinking拿下31.2分。阿里的千問Qwen-3.5-plus-thinking則拿到26.9分,位列第17。

Grok-4以25.9分排在第18位。馬斯克曾公開斷言:“預(yù)測(cè)未來的能力,是對(duì)模型智能性最好的測(cè)試!



如今,這場(chǎng)關(guān)于“預(yù)言能力”的殘酷試煉,撕下了傳統(tǒng)大模型靠“刷靜態(tài)題庫”營(yíng)造的遮羞布。

過去幾年,所有前沿大模型在MMLU、HumanEval這些傳統(tǒng)學(xué)術(shù)題庫里,幾乎都能輕松刷出90%以上的高分。

但商業(yè)世界不需要做題家。市場(chǎng)真正關(guān)心的是:大模型能預(yù)測(cè)下周某款爆品的銷量嗎?能判斷地緣博弈的走向嗎?

一部分敏銳的頂尖團(tuán)隊(duì)已經(jīng)交出了答卷。在FutureX已經(jīng)公開的過往實(shí)戰(zhàn)記錄(FutureX-Past數(shù)據(jù)集)中,記錄了大量被AI智能體成功拆解的真實(shí)世界考題:

比如微觀商業(yè)。AI需要在2025年底,通過自主抓取網(wǎng)頁和歷史數(shù)據(jù),預(yù)測(cè)Temu美國(guó)區(qū)特定商戶在12月5日的某款商品精準(zhǔn)銷量。

比如宏觀氣候。AI需要基于NASA的Gistemp數(shù)據(jù),推演12月全球平均氣溫相較于歷史基準(zhǔn)期的偏差。

甚至還有高度嘈雜的地緣政治與體育賽事。預(yù)測(cè)誰能進(jìn)入2026年1月葡萄牙總統(tǒng)選舉的第二輪;預(yù)測(cè)墨西哥甲級(jí)聯(lián)賽中,克雷塔羅足球俱樂部對(duì)陣蒂華納的賽果。

面對(duì)這些問題,瞎蒙是沒有用的。系統(tǒng)必須像頂級(jí)情報(bào)分析師一樣,在全球碎片化的蛛絲馬跡中搜尋信號(hào),過濾虛假新聞,最終給出一個(gè)沒有模糊空間的答案。

對(duì)錯(cuò),全由現(xiàn)實(shí)世界來裁定。

為什么各大巨頭現(xiàn)在都盯著FutureX?因?yàn)樗钦嬲摹伴]卷實(shí)戰(zhàn)”。

這個(gè)由字節(jié)跳動(dòng)Seed團(tuán)隊(duì)、斯坦福大學(xué)、復(fù)旦大學(xué)和普林斯頓大學(xué)等聯(lián)合發(fā)起的國(guó)際評(píng)測(cè)基準(zhǔn),徹底干掉了一個(gè)大模型作弊的溫床——數(shù)據(jù)污染。

以往的靜態(tài)考題,模型在訓(xùn)練時(shí)可能早就把答案背下來了。但FutureX考的是尚未揭曉的未來事件。它每天從全球195個(gè)高質(zhì)量信源中實(shí)時(shí)提取新考題,模型根本無從作弊。

FutureX采用的是“折疊式”評(píng)分邏輯,拒絕模型靠蒙對(duì)簡(jiǎn)單的“是與否”來刷分。它大幅壓縮了二元對(duì)立事件的數(shù)量,并將難度分為四個(gè)等級(jí):



Level 1是基礎(chǔ)事件,權(quán)重僅占10% 8。

Level 2考察有變量的趨勢(shì)預(yù)測(cè),占20% 8。

Level 3(多步深度推理)與Level 4(極高不確定性的宏觀預(yù)測(cè))作為難點(diǎn)資產(chǎn),合計(jì)占了總分的70%。

這就像是一張考卷,前面的選擇題只占30分,剩下70分全是需要海量推演的壓軸大題。



在這種高壓測(cè)試下,2026年3月的真實(shí)榜單展現(xiàn)出了極其冰冷的技術(shù)分化。

以被其他家反超的Grok-4為例,拆解Grok-4的成績(jī)單會(huì)發(fā)現(xiàn)一個(gè)致命弱點(diǎn):它在Level 1的簡(jiǎn)單任務(wù)里拿了71.43的高分,但在需要深度推理的Level 3,得分卻發(fā)生了斷崖式下跌,僅有8.21分。而以第三方Agent接入的基礎(chǔ)模型GPT5.2更是慘烈,如同失去方向感的盲人,僅得10.3分。

不過,總分拉胯不代表全盤皆輸。為了更精準(zhǔn)地衡量大模型的工業(yè)落地能力,F(xiàn)utureX專門設(shè)立了“細(xì)分預(yù)測(cè)任務(wù)”(涵蓋基礎(chǔ)事件與要求極高精度的FutureX-Pro垂直領(lǐng)域),這直接暴露了各家大模型的“偏科”體質(zhì):



政治與科技領(lǐng)域:擅長(zhǎng)邏輯推理的GPT-5分別以72%和68%的準(zhǔn)確率稱霸,DeepSeek-R1和Claude-3.7緊隨其后。

體育賽事(高頻動(dòng)態(tài)博弈):DeepSeek-R1拔得頭籌(64%),Claude-3.7(60%)排在次席。

金融(FutureX-Finance):要求預(yù)測(cè)財(cái)報(bào)和宏觀指標(biāo),誤差必須控制在5%以內(nèi)。GPT-5-high和Grok-4在這里找回了主場(chǎng),分別以46.37和41.25分領(lǐng)跑。

零售(FutureX-Retail):考驗(yàn)銷量與供應(yīng)鏈預(yù)測(cè)。Claude-Opus和Kimi-K2展現(xiàn)出極強(qiáng)的“商業(yè)直覺”,在評(píng)估不確定性的概率分布任務(wù)上得分最高。

公共衛(wèi)生(FutureX-PublicHealth):解讀官方公報(bào)預(yù)測(cè)疾病指標(biāo)。GPT-5-High和Kimi-K2-thinking憑借極高的問題覆蓋率占據(jù)榜首。

此外,字節(jié)的豆包(Seed1.6)和谷歌的Gemini Deep Research也在各類高難度交叉分析榜單中穩(wěn)居前四。

Milkyway和MiroMind之所以能在綜合榜單上超越這些“偏科”的算力怪獸,秘密不在于參數(shù)量,而在于“Harness層(腳手架)”和“驗(yàn)證機(jī)制”的深度攻關(guān)。它們引入了DAG(有向無環(huán)圖)推理協(xié)議和雙層驗(yàn)證器。簡(jiǎn)單來說,它們?cè)谀P蛢?nèi)部建了一個(gè)“風(fēng)控中臺(tái)”,每搜索一條信息、每推理一步,都有機(jī)制在實(shí)時(shí)審計(jì),強(qiáng)制糾錯(cuò)。

FutureX的榜單更迭,不僅僅是一場(chǎng)技術(shù)極客的狂歡,它向所有創(chuàng)業(yè)者和普通人釋放了一個(gè)強(qiáng)烈的信號(hào):

第一,套殼聊天的時(shí)代結(jié)束了。

大模型的價(jià)值不再是寫幾首詩、寫幾封郵件,而是走向“Action Engine(行動(dòng)引擎)”。誰能幫企業(yè)在紅海物流停擺前提前兩周調(diào)整供應(yīng)鏈?誰能在金融市場(chǎng)里捕捉到微弱的宏觀信號(hào)?高價(jià)值的“預(yù)見力”才是下一步的真金白銀。

第二,產(chǎn)業(yè)鏈的縫隙藏著大機(jī)會(huì)。

沒有哪一個(gè)模型能夠通吃所有細(xì)分領(lǐng)域。這正是創(chuàng)業(yè)者的機(jī)會(huì)。搭建更優(yōu)秀的智能體外殼(Agent Harness)、設(shè)計(jì)更抗干擾的驗(yàn)證流、在特定垂直領(lǐng)域(如零售銷量、病理演變、區(qū)域地緣)投喂高質(zhì)量的反饋信號(hào)。

未來的贏家,不一定是擁有最多GPU的人,但一定是最懂如何在不確定性中建立規(guī)則、馴服AI的人。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳麗華的前丈夫叫王友發(fā),但她的孩子們卻都姓趙,令人費(fèi)解

陳麗華的前丈夫叫王友發(fā),但她的孩子們卻都姓趙,令人費(fèi)解

童叔不飆車
2026-04-17 16:00:52
打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國(guó),不是以色列,而是他們

打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國(guó),不是以色列,而是他們

比利
2026-04-15 19:48:47
男人胡子長(zhǎng)得快,說明了什么?刮胡子頻率與壽命有關(guān)?告訴你答案

男人胡子長(zhǎng)得快,說明了什么?刮胡子頻率與壽命有關(guān)?告訴你答案

熊貓醫(yī)學(xué)社
2026-03-31 11:40:03
陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

老杉說歷史
2026-03-21 17:38:44
長(zhǎng)公主被家暴流產(chǎn)了

長(zhǎng)公主被家暴流產(chǎn)了

毒舌扒姨太
2026-04-08 22:29:19
基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

南財(cái)社V
2026-04-08 20:47:49
2-0擊敗深圳新鵬城,重慶銅梁龍豪取3連勝,向余望打入中超處子球

2-0擊敗深圳新鵬城,重慶銅梁龍豪取3連勝,向余望打入中超處子球

側(cè)身凌空斬
2026-04-17 21:30:26
真實(shí)的酒吧夜店女孩,只是看起來很漂亮

真實(shí)的酒吧夜店女孩,只是看起來很漂亮

微微熱評(píng)
2026-04-13 12:18:55
大疆pocket4開賣,價(jià)格直接破發(fā)了,發(fā)現(xiàn)線上居然便宜兩三百

大疆pocket4開賣,價(jià)格直接破發(fā)了,發(fā)現(xiàn)線上居然便宜兩三百

辣條叨叨叨
2026-04-16 23:35:50
多方回應(yīng)東莞空調(diào)外掛機(jī)高空墜落險(xiǎn)些傷人:夜間違規(guī)施工

多方回應(yīng)東莞空調(diào)外掛機(jī)高空墜落險(xiǎn)些傷人:夜間違規(guī)施工

南方都市報(bào)
2026-04-16 18:16:27
何潔直播間僅200人!被刷過氣不回懟,連唱半小時(shí),認(rèn)真模樣感人

何潔直播間僅200人!被刷過氣不回懟,連唱半小時(shí),認(rèn)真模樣感人

大魚娛樂觀
2026-04-16 23:27:14
50歲林心如增肥后更漂亮,穿黑色上衣+格紋裙好顯貴,差點(diǎn)認(rèn)不出

50歲林心如增肥后更漂亮,穿黑色上衣+格紋裙好顯貴,差點(diǎn)認(rèn)不出

蓓小西
2026-04-15 08:55:33
一覽眾山小,阿迪達(dá)斯發(fā)布梅西宣傳視頻,用山羊致敬“GOAT”

一覽眾山小,阿迪達(dá)斯發(fā)布梅西宣傳視頻,用山羊致敬“GOAT”

懂球帝
2026-04-17 01:10:11
急了?奧迪官宣推出中國(guó)專屬車,賭上身家,只為挽回中國(guó)市場(chǎng)?

急了?奧迪官宣推出中國(guó)專屬車,賭上身家,只為挽回中國(guó)市場(chǎng)?

車友觀察
2026-04-17 14:59:25
高鐵競(jìng)標(biāo)竟有內(nèi)幕:西門子和日本私下密謀漲價(jià),劉志軍如何應(yīng)對(duì)

高鐵競(jìng)標(biāo)竟有內(nèi)幕:西門子和日本私下密謀漲價(jià),劉志軍如何應(yīng)對(duì)

紅豆講堂
2024-10-07 03:55:03
5月底,月老出手牽線,有緣人就在身邊的三個(gè)星座,緣分天注定

5月底,月老出手牽線,有緣人就在身邊的三個(gè)星座,緣分天注定

小晴星座說
2026-04-17 18:14:46
實(shí)錘!利物浦成英超猛將首選下家,斯洛特再續(xù)前緣?

實(shí)錘!利物浦成英超猛將首選下家,斯洛特再續(xù)前緣?

一隅非生
2026-04-17 06:58:47
董宇輝清空微博,“法不責(zé)輝”成熱梗,郎咸平恐怕忽視了一種力量

董宇輝清空微博,“法不責(zé)輝”成熱梗,郎咸平恐怕忽視了一種力量

讀鬼筆記
2026-04-17 20:21:46
羅馬諾:穆帥愿意執(zhí)教皇馬!

羅馬諾:穆帥愿意執(zhí)教皇馬!

林子說事
2026-04-17 16:42:48
天津女排換帥傳聞:迷霧與真相,陳方該下課嗎?

天津女排換帥傳聞:迷霧與真相,陳方該下課嗎?

王稱吃吃喝喝
2026-04-16 21:23:39
2026-04-18 02:44:49
哭藍(lán)了海a
哭藍(lán)了海a
哭藍(lán)了海
484文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
公開課
軍事航空

教育要聞

別再無效卷了你需要一套不累的學(xué)習(xí)系統(tǒng)!

家居要聞

法式線條 時(shí)光靜淌

數(shù)碼要聞

庫克都沒想到:MacBook Neo賣爆了!官網(wǎng)交付已排到5月

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以;10天 以方稱不會(huì)撤軍

無障礙瀏覽 進(jìn)入關(guān)懷版