国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不卷速度卷驗證,陳天橋MiroMind精準(zhǔn)預(yù)測15天后黃金價格

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

一睜眼!陳天橋帶隊的大模型黑馬MiroMind再度滿血歸來——

正式發(fā)布新一代重型推理智能體:MiroThinker-1.7MiroThinker-H1。



何為重型?延續(xù)V1.5的深度推理基因,但任務(wù)更復(fù)雜、結(jié)果更精確。

眼見為實,以基準(zhǔn)測試為例。

MiroThinker-1.7系列發(fā)布即霸榜多項深度研究任務(wù)測試,其中MiroThinker-H1刷新SOTA,超越Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等一眾行業(yè)頂尖閉源模型:

  • BrowseComp(網(wǎng)頁檢索類大模型基準(zhǔn)測試):88.2%
  • BrowseComp-ZH(BrowseComp的中文適配版本):84.4%
  • GAIA-Val-165(GAIA基準(zhǔn)測試驗證集):88.5%
  • HLE-Text(人類終極測試):47.7%

另外開源模型MiroThinker-1.7(235B)和小尺寸的MiroThinker-1.7-mini(30B)也在效率與性能之間達到了最優(yōu)平衡。

換言之,針對差異化的復(fù)雜推理需求,MiroMind已經(jīng)為開發(fā)者們準(zhǔn)備好了各式精準(zhǔn)匹配的模型方案,致力于將算力用在刀刃上。



此外,新模型不僅通用任務(wù)強,在科技金融等專業(yè)領(lǐng)域同樣表現(xiàn)亮眼,它跳出了傳統(tǒng)LLM聊天交互的范疇,轉(zhuǎn)而能夠承擔(dān)起真實的長鏈條智力任務(wù)。

而這是以犧牲模型推理速度為代價的,所以u1s1,MiroMind真的很大膽。

當(dāng)其它大模型廠商都在卷速度,MiroThinker系列專為復(fù)雜長期任務(wù)而生,結(jié)果V1.5大獲全勝、V1.7再度突破。

下面老規(guī)矩,我們實測走起~

會賽車、買黃金,MiroThinker才是真懂行

實測之前,先簡要介紹一下交互界面。

和常規(guī)大模型對話窗口一致,左下角Pro按鈕開啟專業(yè)模式,模型尺寸更大、推理更深入,推理時間也會相應(yīng)延長。

支持文件上傳和語音輸入,還有新上線的MiroMind App可用。



話不多說,先拿最近的F1上海站正賽練練手。眾所周知,受賽車性能、車手狀態(tài)、環(huán)境因素影響,F(xiàn)1比賽結(jié)果預(yù)測難度相當(dāng)之高。

這就非??简?zāi)P蛯崟r抓取信息、綜合判斷多方面因素的能力。

于是在比賽前2小時、比賽中1小時比賽最后半小時三個關(guān)鍵時間節(jié)點,我們分別讓MiroThinker實時預(yù)測排名情況,并與真實結(jié)果進行比對。

首先是比賽正式開始前2小時:

  • 在即將舉辦的F1上海站上,對選手排名進行預(yù)測。



預(yù)測結(jié)果如何暫且不提,光論推理過程和答案的詳實程度,就已經(jīng)遙遙領(lǐng)先~

仔細(xì)看模型思考過程,MiroThinker建立起一條極為完整的信息搜索路徑,包括比賽策略、車隊實力情況、潛在變數(shù)等:

確認(rèn)正賽時間和地點→收集最新的上海站排位賽、沖刺賽以及當(dāng)前賽季情況輔助→從規(guī)則變化到天氣情況逐步細(xì)化→匯總給出合理預(yù)測。

其中每一步都在反復(fù)驗證,以確保后續(xù)推理的可靠性。



至于最終給出的賽前預(yù)測也很全面,先是直接甩出核心結(jié)論一目了然,預(yù)測梅賽德斯大獲全勝、法拉利緊隨、邁凱倫和紅牛位列第二梯隊。

P.S.模型用詞精準(zhǔn)專業(yè),使用“完賽”這一定語,也是未卜先知到了本次比賽的退賽盛況(doge)



然后給出簡要的預(yù)測邏輯以及觀賽建議,用戶體驗感拉滿。



值得一提的是,MiroThinker還支持一鍵生成網(wǎng)頁報告。就這排版這審美,妥妥的打工人福音~



我們也將該問題同時交給ChatGPT、Gemini和DeepSeek進行預(yù)測。

ChatGPT回答相對簡略,對影響變量和預(yù)測理由描述較少。



Gemini的亮點是除了列舉選手排名,還提供賽事核心看點,但在整個答案的完整度上還是MiroThinker占優(yōu)。



DeepSeek的預(yù)測結(jié)果只關(guān)注到了選手歷史成績和車輛情況,考慮得不夠深入。

反觀MiroThinker,它是所有模型中,唯一關(guān)注到當(dāng)前天氣狀況的推理大模型,足以證明其專業(yè)度。



再看比賽進程中1小時,MiroThinker對實時信息的抓取更為突出,既關(guān)注到了當(dāng)前的退賽情況,也能有效分析出每位選手的比賽節(jié)奏和車隊?wèi)?zhàn)略,逐步微調(diào)自己的預(yù)測答案。



到最后30分鐘,MiroThinker給出的預(yù)測答案已經(jīng)和最終結(jié)果完全一致。



由此可見,MiroThinker在三次預(yù)測中逐步完成了信息收斂和復(fù)盤優(yōu)化。最終實現(xiàn),即使F1賽事情況瞬息萬變,但每一次MiroThinker都能給出最貼合當(dāng)前情況的預(yù)測。

有趣的是,再回過頭看第一輪預(yù)測結(jié)果,幾乎所有大模型都預(yù)測梅賽德斯包攬前兩名,但在第三名的預(yù)測上爭斗相當(dāng)激烈,MiroThinker給了和法拉利攜手多年的勒克萊爾,ChatGPT和Gemini支持技術(shù)老道的漢密爾頓,DeepSeek反手給了諾里斯。

結(jié)果萬萬沒想到,邁凱倫雙車退賽、法拉利內(nèi)斗,勒克萊爾再度陷入第四魔咒,“must be the water”(那一定是水)導(dǎo)致的~(doge)



此前,我們也嘗試用MiroThinker預(yù)測金融市場,提前15天預(yù)估黃金價格。

  • 2026年2月25日的黃金價格(XAU/USD)會是多少?



模型當(dāng)時預(yù)測金價是$5185/oz,實際Fortune報價$5181,150 Currency報價$5185.89,CME GCG26收盤價為$5206.40,誤差僅為0.08%($4),保持在合理誤差范圍之內(nèi)。



綜合來看,無論是短期的通用場景預(yù)測,還是中長期的專業(yè)場景預(yù)估,MiroThinker都能做到有理有據(jù),實際結(jié)果與模型預(yù)測高度吻合,且思考過程全部清晰可見。

雖然它還沒有做到像其它模型一樣秒出答案,需要一到兩分鐘的等待時間,但在答案完整度和邏輯鏈上已經(jīng)是next level,足以應(yīng)對絕大多數(shù)真實推理任務(wù)。

并非簡單做加法,而是精準(zhǔn)Scaling

那么為什么MiroThinker能夠做到這一點呢?

還要說回模型的核心技術(shù)突破——重型求解器(heavy-duty solver)。

當(dāng)前行業(yè)內(nèi)要提升推理深度,普遍采用的方案是通過強化學(xué)習(xí)將模型CoT運算時間延長,這類優(yōu)化后的模型在數(shù)學(xué)、編程等領(lǐng)域表現(xiàn)突出。



而MiroThinker-1.7不僅僅是延長思考時間,更是強調(diào)模型的可驗證性和有效交互。具體表現(xiàn)在兩項關(guān)鍵技術(shù)升級上:

1、升級智能體原生訓(xùn)練。

MiroMind注意到一個現(xiàn)象,如果模型每一步?jīng)Q策本身就質(zhì)量不高,即使讓模型完成更多輪的交互,最終結(jié)果也只是在放大低質(zhì)量決策。

所以提升推理性能的關(guān)鍵不是交互次數(shù)的疊加,而是專注增強每一步的質(zhì)量,也就是提升模型的智能體原生能力(agent-native competence),包括三步:

  • 規(guī)劃更可靠:一開始就把問題拆對、把路選對。
  • 推理更準(zhǔn)確:每一步判斷都經(jīng)得起驗證和反思。
  • 長程不走偏:在復(fù)雜任務(wù)中始終對齊最終目標(biāo)。

為此,MiroThinker-1.7在訓(xùn)練過程中新增了一個mid-training(中期訓(xùn)練)階段。

借助大規(guī)模的高質(zhì)量任務(wù)數(shù)據(jù),重點訓(xùn)練模型的規(guī)劃、推理和總結(jié)能力,使其建立起更強的Agent基礎(chǔ)能力,比如目標(biāo)分解、選擇合適的工具調(diào)用、理解工具返回結(jié)果、整合生成最終答案。同時該階段也擴大了模型的通用性。

在此基礎(chǔ)之上,還會加入SFT(監(jiān)督微調(diào))、DPO(偏好優(yōu)化)、RL(強化學(xué)習(xí))進一步將Agent能力內(nèi)化,實現(xiàn)長時任務(wù)穩(wěn)定推理。



2、以驗證為核心的重型推理模式。

然而,要提升單步推理質(zhì)量,也不能僅僅依靠模型自身的Agent推理能力,還需要引入驗證器加以約束,可分為局部驗證和全局驗證:

  • 局部驗證:在推理的每一步,系統(tǒng)都會停下來自我審查,只有通過了局部驗證,系統(tǒng)才會允許繼續(xù)探索該條路徑。在一定程度上,局部驗證能夠打破傳統(tǒng)AI的概率偏置,找到也許當(dāng)下瞬時概率較低但實則最正確的路徑。
  • 全局驗證:在系統(tǒng)生成了幾條完整的推理路徑后,模型會回溯整條數(shù)據(jù)鏈,確保最終答案是推理環(huán)節(jié)最嚴(yán)密的,而不是語義最流暢、看似邏輯自洽的。



總的來說,前者顯著增強智能體原生能力,后者提升交叉驗證可信度,二者深度融合,讓模型在面對復(fù)雜推理問題時能夠表現(xiàn)出精準(zhǔn)可驗證的交互潛力。

另外值得關(guān)注的是,MiroMind還觀察到一個“反直覺”現(xiàn)象:在引入驗證機制后,模型交互步驟數(shù)量明顯減少。

按照常規(guī)邏輯,往往步數(shù)越多、思考越久,模型性能就越強,即Heavy-duty(重型)。

而該現(xiàn)象則說明驗證器在這里充當(dāng)?shù)倪€有過濾器的作用,能夠幫助模型及時篩除掉沒有信息增益的步驟,將算力集中分配到真正推動問題求解的環(huán)節(jié)上。

雖然總步數(shù)減少了,但每一步包含的邏輯推理質(zhì)量更高了,整個推理過程變得高效且精密。

這就引出了MiroThinker系列模型的核心理念——擴展有效交互。

抓住交互關(guān)鍵,“慢”也能彎道超車

從V1.5到V1.7,模型的每一次迭代都能產(chǎn)生行之有效的結(jié)果,這未嘗不是對MiroThinker交互理念的有力驗證。

簡單來說,MiroThinker強調(diào)慢下來、想更多

雖然通過增加對話次數(shù)、工具調(diào)用,能夠非常直觀迅速地刷新基準(zhǔn)測試分?jǐn)?shù),但一旦中間步驟錯誤,錯誤就會像滾雪球一樣累積,直至系統(tǒng)徹底崩潰。

而“慢”推理不追求秒回,而是在行動前暫停、驗證、權(quán)衡,確保在當(dāng)前復(fù)雜場景下推得深、推得對。

這種看似不討巧的選擇,反而成就了MiroThinker在大模型市場中獨樹一幟的風(fēng)格——不急于給出答案,而是專注求證問題背后的深層邏輯。

在算力約束與復(fù)雜任務(wù)的博弈中,MiroThinker沒有盲目堆砌算力,而是更像一位深諳最優(yōu)路徑的理科生,精打細(xì)算將算力落在該去的地方。

結(jié)果也很顯而易見,只要踏實做好有效交互,慢也不等同于落后,反倒是助力LLM走向真實物理世界更扎實。

事實上,如果仔細(xì)看MiroMind的人才梯隊建設(shè),同樣也很“穩(wěn)”

從MiroMind誕生之初,時任盛大副總裁、現(xiàn)任MiroMind COO邴立東博士便開始在新加坡牽頭組建初始團隊,一路保駕護航MiroThinker來到V1.7。



如今團隊實力更是如虎添翼,三位世界級頂尖AI科學(xué)家杜少雷、安波楊凱峪同時加入MiroMind。

他們無一不是模型推理領(lǐng)域的熟手,長期致力于開發(fā)前沿大模型的推理決策能力。他們的加盟,將共同推動MiroThinker朝著會思考、能行動、可信任的方向進化,從而直面科學(xué)、金融和工程領(lǐng)域的實際問題。

至此,隨著核心團隊逐步到位,MiroMind已經(jīng)準(zhǔn)備好更猛烈的下一階段沖鋒。

有技術(shù)、有人才、有資金,還有一以貫之堅持的理念,四角齊全的MiroMind,所以看似入場大模型姍姍來遲,實則每一步都穩(wěn)扎穩(wěn)打,后來者居上也就不足為奇了。

P.S.新模型即將上線官網(wǎng)(https://dr.miromind.ai)提供體驗。

GitHub:https://github.com/MiroMindAI/MiroThinker
HuggingFace:https://huggingface.co/collections/miromind-ai/mirothinker-17

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
15599元華為折疊屏手機才用三天就黑屏!華為服務(wù)中心:維修再掏1999

15599元華為折疊屏手機才用三天就黑屏!華為服務(wù)中心:維修再掏1999

中國能源網(wǎng)
2026-03-14 10:06:25
聯(lián)合國預(yù)警中國人口銳減至5.2億,補貼政策難阻生育率下滑

聯(lián)合國預(yù)警中國人口銳減至5.2億,補貼政策難阻生育率下滑

月下守候
2026-03-17 03:16:27
馬拉松冠軍沖線被裁判阻攔!官方解釋 張水華笑了 網(wǎng)友:你別亂笑

馬拉松冠軍沖線被裁判阻攔!官方解釋 張水華笑了 網(wǎng)友:你別亂笑

念洲
2026-03-16 19:34:39
近三場場均35.7分!德羅贊為何交易不出去?

近三場場均35.7分!德羅贊為何交易不出去?

籃球?qū)嶄?/span>
2026-03-17 00:36:12
被拋尸女子丈夫首發(fā)聲!兇手是老板,兩人你情我愿,果然還有猛料

被拋尸女子丈夫首發(fā)聲!兇手是老板,兩人你情我愿,果然還有猛料

哄動一時啊
2026-03-16 17:30:02
損失慘重:阿聯(lián)酋空軍薩博全球之眼預(yù)警機機庫被摧毀!

損失慘重:阿聯(lián)酋空軍薩博全球之眼預(yù)警機機庫被摧毀!

勝研集
2026-03-16 06:05:35
大發(fā)地產(chǎn)集團老板被帶走調(diào)查

大發(fā)地產(chǎn)集團老板被帶走調(diào)查

地產(chǎn)微資訊
2026-03-16 20:52:38
油價大漲1.7元/升,全國9295汽油“失控”上漲,下次3月23日調(diào)價

油價大漲1.7元/升,全國9295汽油“失控”上漲,下次3月23日調(diào)價

豬友巴巴
2026-03-14 14:11:19
8人傷停!勇士遭尼克斯21分逆轉(zhuǎn)吞5連敗 布倫森30+9唐斯兩雙

8人傷停!勇士遭尼克斯21分逆轉(zhuǎn)吞5連敗 布倫森30+9唐斯兩雙

醉臥浮生
2026-03-16 10:44:35
利物浦大清洗已定!6 大球星 + 主帥必被解雇,薩拉赫在列

利物浦大清洗已定!6 大球星 + 主帥必被解雇,薩拉赫在列

奶蓋熊本熊
2026-03-16 05:09:46
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

好賢觀史記
2026-03-02 20:17:10
美國和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

美國和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

瀲滟晴方DAY
2026-01-28 18:36:19
加拿大、挪威、瑞典、丹麥、芬蘭、冰島,發(fā)布聯(lián)合聲明

加拿大、挪威、瑞典、丹麥、芬蘭、冰島,發(fā)布聯(lián)合聲明

日照日報
2026-03-16 14:45:59
私人催收圍獵、新規(guī)利劍出鞘,這些網(wǎng)貸平臺將被清退丨315專題

私人催收圍獵、新規(guī)利劍出鞘,這些網(wǎng)貸平臺將被清退丨315專題

新浪財經(jīng)
2026-03-16 20:08:16
王千源16歲女兒近照曝光!父女倆現(xiàn)身F1,小蘋果變清秀大姑娘了!

王千源16歲女兒近照曝光!父女倆現(xiàn)身F1,小蘋果變清秀大姑娘了!

老黯談娛
2026-03-16 20:46:59
片約不斷,卻演啥毀啥,《逐玉》里的這個“戲混子”該醒醒了

片約不斷,卻演啥毀啥,《逐玉》里的這個“戲混子”該醒醒了

淚滿過眼
2026-03-17 03:12:29
伊朗已經(jīng)用舉國之力死死拖住美國,而另一邊,中國留給特朗普的時間也不多了

伊朗已經(jīng)用舉國之力死死拖住美國,而另一邊,中國留給特朗普的時間也不多了

環(huán)亞防務(wù)
2026-03-12 14:26:12
首發(fā)蒯紀(jì)聞?wù)鎻姡?鏡頭世界級,再多跟武磊學(xué)一學(xué)射門就更好了

首發(fā)蒯紀(jì)聞?wù)鎻姡?鏡頭世界級,再多跟武磊學(xué)一學(xué)射門就更好了

茜子足球
2026-03-16 14:19:51
日本正式接收“戰(zhàn)斧”,邁出危險一步

日本正式接收“戰(zhàn)斧”,邁出危險一步

環(huán)球網(wǎng)資訊
2026-03-16 07:21:04
中塔敲定合作,9個邊防哨所將拔地而起,這是對塔利班的警告?

中塔敲定合作,9個邊防哨所將拔地而起,這是對塔利班的警告?

探史
2026-03-17 01:58:13
2026-03-17 03:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12291文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”當(dāng)?shù)?,五位養(yǎng)蝦人探討人類出路

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

體育要聞

那個送老奶奶去醫(yī)院的球員 成了隊史第一人

娛樂要聞

姚晨曹郁發(fā)離婚聲明 多年前已結(jié)束婚姻

財經(jīng)要聞

梁文鋒推遲V4,是為根治龍蝦的健忘癥?

汽車要聞

大眾全球首款9系旗艦SUV 上汽大眾ID.ERA 9X首秀

態(tài)度原創(chuàng)

游戲
本地
家居
旅游
公開課

PS5版《星空》26小時后開預(yù)購!kun哥再次強調(diào)

本地新聞

坐標(biāo)北京,過敏季反向遷徒

家居要聞

簡約之美 塵埃落定

旅游要聞

對俄免簽半年 黑龍江俄籍游客增長超六成

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版