網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

不卷速度卷驗證，陳天橋MiroMind精準(zhǔn)預(yù)測15天后黃金價格

2026-03-16 14:45:37　來源: 量子位

北京舉報

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

一睜眼！陳天橋帶隊的大模型黑馬MiroMind再度滿血歸來——

正式發(fā)布新一代重型推理智能體：MiroThinker-1.7和MiroThinker-H1。

何為重型？延續(xù)V1.5的深度推理基因，但任務(wù)更復(fù)雜、結(jié)果更精確。

眼見為實，以基準(zhǔn)測試為例。

MiroThinker-1.7系列發(fā)布即霸榜多項深度研究任務(wù)測試，其中MiroThinker-H1刷新SOTA，超越Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等一眾行業(yè)頂尖閉源模型：

BrowseComp（網(wǎng)頁檢索類大模型基準(zhǔn)測試）：88.2%
BrowseComp-ZH（BrowseComp的中文適配版本）：84.4%
GAIA-Val-165（GAIA基準(zhǔn)測試驗證集）：88.5%
HLE-Text（人類終極測試）：47.7%

另外開源模型MiroThinker-1.7（235B）和小尺寸的MiroThinker-1.7-mini（30B）也在效率與性能之間達到了最優(yōu)平衡。

換言之，針對差異化的復(fù)雜推理需求，MiroMind已經(jīng)為開發(fā)者們準(zhǔn)備好了各式精準(zhǔn)匹配的模型方案，致力于將算力用在刀刃上。

此外，新模型不僅通用任務(wù)強，在科技金融等專業(yè)領(lǐng)域同樣表現(xiàn)亮眼，它跳出了傳統(tǒng)LLM聊天交互的范疇，轉(zhuǎn)而能夠承擔(dān)起真實的長鏈條智力任務(wù)。

而這是以犧牲模型推理速度為代價的，所以u1s1，MiroMind真的很大膽。

當(dāng)其它大模型廠商都在卷速度，MiroThinker系列專為復(fù)雜長期任務(wù)而生，結(jié)果V1.5大獲全勝、V1.7再度突破。

下面老規(guī)矩，我們實測走起～

會賽車、買黃金，MiroThinker才是真懂行

實測之前，先簡要介紹一下交互界面。

和常規(guī)大模型對話窗口一致，左下角Pro按鈕開啟專業(yè)模式，模型尺寸更大、推理更深入，推理時間也會相應(yīng)延長。

支持文件上傳和語音輸入，還有新上線的MiroMind App可用。

話不多說，先拿最近的F1上海站正賽練練手。眾所周知，受賽車性能、車手狀態(tài)、環(huán)境因素影響，F(xiàn)1比賽結(jié)果預(yù)測難度相當(dāng)之高。

這就非?？简?zāi)Ｐ蛯崟r抓取信息、綜合判斷多方面因素的能力。

于是在比賽前2小時、比賽中1小時、比賽最后半小時三個關(guān)鍵時間節(jié)點，我們分別讓MiroThinker實時預(yù)測排名情況，并與真實結(jié)果進行比對。

首先是比賽正式開始前2小時：

在即將舉辦的F1上海站上，對選手排名進行預(yù)測。

預(yù)測結(jié)果如何暫且不提，光論推理過程和答案的詳實程度，就已經(jīng)遙遙領(lǐng)先～

仔細(xì)看模型思考過程，MiroThinker建立起一條極為完整的信息搜索路徑，包括比賽策略、車隊實力情況、潛在變數(shù)等：

確認(rèn)正賽時間和地點→收集最新的上海站排位賽、沖刺賽以及當(dāng)前賽季情況輔助→從規(guī)則變化到天氣情況逐步細(xì)化→匯總給出合理預(yù)測。

其中每一步都在反復(fù)驗證，以確保后續(xù)推理的可靠性。

至于最終給出的賽前預(yù)測也很全面，先是直接甩出核心結(jié)論一目了然，預(yù)測梅賽德斯大獲全勝、法拉利緊隨、邁凱倫和紅牛位列第二梯隊。

P.S.模型用詞精準(zhǔn)專業(yè)，使用“完賽”這一定語，也是未卜先知到了本次比賽的退賽盛況（doge）

然后給出簡要的預(yù)測邏輯以及觀賽建議，用戶體驗感拉滿。

值得一提的是，MiroThinker還支持一鍵生成網(wǎng)頁報告。就這排版這審美，妥妥的打工人福音～

我們也將該問題同時交給ChatGPT、Gemini和DeepSeek進行預(yù)測。

ChatGPT回答相對簡略，對影響變量和預(yù)測理由描述較少。

Gemini的亮點是除了列舉選手排名，還提供賽事核心看點，但在整個答案的完整度上還是MiroThinker占優(yōu)。

DeepSeek的預(yù)測結(jié)果只關(guān)注到了選手歷史成績和車輛情況，考慮得不夠深入。

反觀MiroThinker，它是所有模型中，唯一關(guān)注到當(dāng)前天氣狀況的推理大模型，足以證明其專業(yè)度。

再看比賽進程中1小時，MiroThinker對實時信息的抓取更為突出，既關(guān)注到了當(dāng)前的退賽情況，也能有效分析出每位選手的比賽節(jié)奏和車隊?wèi)?zhàn)略，逐步微調(diào)自己的預(yù)測答案。

到最后30分鐘，MiroThinker給出的預(yù)測答案已經(jīng)和最終結(jié)果完全一致。

由此可見，MiroThinker在三次預(yù)測中逐步完成了信息收斂和復(fù)盤優(yōu)化。最終實現(xiàn)，即使F1賽事情況瞬息萬變，但每一次MiroThinker都能給出最貼合當(dāng)前情況的預(yù)測。

有趣的是，再回過頭看第一輪預(yù)測結(jié)果，幾乎所有大模型都預(yù)測梅賽德斯包攬前兩名，但在第三名的預(yù)測上爭斗相當(dāng)激烈，MiroThinker給了和法拉利攜手多年的勒克萊爾，ChatGPT和Gemini支持技術(shù)老道的漢密爾頓，DeepSeek反手給了諾里斯。

結(jié)果萬萬沒想到，邁凱倫雙車退賽、法拉利內(nèi)斗，勒克萊爾再度陷入第四魔咒，“must be the water”（那一定是水）導(dǎo)致的～（doge）

此前，我們也嘗試用MiroThinker預(yù)測金融市場，提前15天預(yù)估黃金價格。

2026年2月25日的黃金價格（XAU/USD）會是多少？

模型當(dāng)時預(yù)測金價是$5185/oz，實際Fortune報價$5181，150 Currency報價$5185.89，CME GCG26收盤價為$5206.40，誤差僅為0.08%（$4），保持在合理誤差范圍之內(nèi)。

綜合來看，無論是短期的通用場景預(yù)測，還是中長期的專業(yè)場景預(yù)估，MiroThinker都能做到有理有據(jù)，實際結(jié)果與模型預(yù)測高度吻合，且思考過程全部清晰可見。

雖然它還沒有做到像其它模型一樣秒出答案，需要一到兩分鐘的等待時間，但在答案完整度和邏輯鏈上已經(jīng)是next level，足以應(yīng)對絕大多數(shù)真實推理任務(wù)。

并非簡單做加法，而是精準(zhǔn)Scaling

那么為什么MiroThinker能夠做到這一點呢？

還要說回模型的核心技術(shù)突破——重型求解器（heavy-duty solver）。

當(dāng)前行業(yè)內(nèi)要提升推理深度，普遍采用的方案是通過強化學(xué)習(xí)將模型CoT運算時間延長，這類優(yōu)化后的模型在數(shù)學(xué)、編程等領(lǐng)域表現(xiàn)突出。

而MiroThinker-1.7不僅僅是延長思考時間，更是強調(diào)模型的可驗證性和有效交互。具體表現(xiàn)在兩項關(guān)鍵技術(shù)升級上：

1、升級智能體原生訓(xùn)練。

MiroMind注意到一個現(xiàn)象，如果模型每一步?jīng)Q策本身就質(zhì)量不高，即使讓模型完成更多輪的交互，最終結(jié)果也只是在放大低質(zhì)量決策。

所以提升推理性能的關(guān)鍵不是交互次數(shù)的疊加，而是專注增強每一步的質(zhì)量，也就是提升模型的智能體原生能力（agent-native competence），包括三步：

規(guī)劃更可靠：一開始就把問題拆對、把路選對。
推理更準(zhǔn)確：每一步判斷都經(jīng)得起驗證和反思。
長程不走偏：在復(fù)雜任務(wù)中始終對齊最終目標(biāo)。

為此，MiroThinker-1.7在訓(xùn)練過程中新增了一個mid-training（中期訓(xùn)練）階段。

借助大規(guī)模的高質(zhì)量任務(wù)數(shù)據(jù)，重點訓(xùn)練模型的規(guī)劃、推理和總結(jié)能力，使其建立起更強的Agent基礎(chǔ)能力，比如目標(biāo)分解、選擇合適的工具調(diào)用、理解工具返回結(jié)果、整合生成最終答案。同時該階段也擴大了模型的通用性。

在此基礎(chǔ)之上，還會加入SFT（監(jiān)督微調(diào)）、DPO（偏好優(yōu)化）、RL（強化學(xué)習(xí)）進一步將Agent能力內(nèi)化，實現(xiàn)長時任務(wù)穩(wěn)定推理。

2、以驗證為核心的重型推理模式。

然而，要提升單步推理質(zhì)量，也不能僅僅依靠模型自身的Agent推理能力，還需要引入驗證器加以約束，可分為局部驗證和全局驗證：

局部驗證：在推理的每一步，系統(tǒng)都會停下來自我審查，只有通過了局部驗證，系統(tǒng)才會允許繼續(xù)探索該條路徑。在一定程度上，局部驗證能夠打破傳統(tǒng)AI的概率偏置，找到也許當(dāng)下瞬時概率較低但實則最正確的路徑。
全局驗證：在系統(tǒng)生成了幾條完整的推理路徑后，模型會回溯整條數(shù)據(jù)鏈，確保最終答案是推理環(huán)節(jié)最嚴(yán)密的，而不是語義最流暢、看似邏輯自洽的。

總的來說，前者顯著增強智能體原生能力，后者提升交叉驗證可信度，二者深度融合，讓模型在面對復(fù)雜推理問題時能夠表現(xiàn)出精準(zhǔn)可驗證的交互潛力。

另外值得關(guān)注的是，MiroMind還觀察到一個“反直覺”現(xiàn)象：在引入驗證機制后，模型交互步驟數(shù)量明顯減少。

按照常規(guī)邏輯，往往步數(shù)越多、思考越久，模型性能就越強，即Heavy-duty（重型）。

而該現(xiàn)象則說明驗證器在這里充當(dāng)?shù)倪€有過濾器的作用，能夠幫助模型及時篩除掉沒有信息增益的步驟，將算力集中分配到真正推動問題求解的環(huán)節(jié)上。

雖然總步數(shù)減少了，但每一步包含的邏輯推理質(zhì)量更高了，整個推理過程變得高效且精密。

這就引出了MiroThinker系列模型的核心理念——擴展有效交互。

抓住交互關(guān)鍵，“慢”也能彎道超車

從V1.5到V1.7，模型的每一次迭代都能產(chǎn)生行之有效的結(jié)果，這未嘗不是對MiroThinker交互理念的有力驗證。

簡單來說，MiroThinker強調(diào)慢下來、想更多。

雖然通過增加對話次數(shù)、工具調(diào)用，能夠非常直觀迅速地刷新基準(zhǔn)測試分?jǐn)?shù)，但一旦中間步驟錯誤，錯誤就會像滾雪球一樣累積，直至系統(tǒng)徹底崩潰。

而“慢”推理不追求秒回，而是在行動前暫停、驗證、權(quán)衡，確保在當(dāng)前復(fù)雜場景下推得深、推得對。

這種看似不討巧的選擇，反而成就了MiroThinker在大模型市場中獨樹一幟的風(fēng)格——不急于給出答案，而是專注求證問題背后的深層邏輯。

在算力約束與復(fù)雜任務(wù)的博弈中，MiroThinker沒有盲目堆砌算力，而是更像一位深諳最優(yōu)路徑的理科生，精打細(xì)算將算力落在該去的地方。

結(jié)果也很顯而易見，只要踏實做好有效交互，慢也不等同于落后，反倒是助力LLM走向真實物理世界更扎實。

事實上，如果仔細(xì)看MiroMind的人才梯隊建設(shè)，同樣也很“穩(wěn)”。

從MiroMind誕生之初，時任盛大副總裁、現(xiàn)任MiroMind COO邴立東博士便開始在新加坡牽頭組建初始團隊，一路保駕護航MiroThinker來到V1.7。

如今團隊實力更是如虎添翼，三位世界級頂尖AI科學(xué)家杜少雷、安波和楊凱峪同時加入MiroMind。

他們無一不是模型推理領(lǐng)域的熟手，長期致力于開發(fā)前沿大模型的推理決策能力。他們的加盟，將共同推動MiroThinker朝著會思考、能行動、可信任的方向進化，從而直面科學(xué)、金融和工程領(lǐng)域的實際問題。

至此，隨著核心團隊逐步到位，MiroMind已經(jīng)準(zhǔn)備好更猛烈的下一階段沖鋒。

有技術(shù)、有人才、有資金，還有一以貫之堅持的理念，四角齊全的MiroMind，所以看似入場大模型姍姍來遲，實則每一步都穩(wěn)扎穩(wěn)打，后來者居上也就不足為奇了。

P.S.新模型即將上線官網(wǎng)（https://dr.miromind.ai）提供體驗。

GitHub：https://github.com/MiroMindAI/MiroThinker
HuggingFace：https://huggingface.co/collections/miromind-ai/mirothinker-17

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.