国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiroThinker-1.5智能體模型,30B評測性能超越1T模型

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長。

MiroMind 由全球知名創(chuàng)新企業(yè)家、慈善家陳天橋,與清華大學(xué)知名 AI 青年學(xué)者代季峰教授聯(lián)合發(fā)起,團(tuán)隊(duì)曾憑借成功預(yù)測 Polymarket (全球最大的去中心化預(yù)測市場)題目,連續(xù)登頂 Future X 全球榜首。

近期,團(tuán)隊(duì)又率先開源搜索智能體模型——MiroThinker 1.5,該智能體模型在多個(gè)搜索智能體基準(zhǔn)測試中躋身全球第一梯隊(duì),超過ChatGPT-Agent、Seed-1.8、DeepSeek-3.2等模型。MiroThinker 1.5已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/MiroMind/MiroThinker-v1.5-30B

01.

杰出的性能表現(xiàn)

MiroThinker-v1.5-30B 僅用1/30的參數(shù)規(guī)模跑出了比肩眾多 1T 模型的性能表現(xiàn),其 235B 的版本在多個(gè)搜索智能體基準(zhǔn)測試中躋身全球第一梯隊(duì)。

在BrowseComp上,位列全球第一。


BrowseComp 性能對比

在四項(xiàng)基準(zhǔn)測試中的表現(xiàn)杰出:

  • HLE-Text(人類終極測試):39.2%

  • BrowseComp(網(wǎng)頁檢索類大模型基準(zhǔn)測試):69.8%

  • BrowseComp-ZH(BrowseComp的中文適配版本):71.5%

  • GAIA-Val-165(GAIA基準(zhǔn)測試驗(yàn)證集):80.8%


Agent 搜索評測基準(zhǔn)性能對比

越級挑戰(zhàn):MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面對參數(shù)量高達(dá) 30 倍的萬億參數(shù)巨獸 Kimi-K2-Thinking,MiroThinker-v1.5-30B 用極低的成本展示了旗鼓相當(dāng)?shù)谋憩F(xiàn):

  • 推理成本MiroThinker-v1.5-30B 單條調(diào)用成本低至 $0.07,僅為 Kimi-K2-Thinking 的 1/20,且推理更快。

  • 性能表現(xiàn)在關(guān)鍵評測集 BrowseComp-ZH 中實(shí)現(xiàn)性能超越,證明「大」 不等于 「強(qiáng)」。

02.

技術(shù)介紹

主流大模型往往盲目追求萬億參數(shù),MiroThinker 系列選擇了一條反共識的路線:刻意將模型控制在 30B–200B 的輕量級規(guī)模。MiroMind 團(tuán)隊(duì)強(qiáng)調(diào),省下的不是算力,而是把算力花在了更刀刃的地方 —— 對外的信息獲取與交互。當(dāng)模型同時(shí)具備研究式確認(rèn)機(jī)制與時(shí)序因果約束,這種圍繞外部信息獲取的交互過程才讓“發(fā)現(xiàn)式智能”真正落地。這也是對 Interactive Scaling 的深耕,使他們用小得多的模型,做到了大模型才能做到的事。


MiroThinker 1.5 的核心發(fā)力點(diǎn),在于通過 Interactive Scaling 打破孤立推理的僵局,將「推理」與「外部環(huán)境」深度耦合。通過構(gòu)建「推理 - 驗(yàn)證 - 修正」循環(huán),引入外部信息作為校驗(yàn)錨點(diǎn),用確定性的證據(jù)流來對沖不確定性的推演,解決邏輯坍塌問題。

Training-time Interactive Scaling 技術(shù),將交互內(nèi)化進(jìn)模型推理,用確定性對抗不確定性

當(dāng)智能的 Scaling 范式不再局限于模型內(nèi)部龐大的世界知識儲備與縝密的長程邏輯推理,而是依托模型高頻與外部世界中探索與交互并獲得閉環(huán)反饋時(shí),小而高效的探索者模型能展現(xiàn)比肩于甚至超出大而嚴(yán)謹(jǐn)?shù)乃伎颊吣P偷闹橇λ健?/p>

MiroThinker 1.5 正是基于這一判斷,將 Interactive Scaling 從推理階段的外掛能力,前移并內(nèi)化為訓(xùn)練階段的核心機(jī)制。模型并非被要求「盡量在腦中想清楚一切」,而是被系統(tǒng)性地訓(xùn)練成一個(gè)善于向外求證、敢于否定自己、能夠快速修正路徑的 Agent。

在訓(xùn)練過程中,MiroMind 團(tuán)隊(duì)刻意削弱對「單次完美推理」的獎(jiǎng)勵(lì),轉(zhuǎn)而強(qiáng)化以下行為模式:

  • Evidence-Seeking(主動(dòng)求證)模型被鼓勵(lì)將每一個(gè)關(guān)鍵判斷拆解為可驗(yàn)證的子假設(shè),并主動(dòng)發(fā)起對外查詢、檢索與比對。結(jié)論本身不再是訓(xùn)練目標(biāo),找到可靠證據(jù)的過程才是。缺乏信源支撐的高置信輸出,會在訓(xùn)練中被系統(tǒng)性地懲罰。

  • Iterative Verification(多輪校驗(yàn)與自我修正)推理不被視為一次性路徑,而是一個(gè)可反復(fù)回溯、修正的過程。模型在交互中被要求不斷對已有判斷進(jìn)行反證測試,一旦發(fā)現(xiàn)證據(jù)沖突,必須顯式調(diào)整假設(shè),而非「帶著錯(cuò)誤繼續(xù)推下去」。

  • Anti-Hallucination(對捷徑的系統(tǒng)性過濾)對那些「看起來合理、但缺乏真實(shí)依據(jù)」的推理捷徑保持零容忍。訓(xùn)練中不僅評估答案是否正確,更關(guān)注答案是如何得到的:任何依賴統(tǒng)計(jì)相關(guān)性、模式記憶或隱含先驗(yàn)而繞過證據(jù)驗(yàn)證的路徑,都會被標(biāo)記為低質(zhì)量推理。

通過這種訓(xùn)練方式,MiroThinker 1.5 逐步形成了一種本能反應(yīng):在不確定性面前,先交互、再判斷;在高風(fēng)險(xiǎn)結(jié)論前,先查證、再收斂。這使得模型不再需要將龐大的世界知識全部內(nèi)化為參數(shù),而是學(xué)會在需要時(shí),快速、精準(zhǔn)地向外部世界借力。

時(shí)序敏感訓(xùn)練沙盒

時(shí)序敏感訓(xùn)練沙盒,是破解因果律的鑰匙:普通大模型訓(xùn)練常處在上帝視角—— 它在數(shù)據(jù)里早已見過結(jié)果,學(xué)到的往往是復(fù)述與劇透,而不是預(yù)測。MiroThinker 的訓(xùn)練則約束模型只能看過去,不能看未來,在嚴(yán)格的時(shí)間可見性約束下做判斷、再用同樣受時(shí)序約束的證據(jù)去驗(yàn)證與更新。

  • 控?cái)?shù)據(jù)合成引擎構(gòu)建覆蓋多任務(wù)類型的、難度與時(shí)間戳可控的數(shù)據(jù)合成體系。每一道題目的「正確答案」并非靜態(tài)標(biāo)簽,而是隨時(shí)間戳動(dòng)態(tài)演化;模型必須在嚴(yán)格的信息可見性約束下,基于當(dāng)時(shí)可獲取的信息做出判斷,而校驗(yàn)過程同樣顯式引入時(shí)間戳約束,以確保推演與評分均符合真實(shí)世界的時(shí)序邏輯。

  • 時(shí)序敏感訓(xùn)練機(jī)制:采用嚴(yán)格的時(shí)間戳與信息可見性約束,徹底杜絕 Future Leakage;模型在訓(xùn)練過程中的每一步只能與發(fā)表于當(dāng)前時(shí)間戳之前的信息進(jìn)行交互。

在這種訓(xùn)練范式下,模型被迫學(xué)會在信息不完備、噪聲存在、信號延遲的真實(shí)條件下進(jìn)行推演與修正,而不是依賴靜態(tài)數(shù)據(jù)集中的「標(biāo)準(zhǔn)答案」。時(shí)間由此從一個(gè)背景變量,轉(zhuǎn)變?yōu)樗茉炷P托袨榕c推理方式的核心約束,使模型更接近真實(shí)世界中的認(rèn)知與決策過程

03.

模型樣例

樣例一: A 股漲停板預(yù)測

(注:以下僅為樣例展示,不構(gòu)成投資建議)

日期:12 月 10 日(周三)


對話鏈接:https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

注解:

躍嶺股份:16 只連板股,當(dāng)天晉級僅 4 只,晉級率 25%,市場情緒顯著退潮。MiroMind 在 8 支二板股里,精準(zhǔn)押中唯一晉級成功的那一支。

12 月 11 日(周四)


對話鏈接:https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

注解:

再升科技:9 只連板股,當(dāng)天晉級僅 2 只,晉級率 22%,市場環(huán)境持續(xù)降溫。MiroMind 命中 9 支連板股中高位晉級者 —— 退潮里選中“活口”。

樣例二: GTA 6 明年能按時(shí)發(fā)布嗎?


對話鏈接:https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd

編輯:趙雅鑫

----- END -----


wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高?蒲性核、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
殲-10首飛28周年,該型戰(zhàn)機(jī)從獨(dú)立作戰(zhàn)平臺轉(zhuǎn)型為網(wǎng)絡(luò)化作戰(zhàn)節(jié)點(diǎn)

殲-10首飛28周年,該型戰(zhàn)機(jī)從獨(dú)立作戰(zhàn)平臺轉(zhuǎn)型為網(wǎng)絡(luò)化作戰(zhàn)節(jié)點(diǎn)

止戈軍是我
2026-03-26 22:45:27
正式確定!CBA名將加盟浙江廣廈,重返老東家,全力衛(wèi)冕總冠軍

正式確定!CBA名將加盟浙江廣廈,重返老東家,全力衛(wèi)冕總冠軍

體壇瞎白話
2026-03-25 16:52:09
黃天鵝曬出的檢測報(bào)告上顯示檢測開始日期是2027年

黃天鵝曬出的檢測報(bào)告上顯示檢測開始日期是2027年

映射生活的身影
2026-03-26 18:40:07
全國最大比亞迪中心落地常州,預(yù)計(jì)今年5月中旬正式運(yùn)營

全國最大比亞迪中心落地常州,預(yù)計(jì)今年5月中旬正式運(yùn)營

財(cái)聞
2026-03-26 12:53:13
上海交大解剖405名心梗死者,驚訝發(fā)現(xiàn)患心梗的人,有3個(gè)共性

上海交大解剖405名心梗死者,驚訝發(fā)現(xiàn)患心梗的人,有3個(gè)共性

健康之光
2026-03-26 13:55:06
蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
伊朗被美以單方面轟炸23天,為何革命衛(wèi)隊(duì)依舊不認(rèn)輸?

伊朗被美以單方面轟炸23天,為何革命衛(wèi)隊(duì)依舊不認(rèn)輸?

高博新視野
2026-03-24 08:00:16
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
特朗普再次就停戰(zhàn)談判威脅伊朗

特朗普再次就停戰(zhàn)談判威脅伊朗

澎湃新聞
2026-03-26 20:24:03
臨時(shí)閉園!常州一景區(qū)重要通知

臨時(shí)閉園!常州一景區(qū)重要通知

常州大喇叭
2026-03-26 15:26:59
ESPN:薩拉赫是英超歷史最佳,甚至可以沒有之一

ESPN:薩拉赫是英超歷史最佳,甚至可以沒有之一

懂球帝
2026-03-25 23:20:06
伊朗拒絕美國停戰(zhàn)方案并提出伊方5項(xiàng)條件

伊朗拒絕美國停戰(zhàn)方案并提出伊方5項(xiàng)條件

新京報(bào)
2026-03-25 23:58:14
燒了18.6萬美元讓AI連軸肝了17天,它產(chǎn)出了166篇論文

燒了18.6萬美元讓AI連軸肝了17天,它產(chǎn)出了166篇論文

酷玩實(shí)驗(yàn)室
2026-03-25 18:25:49
800億!泉州首富家族,太可怕了

800億!泉州首富家族,太可怕了

深藍(lán)財(cái)經(jīng)
2026-03-26 18:58:45
國防部:菲方侵權(quán)挑釁只會遭到更加堅(jiān)決應(yīng)對

國防部:菲方侵權(quán)挑釁只會遭到更加堅(jiān)決應(yīng)對

界面新聞
2026-03-26 16:00:27
朝鮮戰(zhàn)場繳獲美軍火箭筒,拆解驚覺技術(shù)差距改寫陸軍征程

朝鮮戰(zhàn)場繳獲美軍火箭筒,拆解驚覺技術(shù)差距改寫陸軍征程

嘮叨說歷史
2026-03-18 13:40:57
315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

現(xiàn)代小青青慕慕
2026-03-24 08:13:54
詹姆斯:布朗尼絕對配得上立足NBA 我們家的人做事從來不敷衍

詹姆斯:布朗尼絕對配得上立足NBA 我們家的人做事從來不敷衍

羅說NBA
2026-03-26 22:15:56
英國以國家安全為由否決了中企在蘇格蘭建廠計(jì)劃,外交部:中英經(jīng)貿(mào)綠色合作的本質(zhì)是互利共贏,不應(yīng)受到泛政治化、泛安全化的沖擊

英國以國家安全為由否決了中企在蘇格蘭建廠計(jì)劃,外交部:中英經(jīng)貿(mào)綠色合作的本質(zhì)是互利共贏,不應(yīng)受到泛政治化、泛安全化的沖擊

瀟湘晨報(bào)
2026-03-26 16:25:20
1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

百年歷史老號
2026-03-25 18:27:41
2026-03-26 23:19:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
健康
親子
時(shí)尚
公開課

教育要聞

罵人沒有殺傷力?那不是白忙活嗎?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

你好,我是饅頭,快開門!

這些才是適合春季的穿搭!不沉悶、不單調(diào),大方靚麗又減齡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版