国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

0
分享至




機器之心發(fā)布

在大公司一路高歌猛進的 AI 浪潮里,小創(chuàng)業(yè)者和高校研究者正變得越來越迷茫。就連前段時間谷歌創(chuàng)始人謝爾蓋?布林回斯坦福,都要回答「大學該何去何從」「從學術到產(chǎn)業(yè)的傳統(tǒng)路徑是否依然重要」這類問題。

AI,真的只是大公司的游戲嗎?被算力掣肘的其他研究者、創(chuàng)業(yè)者,機會在哪里?在「強化學習」后訓練引領「下半場」的當下,這個問題變得愈發(fā)重要。

好在,國內(nèi)外都有專業(yè)團隊在關心這個問題,比如前 OpenAI CTO Mira 創(chuàng)辦的 Thinking Machines Lab,前段時間就推出了一個叫「Tinker」的產(chǎn)品,專注于解決后訓練 Infra 的復雜性。

而在國內(nèi),一群由 95 后青年科學家組成的團隊做出了足以對標甚至超越 Tinker 的競品,成為世界第一家能夠?qū)?Thinking Machines Lab 的公司

這個研究中心叫Mind Lab,是 Macaron AI 背后的實驗室。1 月 1 日,他們發(fā)布了亮相以來的第一款產(chǎn)品——Mind Lab Toolkit(MinT)。這是一個用 CPU 的機器就能高效訓練萬億參數(shù)模型的后訓練平臺,且成本優(yōu)化了十倍,一天即可輕松完成一輪訓練。此外,它比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。



如果你是 Agent 領域創(chuàng)業(yè)公司或高校頂尖實驗室的成員,并且被算力限制了想象力,那你將是 MinT 的首批受益者。它的應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域,已經(jīng)在圈內(nèi)做出了一些成果。

細看一下,Mind Lab 的創(chuàng)始團隊也堪稱豪華。創(chuàng)始人 Andrew 畢業(yè)于 MIT,目前擔任深圳清華大學研究院的研發(fā)中心主任,代表工作有和姚順雨合作的 Agent 微調(diào)的經(jīng)典工作之一 FireAct。

首席科學家馬驍騰博士則畢業(yè)于清華大學自動化系,常年深耕強化學習領域。團隊成員來自清華、MIT、CMU等高校,并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經(jīng)歷。

團隊累計發(fā)表論文超 100 篇,總引用量超 3 萬次

這樣一個團隊打造的 MinT,正以極致的工程效率,將 AI 下半場的入場券交還到每一位研究者手中。

預訓練時代結束

AI 下半場開啟

過去幾年,預訓練一直是 AI 領域的主旋律 —— 更大的模型、更多的數(shù)據(jù)、更長的訓練周期。

如今,這一階段已趨于飽和:開源社區(qū)已經(jīng)擁有萬億參數(shù)級別的模型,能夠編寫代碼、總結文檔、通過標準化考試。

但當這些系統(tǒng)被部署到真實產(chǎn)品中,新的瓶頸開始顯現(xiàn)。模型一旦完成訓練,參數(shù)就被 ' 凍住 ' 了,不停重復著相同的錯誤,也無法適應不斷變化的用戶需求,實際使用效果只能靠抽卡。

強化學習,正是破局的關鍵。

DeepSeek R1 的發(fā)布更是向業(yè)界證明,強化學習能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數(shù)據(jù),而是學會了在復雜任務中進行推理。

在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術報告中都反復強調(diào):后訓練仍是一片藍海,強化學習還沒看到天花板。

2026 年的主旋律,是后訓練。

后訓練時代的基礎設施

強化學習這么重要,為什么沒普及?答案是:算法太復雜,訓練太不穩(wěn)定。

為了解決這個問題,前 OpenAI CTO Mira 創(chuàng)立的 Thinking Machines 發(fā)布了 Tinker,定義了后訓練 API 的新范式,迅速獲得美國學界和硅谷創(chuàng)業(yè)公司的熱捧。

在 OpenAI 經(jīng)歷了 Sam Altman 被解雇又回歸的內(nèi)部動蕩后,Mira 選擇離開,并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業(yè)界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。2025 年 7 月,Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元,估值120 億美元

他們押注的,正是后訓練賽道。2025 年 10 月,Thinking Machines 發(fā)布了首款產(chǎn)品 Tinker,12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式,那么 Tinker 定義的就是模型的訓練 API 范式,讓所有模型訓練共享。

Tinker 已經(jīng)獲得了學術界和工業(yè)界的廣泛認可,成為了硅谷和美國頂尖高校的訓練新范式。



Mind Lab 與 MinT

國產(chǎn)后訓練基礎設施的崛起

Tinker 在海外大火的同時,國內(nèi)也涌現(xiàn)出了對標甚至超越的力量 ——Mind Lab 推出的 MinT(Mind Lab Toolkit)。

Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念,致力于讓 AI 系統(tǒng)能夠從真實世界的經(jīng)驗中不斷成長。

在他們看來,當前大模型最大的問題是:訓練完就 "凍住",無法從真實交互中持續(xù)學習進化。

MinT,正是為解決這個問題而生。

MinT 和 Tinker 是什么關系?可以從兩個層面理解:

兼容性上,MinT 做到了模型夠大夠全、接口完全一致—— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發(fā)者可以幾乎零成本地遷移到 MinT,享受國產(chǎn)基礎設施帶來的便利。

技術領先性上,MinT 不是簡單的 “國產(chǎn)替代”。事實上,早在 2025 年 12 月 1 日,Mind Lab 就比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。

相關實現(xiàn)方案已經(jīng)開源,并獲得了Nvidia 官方轉載

具體方案詳見 Mind Lab 的技術報告:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus



MinT 解決了什么問題?

MinT 的核心價值可以用一句話說清:不論模型是1B還是1T,需要調(diào)度多少GPU,你只管數(shù)據(jù)和算法,基礎設施的復雜工程全交給平臺。

具體來說:用戶只需在本地 CPU 機器上寫幾行 Python 代碼,MinT 就會自動把計算任務分發(fā)到大規(guī)模 GPU 集群執(zhí)行。集群調(diào)度、資源管理、容錯恢復,這些讓開發(fā)者和研究人員頭疼的工程問題,統(tǒng)統(tǒng)由 MinT 搞定。切換不同的模型,只需修改代碼中的一個字符串。

技術路線上,MinT 采用 LoRA 技術,使多個訓練和推理任務可以共享同一計算資源池,從而顯著降低成本。LoRA 在選擇最優(yōu)學習率的情況下,訓練進程與全參數(shù)微調(diào)幾乎完全一致,這為大規(guī)模高效后訓練奠定了理論基礎。

目前,MinT 已支持Kimi K2 Thinking(萬億參數(shù)級別的 MoE 推理模型)Qwen3-VL 系列視覺語言模型等前沿開源模型,并全面兼容 Tinker API。值得一提的是,MinT 還優(yōu)先支持了π0 等具身 VLA 模型,這也體現(xiàn)出了中國公司在具身智能上的領先優(yōu)勢。



為什么需要 1T LoRA-RL?

強化學習被視為讓大模型從 “背題” 走向 “推理” 的關鍵,但現(xiàn)實里有三大難題:訓練不穩(wěn),小模型難以收斂,算力成本高。LoRA 提供了一條低成本路徑,只訓練少量低秩適配器即可顯著提升下游任務表現(xiàn),且在 RL/Agent 訓練上幾乎不損失性能。

Mind Lab 在 Kimi K2(萬億參數(shù) MoE)上實現(xiàn)了端到端 LoRA 強化學習,帶來三點突破

  • 成本:僅用常規(guī)全參 RL 約 10% 的 GPU 資源,64 塊 H800 即可完成訓練。
  • 穩(wěn)定性:獎勵與任務成功率平穩(wěn)提升,無災難性發(fā)散;在 held-out 基準上既提升特定任務,又保持基座模型通用能力。
  • 系統(tǒng):統(tǒng)一調(diào)度張量 / 流水線 / 專家 / 序列并行,針對 MoE 路由不均衡與通信壓力做了專項優(yōu)化。相關技術已貢獻至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。



為什么選擇 MinT?

MinT 的產(chǎn)品設計圍繞一個核心目標:把后訓練和強化學習的門檻打下來。

  • 驗證成本上:MinT 允許開發(fā)者僅用 CPU 機器進行訓練驗證,告別配置 GPU 驅(qū)動和 OOM 的煩惱。這讓團隊可以在投入大規(guī)模 GPU 資源前,先低成本驗證算法可行性。
  • 工程效率上:MinT 將采樣、訓練、回寫與發(fā)布無縫串聯(lián),減少了工程拼裝成本。并行策略、權重管理、optimizer state 管理、滾動訓練、日志與可復現(xiàn)性等,都按工程標準打通。
  • 開發(fā)體驗上:MinT 完全兼容 Tinker API,現(xiàn)有代碼可快速適配,切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進的開源大模型。
  • 迭代速度上:采用 LoRA-RL 技術讓模型迭代周期從“按周” 縮短到 “按天”,真正服務于快節(jié)奏的產(chǎn)品開發(fā)需求。



誰是 MinT 最大的受益者?

第一批使用 MinT 的受益者,一定是 Agent 領域的創(chuàng)業(yè)公司和研究模型的高校頂尖實驗室。

它們共同的特點是:掌握核心的數(shù)據(jù)和問題的設定。他們并非不了解前沿算法,而往往是被算力與訓練框架難住了。

據(jù) Mind Lab 官網(wǎng)介紹,目前 MinT 已經(jīng)獲得了頂尖高校和多個創(chuàng)業(yè)公司的認可,應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域。

在學術機構方面:

  • 清華大學人工智能學院黃高副教授團隊(CVPR best paper 以及 NeruIPS best paper runner up 獲得者)利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
  • 上海交通大學副教授、上海創(chuàng)智學院全時導師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。

在行業(yè)應用方面:

  • 硅谷創(chuàng)業(yè)公司Eigen AI合作探索運用 MinT 和 Data Agent 合成數(shù)據(jù)在 1T 模型上進行 agentic RL 訓練。
  • 腦機接口公司姬械機利用 MinT 支持了他們的腦機接口 AgentBCI-Love,可以進行情感交互對話。
  • 瑞銘醫(yī)療利用 MinT 對醫(yī)療編碼模型進行了基于 RL 的后訓練,顯著提升了醫(yī)療編碼的準確率,并落地到數(shù)十家三甲醫(yī)院

這些案例展現(xiàn)了 MinT 的通用性 —— 從基礎研究到垂直行業(yè),都能用。

中國團隊引領后訓練浪潮

如何讓模型真正 “理解” 而非只是 “記住”,是眾多創(chuàng)業(yè)團隊與科研工作者共同面對的核心問題。強化學習被視為解決這一問題的關鍵路徑,但其高門檻、高成本與不穩(wěn)定性,長期限制了它在真實產(chǎn)品和中小團隊中的落地。

2025 年,中國團隊在開源模型上大放異彩。

2026 年,后訓練將是中國 AI 彎道超車的下一個關鍵戰(zhàn)場。

Mind Lab 選擇了 LoRA-RL 這一技術路徑,在超大規(guī)模模型上完成了萬億參數(shù)級別的探索與驗證,再次證明了中國團隊在前沿研究上的工程能力與原創(chuàng)實力。MinT 正是 Mind Lab 希望將這些研究成果系統(tǒng)化、工具化的產(chǎn)物 —— 讓后訓練和強化學習不再只屬于少數(shù)頭部機構,而是成為更多公司與實驗室可以日常使用的能力。

這正是 Mind Lab 真正布局的方向:讓先進研究轉化為可用工具,讓中國團隊在模型后訓練與強化學習這一關鍵技術浪潮中,實現(xiàn)自主可控。

可以訪問以下鏈接了解更多:

  • Mind Lab 官網(wǎng):https://macaron.im/mindlab
  • 相關文檔:https://mint.macaron.im/doc

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蔣孝嚴帶著兒子蔣萬安去給他的奶奶上墳,蔣萬安手里還拿著黃紙

蔣孝嚴帶著兒子蔣萬安去給他的奶奶上墳,蔣萬安手里還拿著黃紙

大江
2026-01-08 14:50:15
獨生女不愿接班,天津老板套現(xiàn)7.2億,把家族產(chǎn)業(yè)賣給了安徽國資

獨生女不愿接班,天津老板套現(xiàn)7.2億,把家族產(chǎn)業(yè)賣給了安徽國資

素衣讀史
2025-12-23 17:03:03
外交部:無論委內(nèi)瑞拉政局如何變化,中方深化兩國各領域務實合作意愿不會改變

外交部:無論委內(nèi)瑞拉政局如何變化,中方深化兩國各領域務實合作意愿不會改變

新京報政事兒
2026-01-09 15:32:35
降維打擊?芬蘭公司宣布固態(tài)電池進入量產(chǎn),成本比普通鋰電池還低

降維打擊?芬蘭公司宣布固態(tài)電池進入量產(chǎn),成本比普通鋰電池還低

小柱解說游戲
2026-01-07 02:12:43
縱覽原創(chuàng)|東莞市衛(wèi)健局回應“男子稱被4家醫(yī)院誤診癌癥”:將進行調(diào)查核實;當事男子回應“不是博流量,愿接受任何公平公正的調(diào)查”

縱覽原創(chuàng)|東莞市衛(wèi)健局回應“男子稱被4家醫(yī)院誤診癌癥”:將進行調(diào)查核實;當事男子回應“不是博流量,愿接受任何公平公正的調(diào)查”

縱覽新聞
2026-01-09 17:44:03
“北京最難約的自助,69元任吃!”

“北京最難約的自助,69元任吃!”

北京吃貨小分隊
2026-01-08 11:47:31
“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

洲洲影視娛評
2025-12-08 19:52:00
《家庭的覺醒》:一個家要往上走,最靠譜的20條建議

《家庭的覺醒》:一個家要往上走,最靠譜的20條建議

洞見
2026-01-08 21:27:06
天呢!燙碼?沒想到香煙買賣會壟斷到如此程度,難怪這么暴利…

天呢!燙碼?沒想到香煙買賣會壟斷到如此程度,難怪這么暴利…

慧翔百科
2026-01-07 09:07:26
梁靜茹微博突設不可見,身材發(fā)福成導火索,自我療愈能否重拾勇氣

梁靜茹微博突設不可見,身材發(fā)福成導火索,自我療愈能否重拾勇氣

明星爆料客
2026-01-09 17:18:19
劉曉慶擔心的事發(fā)生了!意外摔倒、分不清人,75歲不服老不行了?

劉曉慶擔心的事發(fā)生了!意外摔倒、分不清人,75歲不服老不行了?

楠楠自語
2025-12-03 15:57:03
亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結論”

亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結論”

澎湃新聞
2026-01-08 16:04:29
一光年有多遠?為什么它會讓科學家絕望,答案出乎你的意料

一光年有多遠?為什么它會讓科學家絕望,答案出乎你的意料

觀察宇宙
2026-01-08 20:10:26
脆弱的頭號種子:林詩棟險勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

脆弱的頭號種子:林詩棟險勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

曹老師評球
2026-01-09 17:24:09
海港官宣冬窗首簽!或連簽4內(nèi)援,劉祝潤回歸,官方:按計劃推進

海港官宣冬窗首簽!或連簽4內(nèi)援,劉祝潤回歸,官方:按計劃推進

奧拜爾
2026-01-09 17:23:05
不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭,畢竟我們比俄羅斯文明

不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭,畢竟我們比俄羅斯文明

大道無形我有型
2025-09-01 15:02:03
胡明軒要交易?現(xiàn)身基地,曝胡明軒爸爸幫搬行李,誰注意杜鋒表態(tài)

胡明軒要交易?現(xiàn)身基地,曝胡明軒爸爸幫搬行李,誰注意杜鋒表態(tài)

樂聊球
2026-01-09 13:32:22
王石和田樸珺都挺尷尬的

王石和田樸珺都挺尷尬的

江湖人稱艾掌門
2026-01-09 16:19:08
林強涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言娛樂記
2025-12-27 20:07:06
山東一小學走標線列隊入校,視頻曝光后,全網(wǎng)吵翻了!

山東一小學走標線列隊入校,視頻曝光后,全網(wǎng)吵翻了!

眼光很亮
2026-01-09 01:11:52
2026-01-09 19:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142532關注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱美必須"擁有"整個格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

頭條要聞

特朗普稱美必須"擁有"整個格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關曉彤鹿晗風波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

教育
家居
時尚
親子
軍事航空

教育要聞

北航首位,以實踐成果獲授博士學位

家居要聞

木色留白 演繹現(xiàn)代自由

60+女性穿搭“高級感”秘訣:4個日常技巧,輕松美出優(yōu)雅氣質(zhì)

親子要聞

方媛家三姐妹溫馨畫面,一個畫畫,一個看書,一個嬰兒車里打盹

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進入關懷版