前OpenAI CTO押注的賽道,被中國團(tuán)隊搶先跑通,AI下半場人人有份

2026-01-04 14:09:50　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心發(fā)布

在大公司一路高歌猛進(jìn)的 AI 浪潮里，小創(chuàng)業(yè)者和高校研究者正變得越來越迷茫。就連前段時間谷歌創(chuàng)始人謝爾蓋?布林回斯坦福，都要回答「大學(xué)該何去何從」「從學(xué)術(shù)到產(chǎn)業(yè)的傳統(tǒng)路徑是否依然重要」這類問題。

AI，真的只是大公司的游戲嗎？被算力掣肘的其他研究者、創(chuàng)業(yè)者，機(jī)會在哪里？在「強(qiáng)化學(xué)習(xí)」后訓(xùn)練引領(lǐng)「下半場」的當(dāng)下，這個問題變得愈發(fā)重要。

好在，國內(nèi)外都有專業(yè)團(tuán)隊在關(guān)心這個問題，比如前 OpenAI CTO Mira 創(chuàng)辦的 Thinking Machines Lab，前段時間就推出了一個叫「Tinker」的產(chǎn)品，專注于解決后訓(xùn)練 Infra 的復(fù)雜性。

而在國內(nèi)，一群由 95 后青年科學(xué)家組成的團(tuán)隊做出了足以對標(biāo)甚至超越 Tinker 的競品，成為世界第一家能夠?qū)?biāo) Thinking Machines Lab 的公司

這個研究中心叫Mind Lab，是 Macaron AI 背后的實驗室。1 月 1 日，他們發(fā)布了亮相以來的第一款產(chǎn)品——Mind Lab Toolkit（MinT）。這是一個用 CPU 的機(jī)器就能高效訓(xùn)練萬億參數(shù)模型的后訓(xùn)練平臺，且成本優(yōu)化了十倍，一天即可輕松完成一輪訓(xùn)練。此外，它比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL，是業(yè)界在萬億參數(shù)模型上進(jìn)行高效強(qiáng)化學(xué)習(xí)的第一個成果。

如果你是 Agent 領(lǐng)域創(chuàng)業(yè)公司或高校頂尖實驗室的成員，并且被算力限制了想象力，那你將是 MinT 的首批受益者。它的應(yīng)用場景涵蓋基礎(chǔ)研究到垂直行業(yè)的廣泛領(lǐng)域，已經(jīng)在圈內(nèi)做出了一些成果。

細(xì)看一下，Mind Lab 的創(chuàng)始團(tuán)隊也堪稱豪華。創(chuàng)始人 Andrew 畢業(yè)于 MIT，目前擔(dān)任深圳清華大學(xué)研究院的研發(fā)中心主任，代表工作有和姚順雨合作的 Agent 微調(diào)的經(jīng)典工作之一 FireAct。

首席科學(xué)家馬驍騰博士則畢業(yè)于清華大學(xué)自動化系，常年深耕強(qiáng)化學(xué)習(xí)領(lǐng)域。團(tuán)隊成員來自清華、MIT、CMU等高校，并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經(jīng)歷。

團(tuán)隊累計發(fā)表論文超 100 篇，總引用量超 3 萬次

這樣一個團(tuán)隊打造的 MinT，正以極致的工程效率，將 AI 下半場的入場券交還到每一位研究者手中。

預(yù)訓(xùn)練時代結(jié)束

AI 下半場開啟

過去幾年，預(yù)訓(xùn)練一直是 AI 領(lǐng)域的主旋律 —— 更大的模型、更多的數(shù)據(jù)、更長的訓(xùn)練周期。

如今，這一階段已趨于飽和：開源社區(qū)已經(jīng)擁有萬億參數(shù)級別的模型，能夠編寫代碼、總結(jié)文檔、通過標(biāo)準(zhǔn)化考試。

但當(dāng)這些系統(tǒng)被部署到真實產(chǎn)品中，新的瓶頸開始顯現(xiàn)。模型一旦完成訓(xùn)練，參數(shù)就被 ' 凍住 ' 了，不停重復(fù)著相同的錯誤，也無法適應(yīng)不斷變化的用戶需求，實際使用效果只能靠抽卡。

強(qiáng)化學(xué)習(xí)，正是破局的關(guān)鍵。

DeepSeek R1 的發(fā)布更是向業(yè)界證明，強(qiáng)化學(xué)習(xí)能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數(shù)據(jù)，而是學(xué)會了在復(fù)雜任務(wù)中進(jìn)行推理。

在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術(shù)報告中都反復(fù)強(qiáng)調(diào)：后訓(xùn)練仍是一片藍(lán)海，強(qiáng)化學(xué)習(xí)還沒看到天花板。

2026 年的主旋律，是后訓(xùn)練。

后訓(xùn)練時代的基礎(chǔ)設(shè)施

強(qiáng)化學(xué)習(xí)這么重要，為什么沒普及？答案是：算法太復(fù)雜，訓(xùn)練太不穩(wěn)定。

為了解決這個問題，前 OpenAI CTO Mira 創(chuàng)立的 Thinking Machines 發(fā)布了 Tinker，定義了后訓(xùn)練 API 的新范式，迅速獲得美國學(xué)界和硅谷創(chuàng)業(yè)公司的熱捧。

在 OpenAI 經(jīng)歷了 Sam Altman 被解雇又回歸的內(nèi)部動蕩后，Mira 選擇離開，并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業(yè)界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。2025 年 7 月，Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元，估值120 億美元

他們押注的，正是后訓(xùn)練賽道。2025 年 10 月，Thinking Machines 發(fā)布了首款產(chǎn)品 Tinker，12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式，那么 Tinker 定義的就是模型的訓(xùn)練 API 范式，讓所有模型訓(xùn)練共享。

Tinker 已經(jīng)獲得了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可，成為了硅谷和美國頂尖高校的訓(xùn)練新范式。

Mind Lab 與 MinT

國產(chǎn)后訓(xùn)練基礎(chǔ)設(shè)施的崛起

Tinker 在海外大火的同時，國內(nèi)也涌現(xiàn)出了對標(biāo)甚至超越的力量 ——Mind Lab 推出的 MinT（Mind Lab Toolkit）。

Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念，致力于讓 AI 系統(tǒng)能夠從真實世界的經(jīng)驗中不斷成長。

在他們看來，當(dāng)前大模型最大的問題是：訓(xùn)練完就 "凍住"，無法從真實交互中持續(xù)學(xué)習(xí)進(jìn)化。

MinT，正是為解決這個問題而生。

MinT 和 Tinker 是什么關(guān)系？可以從兩個層面理解：

兼容性上，MinT 做到了模型夠大夠全、接口完全一致—— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發(fā)者可以幾乎零成本地遷移到 MinT，享受國產(chǎn)基礎(chǔ)設(shè)施帶來的便利。

技術(shù)領(lǐng)先性上，MinT 不是簡單的 “國產(chǎn)替代”。事實上，早在 2025 年 12 月 1 日，Mind Lab 就比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL，是業(yè)界在萬億參數(shù)模型上進(jìn)行高效強(qiáng)化學(xué)習(xí)的第一個成果。

相關(guān)實現(xiàn)方案已經(jīng)開源，并獲得了Nvidia 官方轉(zhuǎn)載

具體方案詳見 Mind Lab 的技術(shù)報告：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解決了什么問題？

MinT 的核心價值可以用一句話說清：不論模型是1B還是1T，需要調(diào)度多少GPU，你只管數(shù)據(jù)和算法，基礎(chǔ)設(shè)施的復(fù)雜工程全交給平臺。

具體來說：用戶只需在本地 CPU 機(jī)器上寫幾行 Python 代碼，MinT 就會自動把計算任務(wù)分發(fā)到大規(guī)模 GPU 集群執(zhí)行。集群調(diào)度、資源管理、容錯恢復(fù)，這些讓開發(fā)者和研究人員頭疼的工程問題，統(tǒng)統(tǒng)由 MinT 搞定。切換不同的模型，只需修改代碼中的一個字符串。

技術(shù)路線上，MinT 采用 LoRA 技術(shù)，使多個訓(xùn)練和推理任務(wù)可以共享同一計算資源池，從而顯著降低成本。LoRA 在選擇最優(yōu)學(xué)習(xí)率的情況下，訓(xùn)練進(jìn)程與全參數(shù)微調(diào)幾乎完全一致，這為大規(guī)模高效后訓(xùn)練奠定了理論基礎(chǔ)。

目前，MinT 已支持Kimi K2 Thinking（萬億參數(shù)級別的 MoE 推理模型）Qwen3-VL 系列視覺語言模型等前沿開源模型，并全面兼容 Tinker API。值得一提的是，MinT 還優(yōu)先支持了π0 等具身 VLA 模型，這也體現(xiàn)出了中國公司在具身智能上的領(lǐng)先優(yōu)勢。

為什么需要 1T LoRA-RL？

強(qiáng)化學(xué)習(xí)被視為讓大模型從 “背題” 走向 “推理” 的關(guān)鍵，但現(xiàn)實里有三大難題：訓(xùn)練不穩(wěn)，小模型難以收斂，算力成本高。LoRA 提供了一條低成本路徑，只訓(xùn)練少量低秩適配器即可顯著提升下游任務(wù)表現(xiàn)，且在 RL/Agent 訓(xùn)練上幾乎不損失性能。

Mind Lab 在 Kimi K2（萬億參數(shù) MoE）上實現(xiàn)了端到端 LoRA 強(qiáng)化學(xué)習(xí)，帶來三點突破

成本：僅用常規(guī)全參 RL 約 10% 的 GPU 資源，64 塊 H800 即可完成訓(xùn)練。
穩(wěn)定性：獎勵與任務(wù)成功率平穩(wěn)提升，無災(zāi)難性發(fā)散；在 held-out 基準(zhǔn)上既提升特定任務(wù)，又保持基座模型通用能力。
系統(tǒng)：統(tǒng)一調(diào)度張量 / 流水線 / 專家 / 序列并行，針對 MoE 路由不均衡與通信壓力做了專項優(yōu)化。相關(guān)技術(shù)已貢獻(xiàn)至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。

為什么選擇 MinT？

MinT 的產(chǎn)品設(shè)計圍繞一個核心目標(biāo)：把后訓(xùn)練和強(qiáng)化學(xué)習(xí)的門檻打下來。

驗證成本上：MinT 允許開發(fā)者僅用 CPU 機(jī)器進(jìn)行訓(xùn)練驗證，告別配置 GPU 驅(qū)動和 OOM 的煩惱。這讓團(tuán)隊可以在投入大規(guī)模 GPU 資源前，先低成本驗證算法可行性。
工程效率上：MinT 將采樣、訓(xùn)練、回寫與發(fā)布無縫串聯(lián)，減少了工程拼裝成本。并行策略、權(quán)重管理、optimizer state 管理、滾動訓(xùn)練、日志與可復(fù)現(xiàn)性等，都按工程標(biāo)準(zhǔn)打通。
開發(fā)體驗上：MinT 完全兼容 Tinker API，現(xiàn)有代碼可快速適配，切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進(jìn)的開源大模型。
迭代速度上：采用 LoRA-RL 技術(shù)讓模型迭代周期從“按周” 縮短到 “按天”，真正服務(wù)于快節(jié)奏的產(chǎn)品開發(fā)需求。

誰是 MinT 最大的受益者？

第一批使用 MinT 的受益者，一定是 Agent 領(lǐng)域的創(chuàng)業(yè)公司和研究模型的高校頂尖實驗室。

它們共同的特點是：掌握核心的數(shù)據(jù)和問題的設(shè)定。他們并非不了解前沿算法，而往往是被算力與訓(xùn)練框架難住了。

據(jù) Mind Lab 官網(wǎng)介紹，目前 MinT 已經(jīng)獲得了頂尖高校和多個創(chuàng)業(yè)公司的認(rèn)可，應(yīng)用場景涵蓋基礎(chǔ)研究到垂直行業(yè)的廣泛領(lǐng)域。

在學(xué)術(shù)機(jī)構(gòu)方面：

清華大學(xué)人工智能學(xué)院黃高副教授團(tuán)隊（CVPR best paper 以及 NeruIPS best paper runner up 獲得者）利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
上海交通大學(xué)副教授、上海創(chuàng)智學(xué)院全時導(dǎo)師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。

在行業(yè)應(yīng)用方面：

硅谷創(chuàng)業(yè)公司Eigen AI合作探索運用 MinT 和 Data Agent 合成數(shù)據(jù)在 1T 模型上進(jìn)行 agentic RL 訓(xùn)練。
腦機(jī)接口公司姬械機(jī)利用 MinT 支持了他們的腦機(jī)接口 AgentBCI-Love，可以進(jìn)行情感交互對話。
瑞銘醫(yī)療利用 MinT 對醫(yī)療編碼模型進(jìn)行了基于 RL 的后訓(xùn)練，顯著提升了醫(yī)療編碼的準(zhǔn)確率，并落地到數(shù)十家三甲醫(yī)院

這些案例展現(xiàn)了 MinT 的通用性 —— 從基礎(chǔ)研究到垂直行業(yè)，都能用。

中國團(tuán)隊引領(lǐng)后訓(xùn)練浪潮

如何讓模型真正 “理解” 而非只是 “記住”，是眾多創(chuàng)業(yè)團(tuán)隊與科研工作者共同面對的核心問題。強(qiáng)化學(xué)習(xí)被視為解決這一問題的關(guān)鍵路徑，但其高門檻、高成本與不穩(wěn)定性，長期限制了它在真實產(chǎn)品和中小團(tuán)隊中的落地。

2025 年，中國團(tuán)隊在開源模型上大放異彩。

2026 年，后訓(xùn)練將是中國 AI 彎道超車的下一個關(guān)鍵戰(zhàn)場。

Mind Lab 選擇了 LoRA-RL 這一技術(shù)路徑，在超大規(guī)模模型上完成了萬億參數(shù)級別的探索與驗證，再次證明了中國團(tuán)隊在前沿研究上的工程能力與原創(chuàng)實力。MinT 正是 Mind Lab 希望將這些研究成果系統(tǒng)化、工具化的產(chǎn)物 —— 讓后訓(xùn)練和強(qiáng)化學(xué)習(xí)不再只屬于少數(shù)頭部機(jī)構(gòu)，而是成為更多公司與實驗室可以日常使用的能力。

這正是 Mind Lab 真正布局的方向：讓先進(jìn)研究轉(zhuǎn)化為可用工具，讓中國團(tuán)隊在模型后訓(xùn)練與強(qiáng)化學(xué)習(xí)這一關(guān)鍵技術(shù)浪潮中，實現(xiàn)自主可控。

可以訪問以下鏈接了解更多：

Mind Lab 官網(wǎng)：https://macaron.im/mindlab
相關(guān)文檔：https://mint.macaron.im/doc

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.