前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

2026-01-04 14:09:50　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

在大公司一路高歌猛進的 AI 浪潮里，小創(chuàng)業(yè)者和高校研究者正變得越來越迷茫。就連前段時間谷歌創(chuàng)始人謝爾蓋?布林回斯坦福，都要回答「大學該何去何從」「從學術到產(chǎn)業(yè)的傳統(tǒng)路徑是否依然重要」這類問題。

AI，真的只是大公司的游戲嗎？被算力掣肘的其他研究者、創(chuàng)業(yè)者，機會在哪里？在「強化學習」后訓練引領「下半場」的當下，這個問題變得愈發(fā)重要。

好在，國內(nèi)外都有專業(yè)團隊在關心這個問題，比如前 OpenAI CTO Mira 創(chuàng)辦的 Thinking Machines Lab，前段時間就推出了一個叫「Tinker」的產(chǎn)品，專注于解決后訓練 Infra 的復雜性。

而在國內(nèi)，一群由 95 后青年科學家組成的團隊做出了足以對標甚至超越 Tinker 的競品，成為世界第一家能夠?qū)?Thinking Machines Lab 的公司

這個研究中心叫Mind Lab，是 Macaron AI 背后的實驗室。1 月 1 日，他們發(fā)布了亮相以來的第一款產(chǎn)品——Mind Lab Toolkit（MinT）。這是一個用 CPU 的機器就能高效訓練萬億參數(shù)模型的后訓練平臺，且成本優(yōu)化了十倍，一天即可輕松完成一輪訓練。此外，它比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL，是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。

如果你是 Agent 領域創(chuàng)業(yè)公司或高校頂尖實驗室的成員，并且被算力限制了想象力，那你將是 MinT 的首批受益者。它的應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域，已經(jīng)在圈內(nèi)做出了一些成果。

細看一下，Mind Lab 的創(chuàng)始團隊也堪稱豪華。創(chuàng)始人 Andrew 畢業(yè)于 MIT，目前擔任深圳清華大學研究院的研發(fā)中心主任，代表工作有和姚順雨合作的 Agent 微調(diào)的經(jīng)典工作之一 FireAct。

首席科學家馬驍騰博士則畢業(yè)于清華大學自動化系，常年深耕強化學習領域。團隊成員來自清華、MIT、CMU等高校，并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經(jīng)歷。

團隊累計發(fā)表論文超 100 篇，總引用量超 3 萬次

這樣一個團隊打造的 MinT，正以極致的工程效率，將 AI 下半場的入場券交還到每一位研究者手中。

預訓練時代結束

AI 下半場開啟

過去幾年，預訓練一直是 AI 領域的主旋律 —— 更大的模型、更多的數(shù)據(jù)、更長的訓練周期。

如今，這一階段已趨于飽和：開源社區(qū)已經(jīng)擁有萬億參數(shù)級別的模型，能夠編寫代碼、總結文檔、通過標準化考試。

但當這些系統(tǒng)被部署到真實產(chǎn)品中，新的瓶頸開始顯現(xiàn)。模型一旦完成訓練，參數(shù)就被 ' 凍住 ' 了，不停重復著相同的錯誤，也無法適應不斷變化的用戶需求，實際使用效果只能靠抽卡。

強化學習，正是破局的關鍵。

DeepSeek R1 的發(fā)布更是向業(yè)界證明，強化學習能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數(shù)據(jù)，而是學會了在復雜任務中進行推理。

在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術報告中都反復強調(diào)：后訓練仍是一片藍海，強化學習還沒看到天花板。

2026 年的主旋律，是后訓練。

后訓練時代的基礎設施

強化學習這么重要，為什么沒普及？答案是：算法太復雜，訓練太不穩(wěn)定。

為了解決這個問題，前 OpenAI CTO Mira 創(chuàng)立的 Thinking Machines 發(fā)布了 Tinker，定義了后訓練 API 的新范式，迅速獲得美國學界和硅谷創(chuàng)業(yè)公司的熱捧。

在 OpenAI 經(jīng)歷了 Sam Altman 被解雇又回歸的內(nèi)部動蕩后，Mira 選擇離開，并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業(yè)界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。2025 年 7 月，Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元，估值120 億美元

他們押注的，正是后訓練賽道。2025 年 10 月，Thinking Machines 發(fā)布了首款產(chǎn)品 Tinker，12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式，那么 Tinker 定義的就是模型的訓練 API 范式，讓所有模型訓練共享。

Tinker 已經(jīng)獲得了學術界和工業(yè)界的廣泛認可，成為了硅谷和美國頂尖高校的訓練新范式。

Mind Lab 與 MinT

國產(chǎn)后訓練基礎設施的崛起

Tinker 在海外大火的同時，國內(nèi)也涌現(xiàn)出了對標甚至超越的力量 ——Mind Lab 推出的 MinT（Mind Lab Toolkit）。

Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念，致力于讓 AI 系統(tǒng)能夠從真實世界的經(jīng)驗中不斷成長。

在他們看來，當前大模型最大的問題是：訓練完就 "凍住"，無法從真實交互中持續(xù)學習進化。

MinT，正是為解決這個問題而生。

MinT 和 Tinker 是什么關系？可以從兩個層面理解：

兼容性上，MinT 做到了模型夠大夠全、接口完全一致—— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發(fā)者可以幾乎零成本地遷移到 MinT，享受國產(chǎn)基礎設施帶來的便利。

技術領先性上，MinT 不是簡單的 “國產(chǎn)替代”。事實上，早在 2025 年 12 月 1 日，Mind Lab 就比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL，是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。

相關實現(xiàn)方案已經(jīng)開源，并獲得了Nvidia 官方轉載

具體方案詳見 Mind Lab 的技術報告：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解決了什么問題？

MinT 的核心價值可以用一句話說清：不論模型是1B還是1T，需要調(diào)度多少GPU，你只管數(shù)據(jù)和算法，基礎設施的復雜工程全交給平臺。

具體來說：用戶只需在本地 CPU 機器上寫幾行 Python 代碼，MinT 就會自動把計算任務分發(fā)到大規(guī)模 GPU 集群執(zhí)行。集群調(diào)度、資源管理、容錯恢復，這些讓開發(fā)者和研究人員頭疼的工程問題，統(tǒng)統(tǒng)由 MinT 搞定。切換不同的模型，只需修改代碼中的一個字符串。

技術路線上，MinT 采用 LoRA 技術，使多個訓練和推理任務可以共享同一計算資源池，從而顯著降低成本。LoRA 在選擇最優(yōu)學習率的情況下，訓練進程與全參數(shù)微調(diào)幾乎完全一致，這為大規(guī)模高效后訓練奠定了理論基礎。

目前，MinT 已支持Kimi K2 Thinking（萬億參數(shù)級別的 MoE 推理模型）Qwen3-VL 系列視覺語言模型等前沿開源模型，并全面兼容 Tinker API。值得一提的是，MinT 還優(yōu)先支持了π0 等具身 VLA 模型，這也體現(xiàn)出了中國公司在具身智能上的領先優(yōu)勢。

為什么需要 1T LoRA-RL？

強化學習被視為讓大模型從 “背題” 走向 “推理” 的關鍵，但現(xiàn)實里有三大難題：訓練不穩(wěn)，小模型難以收斂，算力成本高。LoRA 提供了一條低成本路徑，只訓練少量低秩適配器即可顯著提升下游任務表現(xiàn)，且在 RL/Agent 訓練上幾乎不損失性能。

Mind Lab 在 Kimi K2（萬億參數(shù) MoE）上實現(xiàn)了端到端 LoRA 強化學習，帶來三點突破

成本：僅用常規(guī)全參 RL 約 10% 的 GPU 資源，64 塊 H800 即可完成訓練。
穩(wěn)定性：獎勵與任務成功率平穩(wěn)提升，無災難性發(fā)散；在 held-out 基準上既提升特定任務，又保持基座模型通用能力。
系統(tǒng)：統(tǒng)一調(diào)度張量 / 流水線 / 專家 / 序列并行，針對 MoE 路由不均衡與通信壓力做了專項優(yōu)化。相關技術已貢獻至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。

為什么選擇 MinT？

MinT 的產(chǎn)品設計圍繞一個核心目標：把后訓練和強化學習的門檻打下來。

驗證成本上：MinT 允許開發(fā)者僅用 CPU 機器進行訓練驗證，告別配置 GPU 驅(qū)動和 OOM 的煩惱。這讓團隊可以在投入大規(guī)模 GPU 資源前，先低成本驗證算法可行性。
工程效率上：MinT 將采樣、訓練、回寫與發(fā)布無縫串聯(lián)，減少了工程拼裝成本。并行策略、權重管理、optimizer state 管理、滾動訓練、日志與可復現(xiàn)性等，都按工程標準打通。
開發(fā)體驗上：MinT 完全兼容 Tinker API，現(xiàn)有代碼可快速適配，切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進的開源大模型。
迭代速度上：采用 LoRA-RL 技術讓模型迭代周期從“按周” 縮短到 “按天”，真正服務于快節(jié)奏的產(chǎn)品開發(fā)需求。

誰是 MinT 最大的受益者？

第一批使用 MinT 的受益者，一定是 Agent 領域的創(chuàng)業(yè)公司和研究模型的高校頂尖實驗室。

它們共同的特點是：掌握核心的數(shù)據(jù)和問題的設定。他們并非不了解前沿算法，而往往是被算力與訓練框架難住了。

據(jù) Mind Lab 官網(wǎng)介紹，目前 MinT 已經(jīng)獲得了頂尖高校和多個創(chuàng)業(yè)公司的認可，應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域。

在學術機構方面：

清華大學人工智能學院黃高副教授團隊（CVPR best paper 以及 NeruIPS best paper runner up 獲得者）利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
上海交通大學副教授、上海創(chuàng)智學院全時導師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。

在行業(yè)應用方面：

硅谷創(chuàng)業(yè)公司Eigen AI合作探索運用 MinT 和 Data Agent 合成數(shù)據(jù)在 1T 模型上進行 agentic RL 訓練。
腦機接口公司姬械機利用 MinT 支持了他們的腦機接口 AgentBCI-Love，可以進行情感交互對話。
瑞銘醫(yī)療利用 MinT 對醫(yī)療編碼模型進行了基于 RL 的后訓練，顯著提升了醫(yī)療編碼的準確率，并落地到數(shù)十家三甲醫(yī)院

這些案例展現(xiàn)了 MinT 的通用性 —— 從基礎研究到垂直行業(yè)，都能用。

中國團隊引領后訓練浪潮

如何讓模型真正 “理解” 而非只是 “記住”，是眾多創(chuàng)業(yè)團隊與科研工作者共同面對的核心問題。強化學習被視為解決這一問題的關鍵路徑，但其高門檻、高成本與不穩(wěn)定性，長期限制了它在真實產(chǎn)品和中小團隊中的落地。

2025 年，中國團隊在開源模型上大放異彩。

2026 年，后訓練將是中國 AI 彎道超車的下一個關鍵戰(zhàn)場。

Mind Lab 選擇了 LoRA-RL 這一技術路徑，在超大規(guī)模模型上完成了萬億參數(shù)級別的探索與驗證，再次證明了中國團隊在前沿研究上的工程能力與原創(chuàng)實力。MinT 正是 Mind Lab 希望將這些研究成果系統(tǒng)化、工具化的產(chǎn)物 —— 讓后訓練和強化學習不再只屬于少數(shù)頭部機構，而是成為更多公司與實驗室可以日常使用的能力。

這正是 Mind Lab 真正布局的方向：讓先進研究轉化為可用工具，讓中國團隊在模型后訓練與強化學習這一關鍵技術浪潮中，實現(xiàn)自主可控。

可以訪問以下鏈接了解更多：

Mind Lab 官網(wǎng)：https://macaron.im/mindlab
相關文檔：https://mint.macaron.im/doc

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.