国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

前OpenAI CTO押注的賽道,被中國團(tuán)隊搶先跑通,AI下半場人人有份

0
分享至




機(jī)器之心發(fā)布

在大公司一路高歌猛進(jìn)的 AI 浪潮里,小創(chuàng)業(yè)者和高校研究者正變得越來越迷茫。就連前段時間谷歌創(chuàng)始人謝爾蓋?布林回斯坦福,都要回答「大學(xué)該何去何從」「從學(xué)術(shù)到產(chǎn)業(yè)的傳統(tǒng)路徑是否依然重要」這類問題。

AI,真的只是大公司的游戲嗎?被算力掣肘的其他研究者、創(chuàng)業(yè)者,機(jī)會在哪里?在「強(qiáng)化學(xué)習(xí)」后訓(xùn)練引領(lǐng)「下半場」的當(dāng)下,這個問題變得愈發(fā)重要。

好在,國內(nèi)外都有專業(yè)團(tuán)隊在關(guān)心這個問題,比如前 OpenAI CTO Mira 創(chuàng)辦的 Thinking Machines Lab,前段時間就推出了一個叫「Tinker」的產(chǎn)品,專注于解決后訓(xùn)練 Infra 的復(fù)雜性。

而在國內(nèi),一群由 95 后青年科學(xué)家組成的團(tuán)隊做出了足以對標(biāo)甚至超越 Tinker 的競品,成為世界第一家能夠?qū)?biāo) Thinking Machines Lab 的公司

這個研究中心叫Mind Lab,是 Macaron AI 背后的實驗室。1 月 1 日,他們發(fā)布了亮相以來的第一款產(chǎn)品——Mind Lab Toolkit(MinT)。這是一個用 CPU 的機(jī)器就能高效訓(xùn)練萬億參數(shù)模型的后訓(xùn)練平臺,且成本優(yōu)化了十倍,一天即可輕松完成一輪訓(xùn)練。此外,它比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進(jìn)行高效強(qiáng)化學(xué)習(xí)的第一個成果。



如果你是 Agent 領(lǐng)域創(chuàng)業(yè)公司或高校頂尖實驗室的成員,并且被算力限制了想象力,那你將是 MinT 的首批受益者。它的應(yīng)用場景涵蓋基礎(chǔ)研究到垂直行業(yè)的廣泛領(lǐng)域,已經(jīng)在圈內(nèi)做出了一些成果。

細(xì)看一下,Mind Lab 的創(chuàng)始團(tuán)隊也堪稱豪華。創(chuàng)始人 Andrew 畢業(yè)于 MIT,目前擔(dān)任深圳清華大學(xué)研究院的研發(fā)中心主任,代表工作有和姚順雨合作的 Agent 微調(diào)的經(jīng)典工作之一 FireAct。

首席科學(xué)家馬驍騰博士則畢業(yè)于清華大學(xué)自動化系,常年深耕強(qiáng)化學(xué)習(xí)領(lǐng)域。團(tuán)隊成員來自清華、MIT、CMU等高校,并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經(jīng)歷。

團(tuán)隊累計發(fā)表論文超 100 篇,總引用量超 3 萬次

這樣一個團(tuán)隊打造的 MinT,正以極致的工程效率,將 AI 下半場的入場券交還到每一位研究者手中。

預(yù)訓(xùn)練時代結(jié)束

AI 下半場開啟

過去幾年,預(yù)訓(xùn)練一直是 AI 領(lǐng)域的主旋律 —— 更大的模型、更多的數(shù)據(jù)、更長的訓(xùn)練周期。

如今,這一階段已趨于飽和:開源社區(qū)已經(jīng)擁有萬億參數(shù)級別的模型,能夠編寫代碼、總結(jié)文檔、通過標(biāo)準(zhǔn)化考試。

但當(dāng)這些系統(tǒng)被部署到真實產(chǎn)品中,新的瓶頸開始顯現(xiàn)。模型一旦完成訓(xùn)練,參數(shù)就被 ' 凍住 ' 了,不停重復(fù)著相同的錯誤,也無法適應(yīng)不斷變化的用戶需求,實際使用效果只能靠抽卡。

強(qiáng)化學(xué)習(xí),正是破局的關(guān)鍵。

DeepSeek R1 的發(fā)布更是向業(yè)界證明,強(qiáng)化學(xué)習(xí)能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數(shù)據(jù),而是學(xué)會了在復(fù)雜任務(wù)中進(jìn)行推理。

在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術(shù)報告中都反復(fù)強(qiáng)調(diào):后訓(xùn)練仍是一片藍(lán)海,強(qiáng)化學(xué)習(xí)還沒看到天花板。

2026 年的主旋律,是后訓(xùn)練。

后訓(xùn)練時代的基礎(chǔ)設(shè)施

強(qiáng)化學(xué)習(xí)這么重要,為什么沒普及?答案是:算法太復(fù)雜,訓(xùn)練太不穩(wěn)定。

為了解決這個問題,前 OpenAI CTO Mira 創(chuàng)立的 Thinking Machines 發(fā)布了 Tinker,定義了后訓(xùn)練 API 的新范式,迅速獲得美國學(xué)界和硅谷創(chuàng)業(yè)公司的熱捧。

在 OpenAI 經(jīng)歷了 Sam Altman 被解雇又回歸的內(nèi)部動蕩后,Mira 選擇離開,并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業(yè)界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。2025 年 7 月,Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元,估值120 億美元

他們押注的,正是后訓(xùn)練賽道。2025 年 10 月,Thinking Machines 發(fā)布了首款產(chǎn)品 Tinker,12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式,那么 Tinker 定義的就是模型的訓(xùn)練 API 范式,讓所有模型訓(xùn)練共享。

Tinker 已經(jīng)獲得了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可,成為了硅谷和美國頂尖高校的訓(xùn)練新范式。



Mind Lab 與 MinT

國產(chǎn)后訓(xùn)練基礎(chǔ)設(shè)施的崛起

Tinker 在海外大火的同時,國內(nèi)也涌現(xiàn)出了對標(biāo)甚至超越的力量 ——Mind Lab 推出的 MinT(Mind Lab Toolkit)。

Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念,致力于讓 AI 系統(tǒng)能夠從真實世界的經(jīng)驗中不斷成長。

在他們看來,當(dāng)前大模型最大的問題是:訓(xùn)練完就 "凍住",無法從真實交互中持續(xù)學(xué)習(xí)進(jìn)化。

MinT,正是為解決這個問題而生。

MinT 和 Tinker 是什么關(guān)系?可以從兩個層面理解:

兼容性上,MinT 做到了模型夠大夠全、接口完全一致—— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發(fā)者可以幾乎零成本地遷移到 MinT,享受國產(chǎn)基礎(chǔ)設(shè)施帶來的便利。

技術(shù)領(lǐng)先性上,MinT 不是簡單的 “國產(chǎn)替代”。事實上,早在 2025 年 12 月 1 日,Mind Lab 就比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進(jìn)行高效強(qiáng)化學(xué)習(xí)的第一個成果。

相關(guān)實現(xiàn)方案已經(jīng)開源,并獲得了Nvidia 官方轉(zhuǎn)載

具體方案詳見 Mind Lab 的技術(shù)報告:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus



MinT 解決了什么問題?

MinT 的核心價值可以用一句話說清:不論模型是1B還是1T,需要調(diào)度多少GPU,你只管數(shù)據(jù)和算法,基礎(chǔ)設(shè)施的復(fù)雜工程全交給平臺。

具體來說:用戶只需在本地 CPU 機(jī)器上寫幾行 Python 代碼,MinT 就會自動把計算任務(wù)分發(fā)到大規(guī)模 GPU 集群執(zhí)行。集群調(diào)度、資源管理、容錯恢復(fù),這些讓開發(fā)者和研究人員頭疼的工程問題,統(tǒng)統(tǒng)由 MinT 搞定。切換不同的模型,只需修改代碼中的一個字符串。

技術(shù)路線上,MinT 采用 LoRA 技術(shù),使多個訓(xùn)練和推理任務(wù)可以共享同一計算資源池,從而顯著降低成本。LoRA 在選擇最優(yōu)學(xué)習(xí)率的情況下,訓(xùn)練進(jìn)程與全參數(shù)微調(diào)幾乎完全一致,這為大規(guī)模高效后訓(xùn)練奠定了理論基礎(chǔ)。

目前,MinT 已支持Kimi K2 Thinking(萬億參數(shù)級別的 MoE 推理模型)Qwen3-VL 系列視覺語言模型等前沿開源模型,并全面兼容 Tinker API。值得一提的是,MinT 還優(yōu)先支持了π0 等具身 VLA 模型,這也體現(xiàn)出了中國公司在具身智能上的領(lǐng)先優(yōu)勢。



為什么需要 1T LoRA-RL?

強(qiáng)化學(xué)習(xí)被視為讓大模型從 “背題” 走向 “推理” 的關(guān)鍵,但現(xiàn)實里有三大難題:訓(xùn)練不穩(wěn),小模型難以收斂,算力成本高。LoRA 提供了一條低成本路徑,只訓(xùn)練少量低秩適配器即可顯著提升下游任務(wù)表現(xiàn),且在 RL/Agent 訓(xùn)練上幾乎不損失性能。

Mind Lab 在 Kimi K2(萬億參數(shù) MoE)上實現(xiàn)了端到端 LoRA 強(qiáng)化學(xué)習(xí),帶來三點突破

  • 成本:僅用常規(guī)全參 RL 約 10% 的 GPU 資源,64 塊 H800 即可完成訓(xùn)練。
  • 穩(wěn)定性:獎勵與任務(wù)成功率平穩(wěn)提升,無災(zāi)難性發(fā)散;在 held-out 基準(zhǔn)上既提升特定任務(wù),又保持基座模型通用能力。
  • 系統(tǒng):統(tǒng)一調(diào)度張量 / 流水線 / 專家 / 序列并行,針對 MoE 路由不均衡與通信壓力做了專項優(yōu)化。相關(guān)技術(shù)已貢獻(xiàn)至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。



為什么選擇 MinT?

MinT 的產(chǎn)品設(shè)計圍繞一個核心目標(biāo):把后訓(xùn)練和強(qiáng)化學(xué)習(xí)的門檻打下來。

  • 驗證成本上:MinT 允許開發(fā)者僅用 CPU 機(jī)器進(jìn)行訓(xùn)練驗證,告別配置 GPU 驅(qū)動和 OOM 的煩惱。這讓團(tuán)隊可以在投入大規(guī)模 GPU 資源前,先低成本驗證算法可行性。
  • 工程效率上:MinT 將采樣、訓(xùn)練、回寫與發(fā)布無縫串聯(lián),減少了工程拼裝成本。并行策略、權(quán)重管理、optimizer state 管理、滾動訓(xùn)練、日志與可復(fù)現(xiàn)性等,都按工程標(biāo)準(zhǔn)打通。
  • 開發(fā)體驗上:MinT 完全兼容 Tinker API,現(xiàn)有代碼可快速適配,切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進(jìn)的開源大模型。
  • 迭代速度上:采用 LoRA-RL 技術(shù)讓模型迭代周期從“按周” 縮短到 “按天”,真正服務(wù)于快節(jié)奏的產(chǎn)品開發(fā)需求。



誰是 MinT 最大的受益者?

第一批使用 MinT 的受益者,一定是 Agent 領(lǐng)域的創(chuàng)業(yè)公司和研究模型的高校頂尖實驗室。

它們共同的特點是:掌握核心的數(shù)據(jù)和問題的設(shè)定。他們并非不了解前沿算法,而往往是被算力與訓(xùn)練框架難住了。

據(jù) Mind Lab 官網(wǎng)介紹,目前 MinT 已經(jīng)獲得了頂尖高校和多個創(chuàng)業(yè)公司的認(rèn)可,應(yīng)用場景涵蓋基礎(chǔ)研究到垂直行業(yè)的廣泛領(lǐng)域。

在學(xué)術(shù)機(jī)構(gòu)方面:

  • 清華大學(xué)人工智能學(xué)院黃高副教授團(tuán)隊(CVPR best paper 以及 NeruIPS best paper runner up 獲得者)利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
  • 上海交通大學(xué)副教授、上海創(chuàng)智學(xué)院全時導(dǎo)師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。

在行業(yè)應(yīng)用方面:

  • 硅谷創(chuàng)業(yè)公司Eigen AI合作探索運用 MinT 和 Data Agent 合成數(shù)據(jù)在 1T 模型上進(jìn)行 agentic RL 訓(xùn)練。
  • 腦機(jī)接口公司姬械機(jī)利用 MinT 支持了他們的腦機(jī)接口 AgentBCI-Love,可以進(jìn)行情感交互對話。
  • 瑞銘醫(yī)療利用 MinT 對醫(yī)療編碼模型進(jìn)行了基于 RL 的后訓(xùn)練,顯著提升了醫(yī)療編碼的準(zhǔn)確率,并落地到數(shù)十家三甲醫(yī)院

這些案例展現(xiàn)了 MinT 的通用性 —— 從基礎(chǔ)研究到垂直行業(yè),都能用。

中國團(tuán)隊引領(lǐng)后訓(xùn)練浪潮

如何讓模型真正 “理解” 而非只是 “記住”,是眾多創(chuàng)業(yè)團(tuán)隊與科研工作者共同面對的核心問題。強(qiáng)化學(xué)習(xí)被視為解決這一問題的關(guān)鍵路徑,但其高門檻、高成本與不穩(wěn)定性,長期限制了它在真實產(chǎn)品和中小團(tuán)隊中的落地。

2025 年,中國團(tuán)隊在開源模型上大放異彩。

2026 年,后訓(xùn)練將是中國 AI 彎道超車的下一個關(guān)鍵戰(zhàn)場。

Mind Lab 選擇了 LoRA-RL 這一技術(shù)路徑,在超大規(guī)模模型上完成了萬億參數(shù)級別的探索與驗證,再次證明了中國團(tuán)隊在前沿研究上的工程能力與原創(chuàng)實力。MinT 正是 Mind Lab 希望將這些研究成果系統(tǒng)化、工具化的產(chǎn)物 —— 讓后訓(xùn)練和強(qiáng)化學(xué)習(xí)不再只屬于少數(shù)頭部機(jī)構(gòu),而是成為更多公司與實驗室可以日常使用的能力。

這正是 Mind Lab 真正布局的方向:讓先進(jìn)研究轉(zhuǎn)化為可用工具,讓中國團(tuán)隊在模型后訓(xùn)練與強(qiáng)化學(xué)習(xí)這一關(guān)鍵技術(shù)浪潮中,實現(xiàn)自主可控。

可以訪問以下鏈接了解更多:

  • Mind Lab 官網(wǎng):https://macaron.im/mindlab
  • 相關(guān)文檔:https://mint.macaron.im/doc

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
森林狼超湖人升西部第四!愛德華茲突破1萬分 比肩科比詹姆斯

森林狼超湖人升西部第四!愛德華茲突破1萬分 比肩科比詹姆斯

Emily說個球
2026-01-09 12:40:30
特朗普:必須“擁有”整個格陵蘭

特朗普:必須“擁有”整個格陵蘭

環(huán)球網(wǎng)資訊
2026-01-09 06:30:52
大潰敗!中國網(wǎng)貸公司,在印度全軍覆沒

大潰??!中國網(wǎng)貸公司,在印度全軍覆沒

首席品牌評論
2026-01-07 18:20:00
江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

界面新聞
2026-01-09 09:20:58
哪怕淚成江河,也要為河北農(nóng)民取暖發(fā)聲

哪怕淚成江河,也要為河北農(nóng)民取暖發(fā)聲

灰白筆記
2026-01-08 12:44:06
特朗普稱如果中國在其任期內(nèi)試圖改變臺灣現(xiàn)狀,他將非常“不悅”,外交部:解決臺灣問題是中國人自己的事,不容外部干涉

特朗普稱如果中國在其任期內(nèi)試圖改變臺灣現(xiàn)狀,他將非常“不悅”,外交部:解決臺灣問題是中國人自己的事,不容外部干涉

揚子晚報
2026-01-09 15:28:43
天安門原升旗手張自軒結(jié)婚,岳父豪送奧迪A6,新娘身份不一般

天安門原升旗手張自軒結(jié)婚,岳父豪送奧迪A6,新娘身份不一般

八斗小先生
2026-01-08 18:19:01
86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

誰將笑到最后
2026-01-08 09:29:51
買1500元洗碗機(jī)遭丈夫砸家迎反轉(zhuǎn):這場爭吵給萬千夫妻上了一課!

買1500元洗碗機(jī)遭丈夫砸家迎反轉(zhuǎn):這場爭吵給萬千夫妻上了一課!

行者聊官
2026-01-09 11:47:28
白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

都市快報橙柿互動
2026-01-09 08:14:32
三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

墨蘭史書
2026-01-08 21:25:03
中國猛捶日本,第一波反制剛到,第二波進(jìn)入倒計時:191國靠邊站

中國猛捶日本,第一波反制剛到,第二波進(jìn)入倒計時:191國靠邊站

近史博覽
2026-01-09 14:53:29
男子撞死一家三口被判死緩,被害方家屬發(fā)聲

男子撞死一家三口被判死緩,被害方家屬發(fā)聲

中國新聞周刊
2026-01-09 11:08:03
突發(fā)!Manus交易大概率要黃了!

突發(fā)!Manus交易大概率要黃了!

達(dá)文西看世界
2026-01-09 12:55:01
雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

雷軍再回應(yīng)"1300公里只充一次電" 水軍想給我貼"虛假營銷"的標(biāo)簽

每日經(jīng)濟(jì)新聞
2026-01-09 10:29:49
閆學(xué)晶風(fēng)波再升級!稱自己的錢夠花幾輩子,憑本事吃飯,愛咋咋地

閆學(xué)晶風(fēng)波再升級!稱自己的錢夠花幾輩子,憑本事吃飯,愛咋咋地

小徐講八卦
2026-01-08 10:34:47
“和平意志-2026”海上聯(lián)演將在南非舉行

“和平意志-2026”海上聯(lián)演將在南非舉行

界面新聞
2026-01-09 16:38:48
新華社痛批!多地加油站瘋狂作弊,網(wǎng)友:罰2000是在鼓勵犯罪嗎?

新華社痛批!多地加油站瘋狂作弊,網(wǎng)友:罰2000是在鼓勵犯罪嗎?

徐德文科學(xué)頻道
2026-01-08 15:05:15
隊記:這是楊瀚森本賽季打得最好的一場 真正做到了能被教練用上

隊記:這是楊瀚森本賽季打得最好的一場 真正做到了能被教練用上

羅說NBA
2026-01-09 07:36:38
600028,開盤漲停,1分鐘內(nèi)股價跳水!

600028,開盤漲停,1分鐘內(nèi)股價跳水!

數(shù)據(jù)寶
2026-01-09 10:14:03
2026-01-09 16:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

頭條要聞

特朗普稱若大陸改變臺灣現(xiàn)狀他將"不悅" 外交部回應(yīng)

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

游戲
數(shù)碼
時尚
房產(chǎn)
公開課

曝Xbox發(fā)布會有神秘游戲!但別抱太大期望?

數(shù)碼要聞

入門獨顯可以扔了!Intel銳炫B390集顯實測:《賽博朋克2077》超80FPS

60+女性穿搭“高級感”秘訣:4個日常技巧,輕松美出優(yōu)雅氣質(zhì)

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版