OpenAI前CTO首個創(chuàng)業(yè)產(chǎn)品Tinker，全量升級開放了，還有羊毛可薅

2026-01-07 14:30:39　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

當 OpenAI 前 CTO Mira Murati 創(chuàng)立的 Thinking Machines Lab (TML) 用 Tinker 創(chuàng)新性的將大模型訓練抽象成 forward backward，optimizer step 等?系列基本原語，分離了算法設計等部分與分布式訓練基礎設施關聯(lián)，把 “訓練” 大模型變成了簡單的 “函數(shù)調(diào)用” 時，行業(yè)進入一場從 “作坊式煉丹” 到 “工業(yè)化微調(diào)” 的升級。

潞晨云微調(diào) SDK 正式開放上線：基于 Thinking Machine Lab 開源的 Tinker SDK 構建，作為國內(nèi)首個兼容 Tinker 范式且全面開放的 Serverless 微調(diào)平臺，為復雜昂貴的強化學習提供更具成本優(yōu)勢的工業(yè)級解法 —— 開發(fā)者無需囤卡，rollout→reward→update 全鏈路按 Token 計價，讓每一分錢都花在產(chǎn)生梯度的 “刀刃” 上。

擁抱后訓練與 RL

算法層與底層算力架構的解耦

隨著 OpenAI o1 在推理能力上的突破，業(yè)界逐漸形成共識：大模型的能力突破已不再單純依賴預訓練（Pre-training）階段的參數(shù)堆砌，后訓練（Post-Training）特別是強化學習正成為決定模型實用價值的核心戰(zhàn)場。以 DeepSeek?R1 為例，僅靠強化學習訓練，模型在 AIME 數(shù)學推理基準上的 pass@1 從 15.6% 提升至 77.9%，充分展示了 RL 在低數(shù)據(jù)量條件下即可實現(xiàn)大幅能力躍升，迅速成為后訓練賽道的新范式。

然而，擺在算法工程師面前的問題依舊嚴峻。強化學習涉及到更為復雜的系統(tǒng)設計，訓練過程中存在一系列的問題，如多個模型的優(yōu)化，數(shù)據(jù)的傳遞，以及模型權重的傳遞；一系列工程化的工作，給算法的設計帶來了更多的困難，同時也對基礎設施提出了更高的要求。

Tinker 的出現(xiàn)，就是為了解決這個問題：把繁雜訓練變成標準易用的 API。

潞晨云把這一范式寫進底層假設，算法設計與基礎設施解耦—— 開發(fā)者只負責定義數(shù)據(jù)與 Loss 函數(shù)，底層的異構集群調(diào)度、并行策略優(yōu)化、容錯運維等應被封裝為基礎設施服務，對開發(fā)者實現(xiàn)全托管與無感支持。

致敬創(chuàng)新，更致力于落地。潞晨云微調(diào) SDK 兼容 Tinker 接口，消除了從 “算法靈感” 到 “模型落地” 之間的工程化壁壘，在零代碼微調(diào)與裸機全手寫之間落在最佳平衡點，將研究精力和算力成本從集群運維還原至算法本身，帶給開發(fā)者 “本地寫碼，云端計算的 “訓練即服務（Training as a Service）” 流暢體驗。

潞晨云微調(diào) SDK 今日起全量開放，前 150 名用戶通過專屬鏈接注冊，可獲得 30 元 Token 使用額度：

https://cloud.luchentech.com/account/signup?invitation_code=JQZX

顛覆性人力效能比

1 名算法工程師頂替原龐大 Infra 團隊

潞晨云微調(diào) SDK 的核心思路可以概括為：算法工程師定義算法邏輯，潞晨云搞定 Infra 。

在傳統(tǒng)的開發(fā)中，用戶往往要花大量精力去租賃合適的算力集群、管理環(huán)境配置、調(diào)訓練框架和集群運維。但潞晨云將大模型訓練拆解成了一組標準的函數(shù)原語，打通了從 SFT 到 RL 的全鏈路：

Forward & Backward：處理前向傳播與梯度計算
Optimizer Step：執(zhí)行權重更新策略
Sample (Rollout)：做推理生成和評估，使用戶不僅可以完成 SFT，更能輕松構建 PPO、GRPO、DPO 等復雜的強化學習（RLHF/RLAIF）訓練流
Save State：管理模型檢查點與狀態(tài)保存

這意味著，用戶可以在本地熟悉的 Jupyter Notebook 或 IDE 里，用最標準的 Python 語法像搭積木一樣自由組合，掌控訓練邏輯的細節(jié)。

這種模式帶來了顛覆性的‘人力效能比’提升：它將原本需要運維工程師、Infra 工程師、平臺工程師和算法工程師緊密配合的龐大團隊，簡化為了‘一個算法工程師’的獨立閉環(huán)。

用戶不再被底層繁雜的基建拖累，不再背負多職能的枷鎖，也不再是黑盒填參的被動執(zhí)行者，而是能夠獨立駕馭大規(guī)模訓練流的主動設計師。無論是監(jiān)督微調(diào)（SFT）還是更復雜的強化學習（RL）Pipeline，都能通過組合這些原子函數(shù)來靈活構建。

為什么這種體驗如此絲滑？

為了實現(xiàn)極致的流暢度，潞晨云基于現(xiàn)有的 GPU 云服務架構實現(xiàn)了一套完整的后端系統(tǒng)。在具體實現(xiàn)中，潞晨云采用控制面與計算面分離設計，通過統(tǒng)? API Server 管理跨地域的多個 GPU 計算集群，實現(xiàn)多云部署能力。核心采用基于 Future 模式的異步 API，所有訓練操作?持非阻塞調(diào)用，用戶無需等待 GPU 計算完成即可繼續(xù)執(zhí)行后續(xù)邏輯。

潞晨云微調(diào) SDK 還具備智能隊列系統(tǒng)，即使在資源洪峰期，任務也會自動進入持久化隊列（Persistence Queue），一旦底層資源可用，毫秒級啟動，隊列等待期間 0 計費，僅對實際 prefill + sample + train 的 Token 量收費，無資源閑置，將用戶每一分錢都用在產(chǎn)生梯度的刀刃上。

模型微調(diào)的算力零售革命

從 “包機租賃” 到 “按 Token 計費”

如果說 “易用性” 是后訓練平臺的入場券，那么 “成本結構” 則是決定誰能走得更遠的護城河。

在傳統(tǒng)云主機的 “包機 / 時租” 模式中，用戶一直在為 “過程” 買單 —— 無論是在加載數(shù)據(jù)、調(diào)試代碼，還是僅僅在思考 Loss 函數(shù)，只要占用了顯卡，計費表就在跳動。這種模式下，開發(fā)過程中有一半以上的預算都浪費在了這些沒有實際產(chǎn)出的 “垃圾時間” 里。

潞晨云為微調(diào)大模型場景引入了 Serverless 架構，推行 “按 Token 計費” 的商業(yè)模式，將微調(diào)場景的算力服務切分到了最細的顆粒度：

為價值付費：就像使用推理 API 一樣，用戶只需為 Prefill (輸入)、Sample (推理輸出) 和 Train (訓練) 產(chǎn)生的有效計算 Tokens 量付費。
其他環(huán)節(jié)全免費：本地代碼調(diào)試、環(huán)境配置、數(shù)據(jù)預處理、模型 Checkpoint 保存…… 這些在傳統(tǒng)租卡模式下分秒必爭的環(huán)節(jié)，在潞晨云全部免費
極致性價比：通常，RL 需要同時維護高吞吐的推理集群（vLLM）和訓練集群，算力成本極高。但在潞晨云上，實測基于官方 Cookbook 的 math_rl recipe 跑通包含 Rollout 采樣、Reward 評分和 PPO 更新的完整 RL 流程（~300 steps），總算力成本僅8.61 元。這意味著，個體開發(fā)者也能低成本復現(xiàn) RLHF/RLAIF 探索。

技術落地的三個場景

SFT 與 RL 同時 “開箱即用”

這種新模式，也將徹底改變不同領域開發(fā)者的工作流：

科研場景：告別資源焦慮

學術界，時間與算力往往是最緊缺的資源。研究人員不僅要面對繁瑣的集群運維（Slurm/Docker 配置），還要應對昂貴的實驗復現(xiàn)成本。潞晨云微調(diào) SDK 支持 “白盒級” 的科研探索，全面兼容 Tinker API。研究人員可以自定義 Evaluation 邏輯、通過 Forward/Backward，Sample 等原語精確控制后訓練和強化學習 Pipeline，而無需關心底層的分布式實現(xiàn)，讓實驗復現(xiàn)成本大幅降低。

創(chuàng)業(yè)與獨立開發(fā)：極速驗證 MVP

對于初創(chuàng)團隊，“快” 是生存根本。利用潞晨云微調(diào) SDK 的 Serverless 特性，開發(fā)者無需等待資源排期。配合極低的 Token 成本，實測從 pip install 到跑通一個包含 1000 條樣本的 SFT 或 RL 微調(diào)實驗，僅需數(shù)分鐘。這種極致的邊際成本，讓創(chuàng)業(yè)者敢于在有限預算下快速迭代 Reward 模型，實現(xiàn)真正的 “低成本試錯”。

工業(yè)級落地：復雜架構突圍

在金融、醫(yī)療等垂直領域的工業(yè)應用中，已有微調(diào) API 往往難以應對復雜的異構架構與 RLHF/RLAIF 需求。潞晨云微調(diào) SDK 允許工程師通過 train_step 自由定義 Loss 邏輯與強化學習獎勵函數(shù)。開發(fā)者擁有對模型權重與訓練細節(jié)的完整控制權，實現(xiàn)端到端定制。

極簡實戰(zhàn)：三步上手

沒有復雜的集群配置，沒有冗長的 Docker 構建。使用潞晨云微調(diào) SDK，訓練一個大模型就像寫普通 Python 腳本一樣簡單：

1.Install & Import:

Bashpip install hpcai

2.Initialize Client: 目前已支持 Qwen3 系列 (4B-32B) ，更多模型即將上線

Pythonimport hpcai# 初始化 LoRA 訓練客戶端，無需配置復雜的分布式參數(shù)training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3-4B", rank=32)

3.Define Training Loop & Run: 像在本地寫 PyTorch 一樣，擁有對訓練循環(huán)的完整控制權：

Python# 訓練循環(huán)：完全可控forstepinrange(target_steps): # 前向與反向傳播 fwd_bwd = training_client.forward_backward (batch,"cross_entropy") # 優(yōu)化器步進 optim = training_client.optim_step (adam_params) # 實時獲取 Loss 進行監(jiān)控 loss = fwd_bwd.result ().metrics.get("loss:mean")

目前，微調(diào) SDK 已覆蓋 Qwen3 系列模型（4B、8B、14B、32B），支持監(jiān)督學習和強化學習訓練方式，并將持續(xù)擴展更多模型能力與細分落地場景，大家也可以向官?提交需求 push 更新。

平臺還準備了開箱即用的 HPC-AI Cookbook，提供包括DeepSeek-R1 GRPO 算法、基于 Verifier 的數(shù)學推理、自定義 Reward 函數(shù)等復雜 RL 場景的完整代碼實現(xiàn)。開發(fā)者無需從零構建復雜的 PPO/GRPO 流水線，只需復制 Cookbook 中的 “配方”，運行輕量級本地 train.py 腳本，即可驅(qū)動云端復雜的分布式 RL 訓練流，在潞晨云上復現(xiàn)具備復雜邏輯推理能力的 SOTA 模型。

現(xiàn)在體驗

后訓練正從學術支線升級為工程主線，AI 基礎設施的終極形態(tài)應該是 “零認知負荷”—— 開發(fā)者只需描述數(shù)據(jù)與算法，其余（租卡、配環(huán)境、并行策略、運維調(diào)度、故障自愈，乃至 RL 涉及的一系列工程化的工作）全部下沉到用戶無感。當 GPU 閑置成本趨近于 0，環(huán)境配置時間趨近于 0，長序列 RLHF 也能按 Token 即時計費，應用創(chuàng)新效率直接逼近算力上限。

潞晨云微調(diào) SDK 今日起全量開放：

無需白名單，無需預約
前 150 名注冊即得 30 元體驗金（填寫專屬福利碼 JQZX）

把資源彈性交給平臺，把算法自由度留給自己，每一分錢都用在產(chǎn)生梯度的刀刃上！

立即體驗：https://cloud.luchentech.com/fine-tuning
使用文檔：https://cloud.luchentech.com/doc/docs/finetune-sdk/

Reference

[1] Tinker SDK: https://github.com/thinking-machines-lab/tinker

[2] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.