国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI前CTO首個創(chuàng)業(yè)產(chǎn)品Tinker,全量升級開放了,還有羊毛可薅

0
分享至



機器之心發(fā)布

當 OpenAI 前 CTO Mira Murati 創(chuàng)立的 Thinking Machines Lab (TML) 用 Tinker 創(chuàng)新性的將大模型訓練抽象成 forward backward,optimizer step 等?系列基本原語,分離了算法設計等部分與分布式訓練基礎設施關聯(lián),把 “訓練” 大模型變成了簡單的 “函數(shù)調(diào)用” 時,行業(yè)進入一場從 “作坊式煉丹” 到 “工業(yè)化微調(diào)” 的升級。

潞晨云微調(diào) SDK 正式開放上線:基于 Thinking Machine Lab 開源的 Tinker SDK 構建,作為國內(nèi)首個兼容 Tinker 范式且全面開放的 Serverless 微調(diào)平臺,為復雜昂貴的強化學習提供更具成本優(yōu)勢的工業(yè)級解法 —— 開發(fā)者無需囤卡,rollout→reward→update 全鏈路按 Token 計價,讓每一分錢都花在產(chǎn)生梯度的 “刀刃” 上。

擁抱后訓練與 RL

算法層與底層算力架構的解耦

隨著 OpenAI o1 在推理能力上的突破,業(yè)界逐漸形成共識:大模型的能力突破已不再單純依賴預訓練(Pre-training)階段的參數(shù)堆砌,后訓練(Post-Training) 特別是強化學習正成為決定模型實用價值的核心戰(zhàn)場。以 DeepSeek?R1 為例,僅靠強化學習訓練,模型在 AIME 數(shù)學推理基準上的 pass@1 從 15.6% 提升至 77.9%,充分展示了 RL 在低數(shù)據(jù)量條件下即可實現(xiàn)大幅能力躍升,迅速成為后訓練賽道的新范式。

然而,擺在算法工程師面前的問題依舊嚴峻。強化學習涉及到更為復雜的系統(tǒng)設計,訓練過程中存在一系列的問題,如多個模型的優(yōu)化,數(shù)據(jù)的傳遞,以及模型權重的傳遞;一系列工程化的工作,給算法的設計帶來了更多的困難,同時也對基礎設施提出了更高的要求。

Tinker 的出現(xiàn),就是為了解決這個問題:把繁雜訓練變成標準易用的 API。

潞晨云把這一范式寫進底層假設,算法設計與基礎設施解耦—— 開發(fā)者只負責定義數(shù)據(jù)與 Loss 函數(shù),底層的異構集群調(diào)度、并行策略優(yōu)化、容錯運維等應被封裝為基礎設施服務,對開發(fā)者實現(xiàn)全托管與無感支持。

致敬創(chuàng)新,更致力于落地。潞晨云微調(diào) SDK 兼容 Tinker 接口, 消除了從 “算法靈感” 到 “模型落地” 之間的工程化壁壘,在零代碼微調(diào)與裸機全手寫之間落在最佳平衡點,將研究精力和算力成本從集群運維還原至算法本身,帶給開發(fā)者 “本地寫碼,云端計算的 “訓練即服務(Training as a Service)” 流暢體驗 。



潞晨云微調(diào) SDK 今日起全量開放,前 150 名用戶通過專屬鏈接注冊,可獲得 30 元 Token 使用額度:

https://cloud.luchentech.com/account/signup?invitation_code=JQZX

顛覆性人力效能比

1 名算法工程師頂替原龐大 Infra 團隊

潞晨云微調(diào) SDK 的核心思路可以概括為:算法工程師定義算法邏輯,潞晨云搞定 Infra 。

在傳統(tǒng)的開發(fā)中,用戶往往要花大量精力去租賃合適的算力集群、管理環(huán)境配置、調(diào)訓練框架和集群運維。但潞晨云將大模型訓練拆解成了一組標準的函數(shù)原語,打通了從 SFT 到 RL 的全鏈路

  • Forward & Backward: 處理前向傳播與梯度計算
  • Optimizer Step: 執(zhí)行權重更新策略
  • Sample (Rollout): 做推理生成和評估,使用戶不僅可以完成 SFT,更能輕松構建 PPO、GRPO、DPO 等復雜的強化學習(RLHF/RLAIF)訓練流
  • Save State: 管理模型檢查點與狀態(tài)保存



這意味著,用戶可以在本地熟悉的 Jupyter Notebook 或 IDE 里,用最標準的 Python 語法像搭積木一樣自由組合,掌控訓練邏輯的細節(jié)。

這種模式帶來了顛覆性的‘人力效能比’提升:它將原本需要運維工程師、Infra 工程師、平臺工程師和算法工程師緊密配合的龐大團隊,簡化為了‘一個算法工程師’的獨立閉環(huán)。

用戶不再被底層繁雜的基建拖累,不再背負多職能的枷鎖,也不再是黑盒填參的被動執(zhí)行者,而是能夠獨立駕馭大規(guī)模訓練流的主動設計師。無論是監(jiān)督微調(diào)(SFT)還是更復雜的強化學習(RL)Pipeline,都能通過組合這些原子函數(shù)來靈活構建。



為什么這種體驗如此絲滑?

為了實現(xiàn)極致的流暢度,潞晨云基于現(xiàn)有的 GPU 云服務架構實現(xiàn)了一套完整的后端系統(tǒng)。在具體實現(xiàn)中,潞晨云采用控制面與計算面分離設計,通過統(tǒng)? API Server 管理跨地域的多個 GPU 計算集群,實現(xiàn)多云部署能力。核心采用基于 Future 模式的異步 API,所有訓練操作?持非阻塞調(diào)用,用戶無需等待 GPU 計算完成即可繼續(xù)執(zhí)行后續(xù)邏輯。



潞晨云微調(diào) SDK 還具備智能隊列系統(tǒng),即使在資源洪峰期,任務也會自動進入持久化隊列(Persistence Queue),一旦底層資源可用,毫秒級啟動,隊列等待期間 0 計費,僅對實際 prefill + sample + train 的 Token 量收費,無資源閑置,將用戶每一分錢都用在產(chǎn)生梯度的刀刃上。

模型微調(diào)的算力零售革命

從 “包機租賃” 到 “按 Token 計費”

如果說 “易用性” 是后訓練平臺的入場券,那么 “成本結構” 則是決定誰能走得更遠的護城河。

在傳統(tǒng)云主機的 “包機 / 時租” 模式中,用戶一直在為 “過程” 買單 —— 無論是在加載數(shù)據(jù)、調(diào)試代碼,還是僅僅在思考 Loss 函數(shù),只要占用了顯卡,計費表就在跳動。這種模式下,開發(fā)過程中有一半以上的預算都浪費在了這些沒有實際產(chǎn)出的 “垃圾時間” 里。

潞晨云為微調(diào)大模型場景引入了 Serverless 架構,推行 “按 Token 計費” 的商業(yè)模式,將微調(diào)場景的算力服務切分到了最細的顆粒度:

  • 為價值付費: 就像使用推理 API 一樣,用戶只需為 Prefill (輸入)、Sample (推理輸出) 和 Train (訓練) 產(chǎn)生的有效計算 Tokens 量付費。
  • 其他環(huán)節(jié)全免費: 本地代碼調(diào)試、環(huán)境配置、數(shù)據(jù)預處理、模型 Checkpoint 保存…… 這些在傳統(tǒng)租卡模式下分秒必爭的環(huán)節(jié),在潞晨云全部免費
  • 極致性價比:通常,RL 需要同時維護高吞吐的推理集群(vLLM)和訓練集群,算力成本極高。但在潞晨云上,實測基于官方 Cookbook 的 math_rl recipe 跑通包含 Rollout 采樣、Reward 評分和 PPO 更新的完整 RL 流程(~300 steps),總算力成本僅8.61 元。這意味著,個體開發(fā)者也能低成本復現(xiàn) RLHF/RLAIF 探索。



技術落地的三個場景

SFT 與 RL 同時 “開箱即用”

這種新模式,也將徹底改變不同領域開發(fā)者的工作流:

  • 科研場景:告別資源焦慮

學術界,時間與算力往往是最緊缺的資源。研究人員不僅要面對繁瑣的集群運維(Slurm/Docker 配置),還要應對昂貴的實驗復現(xiàn)成本。潞晨云微調(diào) SDK 支持 “白盒級” 的科研探索,全面兼容 Tinker API。研究人員可以自定義 Evaluation 邏輯、通過 Forward/Backward,Sample 等原語精確控制后訓練和強化學習 Pipeline,而無需關心底層的分布式實現(xiàn),讓實驗復現(xiàn)成本大幅降低。

  • 創(chuàng)業(yè)與獨立開發(fā):極速驗證 MVP

對于初創(chuàng)團隊,“快” 是生存根本。利用潞晨云微調(diào) SDK 的 Serverless 特性,開發(fā)者無需等待資源排期。配合極低的 Token 成本,實測從 pip install 到跑通一個包含 1000 條樣本的 SFT 或 RL 微調(diào)實驗,僅需數(shù)分鐘。這種極致的邊際成本,讓創(chuàng)業(yè)者敢于在有限預算下快速迭代 Reward 模型,實現(xiàn)真正的 “低成本試錯”。

  • 工業(yè)級落地:復雜架構突圍

在金融、醫(yī)療等垂直領域的工業(yè)應用中,已有微調(diào) API 往往難以應對復雜的異構架構與 RLHF/RLAIF 需求。潞晨云微調(diào) SDK 允許工程師通過 train_step 自由定義 Loss 邏輯與強化學習獎勵函數(shù)。開發(fā)者擁有對模型權重與訓練細節(jié)的完整控制權,實現(xiàn)端到端定制。

極簡實戰(zhàn):三步上手

沒有復雜的集群配置,沒有冗長的 Docker 構建。使用潞晨云微調(diào) SDK,訓練一個大模型就像寫普通 Python 腳本一樣簡單:

1.Install & Import:

Bashpip install hpcai

2.Initialize Client: 目前已支持 Qwen3 系列 (4B-32B) ,更多模型即將上線

Pythonimport hpcai# 初始化 LoRA 訓練客戶端,無需配置復雜的分布式參數(shù)training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3-4B", rank=32)

3.Define Training Loop & Run: 像在本地寫 PyTorch 一樣,擁有對訓練循環(huán)的完整控制權:

Python# 訓練循環(huán):完全可控forstepinrange(target_steps): # 前向與反向傳播 fwd_bwd = training_client.forward_backward (batch,"cross_entropy") # 優(yōu)化器步進 optim = training_client.optim_step (adam_params) # 實時獲取 Loss 進行監(jiān)控 loss = fwd_bwd.result ().metrics.get("loss:mean")

目前,微調(diào) SDK 已覆蓋 Qwen3 系列模型(4B、8B、14B、32B),支持監(jiān)督學習和強化學習訓練方式,并將持續(xù)擴展更多模型能力與細分落地場景,大家也可以向官?提交需求 push 更新。

平臺還準備了開箱即用的 HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO 算法、基于 Verifier 的數(shù)學推理、自定義 Reward 函數(shù)等復雜 RL 場景的完整代碼實現(xiàn)。開發(fā)者無需從零構建復雜的 PPO/GRPO 流水線,只需復制 Cookbook 中的 “配方”,運行輕量級本地 train.py 腳本,即可驅(qū)動云端復雜的分布式 RL 訓練流,在潞晨云上復現(xiàn)具備復雜邏輯推理能力的 SOTA 模型。

現(xiàn)在體驗

后訓練正從學術支線升級為工程主線,AI 基礎設施的終極形態(tài)應該是 “零認知負荷”—— 開發(fā)者只需描述數(shù)據(jù)與算法,其余(租卡、配環(huán)境、并行策略、運維調(diào)度、故障自愈,乃至 RL 涉及的一系列工程化的工作)全部下沉到用戶無感。當 GPU 閑置成本趨近于 0,環(huán)境配置時間趨近于 0,長序列 RLHF 也能按 Token 即時計費,應用創(chuàng)新效率直接逼近算力上限。

潞晨云微調(diào) SDK 今日起全量開放:

  • 無需白名單,無需預約
  • 前 150 名注冊即得 30 元體驗金(填寫專屬福利碼 JQZX)

把資源彈性交給平臺,把算法自由度留給自己,每一分錢都用在產(chǎn)生梯度的刀刃上!

  • 立即體驗:https://cloud.luchentech.com/fine-tuning
  • 使用文檔:https://cloud.luchentech.com/doc/docs/finetune-sdk/

Reference

[1] Tinker SDK: https://github.com/thinking-machines-lab/tinker

[2] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
勇士5換1,湖人3換1,馬刺4換1,活塞5換1!聯(lián)盟5筆大交易將達成

勇士5換1,湖人3換1,馬刺4換1,活塞5換1!聯(lián)盟5筆大交易將達成

毒舌NBA
2026-01-09 10:11:25
特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈美國

特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈美國

遍體鱗傷為我證明
2026-01-09 08:18:58
三星長公主沒想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來

三星長公主沒想到,自己下嫁保安丟的面子,竟被18歲兒子找了回來

削桐作琴
2026-01-08 21:22:07
“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無表情,其父全程戴口罩;被害人律師:將會申請抗訴

“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無表情,其父全程戴口罩;被害人律師:將會申請抗訴

極目新聞
2026-01-09 11:19:24
這么冷,那么貴:河北農(nóng)村的第八個寒冬

這么冷,那么貴:河北農(nóng)村的第八個寒冬

水瓶紀元
2026-01-07 18:27:32
研究生教成人騎車2年賺27萬元 當事人:市場需求大

研究生教成人騎車2年賺27萬元 當事人:市場需求大

大象新聞
2026-01-09 08:13:04
中鐵五局被停業(yè)整頓180日

中鐵五局被停業(yè)整頓180日

第一財經(jīng)資訊
2026-01-09 10:22:53
女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結果曝光:小便困難,毒品呈陽性

女網(wǎng)紅流落柬埔寨后續(xù),醫(yī)生檢查結果曝光:小便困難,毒品呈陽性

凡知
2026-01-08 07:46:45
網(wǎng)傳某國產(chǎn)操作系統(tǒng)大廠老董開除核心工程師,理由竟是 “沒穿西裝”

網(wǎng)傳某國產(chǎn)操作系統(tǒng)大廠老董開除核心工程師,理由竟是 “沒穿西裝”

可達鴨面面觀
2026-01-08 19:48:13
特朗普:“我不需要國際法”

特朗普:“我不需要國際法”

揚子晚報
2026-01-09 10:15:31
大潰?。≈袊W(wǎng)貸公司,在印度全軍覆沒

大潰??!中國網(wǎng)貸公司,在印度全軍覆沒

首席品牌評論
2026-01-07 18:20:00
涉嫌嚴重違紀違法!丹陽市水利局原黨組副書記、副局長許立新接受紀律審查和監(jiān)察調(diào)查

涉嫌嚴重違紀違法!丹陽市水利局原黨組副書記、副局長許立新接受紀律審查和監(jiān)察調(diào)查

揚子晚報
2026-01-08 17:48:33
成功引渡“電詐太子”陳志,中方查扣為何慢了美國一步?

成功引渡“電詐太子”陳志,中方查扣為何慢了美國一步?

法經(jīng)社
2026-01-08 13:01:34
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
洗澡可能影響壽命!醫(yī)生再次提醒:51歲以后,牢記洗澡“4不要”

洗澡可能影響壽命!醫(yī)生再次提醒:51歲以后,牢記洗澡“4不要”

39健康網(wǎng)
2026-01-08 20:18:51
“這種兒子,直接用鋼筋揍!”家長曬農(nóng)村兒子現(xiàn)狀,網(wǎng)友忍無可忍

“這種兒子,直接用鋼筋揍!”家長曬農(nóng)村兒子現(xiàn)狀,網(wǎng)友忍無可忍

妍妍教育日記
2026-01-08 20:37:01
特朗普威脅“將付出慘痛代價”,伊朗會步委內(nèi)瑞拉后塵?

特朗普威脅“將付出慘痛代價”,伊朗會步委內(nèi)瑞拉后塵?

上游新聞
2026-01-09 12:19:30
哎,歐文可能已經(jīng)賽季報銷了!

哎,歐文可能已經(jīng)賽季報銷了!

柚子說球
2026-01-09 10:01:15
弗拉格26+10+8,克萊23+3+5,濃眉傷退,賽后弗拉格直接走入通道

弗拉格26+10+8,克萊23+3+5,濃眉傷退,賽后弗拉格直接走入通道

擔酒
2026-01-09 12:19:17
天安門原升旗手張自軒結婚,岳父豪送奧迪A6,新娘身份不一般

天安門原升旗手張自軒結婚,岳父豪送奧迪A6,新娘身份不一般

八斗小先生
2026-01-08 18:19:01
2026-01-09 13:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12082文章數(shù) 142532關注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風波越演越烈 上學經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

家居
親子
時尚
手機
軍事航空

家居要聞

木色留白 演繹現(xiàn)代自由

親子要聞

從5樓掉下來被洗衣機接???腰斷了腿骨折了,肚子里還多了一個娃

這一次,抖音美妝讓36萬用戶來定義美

手機要聞

小米17降價、榮耀全家桶現(xiàn)身、vivo上映大片

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進入關懷版