国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

悶聲賺錢的 RL 生意:每個任務(wù),200-20000 美元

0
分享至

2025 年 9 月,The Information 報道 Anthropic 曾討論在接下來一年內(nèi)投入超過 10 億美元用于 RL 環(huán)境建設(shè)


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

10 億美元,只買一樣東西:讓模型「練習」的場地和題目

Epoch AI 最近發(fā)了一篇報告,采訪了 18 位來自 RL 環(huán)境初創(chuàng)公司、neolab(Cursor 這類應(yīng)用型 AI 公司)和前沿實驗室的從業(yè)者


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

通過這份報告,讓我們看一下這個正在快速成長的隱秘市場

為什么 RL 環(huán)境突然重要了

o1 證明了一件事:在有明確答案的任務(wù)上做強化學習,能顯著提升模型的推理能力

Andrej Karpathy 在 2025 年度總結(jié)里說:通過在大量可驗證任務(wù)和不同環(huán)境上訓練大模型,大模型會自發(fā)涌現(xiàn)出在人類看來像是推理的策略


各家實驗室現(xiàn)在瘋狂擴展訓練任務(wù)的類型和數(shù)量,同時持續(xù)加大 RL 訓練的算力投入

但問題來了,沒有多樣化、高質(zhì)量的環(huán)境和任務(wù),盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓練期間每個任務(wù)大約消耗 2400 美元的算力。如果任務(wù)質(zhì)量不行,這些算力就浪費了

創(chuàng)建高質(zhì)量的環(huán)境和任務(wù),已經(jīng)成為擴展模型能力的關(guān)鍵瓶頸

什么是 RL 環(huán)境

對于 RL 環(huán)境,這里有三個組件:環(huán)境任務(wù)、評分器

環(huán)境
模型可以執(zhí)行動作的沙盒。可能是一個 Docker 容器里跑著的代碼倉庫,可能是一個模擬的網(wǎng)站,可能是一個 Excel 克隆。定義了模型能做什么(寫代碼、點按鈕、搜文檔)以及這些動作會產(chǎn)生什么效果

任務(wù)
一個具體的目標。比如「修復(fù)這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數(shù)據(jù)做個數(shù)據(jù)透視表」

評分器
判斷模型做得對不對、好不好??梢允菃卧獪y試,可以是另一個大模型按標準打分

三者組合起來,模型反復(fù)嘗試任務(wù),評分器給反饋,模型根據(jù)反饋調(diào)整策略


RL 環(huán)境示意

幾個具體的例子:

Git 倉庫環(huán)境:任務(wù)是修復(fù) bug 使單元測試通過,類似 SWE-bench。評分器運行測試,檢查是否通過


Airbnb 克隆環(huán)境:任務(wù)是在指定城市和日期找最便宜的兩居室。環(huán)境是帶有真實房源、價格和篩選器的模擬網(wǎng)站。評分器驗證最終答案是否正確


Bloomberg 終端克隆環(huán)境:任務(wù)是查找一批公司的 5 年復(fù)合年增長率。評分器檢查返回的數(shù)字是否正確


Excel 克隆環(huán)境:任務(wù)是根據(jù)原始數(shù)據(jù)創(chuàng)建數(shù)據(jù)透視表。評分器將輸出與參考答案對比


對于 Excel 這類電腦操作環(huán)境,單個環(huán)境可能支持數(shù)百個不同任務(wù)。對于編程環(huán)境,更常見的是每個環(huán)境只包含一個任務(wù),因為設(shè)置倉庫狀態(tài)相對便宜

誰在做,多少錢

四類玩家:

專業(yè)初創(chuàng)公司
專注于構(gòu)建 RL 環(huán)境,覆蓋軟件工程、電腦操作、數(shù)學、金融等領(lǐng)域。Chris Barber 整理了一份名單:pavlovslist.com

傳統(tǒng)數(shù)據(jù)供應(yīng)商
Mercor、Surge、Handshake、Turing 這些過去主要提供人工標注數(shù)據(jù)的公司,現(xiàn)在也開始賣 RL 環(huán)境。一位創(chuàng)始人說,主要價值是「他們有人」:如果需要快速擴大任務(wù)創(chuàng)建規(guī)模,他們能比自己招人更快地配置項目

實驗室內(nèi)部團隊
xAI、Anthropic 都在招 RL 環(huán)境相關(guān)崗位。Cursor 這類 neolab 可以利用用戶數(shù)據(jù)來構(gòu)建訓練任務(wù)。一位創(chuàng)始人指出,最近「內(nèi)部化的趨勢明顯增加」

產(chǎn)品公司
Salesforce、Slack 這類公司比任何人都更了解自己產(chǎn)品的界面和邊界情況。我們正在看到實驗室與產(chǎn)品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景


成本方面:

合同規(guī)模通常是每季度六到七位數(shù)。一位創(chuàng)始人說合同經(jīng)常是每季度七位數(shù)或更多

環(huán)境成本取決于保真度。SemiAnalysis 報道網(wǎng)站復(fù)刻品(UI 健身房)每個約 2 萬美元。但像 Slack 這樣復(fù)雜產(chǎn)品的高質(zhì)量復(fù)刻可能要 30 萬美元

任務(wù)成本多位受訪者認同每個 2002000 美元的范圍。特別復(fù)雜的軟件工程任務(wù)可能到 2 萬美元,但很少見

獨占權(quán)顯著影響定價。兩位創(chuàng)始人獨立表示,獨家交易大約是非獨家的 45


整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發(fā)算力支出預(yù)計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環(huán)境,相比算力支出仍然是零頭

領(lǐng)域演變

最早是數(shù)學和編程

數(shù)學任務(wù)容易產(chǎn)出,不需要構(gòu)建復(fù)雜環(huán)境,只需要有可驗證答案的任務(wù)。但一位創(chuàng)始人觀察到,數(shù)學任務(wù)容易創(chuàng)建,遷移到其他能力的效果不太好。一位受訪者說「數(shù)學可能在萎縮」

編程仍是主要需求來源

而且正在超越 SWE-bench 風格的任務(wù)。一位創(chuàng)始人說:「我看到代碼環(huán)境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務(wù),轉(zhuǎn)向更加產(chǎn)品化。軟件工程師實際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」


主要增長領(lǐng)域是企業(yè)工作流

提交費用報告、在電子表格中創(chuàng)建數(shù)據(jù)透視表、根據(jù)簡報生成幻燈片、在 CRM 中更新客戶記錄

一位創(chuàng)始人說:「我認為企業(yè)工作流今年會爆發(fā)。實驗室非??粗赜袃r值且可量化的東西,企業(yè)工作流正好符合這兩點」

環(huán)境形式多樣:MCP 風格的工具集成、Playwright 風格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應(yīng)用的克隆

一位實驗室研究員警告:「使用網(wǎng)站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網(wǎng)站,這沒什么用。存在大量沒用的爛環(huán)境」

兩個領(lǐng)域都在往長時間跨度任務(wù)發(fā)展。一位創(chuàng)始人說:「長時間跨度是未來方向。讓智能體執(zhí)行完整的端到端任務(wù),涉及在多個標簽頁、瀏覽器之間導(dǎo)航,然后提交涉及多跳步驟的東西」

什么才是好的 RL 環(huán)境

獎勵黑客是頭號顧慮

受訪者一致認為,防止獎勵黑客(reward hacking)是最重要的質(zhì)量標準


一位 neolab 研究員說:「獎勵黑客是個大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時不小心,它可能會檢出未來的 commit。必須要魯棒。這是底線」

另一位說:「可靠性最重要:高獎勵必須意味著任務(wù)確實被解決了,而不是被黑掉了」

創(chuàng)建魯棒的評分器很少能一次成功。一位創(chuàng)始人說:「需要很多很多次迭代來檢查獎勵黑客」

難度校準

任務(wù)需要有挑戰(zhàn)性但不能不可能完成。如果通過率是 0%100%,模型就學不到東西


多位受訪者提到希望最低通過率在 2%3%,或者在 64128 次嘗試中至少成功一次

整體分布也很重要。一位研究員說:「RL 環(huán)境的一個非常重要的特性是平滑的梯度:任務(wù)難度的多樣性」。可能需要混合搭配:一些任務(wù) 0%,一些 5%,一些 30%。訓練一段時間后,0% 的任務(wù)變得可學習。一旦任務(wù)達到約 70% 的通過率,可能會丟棄它轉(zhuǎn)向更難的任務(wù)

保質(zhì)擴量是核心瓶頸

一位創(chuàng)始人說:「保質(zhì)擴量是大家看到的頭號瓶頸。找到專家并不難,但管理他們和做質(zhì)量控制很難」

一位 neolab 研究員說:「不容易找到人來監(jiān)督這個數(shù)據(jù)構(gòu)建、RL 環(huán)境構(gòu)建的過程。承包商,你需要激勵他們。當然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗證過的?激勵承包商和做質(zhì)量控制是苦活」


一位創(chuàng)始人說,他們增加收入的限制因素就是在保持質(zhì)量的前提下擴大任務(wù)創(chuàng)建的難度

需要什么技能

構(gòu)建環(huán)境主要是工程技能。創(chuàng)建好的任務(wù)需要不同的東西

一位創(chuàng)始人說:「領(lǐng)域知識和專家級的提示詞能力比 ML 技能對創(chuàng)建任務(wù)更重要」

一位研究員補充說產(chǎn)品感覺也很重要:「你需要知道人們實際上是怎么使用這些工具的」

一位研究員說:「你不一定需要是 AI 研究員,但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」

另一位簡單總結(jié):「最擅長這個的人可能是那些創(chuàng)建了真正被使用的基準測試的人」

最后

RL 環(huán)境已經(jīng)從一個技術(shù)細節(jié),變成了前沿 AI 訓練的關(guān)鍵一環(huán)

目前來看,這個領(lǐng)域還在快速變化,一年后的情況可能會大不相同

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
50歲胡可亮相米蘭被偶遇 本人真的太美了果然法拉利老了也是法拉利

50歲胡可亮相米蘭被偶遇 本人真的太美了果然法拉利老了也是法拉利

鄉(xiāng)野小珥
2026-03-03 08:24:22
打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

夢錄的西方史話
2026-03-02 16:27:56
伊朗外長這番話,可能暗示一個大問題

伊朗外長這番話,可能暗示一個大問題

觀察者網(wǎng)
2026-03-02 19:11:48
油價狂飆!中國石油創(chuàng)紀錄,誰將為此付出代價?

油價狂飆!中國石油創(chuàng)紀錄,誰將為此付出代價?

文曲塘財經(jīng)研究
2026-03-02 18:01:18
臺專家預(yù)言:一旦美以伊開戰(zhàn),中國將獲得長達20年的戰(zhàn)略緩沖時間

臺專家預(yù)言:一旦美以伊開戰(zhàn),中國將獲得長達20年的戰(zhàn)略緩沖時間

諾諾談史
2026-03-03 00:30:59
基辛格生前大膽預(yù)測:第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個

基辛格生前大膽預(yù)測:第三次世界大戰(zhàn)爆發(fā),敢打美國的國家就3個

古史青云啊
2026-02-17 22:44:51
上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上觀新聞
2026-03-02 15:27:27
凌晨浦東機場:四女孩險飛泰國,兩分鐘生死一線

凌晨浦東機場:四女孩險飛泰國,兩分鐘生死一線

解鎖世界風云
2026-03-02 10:04:08
A股:不用等明天開盤了,周三,股市很可能這么走了

A股:不用等明天開盤了,周三,股市很可能這么走了

財經(jīng)大拿
2026-03-03 13:41:45
女孩當小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
600億抄底!美財長的學生竟然收購了中國萬達,難怪王健林會輸!

600億抄底!美財長的學生竟然收購了中國萬達,難怪王健林會輸!

蜉蝣說
2026-01-11 17:51:23
巴基斯坦再次向世界展示中械軍實力,排山倒海攻勢徹底打服阿富汗

巴基斯坦再次向世界展示中械軍實力,排山倒海攻勢徹底打服阿富汗

書紀文譚
2026-03-01 14:41:31
特朗普夫人安理會上關(guān)注世界兒童 中方當面譴責

特朗普夫人安理會上關(guān)注世界兒童 中方當面譴責

看看新聞Knews
2026-03-03 11:31:37
特朗普訪華倒計時,白宮突然下令,叫停對臺軍售,賴清德措手不及

特朗普訪華倒計時,白宮突然下令,叫停對臺軍售,賴清德措手不及

Ck的蜜糖
2026-03-03 15:09:41
1987年關(guān)之琳與亞洲小姐冠軍邱月清共同參加活動 ,還是關(guān)之琳贏了

1987年關(guān)之琳與亞洲小姐冠軍邱月清共同參加活動 ,還是關(guān)之琳贏了

動物奇奇怪怪
2026-03-03 08:09:07
3月3日票房早報!《飛馳3》38.3億,《鏢人》11.5億,走勢漸緩!

3月3日票房早報!《飛馳3》38.3億,《鏢人》11.5億,走勢漸緩!

樂悠悠娛樂
2026-03-03 12:45:47
上海已入春,史上第三早,今起10天多為多云天氣

上海已入春,史上第三早,今起10天多為多云天氣

上觀新聞
2026-03-03 13:57:10
哈梅內(nèi)伊剛死,有一個狠人站了出來!他的話或讓美以徹底笑不出來

哈梅內(nèi)伊剛死,有一個狠人站了出來!他的話或讓美以徹底笑不出來

通文知史
2026-03-02 16:00:07
周杰倫和田馥甄戀情,突沖熱搜第一!

周杰倫和田馥甄戀情,突沖熱搜第一!

人間頌
2026-03-01 12:25:17
陸家嘴“財神”跌落,千億騙局崩塌,潛逃大鱷夢碎巴厘島

陸家嘴“財神”跌落,千億騙局崩塌,潛逃大鱷夢碎巴厘島

一號位故事
2026-03-03 09:11:25
2026-03-03 15:40:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

斯塔默:我們都記得伊拉克戰(zhàn)爭所犯的錯誤

頭條要聞

斯塔默:我們都記得伊拉克戰(zhàn)爭所犯的錯誤

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

借殼上市納斯達克?小楊哥海外"洗白"之路

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

教育
手機
旅游
本地
公開課

教育要聞

小升初簡算:98x98÷99,必考題

手機要聞

vivo X300 Ultra全球首發(fā)400mm蔡司增距鏡,將推全新專業(yè)攝影手柄

旅游要聞

千米草龍騰飛!超10萬游客共赴歷山火把節(jié)

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版