国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓 Anthropic 破防的「蒸餾」風波,美國 AI 大牛潑冷水:中國 AI 成功不靠走捷徑

0
分享至

Anthropic 昨天點名 DeepSeek、月之暗面、MiniMax 三家中國 AI 實驗室「蒸餾」Claude 模型,全網(wǎng)炸鍋。

對于此事件,RLHF (基于人類反饋的強化學習)領(lǐng)域最知名的研究者之一,《RLHF》一書的作者 Nathan Lambert 指出,這件事沒有人們想象的那么嚴重,但也沒有那么簡單。

他認為,中國 AI 公司的基礎設施非常好,取得了很多創(chuàng)新,也在攻克各種技術(shù)難題,但它們?nèi)〉眠@樣的結(jié)果,靠的并不是「走捷徑」。

在討論蒸餾這件事之前,先看看 Lambert 的話為什么值得聽。

Nathan Lambert 是 Allen AI 研究所的科學家,博士畢業(yè)于加州大學伯克利分校,師從機器人領(lǐng)域的著名學者 Pieter Abbeel。他并非 RLHF 技術(shù)的發(fā)明者,但他寫的《RLHF》這本開源書籍,如今是 AI 從業(yè)者理解大模型訓練流程的標準參考材料之一。

和到處都是的 AI 網(wǎng)紅不一樣,他是真正上手訓練過大模型的人。

在 Anthropic 博客發(fā)出的當天,Lambert 就發(fā)布了一篇詳細分析文章《蒸餾對于中國大模型到底有多重要?》。他的核心論點,和主流媒體的解讀方向截然不同,也比一般網(wǎng)友更加深入和全面。


蒸餾是什么,Anthropic 又說了什么?

首先我們來看 Anthropic 指控的核心:「蒸餾」(distillation)。

它指的是讓弱模型學習強模型的輸出,從而快速獲得相似能力。

Anthropic 指控三家公司通過約 2.4 萬個虛假賬號,在違反服務條款和地區(qū)訪問限制的情況下,用 Claude 生成了超過 1600 萬次對話,用于訓練各自的模型。

博客還附上了安全警告:非法蒸餾出來的模型可能缺失原模型的安全護欄,一旦被用于網(wǎng)絡攻擊、生物武器研發(fā)或大規(guī)模監(jiān)控,后果難以預測。

Anthropic 把這套基礎設施叫做「九頭蛇集群」(hydra cluster)——多達數(shù)萬個賬號的分布式網(wǎng)絡,流量同時分散在 Anthropic 自己的 API 和多個第三方 API 聚合平臺上。

在最極端的案例里,一個代理網(wǎng)絡同時管理超過 2 萬個虛假賬號,還把蒸餾流量混入普通用戶請求流里,用來規(guī)避檢測算法。這種網(wǎng)絡沒有單點故障,封掉一個賬號,馬上換一個。

海外媒體隨即跟進,復述了 Anthropic 的話術(shù)。然而這套敘事邏輯很快就翻車了:畢竟「蒸餾」這件事美國 AI 公司訓練的時候也會做,更何況 Anthropic 自己也有類似行為:


以及:Anthropic「蒸餾」了人類最大的知識庫

但 Lambert 更加冷靜,他認為要先把這三家中國 AI 實驗室分開來看

Lambert 指出,Anthropic 把三家公司并排列在同一篇博客里,掩蓋了一個關(guān)鍵差異:它們做的根本不是同一件事,量級天差地別,動機也各有側(cè)重。

按照 Anthropic 的指控,DeepSeek 的蒸餾數(shù)量最少,只有 15 萬次,但手法更精準。與其直接收集答案,Anthropic 指控 DeepSeek 在做的是批量生產(chǎn)思維鏈 (chain-of-thought)訓練數(shù)據(jù)。

要的不是「你得出了什么結(jié)論」,而是得到結(jié)論的過程。

但 15 萬次是個什么體量?Lambert 認為,這點數(shù)據(jù)對 DeepSeek 傳聞中的 V4 模型或任何模型整體訓練的影響可以忽略不計,「更像是某個小團隊在內(nèi)部做實驗,大概率連訓練負責人都不知道。」


月暗的規(guī)模就不是「可以忽略」了:340 萬次交互,目標集中在智能體推理、、工具調(diào)用、代碼與數(shù)據(jù)分析、computer-use 開發(fā)、計算機視覺等方向——這些方向當中,大部分都是 Claude 近期最受企業(yè)客戶歡迎的能力組合。

Anthropic 指出三家里流量最大的是 MiniMax,約 1300 萬次,目標是代理編碼、工具調(diào)用和復雜任務編排。

月暗和 MiniMax 相加約 1650 萬次,按對話平均 token 量估算,總量大約在 1500 億到 4000 億 token 之間,折合數(shù)百到上千萬美元的 token 成本。

但問題是,只盯著蒸餾看,其實有很大問題。

蒸餾的天花板在哪里?

這才是 Lambert 真正想說的部分,也是整件事里最被忽視的地方。

把強模型的輸出喂給弱模型,弱模型能快速獲得類似能力——這個邏輯本身成立,Lambert 沒有否認。但他指出了一個沒人說清楚的問題:蒸餾的天花板到底在哪里,取決于你想要的是什么類型的能力。

作為 RLHF 方面的專家,Lambert 認為,當前最頂尖的模型訓練,已經(jīng)高度依賴強化學習(RL)。而 RL 和蒸餾在本質(zhì)上是兩種不同的事情:

蒸餾是模仿,學強模型的輸出,把它的「答案形狀」復制過來;RL 是探索,模型必須大量自己推理、自己生成、在錯誤里反復迭代,從試錯中提煉能力。

換言之,真正強大的模型,需要的從來不只是正確答案,而往往要靠模型自己摸索出來的解題路徑,這是依靠蒸餾別人 API 的輸出,得不到的東西。


以 DeepSeek 自己做的蒸餾嘗試為例:基于隔壁千問蒸餾自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 這個小模型,僅靠 7000 條樣本和極低的計算成本,就在 AIME24 數(shù)學競賽基準上超越了 OpenAI 的 o1-preview。

但關(guān)鍵在于:這個提升等多仰仗強化學習的結(jié)果,而非來自蒸餾這個行為本身。

換句話說,蒸餾能幫你更快「熱身」,要真正到達頂級水平,還是得靠自己跑 RL。

不同模型之間的數(shù)據(jù)分布差異

Lambert 還指出了一個技術(shù)層面很少被外界提及的問題:不同模型之間存在微妙的數(shù)據(jù)分布差異。

把 Claude 的輸出直接喂給另一個架構(gòu)的模型,不一定有效,有時甚至會產(chǎn)生干擾。兩個模型內(nèi)部表征空間的差異,會讓「老師」的回答在「學生」那里引發(fā)意想不到的偏差。

這意味著蒸餾從來不是「拿來用就行」的事,而是需要大量工程工作才能真正發(fā)揮效果。這本身就是一個研究課題。

這也是為什么 Lambert 將 Anthropic 所指控的「蒸餾」行為,看作是一種創(chuàng)新的做法,可以理解為試圖攻克這一研究課題的努力。


Anthropic 的殺手锏,恰恰最難蒸餾

Anthropic 點名的三家公司,抓取的重心都落在代理行為 (agentic behavior) 這同一個方向上,包括 AI 自主規(guī)劃、工具調(diào)用、分解復雜任務并逐步執(zhí)行的能力等。

這是 Claude 目前最突出的方向,也是 Anthropic 最不想被復制的能力。

但 Lambert 的判斷是,這些能力恰恰也是最難通過蒸餾獲得的。

正如前面提到,一個強大的 AI agent,強大之處從來不在于知道或者訓練過正確答案,而是「在面對沒見過的情況時能自主探索出解決路徑」,可以理解為一種 0-shot 或 few-shot 實現(xiàn) SOTA 效果的能力。

這個過程中產(chǎn)生的價值,體現(xiàn)在推理軌跡,而推理軌跡是很難通過蒸餾習得的——至少現(xiàn)在是這樣。

DeepSeek-R1-Distill(蒸餾模型)和 DeepSeek-R1(蒸餾對象)之間的差距,是 Lambert 論點最直接的例證。

在格式化的數(shù)學推理任務上,前者表現(xiàn)不錯;但在需要自主探索、動態(tài)規(guī)劃的復雜代理任務上,兩者的差距是真實存在的。


為什么 Anthropic 現(xiàn)在公開說?

Lambert 有一個判斷,很多人可能都有同感:這次 Anthropic 公開點名中國 AI 公司,「技術(shù)防御」壓根不是首要動機。

在 Anthropic 這篇博客發(fā)出的幾天前,美國國防部剛剛威脅 Anthropic 配合提供「不受限制的使用權(quán)限」,否則就將做出對后者不利的安排,比如將其標記為「供應鏈危險」,也即無法進入國防/政府供應商名單。

Anthropic 現(xiàn)在處于一個「既要又要」的兩難境地:既想維持安全、不反人性的模型定位和公司形象,又不愿意錯過美國政府的大單。

Lambert 指出了一個根本矛盾:美國的學術(shù)界和開源模型開發(fā)者也在做蒸餾行為,但包括 Anthropic 在內(nèi)的大廠并沒有對它們做出實質(zhì)性的打擊。如果僅因為對方是中國公司,未免地緣的意味太重了。

結(jié)果就是,Anthropic 這篇博客與其說是報告一個重大技術(shù)風險事件……其實更像是一封「投名狀」。


雙標

關(guān)于 Anthropic 在這件事上的立場,有一個繞不開的背景。

APPSO 在昨天的文章里也有提到:Anthropic「蒸餾」了人類最大的知識庫

2024 年年初,美國某倉庫里,工人們把一本本新書送進機器,切掉書脊,掃描,然后把紙送去回收。下令做這件事的是 Anthropic,項目內(nèi)部代號「巴拿馬」,目標是以破壞性方式掃描全球所有書籍——Anthropic不希望外界知道他們做了這件事。

2021 年,Anthropic 聯(lián)合創(chuàng)始人 Ben Mann 在 11 天里從盜版網(wǎng)站 LibGen 下載了大量侵權(quán)書籍;次年,另一個公開宣稱「在大多數(shù)國家故意違反版權(quán)法」的網(wǎng)站 Pirate Library Mirror 上線,Mann 把鏈接發(fā)給同事,留言:「來得正是時候?。?!」

在后來的書籍版權(quán)訴訟中,Anthropic 被迫支付 15 億美元和解金,折算下來每本書約賠 3000 美元。

斯坦福和耶魯?shù)难芯空甙l(fā)現(xiàn),Claude 3.7 Sonnet 在特定條件下會以 95.8% 的準確率「近乎逐字逐句」地輸出《哈利波特》等受版權(quán)保護的作品——這不僅與 Anthropic 長期以來關(guān)于「模型只是學習了語言規(guī)律」的說法背道而馳,更讓該公司對任何人的「蒸餾」指控顯得缺乏底氣。

Futurism 的標題寫得很直接:「Anthropic 對 DeepSeek 未經(jīng)授權(quán)復制 AI 大發(fā)雷霆——考慮到它是怎么構(gòu)建 Claude 的,這相當諷刺?!?/p>


Musk 在 X 上也補了一刀:「Anthropic 大規(guī)模竊取訓練數(shù)據(jù),還為此支付了數(shù)十億美元的和解金。這是事實?!?/p>


反駁者還有一個更尖銳的邏輯:Anthropic 當年從那些書里拿走的,不僅沒付過任何使用費,回頭還用于商業(yè)行為(Claude 和 Anthropic API 都是付費服務);而從商業(yè)角度來看,蒸餾 Claude 的公司至少付了錢……

當然,從法律層面來看,這兩件事的性質(zhì)完全不同。但不論怎樣,Anthropic 看起來還是很像個偽善的雙標者。

「后蒸餾時代」

最后再強調(diào)一遍:蒸餾有用,但沒有你們想象的那么有用。

DeepSeek 的 15 萬次,按任何合理標準來看都是可以忽略的數(shù)字。Moonshot 和 MiniMax 合計 1650 萬次,量級是另一回事——但能轉(zhuǎn)化成多少真實能力,取決于他們能不能解決「如何用好這些數(shù)據(jù)」的技術(shù)問題。

考慮到數(shù)據(jù)分布差異、模型架構(gòu)差異,以及代理能力的獲得本身對于強化學習的重度依賴,蒸餾從來不是「拿來就用」那么簡單。

Lambert 還是給了 Anthropic 面子:「快速迭代加上高質(zhì)量數(shù)據(jù)可以走很遠,讓學生模型超越老師也并非不可能?!?/p>


但他也明確指出,真正的創(chuàng)新靠的是強化學習,不是蒸餾。從 DeepSeek、月暗、MiniMax 公開的論文來看,它們都用有相當完善的基礎設施和優(yōu)秀的人才,遠非只靠小聰明小伎倆企圖彎道超車的「小作坊」。

蒸餾能幫你更快入場,但真要打到頂級水平,從來沒有捷徑。

某種意義上,Anthropic 提出的「蒸餾」爭議,本身就是這個 AI 時代縮影。

整個行業(yè)打一開始就建立在曖昧不清的規(guī)則上:用人類寫的東西訓練,用別人的開源成果迭代,在法律沒有明確禁止的地方快速行動。

現(xiàn)在,規(guī)則開始慢慢收緊——先是版權(quán),再是芯片,現(xiàn)在又是 API……誰在制定規(guī)則?誰受益于規(guī)則?誰一邊打著人類的旗號,卻濫用規(guī)則謀求私利?

這些問題的答案,都越來越清晰。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
韓國總統(tǒng):將持續(xù)努力與朝鮮對話

韓國總統(tǒng):將持續(xù)努力與朝鮮對話

財聯(lián)社
2026-02-26 15:52:05
歐冠附加賽皇馬2-1險勝本菲卡,賽后不得不承認的三大事實!

歐冠附加賽皇馬2-1險勝本菲卡,賽后不得不承認的三大事實!

田先生籃球
2026-02-26 09:43:43
俄確實打不動了、開始大范圍潰退,刺激川普加快解決伊朗和加拿大

俄確實打不動了、開始大范圍潰退,刺激川普加快解決伊朗和加拿大

邵旭峰域
2026-02-25 10:59:20
“體壇敗類”馬俊仁,強迫隊員集體切闌尾,親自為女隊員打禁藥

“體壇敗類”馬俊仁,強迫隊員集體切闌尾,親自為女隊員打禁藥

米果說識
2026-02-22 11:29:00
雷克薩斯ES雙色特別版上市 售30.79萬元起

雷克薩斯ES雙色特別版上市 售30.79萬元起

車質(zhì)網(wǎng)
2026-02-26 09:20:11
川大導師威脅,敢管就報復,賣房帶經(jīng)費回日,校方:已啟動調(diào)查

川大導師威脅,敢管就報復,賣房帶經(jīng)費回日,校方:已啟動調(diào)查

夢錄的西方史話
2026-02-23 17:53:25
碧桂園7000億項目爛尾

碧桂園7000億項目爛尾

地產(chǎn)微資訊
2026-02-23 21:46:01
男人都有一個通病,那就是看見漂亮的女人,都會心動。

男人都有一個通病,那就是看見漂亮的女人,都會心動。

伊人河畔
2026-02-26 17:11:07
多家上市公司回應津巴布韋暫停鋰礦出口影響

多家上市公司回應津巴布韋暫停鋰礦出口影響

財聯(lián)社
2026-02-26 13:42:06
東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

夢在深巷aqa
2026-02-25 00:15:06
對不起了,吳京!看完《鏢人》,我才知道:是自己“孤陋寡聞”了

對不起了,吳京!看完《鏢人》,我才知道:是自己“孤陋寡聞”了

皮皮電影
2026-02-25 14:25:32
法國公開武則天《金剛經(jīng)》真跡!估值高達100億,歐顏柳趙也不是對手

法國公開武則天《金剛經(jīng)》真跡!估值高達100億,歐顏柳趙也不是對手

書法網(wǎng)
2026-02-24 17:59:52
美國男籃世預賽12人名單出爐:2020年榜眼懷斯曼入選

美國男籃世預賽12人名單出爐:2020年榜眼懷斯曼入選

懂球帝
2026-02-26 17:12:06
美重兵壓境,特朗普戰(zhàn)爭倒計時,中方:沙特有隱身軍機,不是殲20

美重兵壓境,特朗普戰(zhàn)爭倒計時,中方:沙特有隱身軍機,不是殲20

兵說
2026-02-25 19:34:40
人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

萌蘭聊個球
2026-02-26 14:34:56
WTT比賽國乒首金失手,中日對決意外失利

WTT比賽國乒首金失手,中日對決意外失利

凡人說體育
2026-02-26 10:30:55
上海樓市“新七條”落地當天:兩類群體咨詢升溫,有房東重新掛牌

上海樓市“新七條”落地當天:兩類群體咨詢升溫,有房東重新掛牌

澎湃新聞
2026-02-25 22:22:28
原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

小熊侃史
2026-02-26 20:04:25
馬刺逆轉(zhuǎn)雙殺猛龍豪取10連勝 文班12+8+5帽鶯歌20+11丟絕平球

馬刺逆轉(zhuǎn)雙殺猛龍豪取10連勝 文班12+8+5帽鶯歌20+11丟絕平球

醉臥浮生
2026-02-26 11:12:28
哈登傷病最新進展!名記:骨折發(fā)生在拇指尖端,無需手術(shù)

哈登傷病最新進展!名記:骨折發(fā)生在拇指尖端,無需手術(shù)

大眼瞄世界
2026-02-26 12:23:44
2026-02-26 20:36:49
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38464文章數(shù) 2600984關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

頭條要聞

金與正"轉(zhuǎn)正"了 戴著黑白色發(fā)箍坐在候補委員的第一位

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

財經(jīng)要聞

人民幣離岸價升破6.83 什么原因?

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

藝術(shù)
教育
本地
健康
時尚

藝術(shù)要聞

2025第三屆全國水粉畫大展 | 入選作品選刊

教育要聞

為何孩子恐學抑郁?北大六院專家給出核心答案

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

冬天穿衣要避免老氣橫秋!這些穿搭簡單不過時,適合普通人

無障礙瀏覽 進入關(guān)懷版