国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic「蒸餾」了人類最大的知識庫

0
分享至

2024 年初,在美國某處的一座倉庫里,工人們正在做一件看起來有些奇怪的事:把書一本本送進機器,切掉書脊,掃描,然后把剩下的紙送去回收。

這些書是剛買來的,有些甚至是新的。沒有人會讀它們,它們存在的唯一目的,就是被銷毀。

下令做這件事的,是一家叫 Anthropic 的 AI 公司。


在他們的內(nèi)部文件里,這項計劃有個代號:「巴拿馬項目」。一份規(guī)劃文件寫得很直白:「這是我們以破壞性方式掃描全球所有書籍的計劃,我們不希望外界知道我們正在做這件事?!?/p>

這件事最終還是被人知道了。

去年,一名聯(lián)邦法官解封了一批與版權(quán)訴訟相關(guān)的文件,總計超過 4000 頁。外界由此看到的,不只是一家公司的秘密,而是整個 AI 行業(yè)在數(shù)據(jù)爭奪戰(zhàn)中的真實面目。

被大模型「吃」掉的實體書

為什么這些處于技術(shù)前沿的科技巨頭,會用如此原始甚至粗暴的方式對待紙質(zhì)書?答案其實藏在 AI 對高質(zhì)量數(shù)據(jù)的極度渴求里。

Anthropic 內(nèi)部很早就意識到,訓(xùn)練 AI 模型光靠網(wǎng)絡(luò)上的內(nèi)容不夠用。

根據(jù)《華盛頓郵報》報道,一位Anthropic 聯(lián)合創(chuàng)始人在 2023 年 1 月的文件中寫道,用書籍訓(xùn)練模型,可以讓 AI 學(xué)會「如何寫得更好」,而不是只會模仿質(zhì)量參差不齊的網(wǎng)絡(luò)語言。

書籍經(jīng)過嚴(yán)格編輯和校對,內(nèi)容結(jié)構(gòu)清晰,是網(wǎng)絡(luò)文本難以替代的高質(zhì)量語料。

這個邏輯本身并不難理解,但問題是,既然承認(rèn)書籍有價值,為什么不付錢?究其原因,挨個找出版社和作者談授權(quán),費時費力,成本也高。于是 Anthropic 啟動了「巴拿馬項目」。一句「不希望外界知道」,說明它也清楚這件事站不住腳。

甚至「巴拿馬項目」還沒啟動的時候,Anthropic 已經(jīng)嘗試通過另一種方式獲取書籍。


法院文件顯示,公司聯(lián)合創(chuàng)始人 Ben Mann 曾在 2021 年 6 月的 11 天里,從一個叫 LibGen 的網(wǎng)站下載了大量小說和非小說類書籍。LibGen 是個「影子圖書館」,上面的資源大多涉嫌侵權(quán),文件中附帶的瀏覽器截圖顯示,他使用文件共享軟件完成了這些下載。

一年后,另一個網(wǎng)站 Pirate Library Mirror 于 2022 年 7 月上線,該網(wǎng)站公開宣稱「在大多數(shù)國家故意違反版權(quán)法」。Mann 把這個網(wǎng)站的鏈接發(fā)給了其他 Anthropic 員工,并留言寫道:「來得正是時候?。?!」

這句感嘆號背后,是一位公司高管對一個公開承認(rèn)違法的盜版網(wǎng)站表達的真實態(tài)度。

Anthropic 事后表示,公司從未用這些數(shù)據(jù)訓(xùn)練過正式發(fā)布的商業(yè)模型。但這種解釋多少有些勉強,下載了,存著,只是「沒有用在正式模型上」,這條線究竟劃在哪里,恐怕連 Anthropic 自己也說不清楚。

為了「巴拿馬項目」,Anthropic 還專門聘請了 Tom Turvey 來主持這項工作。Turvey 曾參與創(chuàng)建谷歌圖書項目,那個項目同樣因大規(guī)模掃描書籍引發(fā)了長達多年的版權(quán)爭議。Anthropic 選擇這個人來主導(dǎo)這件事,很難說是一種巧合。


最終,Anthropic 主要依賴兩家書商批量供貨:

美國二手書零售商 Better World Books,以及總部位于英國的 World of Books,每次采購動輒數(shù)萬冊。內(nèi)部文件還顯示,員工曾討論接洽紐約公共圖書館,甚至提到可以找某家長期資金不足的新圖書館。

采購?fù)曛螅麄€掃描過程,就像一條工業(yè)流水線。


供應(yīng)商用液壓切割機把書脊整齊切掉,散開的書頁隨即被送進高速工業(yè)掃描儀,掃完之后,剩下的紙張交給回收公司處理。一家參與報價的掃描服務(wù)商在提案中寫道,Anthropic 希望在六個月內(nèi)完成 50 萬到 200 萬冊書的數(shù)字化工作。

Anthropic 副總法律顧問 Aparna Sridhar 回應(yīng)稱,法院已裁定 AI 訓(xùn)練「本質(zhì)上具有轉(zhuǎn)化性」,Anthropic 選擇和解的問題在于「部分材料的獲取方式,而不是我們是否可以使用這些材料」。

這套說辭在法律上也許站得住腳,但它同時也揭示了一件事:這家公司從未認(rèn)為自己做錯了什么,只是某些手段不夠干凈。

拿你的書訓(xùn)練,再搶你的飯碗

同樣的事情,也在其他公司身上發(fā)生著,而且有些細(xì)節(jié)更為戲劇性。

針對 Meta 的訴訟文件顯示,有員工在 2023 年直接寫道:「用公司筆記本進行種子下載感覺不太對勁?!顾髞磉€專門向法務(wù)團隊反映,稱使用種子網(wǎng)站可能意味著向他人分發(fā)盜版作品,「這在法律上可能行不通?!?/p>

但這些顧慮最終沒有改變?nèi)魏问虑椤?/p>

2023 年 12 月的一封內(nèi)部郵件顯示,使用 LibGen 已在「上報至 MZ」之后獲批,MZ 指的是 CEO 馬克·扎克伯格。郵件還坦率地寫明了他們自己都清楚的風(fēng)險:「如果媒體報道暗示我們使用了已知為盜版的數(shù)據(jù)集,這可能會削弱我們在監(jiān)管問題上的談判立場?!?/p>


換句話說,他們不是不知道這樣做不對,只是在權(quán)衡被抓包的代價。為了降低這個風(fēng)險,員工們特意租用亞馬遜的服務(wù)器來做種子下載,而不是用 Meta 自己的服務(wù)器,原因是避免被追蹤到 Meta 公司。

OpenAI 和微軟同樣面臨圖書作者的版權(quán)指控。OpenAI 甚至承認(rèn)曾下載過 LibGen,但稱在 ChatGPT 發(fā)布前已刪除相關(guān)文件。

而 AI 公司與創(chuàng)作者之間的版權(quán)沖突,并非從 Anthropic 才開始。

早在 2000 年代初,Google 就曾大規(guī)模掃描圖書館館藏,同樣引發(fā)了長達十年的訴訟。最終法院認(rèn)定Google 的做法屬于「合理使用」,因為它只提供片段摘要,目的是引導(dǎo)讀者找到書,而不是取代書本身。

這個判決在當(dāng)時看來合情合理,卻在二十年后為整個 AI 行業(yè)提供了一塊擋箭牌。

Google 圖書是個索引工具,而生成式 AI 直接消化書籍內(nèi)容,然后輸出文字,在某些情況下與作者產(chǎn)生直接競爭。性質(zhì)變了,但援引的法律邏輯還是同一套,這本身就值得思考。


去年 6 月,聯(lián)邦法官 William Alsup 裁定,Anthropic 用書籍訓(xùn)練 AI 屬于合法行為,他將這個過程比作教師「訓(xùn)練學(xué)生寫好文章」。這個比喻聽起來溫和,但現(xiàn)實中的老師不會同時訓(xùn)練幾百萬個學(xué)生,也不會靠這些學(xué)生賺幾十億美元。

最終,Anthropic 選擇支付 15 億美元和解金,在 AI 版權(quán)訴訟史上創(chuàng)下紀(jì)錄,但細(xì)看之下,賬算得并不虧。按照美國版權(quán)法,每件作品的法定賠償上限可達 15 萬美元,而此次和解折算下來,每本書約賠 3000 美元,僅為上限的 2%。

賠償金由作者和出版商平分,只是,這一安排在創(chuàng)作者群體內(nèi)部引發(fā)了爭議。

不少作者認(rèn)為,出版商在保護作品不被 AI 濫用這件事上沒有盡力,卻拿走了一半賠償。更關(guān)鍵的是,和解協(xié)議并不要求 Anthropic 承認(rèn)任何違法行為,法院對「AI 訓(xùn)練屬于合理使用」的認(rèn)定照樣有效。


換句話說,Anthropic 用 15 億美元買到的,不只是和解,還有一份背書:我們可以繼續(xù)這么做。有分析人士指出,隨著這個先例確立,版權(quán)侵權(quán)對 AI 公司來說已經(jīng)不再是一條紅線,而是一筆可以提前計入成本的「過路費」。

對許多寫書的人來說,這件事意味著的遠不止一張支票。美國作家的年收入中位數(shù)約為 2 萬美元,而市值數(shù)千億的 AI 公司在未獲授權(quán)的情況下大量使用他們的作品,事后折算的賠償標(biāo)準(zhǔn)遠低于法律上限。

更讓人憂慮的是,AI 正在批量生成文字內(nèi)容,這些低成本的文本涌入市場,讓原本就艱難的寫作謀生變得更難。訓(xùn)練 AI 用的是人寫的書,而 AI 產(chǎn)出的內(nèi)容,正在擠壓人繼續(xù)寫書的空間,循環(huán)往復(fù)。

支持者自有另一套邏輯:AI 并不儲存書里的內(nèi)容,而是從中提取語言規(guī)律,這更像是一個人博覽群書之后形成自己的表達。這個類比并非毫無道理,但卻省略了一個關(guān)鍵差異:


人讀了一本書,不會同時讀一百萬本;而 AI 在幾個月內(nèi)消化了人類幾十年的寫作積累,隨后以極低的邊際成本無限復(fù)制輸出,規(guī)模改變了性質(zhì),把兩件事等同起來其實并不合理。

數(shù)百萬冊書被切開、掃描、回收,最后換來一份和解協(xié)議。那些書,早已不在了。而 AI 還在繼續(xù)寫作,且會越來越快。這大概就是這件事最讓人不安的地方:對于書被銷毀,被肆意用來訓(xùn)練 AI 這件事,沒有人真正付出了代價。

附上參考地址:
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
懸念不大了!今年奪冠的NBA球隊,大概率這5支,四大豪門出局

懸念不大了!今年奪冠的NBA球隊,大概率這5支,四大豪門出局

籃球掃地僧
2026-03-01 14:48:33
少婦當(dāng)眾脫褲猥褻男子:高顏值照流出,臟臟細(xì)節(jié)披露,警方已介入

少婦當(dāng)眾脫褲猥褻男子:高顏值照流出,臟臟細(xì)節(jié)披露,警方已介入

博士觀察
2026-03-01 14:24:34
專家談哈梅內(nèi)伊身亡影響:或激發(fā)反美以共識,但國內(nèi)抗議未平

專家談哈梅內(nèi)伊身亡影響:或激發(fā)反美以共識,但國內(nèi)抗議未平

南方都市報
2026-03-01 13:10:09
穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

穆帥:若證實普雷斯蒂安尼涉嫌歧視那他就離隊;我不會去皇馬

懂球帝
2026-03-01 20:15:35
利潤暴跌七成,愛奇藝怎么了?

利潤暴跌七成,愛奇藝怎么了?

有意思報告
2026-02-28 17:50:52
護照姐丟人丟到國外!老外紛紛舉護照玩梗,洋老公:她只是保姆

護照姐丟人丟到國外!老外紛紛舉護照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

都市快報橙柿互動
2026-02-25 11:28:41
2-1后!阿森納先過1關(guān):客戰(zhàn)曼城定冠軍,曼聯(lián)爭四領(lǐng)跑1豪門掉隊

2-1后!阿森納先過1關(guān):客戰(zhàn)曼城定冠軍,曼聯(lián)爭四領(lǐng)跑1豪門掉隊

體育知多少
2026-03-02 07:30:30
韓陵之戰(zhàn):高歡臨時集合3萬兵馬,如何殲滅爾朱氏30萬聯(lián)軍上位?

韓陵之戰(zhàn):高歡臨時集合3萬兵馬,如何殲滅爾朱氏30萬聯(lián)軍上位?

棠棣說史
2026-03-01 07:20:03
特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

界面新聞
2026-03-02 07:19:28
王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

百態(tài)人間
2026-02-28 15:31:33
美國軍方預(yù)計將對伊朗進行為期多天的行動

美國軍方預(yù)計將對伊朗進行為期多天的行動

財聯(lián)社
2026-02-28 15:55:12
央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

壹月情感
2025-12-02 16:42:19
特朗普竟然第一時間回應(yīng)了朝鮮的表態(tài)

特朗普竟然第一時間回應(yīng)了朝鮮的表態(tài)

娛樂小可愛蛙
2026-03-02 00:45:34
中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭準(zhǔn)備,中國的下場戰(zhàn)爭不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
斯諾克紅包賽形勢:中國保2爭3,趙心童吳宜澤穩(wěn)進,肖國棟有機會

斯諾克紅包賽形勢:中國保2爭3,趙心童吳宜澤穩(wěn)進,肖國棟有機會

劉姚堯的文字城堡
2026-03-02 07:40:55
“戰(zhàn)爭成癮”的美以,或讓中東陷入又一場災(zāi)難

“戰(zhàn)爭成癮”的美以,或讓中東陷入又一場災(zāi)難

環(huán)球網(wǎng)資訊
2026-02-28 23:01:12
中國有源相控陣?yán)走_真實水平:并非世界第一,和美差距有多大

中國有源相控陣?yán)走_真實水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
曼聯(lián)2-1水晶宮,賽后評分:B費7.8分,塞斯科7.7分,馬奎爾7.3分

曼聯(lián)2-1水晶宮,賽后評分:B費7.8分,塞斯科7.7分,馬奎爾7.3分

卡靈頓分析師
2026-03-02 01:00:55
2026-03-02 08:55:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38473文章數(shù) 2601018關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東國際機場滯留者:機場像“難民所”

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

時尚
本地
手機
數(shù)碼
公開課

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

本地新聞

津南好·四時總相宜

手機要聞

榮耀攜手電影傳奇阿萊 百年影像科技首落手機

數(shù)碼要聞

小米拍攝眼鏡奪2025年銷量第一 份額獨占超50%

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版