国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic「蒸餾」了人類最大的知識(shí)庫(kù)

0
分享至

2024 年初,在美國(guó)某處的一座倉(cāng)庫(kù)里,工人們正在做一件看起來(lái)有些奇怪的事:把書一本本送進(jìn)機(jī)器,切掉書脊,掃描,然后把剩下的紙送去回收。

這些書是剛買來(lái)的,有些甚至是新的。沒(méi)有人會(huì)讀它們,它們存在的唯一目的,就是被銷毀。

下令做這件事的,是一家叫 Anthropic 的 AI 公司。


在他們的內(nèi)部文件里,這項(xiàng)計(jì)劃有個(gè)代號(hào):「巴拿馬項(xiàng)目」。一份規(guī)劃文件寫得很直白:「這是我們以破壞性方式掃描全球所有書籍的計(jì)劃,我們不希望外界知道我們正在做這件事。」

這件事最終還是被人知道了。

去年,一名聯(lián)邦法官解封了一批與版權(quán)訴訟相關(guān)的文件,總計(jì)超過(guò) 4000 頁(yè)。外界由此看到的,不只是一家公司的秘密,而是整個(gè) AI 行業(yè)在數(shù)據(jù)爭(zhēng)奪戰(zhàn)中的真實(shí)面目。

被大模型「吃」掉的實(shí)體書

為什么這些處于技術(shù)前沿的科技巨頭,會(huì)用如此原始甚至粗暴的方式對(duì)待紙質(zhì)書?答案其實(shí)藏在 AI 對(duì)高質(zhì)量數(shù)據(jù)的極度渴求里。

Anthropic 內(nèi)部很早就意識(shí)到,訓(xùn)練 AI 模型光靠網(wǎng)絡(luò)上的內(nèi)容不夠用。

根據(jù)《華盛頓郵報(bào)》報(bào)道,一位Anthropic 聯(lián)合創(chuàng)始人在 2023 年 1 月的文件中寫道,用書籍訓(xùn)練模型,可以讓 AI 學(xué)會(huì)「如何寫得更好」,而不是只會(huì)模仿質(zhì)量參差不齊的網(wǎng)絡(luò)語(yǔ)言。

書籍經(jīng)過(guò)嚴(yán)格編輯和校對(duì),內(nèi)容結(jié)構(gòu)清晰,是網(wǎng)絡(luò)文本難以替代的高質(zhì)量語(yǔ)料。

這個(gè)邏輯本身并不難理解,但問(wèn)題是,既然承認(rèn)書籍有價(jià)值,為什么不付錢?究其原因,挨個(gè)找出版社和作者談授權(quán),費(fèi)時(shí)費(fèi)力,成本也高。于是 Anthropic 啟動(dòng)了「巴拿馬項(xiàng)目」。一句「不希望外界知道」,說(shuō)明它也清楚這件事站不住腳。

甚至「巴拿馬項(xiàng)目」還沒(méi)啟動(dòng)的時(shí)候,Anthropic 已經(jīng)嘗試通過(guò)另一種方式獲取書籍。


法院文件顯示,公司聯(lián)合創(chuàng)始人 Ben Mann 曾在 2021 年 6 月的 11 天里,從一個(gè)叫 LibGen 的網(wǎng)站下載了大量小說(shuō)和非小說(shuō)類書籍。LibGen 是個(gè)「影子圖書館」,上面的資源大多涉嫌侵權(quán),文件中附帶的瀏覽器截圖顯示,他使用文件共享軟件完成了這些下載。

一年后,另一個(gè)網(wǎng)站 Pirate Library Mirror 于 2022 年 7 月上線,該網(wǎng)站公開(kāi)宣稱「在大多數(shù)國(guó)家故意違反版權(quán)法」。Mann 把這個(gè)網(wǎng)站的鏈接發(fā)給了其他 Anthropic 員工,并留言寫道:「來(lái)得正是時(shí)候!!!」

這句感嘆號(hào)背后,是一位公司高管對(duì)一個(gè)公開(kāi)承認(rèn)違法的盜版網(wǎng)站表達(dá)的真實(shí)態(tài)度。

Anthropic 事后表示,公司從未用這些數(shù)據(jù)訓(xùn)練過(guò)正式發(fā)布的商業(yè)模型。但這種解釋多少有些勉強(qiáng),下載了,存著,只是「沒(méi)有用在正式模型上」,這條線究竟劃在哪里,恐怕連 Anthropic 自己也說(shuō)不清楚。

為了「巴拿馬項(xiàng)目」,Anthropic 還專門聘請(qǐng)了 Tom Turvey 來(lái)主持這項(xiàng)工作。Turvey 曾參與創(chuàng)建谷歌圖書項(xiàng)目,那個(gè)項(xiàng)目同樣因大規(guī)模掃描書籍引發(fā)了長(zhǎng)達(dá)多年的版權(quán)爭(zhēng)議。Anthropic 選擇這個(gè)人來(lái)主導(dǎo)這件事,很難說(shuō)是一種巧合。


最終,Anthropic 主要依賴兩家書商批量供貨:

美國(guó)二手書零售商 Better World Books,以及總部位于英國(guó)的 World of Books,每次采購(gòu)動(dòng)輒數(shù)萬(wàn)冊(cè)。內(nèi)部文件還顯示,員工曾討論接洽紐約公共圖書館,甚至提到可以找某家長(zhǎng)期資金不足的新圖書館。

采購(gòu)?fù)曛?,整個(gè)掃描過(guò)程,就像一條工業(yè)流水線。


供應(yīng)商用液壓切割機(jī)把書脊整齊切掉,散開(kāi)的書頁(yè)隨即被送進(jìn)高速工業(yè)掃描儀,掃完之后,剩下的紙張交給回收公司處理。一家參與報(bào)價(jià)的掃描服務(wù)商在提案中寫道,Anthropic 希望在六個(gè)月內(nèi)完成 50 萬(wàn)到 200 萬(wàn)冊(cè)書的數(shù)字化工作。

Anthropic 副總法律顧問(wèn) Aparna Sridhar 回應(yīng)稱,法院已裁定 AI 訓(xùn)練「本質(zhì)上具有轉(zhuǎn)化性」,Anthropic 選擇和解的問(wèn)題在于「部分材料的獲取方式,而不是我們是否可以使用這些材料」。

這套說(shuō)辭在法律上也許站得住腳,但它同時(shí)也揭示了一件事:這家公司從未認(rèn)為自己做錯(cuò)了什么,只是某些手段不夠干凈。

拿你的書訓(xùn)練,再搶你的飯碗

同樣的事情,也在其他公司身上發(fā)生著,而且有些細(xì)節(jié)更為戲劇性。

針對(duì) Meta 的訴訟文件顯示,有員工在 2023 年直接寫道:「用公司筆記本進(jìn)行種子下載感覺(jué)不太對(duì)勁?!顾髞?lái)還專門向法務(wù)團(tuán)隊(duì)反映,稱使用種子網(wǎng)站可能意味著向他人分發(fā)盜版作品,「這在法律上可能行不通?!?/p>

但這些顧慮最終沒(méi)有改變?nèi)魏问虑椤?/p>

2023 年 12 月的一封內(nèi)部郵件顯示,使用 LibGen 已在「上報(bào)至 MZ」之后獲批,MZ 指的是 CEO 馬克·扎克伯格。郵件還坦率地寫明了他們自己都清楚的風(fēng)險(xiǎn):「如果媒體報(bào)道暗示我們使用了已知為盜版的數(shù)據(jù)集,這可能會(huì)削弱我們?cè)诒O(jiān)管問(wèn)題上的談判立場(chǎng)?!?/p>


換句話說(shuō),他們不是不知道這樣做不對(duì),只是在權(quán)衡被抓包的代價(jià)。為了降低這個(gè)風(fēng)險(xiǎn),員工們特意租用亞馬遜的服務(wù)器來(lái)做種子下載,而不是用 Meta 自己的服務(wù)器,原因是避免被追蹤到 Meta 公司。

OpenAI 和微軟同樣面臨圖書作者的版權(quán)指控。OpenAI 甚至承認(rèn)曾下載過(guò) LibGen,但稱在 ChatGPT 發(fā)布前已刪除相關(guān)文件。

而 AI 公司與創(chuàng)作者之間的版權(quán)沖突,并非從 Anthropic 才開(kāi)始。

早在 2000 年代初,Google 就曾大規(guī)模掃描圖書館館藏,同樣引發(fā)了長(zhǎng)達(dá)十年的訴訟。最終法院認(rèn)定Google 的做法屬于「合理使用」,因?yàn)樗惶峁┢握康氖且龑?dǎo)讀者找到書,而不是取代書本身。

這個(gè)判決在當(dāng)時(shí)看來(lái)合情合理,卻在二十年后為整個(gè) AI 行業(yè)提供了一塊擋箭牌。

Google 圖書是個(gè)索引工具,而生成式 AI 直接消化書籍內(nèi)容,然后輸出文字,在某些情況下與作者產(chǎn)生直接競(jìng)爭(zhēng)。性質(zhì)變了,但援引的法律邏輯還是同一套,這本身就值得思考。


去年 6 月,聯(lián)邦法官 William Alsup 裁定,Anthropic 用書籍訓(xùn)練 AI 屬于合法行為,他將這個(gè)過(guò)程比作教師「訓(xùn)練學(xué)生寫好文章」。這個(gè)比喻聽(tīng)起來(lái)溫和,但現(xiàn)實(shí)中的老師不會(huì)同時(shí)訓(xùn)練幾百萬(wàn)個(gè)學(xué)生,也不會(huì)靠這些學(xué)生賺幾十億美元。

最終,Anthropic 選擇支付 15 億美元和解金,在 AI 版權(quán)訴訟史上創(chuàng)下紀(jì)錄,但細(xì)看之下,賬算得并不虧。按照美國(guó)版權(quán)法,每件作品的法定賠償上限可達(dá) 15 萬(wàn)美元,而此次和解折算下來(lái),每本書約賠 3000 美元,僅為上限的 2%。

賠償金由作者和出版商平分,只是,這一安排在創(chuàng)作者群體內(nèi)部引發(fā)了爭(zhēng)議。

不少作者認(rèn)為,出版商在保護(hù)作品不被 AI 濫用這件事上沒(méi)有盡力,卻拿走了一半賠償。更關(guān)鍵的是,和解協(xié)議并不要求 Anthropic 承認(rèn)任何違法行為,法院對(duì)「AI 訓(xùn)練屬于合理使用」的認(rèn)定照樣有效。


換句話說(shuō),Anthropic 用 15 億美元買到的,不只是和解,還有一份背書:我們可以繼續(xù)這么做。有分析人士指出,隨著這個(gè)先例確立,版權(quán)侵權(quán)對(duì) AI 公司來(lái)說(shuō)已經(jīng)不再是一條紅線,而是一筆可以提前計(jì)入成本的「過(guò)路費(fèi)」。

對(duì)許多寫書的人來(lái)說(shuō),這件事意味著的遠(yuǎn)不止一張支票。美國(guó)作家的年收入中位數(shù)約為 2 萬(wàn)美元,而市值數(shù)千億的 AI 公司在未獲授權(quán)的情況下大量使用他們的作品,事后折算的賠償標(biāo)準(zhǔn)遠(yuǎn)低于法律上限。

更讓人憂慮的是,AI 正在批量生成文字內(nèi)容,這些低成本的文本涌入市場(chǎng),讓原本就艱難的寫作謀生變得更難。訓(xùn)練 AI 用的是人寫的書,而 AI 產(chǎn)出的內(nèi)容,正在擠壓人繼續(xù)寫書的空間,循環(huán)往復(fù)。

支持者自有另一套邏輯:AI 并不儲(chǔ)存書里的內(nèi)容,而是從中提取語(yǔ)言規(guī)律,這更像是一個(gè)人博覽群書之后形成自己的表達(dá)。這個(gè)類比并非毫無(wú)道理,但卻省略了一個(gè)關(guān)鍵差異:


人讀了一本書,不會(huì)同時(shí)讀一百萬(wàn)本;而 AI 在幾個(gè)月內(nèi)消化了人類幾十年的寫作積累,隨后以極低的邊際成本無(wú)限復(fù)制輸出,規(guī)模改變了性質(zhì),把兩件事等同起來(lái)其實(shí)并不合理。

數(shù)百萬(wàn)冊(cè)書被切開(kāi)、掃描、回收,最后換來(lái)一份和解協(xié)議。那些書,早已不在了。而 AI 還在繼續(xù)寫作,且會(huì)越來(lái)越快。這大概就是這件事最讓人不安的地方:對(duì)于書被銷毀,被肆意用來(lái)訓(xùn)練 AI 這件事,沒(méi)有人真正付出了代價(jià)。

附上參考地址:
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)塔尼亞胡:對(duì)伊朗的打擊將升級(jí)

內(nèi)塔尼亞胡:對(duì)伊朗的打擊將升級(jí)

參考消息
2026-03-02 13:39:44
面對(duì)霍爾姆茨海峽的封鎖,中國(guó)準(zhǔn)備好了嗎?

面對(duì)霍爾姆茨海峽的封鎖,中國(guó)準(zhǔn)備好了嗎?

勝研集
2026-03-02 12:20:33
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

八斗小先生
2025-12-26 09:33:27
伊朗開(kāi)展“真實(shí)承諾-4”行動(dòng)第13輪攻擊

伊朗開(kāi)展“真實(shí)承諾-4”行動(dòng)第13輪攻擊

環(huán)球網(wǎng)資訊
2026-03-03 05:58:59
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
人每隔七年,就會(huì)變成另外一個(gè)人

人每隔七年,就會(huì)變成另外一個(gè)人

尚曦讀史
2026-02-16 09:52:35
觸電后工友以為其睡著!羅湖一部門及街道辦因亡人事故被問(wèn)責(zé)

觸電后工友以為其睡著!羅湖一部門及街道辦因亡人事故被問(wèn)責(zé)

南方都市報(bào)
2026-03-02 22:30:28
430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

430分生死戰(zhàn)!鄭欽文亮出隱藏殺招,新教練能否救贖23位危機(jī)?

卿子書
2026-03-02 09:48:37
伊朗形勢(shì)危急,英法德也要防御性參戰(zhàn)?關(guān)鍵時(shí)刻,普京對(duì)中喊話

伊朗形勢(shì)危急,英法德也要防御性參戰(zhàn)?關(guān)鍵時(shí)刻,普京對(duì)中喊話

最美的開(kāi)始
2026-03-03 05:54:44
齋戒期間突尼斯聯(lián)賽下午一點(diǎn)比賽,終場(chǎng)哨響兩隊(duì)球員體力不支均趴窩

齋戒期間突尼斯聯(lián)賽下午一點(diǎn)比賽,終場(chǎng)哨響兩隊(duì)球員體力不支均趴窩

懂球帝
2026-03-02 22:29:12
國(guó)航、東航、南航、海航、深航、川航、廈航,集體公告!

國(guó)航、東航、南航、海航、深航、川航、廈航,集體公告!

環(huán)球時(shí)報(bào)國(guó)際
2026-03-01 17:09:59
女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

特約前排觀眾
2026-02-09 00:05:05
俄媒:按照普京指示,俄緊急情況部派伊爾-76運(yùn)輸機(jī)接回俄駐以色列外交人員

俄媒:按照普京指示,俄緊急情況部派伊爾-76運(yùn)輸機(jī)接回俄駐以色列外交人員

環(huán)球網(wǎng)資訊
2026-03-02 10:21:21
電視劇《太平年》中的吳越國(guó)末代君王錢弘俶,真的曾與柴榮和趙匡胤結(jié)下生死情誼?

電視劇《太平年》中的吳越國(guó)末代君王錢弘俶,真的曾與柴榮和趙匡胤結(jié)下生死情誼?

閱讀悅讀之寫乎
2026-03-03 00:04:16
馮小剛春節(jié)后送女兒上學(xué) 臉貼臉說(shuō)想她 給徐朵開(kāi)車提行李很舍不得

馮小剛春節(jié)后送女兒上學(xué) 臉貼臉說(shuō)想她 給徐朵開(kāi)車提行李很舍不得

離離言幾許
2026-03-02 15:51:46
越南人民軍軍銜詳解

越南人民軍軍銜詳解

擦菠蘿的海綿寶寶
2026-03-02 09:39:33
伊朗最高國(guó)家安全委員會(huì)發(fā)布第1號(hào)公告

伊朗最高國(guó)家安全委員會(huì)發(fā)布第1號(hào)公告

界面新聞
2026-02-28 18:24:27
伊朗高層突然“消失”,美以聯(lián)手精準(zhǔn)打擊,權(quán)力交接陷入混亂

伊朗高層突然“消失”,美以聯(lián)手精準(zhǔn)打擊,權(quán)力交接陷入混亂

明天見(jiàn)灌裝冰塊
2026-03-03 05:59:42
3月2日,北京衛(wèi)視連播7部大劇,權(quán)謀 懸疑 年代,建議觀看!值得期待!

3月2日,北京衛(wèi)視連播7部大劇,權(quán)謀 懸疑 年代,建議觀看!值得期待!

阿廢冷眼觀察所
2026-03-03 00:49:00
中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

南權(quán)先生
2026-02-02 16:05:36
2026-03-03 06:51:00
愛(ài)范兒 incentive-icons
愛(ài)范兒
消費(fèi)科技第一媒體
38480文章數(shù) 2601029關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
數(shù)碼
親子

教育要聞

畢業(yè)大游戲-譚劍-2026年3月2日 (游戲AI設(shè)計(jì)第1次課第1節(jié))

今年春天一定要擁有的4件衣服,太好看了!

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

親子要聞

開(kāi)學(xué)了!珠海香洲:筑牢安全防線,保障托育機(jī)構(gòu)順利開(kāi)園復(fù)托

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版