国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek登上《Nature》封面,梁文鋒打破質(zhì)疑,給國(guó)人長(zhǎng)臉了

0
分享至



創(chuàng)造歷史!DeepSeek-R1論文登上《Nature》封面

就在昨晚,DeepSeek團(tuán)隊(duì)再次創(chuàng)造了歷史!

由梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國(guó)際權(quán)威期刊《Nature(自然)》的封面。



圖源:Nature

有人可能會(huì)問(wèn):DeepSeek登上《Nature》封面究竟意味著什么?

如果說(shuō)在《Nature》上發(fā)表論文是所有科研人員的夢(mèng)想,那么讓自己的研究成果登上封面,就相當(dāng)于贏(yíng)得了科學(xué)界的“奧斯卡最佳影片”。

這本創(chuàng)刊于1869年的期刊,是全球科學(xué)界公認(rèn)的“圣杯”,代表著最前沿、最重磅、最可能改變世界的發(fā)現(xiàn)。而封面,則是優(yōu)中選優(yōu),只留給當(dāng)期最耀眼的那顆星星。

這一次,這顆星星來(lái)自中國(guó)。封面標(biāo)題言簡(jiǎn)意賅——“Self-help: Reinforcement learning teaches large models to self-improve”(自我提升:強(qiáng)化學(xué)習(xí)教大模型自我完善)。

這是中國(guó)大模型研究成果第一次獲此殊榮,標(biāo)志著國(guó)際頂尖科學(xué)界對(duì)中國(guó)AI基礎(chǔ)研究的最高認(rèn)可。



圖源:Nature

值得注意的是,DeepSeek的創(chuàng)始人兼CEO梁文鋒,是這篇論文的唯一通訊作者。

而在這份長(zhǎng)長(zhǎng)的作者名單中,還有一位特別的成員——來(lái)自上海的高中生涂津豪。他曾在騰訊混元、DeepSeek實(shí)習(xí),是開(kāi)源項(xiàng)目Thinking-Claude的作者,也是2024阿里全球數(shù)賽AI挑戰(zhàn)賽的冠軍。



圖源:知乎

那么,為什么年初就發(fā)布的DeepSeek-R1模型時(shí)隔大半年才正式登上《Nature》呢?

這中間的漫長(zhǎng)時(shí)間,恰恰是這篇論文價(jià)值連城的關(guān)鍵所在——DeepSeek-R1經(jīng)歷了長(zhǎng)達(dá)半年的、由八位外部獨(dú)立專(zhuān)家參與的嚴(yán)苛同行評(píng)審過(guò)程。

這個(gè)過(guò)程的意義,遠(yuǎn)超論文本身。據(jù)《Nature》官方審稿人的描述,當(dāng)今的AI行業(yè),充斥著“令人印象深刻的發(fā)布會(huì)演示”、“不斷刷新的排行榜分?jǐn)?shù)”以及各種“未經(jīng)證實(shí)的宣傳和炒作”。

誰(shuí)家的模型更強(qiáng)?往往是王婆賣(mài)瓜,自賣(mài)自夸。

而DeepSeek選擇了一條最艱難也最光榮的路:將自己的模型設(shè)計(jì)、方法論和局限性,毫無(wú)保留地交給全世界最頂尖的獨(dú)立專(zhuān)家進(jìn)行審視和“挑刺”。

正是這一勇敢的舉動(dòng),創(chuàng)造了兩個(gè)歷史性的“第一”:全球第一個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型以及第一個(gè)登上《Nature》封面的中國(guó)大模型



圖源:X

在此之前,幾乎所有主流大模型都未經(jīng)過(guò)獨(dú)立的學(xué)術(shù)評(píng)審?!禢ature》期刊自己也評(píng)論道,這個(gè)空白“終于被DeepSeek打破了”。

并且,DeepSeek團(tuán)隊(duì)還史無(wú)前例地做到了把“低價(jià)+透明”寫(xiě)進(jìn)了頂刊。

此次論文的補(bǔ)充材料中,首次公開(kāi)了R1模型僅用29.4萬(wàn)美元(約合人民幣209萬(wàn)元)的訓(xùn)練成本——使用H800芯片從V3-base版本訓(xùn)練至R1,成本僅為行業(yè)平均水平的1/10。

相比之下,諸如ChatGPT、谷歌Gemini等競(jìng)爭(zhēng)對(duì)手動(dòng)輒需要數(shù)千萬(wàn)甚至上億美元的投入,DeepSeek的成本控制堪稱(chēng)奇跡。



更多細(xì)節(jié)披露:純強(qiáng)化學(xué)習(xí)“讓模型自己長(zhǎng)推理”

與1月份未經(jīng)評(píng)審的初版相比,發(fā)表在《Nature》上的新版論文包含了大量的補(bǔ)充材料,其中不僅披露了海量技術(shù)細(xì)節(jié),還正面回應(yīng)了模型發(fā)布之初的核心爭(zhēng)議。

先說(shuō)這篇論文最大的亮點(diǎn),就是證明了僅通過(guò)純強(qiáng)化學(xué)習(xí)(Pure Reinforcement Learning, RL),就能顯著激發(fā)大模型的推理能力,而無(wú)需大量人工標(biāo)注的“標(biāo)準(zhǔn)答案”。



圖源:Nature

這個(gè)概念聽(tīng)起來(lái)很專(zhuān)業(yè),但可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解。

傳統(tǒng)的訓(xùn)練方法,比如監(jiān)督微調(diào)(SFT),就像是給學(xué)生一本習(xí)題冊(cè),上面既有題目也有詳細(xì)的解題步驟和答案。學(xué)生要做的,是學(xué)習(xí)并模仿這些“標(biāo)準(zhǔn)解法”。

而DeepSeek的純強(qiáng)化學(xué)習(xí)方法則完全不同。

它更像是把學(xué)生關(guān)在一個(gè)只有題目和草稿紙的房間里,不提供任何解題范例。學(xué)生可以自由地用任何方法嘗試解題,最后只需要把答案提交。

系統(tǒng)只會(huì)告訴他“答對(duì)了”或“答錯(cuò)了”。如果答對(duì)了,就給予“獎(jiǎng)勵(lì)”;答錯(cuò)了,就給予“懲罰”。

在這種模式下,模型為了獲得更多獎(jiǎng)勵(lì),必須自己去“悟”,去探索什么樣的思考路徑、什么樣的解題策略,才能最終導(dǎo)向正確的答案。

它不再是模仿人類(lèi),而是在創(chuàng)造屬于自己的、可能更高效的推理方法。

為了提升效率,團(tuán)隊(duì)還采用了名為“群體相對(duì)策略?xún)?yōu)化”(GRPO)的算法,省去了一個(gè)龐大的“裁判”模型,從而大幅降低了訓(xùn)練成本。

最令人驚奇的是,通過(guò)這種“粗放”的訓(xùn)練,模型(特指其前身DeepSeek-R1-Zero)竟然自發(fā)地涌現(xiàn)出了多種類(lèi)似人類(lèi)的、復(fù)雜且高級(jí)的推理行為,而這些都是研究人員從未明確教過(guò)它的。

例如模型在給出最終答案前,學(xué)會(huì)了自己檢查一遍解題過(guò)程,就像我們做完數(shù)學(xué)題要驗(yàn)算一樣。

研究人員甚至觀(guān)察到了模型的“頓悟時(shí)刻”(Aha moment),在它的“內(nèi)心獨(dú)白”(推理過(guò)程)中,會(huì)突然出現(xiàn)“等等”(wait)這樣的詞,然后停下來(lái)重新評(píng)估自己最初的思路,修正錯(cuò)誤。



圖源:Nature

此外,該研究還發(fā)現(xiàn)DeepSeek具有長(zhǎng)思維鏈(Long CoT)自適應(yīng)計(jì)算的能力。

一方面,面對(duì)復(fù)雜難題,模型會(huì)不惜花費(fèi)成百上千個(gè)“詞元”(token)來(lái)進(jìn)行深度思考和推理,展現(xiàn)出驚人的專(zhuān)注和嚴(yán)謹(jǐn);

另一方面,模型還自己學(xué)會(huì)了“偷懶”,對(duì)簡(jiǎn)單問(wèn)題用較少的步驟快速解決,對(duì)復(fù)雜問(wèn)題則投入更多的計(jì)算資源進(jìn)行深度思考,實(shí)現(xiàn)了計(jì)算力的智能分配。

這些自發(fā)涌現(xiàn)的能力,最終轉(zhuǎn)化為了實(shí)打?qū)嵉男阅芴嵘?/p>



圖源:Nature

今年1月模型剛發(fā)布時(shí),曾有媒體報(bào)道稱(chēng)OpenAI的研究人員認(rèn)為DeepSeek涉嫌使用“蒸餾”技術(shù)——即用OpenAI模型生成的數(shù)據(jù)來(lái)訓(xùn)練自己的模型,從而用更低的成本“抄近道”。

這次的《Nature》論文,就是DeepSeek對(duì)此事最正式、最權(quán)威的回應(yīng)。

在與審稿人的溝通中,團(tuán)隊(duì)明確指出,R1模型的核心推理能力,是通過(guò)其獨(dú)創(chuàng)的純強(qiáng)化學(xué)習(xí)過(guò)程獨(dú)立訓(xùn)練出來(lái)的,并沒(méi)有學(xué)習(xí)或復(fù)制任何由OpenAI模型生成的推理范例。

當(dāng)然,團(tuán)隊(duì)也坦誠(chéng)地承認(rèn),其基礎(chǔ)模型是在海量的互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練的,其中自然不可避免地吸收到一些其他AI生成的內(nèi)容。

俄亥俄州立大學(xué)AI研究員Huan Sun表示,這個(gè)解釋“與我們?cè)谌魏纬霭嫖镏锌吹降囊粯恿钊诵欧薄?/p>



為什么說(shuō)這是行業(yè)里程碑事件?

《Nature》審稿人Lewis Tunstall強(qiáng)調(diào),將主流大模型提交同行評(píng)審是“一個(gè)值得歡迎的先例”,因?yàn)檫@為評(píng)估和管理AI風(fēng)險(xiǎn)提供了開(kāi)放的基礎(chǔ)。

作為全球最頂級(jí)的科學(xué)權(quán)威機(jī)構(gòu),Nature正在借助DeepSeek的案例,向OpenAI、Google、Anthropic等巨頭發(fā)出呼吁:請(qǐng)把你們的模型也拿到陽(yáng)光下,接受科學(xué)共同體的檢驗(yàn)。

DeepSeek的行為,正在倒逼整個(gè)行業(yè)提升透明度和可信度。

并且,DeepSeek的貢獻(xiàn)遠(yuǎn)不止于一篇論文。

他們選擇了“開(kāi)放權(quán)重”(Open-weight)的模式,將模型的核心參數(shù)公之于眾,任何人都可以下載、研究和改進(jìn)他們的工作。

這一舉動(dòng)引爆了全球開(kāi)發(fā)者社區(qū),DeepSeek-R1迅速成為AI社區(qū)平臺(tái)Hugging Face上同類(lèi)模型中下載量最高的模型,累計(jì)下載超過(guò)1090萬(wàn)次。

此外,團(tuán)隊(duì)還貼心地發(fā)布了多個(gè)“蒸餾”后的小尺寸模型,讓那些沒(méi)有海量計(jì)算資源的研究者和開(kāi)發(fā)者也能用上先進(jìn)的推理能力。

這種開(kāi)放精神,與一些巨頭公司“閉源”的路線(xiàn)形成了鮮明對(duì)比。



梁文鋒的野心徹底暴露

盡管取得了輝煌的成就,但客觀(guān)來(lái)看,DeepSeek的征途才剛剛開(kāi)始。

在長(zhǎng)達(dá)64頁(yè)的同行評(píng)審報(bào)告中,8位審稿人共提出上百條具體意見(jiàn),其中提到了DeepSeek數(shù)據(jù)細(xì)節(jié)仍不夠透明,獎(jiǎng)勵(lì)機(jī)制尚待優(yōu)化以及安全與倫理審查尚屬起步階段等問(wèn)題。

例如有審稿人要求DeepSeek在論文中附上SFT和RL數(shù)據(jù)的鏈接,而不僅僅是提供數(shù)據(jù)樣本。

不過(guò),梁文鋒的野心顯然不局限于此。

據(jù)彭博社消息,DeepSeek正在秘密研發(fā)一款具備自我進(jìn)化能力的Agent。這款產(chǎn)品無(wú)需復(fù)雜指令,能自主學(xué)習(xí)并執(zhí)行多步驟任務(wù),還可從歷史操作中迭代優(yōu)化。

該項(xiàng)目由梁文鋒親自帶隊(duì),計(jì)劃在今年第四季度發(fā)布,目標(biāo)直指“無(wú)需人類(lèi)干預(yù)的通用智能體”。

從《Nature》封面到自我進(jìn)化Agent,一條清晰的路徑已經(jīng)浮現(xiàn)。

如果說(shuō)《Nature》上的這篇論文證明了模型可以在虛擬的數(shù)學(xué)世界里“自我進(jìn)化”出推理能力,那么這款A(yù)gent的目標(biāo),可能就會(huì)讓模型在更廣闊的數(shù)字世界里,通過(guò)與環(huán)境的真實(shí)交互,“自我進(jìn)化”出解決實(shí)際問(wèn)題的行動(dòng)能力。

梁文鋒和他的團(tuán)隊(duì),真實(shí)目的應(yīng)該是創(chuàng)造出能夠自主學(xué)習(xí)、不斷成長(zhǎng)的AI新物種,從而徹底改變?nèi)藱C(jī)協(xié)作的范式。

這場(chǎng)好戲,才剛剛拉開(kāi)序幕。

作者 | 劉峰

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今夏將聯(lián)合舉行世界杯足球賽,特朗普突然發(fā)聲:販毒集團(tuán)控制墨西哥,很快對(duì)其陸地打擊

今夏將聯(lián)合舉行世界杯足球賽,特朗普突然發(fā)聲:販毒集團(tuán)控制墨西哥,很快對(duì)其陸地打擊

紅星新聞
2026-01-09 16:23:21
亂套了!男單8強(qiáng)賽出爐,世界冠軍2-3被淘汰,林昀儒下輪對(duì)陣確定

亂套了!男單8強(qiáng)賽出爐,世界冠軍2-3被淘汰,林昀儒下輪對(duì)陣確定

卿子書(shū)
2026-01-09 08:44:25
大潰??!中國(guó)網(wǎng)貸公司,在印度全軍覆沒(méi)

大潰??!中國(guó)網(wǎng)貸公司,在印度全軍覆沒(méi)

首席品牌評(píng)論
2026-01-07 18:20:00
伊朗的抗議活動(dòng)達(dá)到了新的高度:全國(guó)各地的互聯(lián)網(wǎng)被切斷

伊朗的抗議活動(dòng)達(dá)到了新的高度:全國(guó)各地的互聯(lián)網(wǎng)被切斷

一種觀(guān)點(diǎn)
2026-01-09 18:35:06
美國(guó)三角洲部隊(duì)抵達(dá)伊朗邊境,教士集團(tuán)和抗議者開(kāi)始最后決戰(zhàn)

美國(guó)三角洲部隊(duì)抵達(dá)伊朗邊境,教士集團(tuán)和抗議者開(kāi)始最后決戰(zhàn)

史政先鋒
2026-01-09 20:39:18
駐柬使館找回的吳姓女子身體好轉(zhuǎn),收治醫(yī)院:已出院準(zhǔn)備回國(guó)

駐柬使館找回的吳姓女子身體好轉(zhuǎn),收治醫(yī)院:已出院準(zhǔn)備回國(guó)

澎湃新聞
2026-01-09 20:54:26
中超冠軍豪橫?海港頂薪租借橫濱后腰!開(kāi)10倍工資,買(mǎi)斷費(fèi)700萬(wàn)

中超冠軍豪橫?海港頂薪租借橫濱后腰!開(kāi)10倍工資,買(mǎi)斷費(fèi)700萬(wàn)

我愛(ài)英超
2026-01-09 20:45:07
伊朗巨變前夜

伊朗巨變前夜

鳳眼論
2026-01-08 10:31:08
遼寧大勝送江蘇7連?。和鯈箥?3分追平加盟最高 莫蘭德14+21

遼寧大勝送江蘇7連?。和鯈箥?3分追平加盟最高 莫蘭德14+21

醉臥浮生
2026-01-09 21:21:01
網(wǎng)傳某國(guó)產(chǎn)操作系統(tǒng)大廠(chǎng)老董開(kāi)除核心工程師,理由竟是 “沒(méi)穿西裝”

網(wǎng)傳某國(guó)產(chǎn)操作系統(tǒng)大廠(chǎng)老董開(kāi)除核心工程師,理由竟是 “沒(méi)穿西裝”

可達(dá)鴨面面觀(guān)
2026-01-08 19:48:13
多家車(chē)企密集降價(jià)促銷(xiāo)!含特斯拉、小米汽車(chē)等多款高熱度車(chē)型

多家車(chē)企密集降價(jià)促銷(xiāo)!含特斯拉、小米汽車(chē)等多款高熱度車(chē)型

每日經(jīng)濟(jì)新聞
2026-01-08 18:07:15
回顧許家印被抓捕現(xiàn)場(chǎng),奮力反抗,怒吼不已,被抓捕人員抬出去

回顧許家印被抓捕現(xiàn)場(chǎng),奮力反抗,怒吼不已,被抓捕人員抬出去

干史人
2026-01-08 22:47:00
天眼新知,腦機(jī)接口規(guī)?;茣裕篈I、醫(yī)療、半導(dǎo)體的萬(wàn)億賽道重構(gòu)戰(zhàn)

天眼新知,腦機(jī)接口規(guī)?;茣裕篈I、醫(yī)療、半導(dǎo)體的萬(wàn)億賽道重構(gòu)戰(zhàn)

澎湃新聞
2026-01-08 11:03:06
鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

非常先生看娛樂(lè)
2026-01-09 17:10:34
特朗普勢(shì)在必得格陵蘭島,歐洲還能爭(zhēng)取何種“交易”?

特朗普勢(shì)在必得格陵蘭島,歐洲還能爭(zhēng)取何種“交易”?

澎湃新聞
2026-01-09 18:09:09
伊朗直接關(guān)閉了互聯(lián)網(wǎng)!各地的騷亂和抗議已經(jīng)讓伊朗高層極為不安

伊朗直接關(guān)閉了互聯(lián)網(wǎng)!各地的騷亂和抗議已經(jīng)讓伊朗高層極為不安

我心縱橫天地間
2026-01-09 16:37:42
“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無(wú)表情,其父全程戴口罩;被害人律師:將會(huì)申請(qǐng)抗訴

“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無(wú)表情,其父全程戴口罩;被害人律師:將會(huì)申請(qǐng)抗訴

極目新聞
2026-01-09 11:19:24
特朗普的支持者稱(chēng),若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國(guó)

特朗普的支持者稱(chēng),若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國(guó)

遍體鱗傷為我證明
2026-01-09 08:18:58
隨著山東壓哨絕殺北京,廣廈大勝,遼寧3連勝,CBA最新積分榜如下

隨著山東壓哨絕殺北京,廣廈大勝,遼寧3連勝,CBA最新積分榜如下

侃球熊弟
2026-01-09 20:58:35
伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開(kāi)始

伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開(kāi)始

移光幻影
2026-01-07 15:18:07
2026-01-09 23:19:00
科技頭版Pro incentive-icons
科技頭版Pro
一起見(jiàn)證改變世界的力量
502文章數(shù) 168關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛(ài)MiniMax:開(kāi)盤(pán)漲42%,市值超700億

頭條要聞

女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

頭條要聞

女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

體育要聞

金元時(shí)代最后的外援,來(lái)中國(guó)8年了

娛樂(lè)要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車(chē)要聞

助跑三年的奇瑞 接下來(lái)是加速還是起跳?

態(tài)度原創(chuàng)

教育
數(shù)碼
家居
手機(jī)
游戲

教育要聞

地方性分異的底層邏輯

數(shù)碼要聞

Apple Watch「房顫歷史」功能獲批!國(guó)行用戶(hù)終于要等到了

家居要聞

木色留白 演繹現(xiàn)代自由

手機(jī)要聞

165Hz實(shí)測(cè)爽翻!一加Turbo 6游戲續(xù)航雙在線(xiàn)

開(kāi)服福利多到離譜!玩玩手機(jī)就能賺錢(qián)的日子終于來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版