国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒領(lǐng)銜團隊在《自然》發(fā)論文了…

0
分享至

設(shè)置星標(biāo) 關(guān)注,從此你的世界多點科學(xué)~

今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。

AI專家盛贊其“純強化學(xué)習(xí)”的創(chuàng)新范式讓模型自我進化、擺脫對人工標(biāo)注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數(shù)學(xué)大師、編程高手、推理王者致敬。

DeepSeek-R1是開放權(quán)重模型(訓(xùn)練參數(shù)對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。

9月17日,深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章,詳細(xì)闡述了他們強化標(biāo)準(zhǔn)LLM、升級推理策略的方式和過程。

DeepSeek的核心創(chuàng)新在于采用純強化學(xué)習(xí)(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1:通過獎勵機制驅(qū)動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學(xué)習(xí)形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。

為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術(shù)被稱為“群體相對策略優(yōu)化”(GRPO),屬于強化學(xué)習(xí)中的一種優(yōu)化方法,允許模型在訓(xùn)練時通過自我評估和群體比較以求增效。

有同行表示,DeepSeek-R1已對人工智能學(xué)界產(chǎn)生“相當(dāng)顯著的影響”,2025年幾乎所有給大語言模型上強化學(xué)習(xí)的研究都“或多或少受到R1啟發(fā)”。

另一方面,新論文在補充材料中首次披露了R1模型的訓(xùn)練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎(chǔ)LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓(xùn)練成本都是幾千萬起步的。

值得一提的是,R1主要采用英偉達H800芯片進行訓(xùn)練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

此外,梁文鋒等人根據(jù)評審意見減少了擬人化表述,并補充了技術(shù)細(xì)節(jié)說明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性方面的內(nèi)容。

Hugging Face的機器學(xué)習(xí)工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發(fā)過程與學(xué)界共享”的規(guī)范,同行就沒法評估系統(tǒng)是否存在風(fēng)險。

俄亥俄州立大學(xué)的人工智能研究員孫歡則指出,嚴(yán)格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應(yīng)當(dāng)效仿DeepSeek。

此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑:深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓(xùn)練R1,這幫助他們以更少資源取得更高性能。

梁文鋒等人未通過論文公開訓(xùn)練數(shù)據(jù),但根據(jù)他們與評審人員的交流內(nèi)容,R1并未復(fù)制OpenAI模型生成的推理示例以開展學(xué)習(xí)。不過他們也承認(rèn),與大多數(shù)大語言模型一樣,R1的基礎(chǔ)模型確實“上網(wǎng)”練過,因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

坦斯托爾認(rèn)為,雖無法百分百確定R1未使用OpenAI的示例進行訓(xùn)練,但其他實驗室的復(fù)現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事?!皟H靠純強化學(xué)習(xí)就可實現(xiàn)極高性能!”

他還表示,目前很多同行正嘗試運用R1的開發(fā)方法,既增強現(xiàn)有LLM的類推理能力,又將其應(yīng)用領(lǐng)域拓展至數(shù)學(xué)和編程之外?!癛1成功引領(lǐng)了一場變革?!?/p>

孫歡指出,對研究者來說,R1很強很好用。在做數(shù)據(jù)分析和可視化等科學(xué)任務(wù)時,R1的準(zhǔn)確率并未遙遙領(lǐng)先,但它最好地平衡了性能與成本。

資料來源:

《世界科學(xué)》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側(cè)圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發(fā)代號:4-263

方式三

機構(gòu)訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么有個漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

為什么有個漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

侃神評故事
2026-03-10 18:50:04
奔馳官宣:S級將在華投產(chǎn)!在2026年底

奔馳官宣:S級將在華投產(chǎn)!在2026年底

網(wǎng)上車市
2026-03-26 21:41:53
搞笑經(jīng)典上學(xué)糗事冷笑話,一日上課半路上室友說:手機忘帶了回去拿回去拿!

搞笑經(jīng)典上學(xué)糗事冷笑話,一日上課半路上室友說:手機忘帶了回去拿回去拿!

天天明星
2026-03-25 15:11:50
人民日報“點名”馮鞏,釋放3個強烈信號,事實證明郭德綱沒說錯

人民日報“點名”馮鞏,釋放3個強烈信號,事實證明郭德綱沒說錯

八斗小先生
2026-03-27 10:09:43
熱身賽:U16國少2-3歐塞爾U17,劉凱源、冀政浩分別破門

熱身賽:U16國少2-3歐塞爾U17,劉凱源、冀政浩分別破門

懂球帝
2026-03-27 16:05:07
滬指、創(chuàng)業(yè)板指均跌超1%

滬指、創(chuàng)業(yè)板指均跌超1%

每日經(jīng)濟新聞
2026-03-27 09:34:14
張雪峰好兄弟曝內(nèi)情泣不成聲,人民日報悼念官媒定義,衛(wèi)健委追責(zé)

張雪峰好兄弟曝內(nèi)情泣不成聲,人民日報悼念官媒定義,衛(wèi)健委追責(zé)

潮鹿逐夢
2026-03-26 10:55:41
張雪峰靈堂遺照曝光!員工輪流守靈小聲哭泣,女兒發(fā)聲悼念惹淚目

張雪峰靈堂遺照曝光!員工輪流守靈小聲哭泣,女兒發(fā)聲悼念惹淚目

180視角
2026-03-27 11:35:55
公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

另子維愛讀史
2026-03-25 22:28:47
一點不比王鈺棟差,替補奇兵讓人眼前一亮,有望在王鈺棟之前留洋

一點不比王鈺棟差,替補奇兵讓人眼前一亮,有望在王鈺棟之前留洋

體壇風(fēng)之子
2026-03-27 04:30:03
奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報
2026-02-23 11:31:10
張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

四行書
2026-03-27 12:33:32
我軍頂級的軍事天才只有一人,他打的仗,西點軍校復(fù)盤也打不出來

我軍頂級的軍事天才只有一人,他打的仗,西點軍校復(fù)盤也打不出來

秀心文雅
2026-03-27 10:13:04
黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
惡心到家了!《逐玉》大結(jié)局,是我今年看過“最離譜的大結(jié)局”!

惡心到家了!《逐玉》大結(jié)局,是我今年看過“最離譜的大結(jié)局”!

離離言幾許
2026-03-27 11:25:18
2026大決戰(zhàn):霍爾木茲海峽的宿命對決

2026大決戰(zhàn):霍爾木茲海峽的宿命對決

紀(jì)史行者
2026-03-18 09:08:50
人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
醫(yī)生說出真相:70歲后得癌癥,別急著做手術(shù),先問自己這5個問題

醫(yī)生說出真相:70歲后得癌癥,別急著做手術(shù),先問自己這5個問題

消化石醫(yī)生
2026-03-27 10:00:49
反轉(zhuǎn)!馬杜羅二次庭審徹底慫,從喊“我是總統(tǒng)”到哭窮請不起律師

反轉(zhuǎn)!馬杜羅二次庭審徹底慫,從喊“我是總統(tǒng)”到哭窮請不起律師

戧詞奪理
2026-03-27 10:04:54
“岳母,這是家宴,你是外人不配上桌”鳳凰男說完被凈身出戶了

“岳母,這是家宴,你是外人不配上桌”鳳凰男說完被凈身出戶了

廣西秦胖胖
2026-03-26 16:20:20
2026-03-27 19:36:49
世界科學(xué) incentive-icons
世界科學(xué)
《世界科學(xué)》編輯部運營賬號
1868文章數(shù) 26924關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

財經(jīng)要聞

我在小吃培訓(xùn)機構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

手機
時尚
旅游
房產(chǎn)
游戲

手機要聞

消息稱某廠新機測試2K+185Hz顯示屏,預(yù)計為榮耀

從50塊到5w,她們過去一年最愛的包是這些

旅游要聞

春滿京城 | 日壇玉蘭,紅墻一隅的春日清雅

房產(chǎn)要聞

剛剛,海南樓市,官方數(shù)據(jù)發(fā)布!

科樂美旗下電競學(xué)院新增學(xué)科 培育網(wǎng)絡(luò)直播人材

無障礙瀏覽 進入關(guān)懷版