国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒領(lǐng)銜團隊在《自然》發(fā)論文了…

0
分享至

設(shè)置星標 關(guān)注,從此你的世界多點科學(xué)~


今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網(wǎng)。

AI專家盛贊其“純強化學(xué)習(xí)”的創(chuàng)新范式讓模型自我進化、擺脫對人工標注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數(shù)學(xué)大師、編程高手、推理王者致敬。

DeepSeek-R1是開放權(quán)重模型(訓(xùn)練參數(shù)對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區(qū)Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過完整同行評審的大語言模型(LLM)。

9月17日,深度求索創(chuàng)始人梁文鋒及其團隊正式于《自然》雜志發(fā)表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。

DeepSeek的核心創(chuàng)新在于采用純強化學(xué)習(xí)(pure reinforcement learning)這一自動化試錯方法構(gòu)建R1:通過獎勵機制驅(qū)動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學(xué)習(xí)形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結(jié)果”。

為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術(shù)被稱為“群體相對策略優(yōu)化”(GRPO),屬于強化學(xué)習(xí)中的一種優(yōu)化方法,允許模型在訓(xùn)練時通過自我評估和群體比較以求增效。

有同行表示,DeepSeek-R1已對人工智能學(xué)界產(chǎn)生“相當(dāng)顯著的影響”,2025年幾乎所有給大語言模型上強化學(xué)習(xí)的研究都“或多或少受到R1啟發(fā)”。

另一方面,新論文在補充材料中首次披露了R1模型的訓(xùn)練成本——區(qū)區(qū)29.4萬美元。構(gòu)建基礎(chǔ)LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓(xùn)練成本都是幾千萬起步的。

值得一提的是,R1主要采用英偉達H800芯片進行訓(xùn)練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

此外,梁文鋒等人根據(jù)評審意見減少了擬人化表述,并補充了技術(shù)細節(jié)說明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性方面的內(nèi)容。

Hugging Face的機器學(xué)習(xí)工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發(fā)過程與學(xué)界共享”的規(guī)范,同行就沒法評估系統(tǒng)是否存在風(fēng)險。

俄亥俄州立大學(xué)的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應(yīng)當(dāng)效仿DeepSeek。

此前有媒體報道OpenAI方面對DeepSeek-R1的質(zhì)疑:深度求索團隊可能使用了OpenAI模型的輸出數(shù)據(jù)來訓(xùn)練R1,這幫助他們以更少資源取得更高性能。

梁文鋒等人未通過論文公開訓(xùn)練數(shù)據(jù),但根據(jù)他們與評審人員的交流內(nèi)容,R1并未復(fù)制OpenAI模型生成的推理示例以開展學(xué)習(xí)。不過他們也承認,與大多數(shù)大語言模型一樣,R1的基礎(chǔ)模型確實“上網(wǎng)”練過,因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓(xùn)練,但其他實驗室的復(fù)現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事?!皟H靠純強化學(xué)習(xí)就可實現(xiàn)極高性能!”

他還表示,目前很多同行正嘗試運用R1的開發(fā)方法,既增強現(xiàn)有LLM的類推理能力,又將其應(yīng)用領(lǐng)域拓展至數(shù)學(xué)和編程之外?!癛1成功引領(lǐng)了一場變革。”

孫歡指出,對研究者來說,R1很強很好用。在做數(shù)據(jù)分析和可視化等科學(xué)任務(wù)時,R1的準確率并未遙遙領(lǐng)先,但它最好地平衡了性能與成本。

資料來源:


《世界科學(xué)》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側(cè)圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發(fā)代號:4-263

方式三

機構(gòu)訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

比利
2025-12-21 11:26:52
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
80歲老太感染上艾滋,女兒查看監(jiān)控后瞠目結(jié)舌,連捅男保姆43刀

80歲老太感染上艾滋,女兒查看監(jiān)控后瞠目結(jié)舌,連捅男保姆43刀

民間精選故事匯
2025-05-12 08:01:12
重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
小米發(fā)布會全程禁評,可“堵嘴”只會適得其反

小米發(fā)布會全程禁評,可“堵嘴”只會適得其反

雪千嵐
2025-12-27 16:54:56
孫正義投了一碗面,把馬斯克香哭了!他用一個機器把美食帶到全球

孫正義投了一碗面,把馬斯克香哭了!他用一個機器把美食帶到全球

李砍柴
2025-12-13 19:13:32
俄烏沖突已達到美國預(yù)期,中國可能成為最大輸家,真的如此嗎?

俄烏沖突已達到美國預(yù)期,中國可能成為最大輸家,真的如此嗎?

介知
2025-12-28 16:26:27
突發(fā)3大利好,18個商業(yè)航天集體暴跌,這8個股順利減持

突發(fā)3大利好,18個商業(yè)航天集體暴跌,這8個股順利減持

鵬哥投研
2025-12-28 14:34:31
天然氣對華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

天然氣對華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

策略述
2025-12-27 17:20:34
徐湖平背后的老同志到底是誰?至少能發(fā)現(xiàn)一位

徐湖平背后的老同志到底是誰?至少能發(fā)現(xiàn)一位

西虹市閑話
2025-12-28 09:20:56
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
“27歲女子家門口遇害案”最新消息:被害人母親申請抗訴被駁回

“27歲女子家門口遇害案”最新消息:被害人母親申請抗訴被駁回

揚子晚報
2025-12-27 22:01:43
烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

相思賦予誰a
2025-12-10 02:34:18
又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

牛牛叨史
2025-12-23 23:07:38
袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

袁天罡農(nóng)家躲雨,主人只掃屋心,他面色驟變:三代之內(nèi)必出大人物

小豫講故事
2025-12-28 06:00:08
優(yōu)雅的職場穿搭,獨特女性魅力

優(yōu)雅的職場穿搭,獨特女性魅力

美女穿搭分享
2025-12-28 12:04:02
沖突爆發(fā)!又干起來了!十幾人混戰(zhàn)

沖突爆發(fā)!又干起來了!十幾人混戰(zhàn)

籃球教學(xué)論壇
2025-12-28 16:41:16
豬肚再次成為討論對象!研究發(fā)現(xiàn):常吃豬肚,可能會獲取3大益處

豬肚再次成為討論對象!研究發(fā)現(xiàn):常吃豬肚,可能會獲取3大益處

九哥聊軍事
2025-12-15 21:18:17
女兒對快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

女兒對快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

烙任情感
2025-12-27 14:36:48
李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

磊子講史
2025-12-25 15:20:00
2025-12-28 18:11:00
世界科學(xué) incentive-icons
世界科學(xué)
《世界科學(xué)》編輯部運營賬號
1822文章數(shù) 26907關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
游戲
房產(chǎn)
教育
公開課

親子要聞

祝媽媽長命百歲

反復(fù)鞭尸!玩家讓《星鳴特攻》黑人女性一秒變女神

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

教育要聞

434所保研大學(xué)名單公布!參加考研?不!去上這些保研大學(xué)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版