国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒登上《自然》封面,DeepSeek所有的秘密曝光:中文完整版來(lái)了

0
分享至

梁文鋒論文登上《自然》封面!DeepSeek-R1訓(xùn)練方法發(fā)布

9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國(guó)際權(quán)威期刊《自然》的封面。

DeepSeek-R1是全球首個(gè)經(jīng)過(guò)同行評(píng)審的主流大語(yǔ)言模型。Nature評(píng)價(jià)道:目前幾乎所有主流的大模型都還沒(méi)有經(jīng)過(guò)獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。

梁文鋒

DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過(guò)程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué)習(xí)而非人類示例來(lái)開(kāi)發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。

DeepSeek-R1在被展示優(yōu)質(zhì)的問(wèn)題解決案例后,會(huì)獲得一個(gè)模板來(lái)產(chǎn)生推理過(guò)程,即這一模型通過(guò)解決問(wèn)題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說(shuō),未來(lái)研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過(guò)程,以確保推理和任務(wù)結(jié)果更可靠。

梁文鋒出生于1985年,廣東湛江人,幻方量化、DeepSeek創(chuàng)始人。2024年12月,梁文鋒和團(tuán)隊(duì)開(kāi)發(fā)的大模型“DeepSeek-V3”發(fā)布。2025年4月,梁文鋒入選美國(guó)《時(shí)代》周刊“2025年全球最具影響力100人”榜單。

DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化。創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜,成員來(lái)自頂尖高校與國(guó)際機(jī)構(gòu)技術(shù)專家。

(來(lái)源:科技日?qǐng)?bào) 長(zhǎng)安街知事 財(cái)聯(lián)社)

【完整中文版】梁文鋒 Nature封面論文 - DeepSeek-R1:通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)大語(yǔ)言模型的推理能力 |附同行評(píng)審和回應(yīng)

祝賀梁文鋒和DeepSeek團(tuán)隊(duì), 期待DeepSeek R2早日推出

標(biāo)題: DeepSeek-R1:通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)大語(yǔ)言模型的推理能力

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, …Zhen Zhang
《自然》第645卷, 第633–638頁(yè) (2025) 引用本文

摘要

通用推理是人工智能(AI)領(lǐng)域一個(gè)長(zhǎng)期存在的艱巨挑戰(zhàn)。近期的突破, 如大型語(yǔ)言模型(LLMs)和思維鏈(CoT)提示等, 已在基礎(chǔ)推理任務(wù)上取得了顯著成功。然而, 這種成功嚴(yán)重依賴于大量的人工標(biāo)注范例, 并且模型的能力對(duì)于更復(fù)雜的問(wèn)題仍然不足。本文中, 我們展示了通過(guò)純強(qiáng)化學(xué)習(xí)(RL)可以激勵(lì)LLMs的推理能力, 從而無(wú)需人工標(biāo)記的推理軌跡。我們提出的強(qiáng)化學(xué)習(xí)框架促進(jìn)了高級(jí)推理模式的涌現(xiàn)式發(fā)展, 例如自我反思、驗(yàn)證和動(dòng)態(tài)策略調(diào)整。因此, 訓(xùn)練后的模型在數(shù)學(xué)、編程競(jìng)賽和STEM領(lǐng)域等可驗(yàn)證任務(wù)上取得了卓越的性能, 超越了通過(guò)傳統(tǒng)監(jiān)督學(xué)習(xí)在人類范例上訓(xùn)練的同類模型。此外, 這些大規(guī)模模型所展現(xiàn)出的涌現(xiàn)式推理模式可以被系統(tǒng)地用于指導(dǎo)和增強(qiáng)較小模型的推理能力。

正文

推理能力是人類智能的基石, 它支撐著從數(shù)學(xué)問(wèn)題解決到邏輯推演和編程等復(fù)雜的認(rèn)知任務(wù)。人工智能近期的進(jìn)展表明, 當(dāng)LLMs擴(kuò)展到足夠大的規(guī)模時(shí), 可以展現(xiàn)出包括推理能力在內(nèi)的涌現(xiàn)行為。然而, 在預(yù)訓(xùn)練中實(shí)現(xiàn)此類能力通常需要巨大的計(jì)算資源。與此同時(shí), 另一條互補(bǔ)的研究路線表明, 通過(guò)思維鏈(CoT)提示可以有效增強(qiáng)LLMs的能力。這項(xiàng)技術(shù)通過(guò)提供精心設(shè)計(jì)的少樣本示例或使用極簡(jiǎn)提示(如“讓我們一步一步地思考”), 使模型能夠生成中間推理步驟, 從而顯著提升其在復(fù)雜任務(wù)上的性能。同樣, 當(dāng)模型在后訓(xùn)練階段學(xué)習(xí)高質(zhì)量、多步驟的推理軌跡時(shí), 也觀察到了性能的進(jìn)一步提升。盡管這些方法卓有成效, 但它們也存在顯著的局限性。它們對(duì)人工標(biāo)注的推理軌跡的依賴減緩了可擴(kuò)展性, 并引入了認(rèn)知偏見(jiàn)。此外, 通過(guò)限制模型復(fù)制人類的思維過(guò)程, 其性能本質(zhì)上受限于人類提供的范例, 這阻礙了對(duì)更優(yōu)越、非類人推理路徑的探索。

為了解決這些問(wèn)題, 我們旨在探索LLMs在強(qiáng)化學(xué)習(xí)框架下通過(guò)自我演進(jìn)發(fā)展推理能力的潛力, 并最大限度地減少對(duì)人類標(biāo)記工作的依賴。具體來(lái)說(shuō), 我們基于DeepSeek-V3 Base, 并使用組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)作為我們的強(qiáng)化學(xué)習(xí)框架。獎(jiǎng)勵(lì)信號(hào)僅基于最終預(yù)測(cè)與標(biāo)準(zhǔn)答案的正確性, 而不對(duì)推理過(guò)程本身施加約束。值得注意的是, 我們繞過(guò)了強(qiáng)化學(xué)習(xí)訓(xùn)練前傳統(tǒng)的監(jiān)督微調(diào)(SFT)階段。這一設(shè)計(jì)選擇源于我們的假設(shè), 即人類定義的推理模式可能會(huì)限制模型的探索, 而無(wú)限制的強(qiáng)化學(xué)習(xí)訓(xùn)練能更好地激勵(lì)LLMs中新推理能力的涌現(xiàn)。通過(guò)下一節(jié)詳述的這一過(guò)程, 我們的模型(稱為DeepSeek-R1-Zero)自然地發(fā)展出了多樣化且復(fù)雜的推理行為。為了解決推理問(wèn)題, 該模型傾向于生成更長(zhǎng)的響應(yīng), 在每個(gè)響應(yīng)中都包含了驗(yàn)證、反思和對(duì)替代方法的探索。盡管我們沒(méi)有明確教導(dǎo)模型如何推理, 但它通過(guò)強(qiáng)化學(xué)習(xí)成功地學(xué)會(huì)了更優(yōu)的推理策略。

盡管DeepSeek-R1-Zero展現(xiàn)出卓越的推理能力, 但它也面臨一些挑戰(zhàn), 如可讀性差和語(yǔ)言混用問(wèn)題, 有時(shí)會(huì)在單個(gè)思維鏈響應(yīng)中混合使用英語(yǔ)和中文。此外, DeepSeek-R1-Zero的基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練階段狹隘地專注于推理任務(wù), 導(dǎo)致其在寫(xiě)作和開(kāi)放域問(wèn)答等更廣泛領(lǐng)域的性能受限。為應(yīng)對(duì)這些挑戰(zhàn), 我們引入了DeepSeek-R1, 這是一個(gè)通過(guò)整合了拒絕采樣、強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)的多階段學(xué)習(xí)框架訓(xùn)練出的模型, 詳見(jiàn)“DeepSeek-R1”部分。這一訓(xùn)練流程使DeepSeek-R1能夠繼承其前身DeepSeek-R1-Zero的推理能力, 同時(shí)通過(guò)進(jìn)一步的非推理數(shù)據(jù)使模型行為與人類偏好對(duì)齊。

為了讓更廣泛的用戶能以更低的能源成本使用強(qiáng)大的人工智能, 我們蒸餾了幾個(gè)較小的模型并將其公之于眾。這些蒸餾后的模型展現(xiàn)出強(qiáng)大的推理能力, 其性能超越了它們?cè)嫉闹噶钗⒄{(diào)版本。我們相信, 這些指令微調(diào)版本也將為研究社區(qū)做出巨大貢獻(xiàn), 為理解長(zhǎng)思維鏈推理模型的內(nèi)在機(jī)制和推動(dòng)更強(qiáng)大推理模型的開(kāi)發(fā)提供寶貴資源。我們按照“代碼可用性”部分的描述, 公開(kāi)了DeepSeek-R1-Zero、DeepSeek-R1、數(shù)據(jù)樣本和蒸餾模型。

DeepSeek-R1-Zero

為實(shí)現(xiàn)DeepSeek-R1-Zero的大規(guī)模強(qiáng)化學(xué)習(xí), 我們采用了一個(gè)高效的強(qiáng)化學(xué)習(xí)流程。具體來(lái)說(shuō), 我們使用GRPO作為我們的強(qiáng)化學(xué)習(xí)算法, 具體描述見(jiàn)方法部分的“GRPO”。此外, 我們使用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)來(lái)計(jì)算準(zhǔn)確性和格式獎(jiǎng)勵(lì), 詳細(xì)方法論在方法部分的“獎(jiǎng)勵(lì)設(shè)計(jì)”中概述。此外, 我們的高性能強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施在補(bǔ)充信息的2.1節(jié)中有所描述, 確保了可擴(kuò)展且高效的訓(xùn)練。

具體而言, 我們將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于DeepSeek-V3 Base來(lái)訓(xùn)練DeepSeek-R1-Zero。在訓(xùn)練過(guò)程中, 我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的模板, 要求DeepSeek-R1-Zero首先產(chǎn)出推理過(guò)程, 然后給出最終答案。提示模板如下:

“用戶與助手之間的一段對(duì)話。用戶提出一個(gè)問(wèn)題, 助手解決它。助手首先在腦海中思考推理過(guò)程, 然后向用戶提供答案。推理過(guò)程和答案分別被包含在...和...標(biāo)簽內(nèi), 即 此處為推理過(guò)程 此處為答案 。用戶:[提示]。助手:”, 其中[提示]在訓(xùn)練時(shí)會(huì)被具體的推理問(wèn)題替換。我們有意將約束限制在這種結(jié)構(gòu)格式上, 避免任何內(nèi)容上的偏見(jiàn), 以確保能準(zhǔn)確觀察到模型在強(qiáng)化學(xué)習(xí)過(guò)程中的自然演進(jìn)。

圖1a展示了DeepSeek-R1-Zero在整個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)2024基準(zhǔn)測(cè)試上的性能軌跡, 其中AIME 2024上的平均pass@1得分顯著提升, 從最初的15.6%躍升至77.9%。此外, 通過(guò)使用自洽性解碼, 模型的性能可以進(jìn)一步提高, 準(zhǔn)確率達(dá)到86.7%。這一性能遠(yuǎn)超所有人類參賽者在AIME競(jìng)賽中的平均表現(xiàn)。除了數(shù)學(xué)競(jìng)賽, 如補(bǔ)充圖8所示, DeepSeek-R1-Zero在編程競(jìng)賽以及研究生水平的生物、物理和化學(xué)問(wèn)題上也取得了卓越的性能。這些結(jié)果突顯了強(qiáng)化學(xué)習(xí)在增強(qiáng)LLMs推理能力方面的有效性。

圖 1:DeepSeek-R1-Zero在整個(gè)訓(xùn)練過(guò)程中的準(zhǔn)確率和輸出長(zhǎng)度。


DeepSeek-R1-Zero在訓(xùn)練期間的AIME準(zhǔn)確率。AIME以一個(gè)數(shù)學(xué)問(wèn)題為輸入, 一個(gè)數(shù)字為輸出, 如擴(kuò)展數(shù)據(jù)表1所示。pass@1和cons@16的描述見(jiàn)補(bǔ)充信息4.1節(jié);是人類參與者在AIME競(jìng)賽中取得的平均分。b, DeepSeek-R1-Zero在強(qiáng)化學(xué)習(xí)過(guò)程中對(duì)訓(xùn)練集的平均響應(yīng)長(zhǎng)度。DeepSeek-R1-Zero自然地學(xué)會(huì)了用更多的思考時(shí)間來(lái)解決推理任務(wù)。請(qǐng)注意, 一個(gè)訓(xùn)練步驟指一次策略更新操作。

除了訓(xùn)練過(guò)程中推理能力的逐步增強(qiáng), DeepSeek-R1-Zero還隨著強(qiáng)化學(xué)習(xí)訓(xùn)練展現(xiàn)出自我演進(jìn)行為。如圖1b所示, DeepSeek-R1-Zero的思考時(shí)間在整個(gè)訓(xùn)練過(guò)程中穩(wěn)步增加, 這完全是由內(nèi)在適應(yīng)而非外部修改驅(qū)動(dòng)的。利用長(zhǎng)思維鏈, 模型逐步完善其推理過(guò)程, 生成成百上千個(gè)詞元來(lái)探索和改進(jìn)其解決問(wèn)題的策略。

思考時(shí)間的增加有助于復(fù)雜行為的自主發(fā)展。具體來(lái)說(shuō), DeepSeek-R1-Zero越來(lái)越多地展現(xiàn)出高級(jí)推理策略, 如擴(kuò)展數(shù)據(jù)圖1a中所示的反思性推理和對(duì)替代解決方案的系統(tǒng)性探索, 這極大地提升了其在數(shù)學(xué)和編程等可驗(yàn)證任務(wù)上的性能。值得注意的是, 在訓(xùn)練期間, DeepSeek-R1-Zero展現(xiàn)出一個(gè)“頓悟時(shí)刻”(如表1所示), 其特征是在反思過(guò)程中“wait”(等等)一詞的使用突然增加(如擴(kuò)展數(shù)據(jù)圖1b所示)。這個(gè)時(shí)刻標(biāo)志著推理模式的明顯轉(zhuǎn)變, 并清晰地展示了DeepSeek-R1-Zero的自我演進(jìn)過(guò)程。

表1:DeepSeek-R1-Zero中間版本一個(gè)有趣的“頓悟時(shí)刻”

問(wèn)題:如果 a > 1, 那么實(shí)數(shù)解的總和 (\sqrt{{\boldsymbol{a}}{\boldsymbol{-}}\sqrt{{\boldsymbol{a}}{\boldsymbol{+}}{\boldsymbol{x}}}}{\boldsymbol{=}}{\boldsymbol{x}}) 等于多少?

回應(yīng):為了解這個(gè)方程 (\sqrt{a-\sqrt{a+x}}=x), 讓我們從兩邊平方開(kāi)始…


(a?a+x)2=x2?a?a+x=x2。(a?a+x)2=x2?a?a+x=x2。

重新整理以分離出內(nèi)部的平方根項(xiàng):


(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0

等等, 等等。等等。這是一個(gè)我可以標(biāo)記出來(lái)的頓悟時(shí)刻。讓我們一步一步地重新評(píng)估, 以確定是否可以得出正確的和…我們從這個(gè)方程開(kāi)始:(\sqrt{a-\sqrt{a+x}}=x)首先, 讓我們兩邊平方:


a?a+x=x2?a+x=a?x2a?a+x=x2?a+x=a?x2

接下來(lái), 我可以再次對(duì)兩邊進(jìn)行平方, 處理這個(gè)方程:……

模型學(xué)會(huì)了用一種擬人化的語(yǔ)氣進(jìn)行反思。這對(duì)我們來(lái)說(shuō)也是一個(gè)頓悟時(shí)刻, 讓我們見(jiàn)證了強(qiáng)化學(xué)習(xí)的力量與魅力。

DeepSeek-R1-Zero的自我演進(jìn)突顯了強(qiáng)化學(xué)習(xí)的力量與魅力:我們并非明確教導(dǎo)模型如何解決問(wèn)題, 而是僅為其提供正確的激勵(lì), 它便能自主地發(fā)展出高級(jí)的問(wèn)題解決策略。這提醒我們強(qiáng)化學(xué)習(xí)在解鎖LLMs更高層次能力方面的潛力, 為未來(lái)更自主、更具適應(yīng)性的模型鋪平了道路。

DeepSeek-R1

盡管DeepSeek-R1-Zero展現(xiàn)出強(qiáng)大的推理能力, 但它也存在一些問(wèn)題。DeepSeek-R1-Zero面臨著可讀性差和語(yǔ)言混用等挑戰(zhàn), 因?yàn)镈eepSeek-V3 Base是在多種語(yǔ)言(尤其是英語(yǔ)和中文)上訓(xùn)練的。為了解決這些問(wèn)題, 我們開(kāi)發(fā)了DeepSeek-R1, 其流程如圖2所示。在初始階段, 我們收集了數(shù)千條展現(xiàn)對(duì)話式、與人類對(duì)齊的思維過(guò)程的冷啟動(dòng)數(shù)據(jù), 詳見(jiàn)補(bǔ)充信息2.3.2節(jié)。然后, 使用方法部分“第一階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)”中的超參數(shù)和補(bǔ)充信息2.3.1節(jié)中的數(shù)據(jù)細(xì)節(jié)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練, 以改善模型在對(duì)話式思維過(guò)程和語(yǔ)言一致性方面的性能。隨后, 我們?cè)俅螒?yīng)用拒絕采樣和監(jiān)督微調(diào)。這一階段將推理和非推理數(shù)據(jù)集都納入SFT過(guò)程, 詳見(jiàn)補(bǔ)充信息2.3.3節(jié), 使模型不僅能在推理任務(wù)上表現(xiàn)出色, 還能展現(xiàn)出高級(jí)的寫(xiě)作能力。為了使模型進(jìn)一步與人類偏好對(duì)齊, 我們實(shí)施了第二階段的強(qiáng)化學(xué)習(xí), 旨在增強(qiáng)模型的有用性和無(wú)害性, 同時(shí)進(jìn)一步完善其推理能力。獎(jiǎng)勵(lì)模型在方法部分“獎(jiǎng)勵(lì)設(shè)計(jì)”中描述, 強(qiáng)化學(xué)習(xí)的超參數(shù)在方法部分“第二階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)”中提供?傆(xùn)練成本列于補(bǔ)充信息2.4.4節(jié)。

圖 2:DeepSeek-R1的多階段流程。

關(guān)于DeepSeek-V3 Base和DeepSeek-V3的詳細(xì)背景信息見(jiàn)補(bǔ)充信息1.1節(jié)。模型DeepSeek-R1 Dev1、Dev2和Dev3代表此流程中的中間檢查點(diǎn)。

我們?cè)贛MLU、MMLU-Redux、MMLU-Pro、DROP、C-Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、CLUEWSC、AlpacaEval 2.0 (ref. 22)、Arena-Hard、SWE-bench Verified、Aider-Polyglot、LiveCodeBench (2024-08–2025-01)、Codeforces、中國(guó)高中數(shù)學(xué)奧林匹克(CNMO 2024)和AIME 2024 (ref. 29)等基準(zhǔn)上評(píng)估了我們的模型。這些基準(zhǔn)的細(xì)節(jié)在補(bǔ)充表15-29中提供。

表2總結(jié)了DeepSeek-R1在圖2所述的幾個(gè)發(fā)展階段的性能。DeepSeek-R1-Zero與DeepSeek-R1 Dev1的比較顯示, 在指令遵循方面有顯著提升, 這體現(xiàn)在IF-Eval和Arena-Hard基準(zhǔn)測(cè)試上更高的分?jǐn)?shù)。然而, 由于冷啟動(dòng)數(shù)據(jù)集規(guī)模有限, Dev1的推理性能相較于DeepSeek-R1-Zero出現(xiàn)了部分下降, 尤其是在AIME基準(zhǔn)上。相比之下, DeepSeek-R1 Dev2在需要高級(jí)推理能力的基準(zhǔn)上表現(xiàn)出顯著的性能提升, 包括那些專注于代碼生成、數(shù)學(xué)問(wèn)題解決和STEM相關(guān)任務(wù)的基準(zhǔn)。而針對(duì)通用任務(wù)的基準(zhǔn), 如AlpacaEval 2.0, 則表現(xiàn)出輕微的改善。這些結(jié)果表明, 面向推理的強(qiáng)化學(xué)習(xí)能顯著增強(qiáng)推理能力, 而對(duì)面向用戶偏好的基準(zhǔn)影響有限。

表2:DeepSeek-R1各階段的實(shí)驗(yàn)結(jié)果

模型

DeepSeek-R1-Zero

DeepSeek-R1 Dev1

DeepSeek-R1 Dev2

DeepSeek-R1 Dev3

DeepSeek-R1

通用能力

MMLU (%)

88.7

89.2

89.1

89.589.5

MMLU-Redux (%)

88.5

88.8

88.7

89.3

89.2

MMLU-Pro (%)

64.6

65.1

65.0

65.6

65.5

DROP (F1)

88.1

88.3

88.2

88.2

88.2

C-Eval (驗(yàn)證集, %)

90.7

91.0

90.9

91.191.1

IFEval (%)

77.2

85.8

85.1

86.1

85.9

FRAMES (%)

65.2

65.8

65.5

66.1

66.0

GPQA Diamond (%)

39.5

39.8

39.7

40.1

40.2

SimpleQA (%)

78.4

78.8

78.7

79.2

79.1

C-SimpleQA (%)

83.1

83.5

83.4

83.8

83.7

CLUEWSC (%)

86.8

87.1

87.0

87.3

87.2

AlpacaEval 2.0 (LC 勝率, %)

24.3

25.1

25.3

26.2

51.2

Arena-Hard (勝率, %)

26.1

28.5

28.9

30.1

47.1編程能力

SWE-bench Verified (pass@1, %)

16.7

16.8

17.1

17.3

17.2

Aider-Polyglot (通過(guò)率, %)

75.1

75.2

75.5

76.8

76.6

LiveCodeBench (pass@1, %)

41.2

41.3

42.5

42.1

42.3

Codeforces (pass@1)

36.8

36.7

39.5

39.1

39.3

數(shù)學(xué)能力

CNMO 2024 (pass@1)

45.1

44.8

48.1

47.9

48.0

AIME 2024 (pass@1)

77.9

75.3

79.2

78.8

79.0

注:
在DeepSeek-R1的不同版本中, 最高分以粗體突出顯示。 Dev, 開(kāi)發(fā)版本。 LC, 長(zhǎng)度控制。
MMLU (大規(guī)模多任務(wù)語(yǔ)言理解) - 綜合性的知識(shí)評(píng)估, 涵蓋57個(gè)不同學(xué)科。
MMLU-Redux (MMLU修訂版) - MMLU的修正版本, 旨在提高評(píng)測(cè)的準(zhǔn)確性。
MMLU-Pro (MMLU專業(yè)版) - MMLU的更具挑戰(zhàn)性的版本, 包含更難的多選題。
DROP (F1) (段落離散推理) - 一項(xiàng)閱讀理解基準(zhǔn), 要求模型在段落中進(jìn)行推理和計(jì)算。
C-Eval (中文評(píng)估套件) - 針對(duì)中文的綜合性知識(shí)評(píng)估基準(zhǔn)。
IFEval (指令遵循評(píng)估) - 評(píng)估模型遵循復(fù)雜和約束性指令的能力。
FRAMES (事實(shí)性評(píng)估) - 評(píng)估模型回答問(wèn)題時(shí)的事實(shí)準(zhǔn)確性, 檢測(cè)其是否產(chǎn)生幻覺(jué)。
GPQA Diamond (研究生水平難題) - 包含難以通過(guò)搜索引擎直接找到答案的研究生水平專業(yè)問(wèn)題。
SimpleQA (簡(jiǎn)單問(wèn)答) - 一個(gè)基于事實(shí)的簡(jiǎn)單問(wèn)答數(shù)據(jù)集。 7
C-SimpleQA (中文簡(jiǎn)單問(wèn)答) - SimpleQA的中文版本, 評(píng)估中文事實(shí)性問(wèn)答能力。
CLUEWSC (中文常識(shí)推理-代詞消歧) - 評(píng)估模型在中文語(yǔ)境下的常識(shí)推理和代詞指代消歧能力。
AlpacaEval 2.0 - 一個(gè)自動(dòng)評(píng)估基準(zhǔn), 衡量模型遵循通用指令的質(zhì)量。
Arena-Hard (競(jìng)技場(chǎng)-困難模式) - 基于真實(shí)世界困難用戶查詢的基準(zhǔn), 通過(guò)人類偏好來(lái)評(píng)估模型性能。
編程能力
SWE-bench Verified (軟件工程基準(zhǔn)) - 評(píng)估模型解決真實(shí)世界代碼庫(kù)中軟件工程問(wèn)題(如修復(fù)bug)的能力。
Aider-Polyglot (多語(yǔ)言編程任務(wù)) - 評(píng)估模型在多種編程語(yǔ)言中完成實(shí)際編碼任務(wù)的性能。
LiveCodeBench (實(shí)時(shí)編程競(jìng)賽) - 一個(gè)基于真實(shí)編程競(jìng)賽問(wèn)題的基準(zhǔn), 評(píng)估模型的實(shí)時(shí)解題能力。
Codeforces (編程競(jìng)賽平臺(tái)) - 使用來(lái)自知名編程競(jìng)賽網(wǎng)站Codeforces的問(wèn)題來(lái)評(píng)估算法和編碼能力。
數(shù)學(xué)能力
CNMO 2024 (中國(guó)高中數(shù)學(xué)奧林匹克) - 評(píng)估模型解決中國(guó)高中數(shù)學(xué)奧林匹克競(jìng)賽級(jí)別難題的能力。
AIME 2024 (美國(guó)數(shù)學(xué)邀請(qǐng)賽) - 評(píng)估模型解決美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)級(jí)別高難度數(shù)學(xué)問(wèn)題的能力。

DeepSeek-R1 Dev3將推理和非推理數(shù)據(jù)集都整合到SFT流程中, 從而提升了模型在推理和通用語(yǔ)言生成任務(wù)上的熟練度。與Dev2相比, DeepSeek-R1 Dev3在AlpacaEval 2.0和Aider-Polyglot上取得了顯著的性能提升, 這歸功于大規(guī)模非推理語(yǔ)料庫(kù)和代碼工程數(shù)據(jù)集的引入。最后, 在DeepSeek-R1 Dev3上使用混合了以推理為中心和通用目的的數(shù)據(jù)進(jìn)行全面的強(qiáng)化學(xué)習(xí)訓(xùn)練, 得到了最終的DeepSeek-R1。由于在前期階段已進(jìn)行了大量的針對(duì)性推理強(qiáng)化學(xué)習(xí), 因此在代碼和數(shù)學(xué)基準(zhǔn)上的提升幅度不大。最終版DeepSeek-R1的主要進(jìn)步體現(xiàn)在通用指令遵循和用戶偏好基準(zhǔn)上, 其中AlpacaEval 2.0提升了25%, Arena-Hard提升了17%。

我們還在補(bǔ)充信息4.2節(jié)中將DeepSeek-R1與其他模型進(jìn)行了比較。模型安全性評(píng)估在補(bǔ)充信息4.3節(jié)中提供。補(bǔ)充信息第5節(jié)提供了全面的評(píng)估分析, 包括與DeepSeek-V3的比較、在全新測(cè)試集上的性能評(píng)估、按類別劃分的數(shù)學(xué)能力分析以及對(duì)測(cè)試時(shí)擴(kuò)展行為的探究。補(bǔ)充信息第6節(jié)表明, 強(qiáng)大的推理能力可以遷移到較小的模型中。

倫理與安全聲明

隨著DeepSeek-R1推理能力的提升, 我們深刻認(rèn)識(shí)到其潛在的倫理風(fēng)險(xiǎn)。例如, R1可能會(huì)遭受越獄攻擊, 導(dǎo)致生成危險(xiǎn)內(nèi)容, 如制造炸藥的計(jì)劃;而增強(qiáng)的推理能力使得模型能夠提供操作可行性與可執(zhí)行性更強(qiáng)的計(jì)劃。此外, 一個(gè)公開(kāi)的模型也容易被進(jìn)一步微調(diào), 從而可能破壞其固有的安全保護(hù)措施。

在補(bǔ)充信息4.3節(jié)中, 我們從多個(gè)角度呈現(xiàn)了一份全面的安全報(bào)告, 包括在開(kāi)源和內(nèi)部安全評(píng)估基準(zhǔn)上的表現(xiàn), 以及在多種語(yǔ)言和對(duì)抗越獄攻擊時(shí)的安全水平。這些全面的安全分析得出結(jié)論, DeepSeek-R1模型的內(nèi)在安全水平與其他頂尖模型相比, 總體處于中等水平(與GPT-4o (2024-05-13)相當(dāng))。此外, 當(dāng)與風(fēng)險(xiǎn)控制系統(tǒng)結(jié)合使用時(shí), 模型的安全水平能提升至優(yōu)越標(biāo)準(zhǔn)。

結(jié)論、局限性與未來(lái)工作

我們介紹了DeepSeek-R1-Zero和DeepSeek-R1, 它們依靠大規(guī)模強(qiáng)化學(xué)習(xí)來(lái)激勵(lì)模型的推理行為。我們的結(jié)果表明, 預(yù)訓(xùn)練的檢查點(diǎn)本身就蘊(yùn)含著處理復(fù)雜推理任務(wù)的巨大潛力。我們相信, 解鎖這一潛力的關(guān)鍵不在于大規(guī)模的人工標(biāo)注, 而在于提供困難的推理問(wèn)題、一個(gè)可靠的驗(yàn)證器以及充足的強(qiáng)化學(xué)習(xí)計(jì)算資源。自我驗(yàn)證和反思等復(fù)雜的推理行為似乎在強(qiáng)化學(xué)習(xí)過(guò)程中有機(jī)地涌現(xiàn)出來(lái)。

盡管DeepSeek-R1在推理基準(zhǔn)上取得了前沿成果, 但它仍然面臨一些能力上的局限性, 概述如下。

結(jié)構(gòu)化輸出與工具使用
目前, 與現(xiàn)有模型相比, DeepSeek-R1的結(jié)構(gòu)化輸出能力仍有待提高。此外, DeepSeek-R1無(wú)法利用搜索引擎和計(jì)算器等工具來(lái)提升輸出性能。然而, 由于為結(jié)構(gòu)化輸出和工具使用構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境并不困難, 我們相信這個(gè)問(wèn)題將在下一版本中得到解決。

令牌效率
與傳統(tǒng)測(cè)試時(shí)計(jì)算擴(kuò)展方法(如多數(shù)投票或蒙特卡洛樹(shù)搜索(MCTS))不同, DeepSeek-R1在推理時(shí)會(huì)根據(jù)手頭問(wèn)題的復(fù)雜性動(dòng)態(tài)分配計(jì)算資源。具體來(lái)說(shuō), 它用較少的令牌解決簡(jiǎn)單任務(wù), 但為復(fù)雜任務(wù)生成更多令牌。盡管如此, 在令牌效率方面仍有進(jìn)一步優(yōu)化的空間, 因?yàn)樵陧憫?yīng)較簡(jiǎn)單問(wèn)題時(shí), 仍然觀察到過(guò)度推理——表現(xiàn)為過(guò)度思考——的實(shí)例。

語(yǔ)言混用
DeepSeek-R1目前針對(duì)中文和英文進(jìn)行了優(yōu)化, 這可能導(dǎo)致在處理其他語(yǔ)言的查詢時(shí)出現(xiàn)語(yǔ)言混用問(wèn)題。例如, 即使查詢的語(yǔ)言不是英語(yǔ)或中文, DeepSeek-R1也可能使用英語(yǔ)進(jìn)行推理和響應(yīng)。我們計(jì)劃在未來(lái)的更新中解決這一局限性。這個(gè)局限性可能與基礎(chǔ)檢查點(diǎn)DeepSeek-V3 Base有關(guān), 該模型主要使用中文和英文, 因此在這兩種語(yǔ)言的推理上能取得更好的效果。

提示工程
在評(píng)估DeepSeek-R1時(shí), 我們觀察到它對(duì)提示很敏感。少樣本提示總是會(huì)降低其性能。因此, 我們建議用戶直接描述問(wèn)題, 并在零樣本設(shè)置下指定輸出格式以獲得最佳結(jié)果。

軟件工程任務(wù)
由于評(píng)估時(shí)間長(zhǎng), 影響了強(qiáng)化學(xué)習(xí)過(guò)程的效率, 大規(guī)模強(qiáng)化學(xué)習(xí)尚未廣泛應(yīng)用于軟件工程任務(wù)。因此, DeepSeek-R1在軟件工程基準(zhǔn)上并未展現(xiàn)出比DeepSeek-V3巨大的提升。未來(lái)版本將通過(guò)對(duì)軟件工程數(shù)據(jù)實(shí)施拒絕采樣或在強(qiáng)化學(xué)習(xí)過(guò)程中引入異步評(píng)估來(lái)提高效率, 以解決此問(wèn)題。

除了具體的能力局限性, 純強(qiáng)化學(xué)習(xí)方法本身也存在固有的挑戰(zhàn):

獎(jiǎng)勵(lì)破解
純強(qiáng)化學(xué)習(xí)的成功依賴于可靠的獎(jiǎng)勵(lì)信號(hào)。在本研究中, 我們通過(guò)一個(gè)基于規(guī)則的推理領(lǐng)域獎(jiǎng)勵(lì)模型來(lái)確保獎(jiǎng)勵(lì)的可靠性。然而, 對(duì)于某些任務(wù)(如寫(xiě)作), 此類可靠的獎(jiǎng)勵(lì)模型難以構(gòu)建。如果獎(jiǎng)勵(lì)信號(hào)由模型而非預(yù)定義規(guī)則分配, 那么隨著訓(xùn)練的進(jìn)行, 它變得更容易被利用, 這意味著策略模型可能會(huì)找到捷徑來(lái)破解獎(jiǎng)勵(lì)模型。因此, 對(duì)于那些無(wú)法通過(guò)可靠獎(jiǎng)勵(lì)模型進(jìn)行有效評(píng)估的復(fù)雜任務(wù), 擴(kuò)展純強(qiáng)化學(xué)習(xí)方法仍然是一個(gè)開(kāi)放的挑戰(zhàn)。

在這項(xiàng)工作中, 對(duì)于無(wú)法獲得可靠信號(hào)的任務(wù), DeepSeek-R1使用人工標(biāo)注來(lái)創(chuàng)建監(jiān)督數(shù)據(jù), 并且僅進(jìn)行數(shù)百步的強(qiáng)化學(xué)習(xí)。我們希望未來(lái)能獲得一個(gè)強(qiáng)大的獎(jiǎng)勵(lì)模型來(lái)解決此類問(wèn)題。

隨著像DeepSeek-R1這樣的純強(qiáng)化學(xué)習(xí)方法的出現(xiàn), 未來(lái)在解決任何可被驗(yàn)證器有效評(píng)估的任務(wù)方面都蘊(yùn)藏著巨大的潛力, 無(wú)論這些任務(wù)對(duì)人類而言有多復(fù)雜。配備了此類先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)的機(jī)器有望在這些領(lǐng)域超越人類的能力, 其驅(qū)動(dòng)力在于它們能通過(guò)試錯(cuò)迭代優(yōu)化性能。然而, 對(duì)于那些構(gòu)建可靠獎(jiǎng)勵(lì)模型本身就很困難的任務(wù), 挑戰(zhàn)依然存在。在這種情況下, 缺乏強(qiáng)大的反饋機(jī)制可能會(huì)減緩進(jìn)展, 這表明未來(lái)的研究應(yīng)側(cè)重于開(kāi)發(fā)創(chuàng)新方法來(lái)為這些復(fù)雜的、不易驗(yàn)證的問(wèn)題定義和完善獎(jiǎng)勵(lì)結(jié)構(gòu)。

此外, 在推理過(guò)程中利用工具具有顯著的前景。無(wú)論是使用編譯器或搜索引擎等工具來(lái)檢索或計(jì)算必要信息, 還是使用生物或化學(xué)試劑等外部工具來(lái)在現(xiàn)實(shí)世界中驗(yàn)證最終結(jié)果, 這種工具增強(qiáng)推理的整合都可能極大地?cái)U(kuò)展機(jī)器驅(qū)動(dòng)解決方案的范圍和準(zhǔn)確性。

方法

GRPO
GRPO是我們用來(lái)訓(xùn)練DeepSeek-R1-Zero和DeepSeek-R1的強(qiáng)化學(xué)習(xí)算法。它最初被提出是為了簡(jiǎn)化訓(xùn)練過(guò)程并減少近端策略優(yōu)化(PPO)的資源消耗, PPO在LLMs的強(qiáng)化學(xué)習(xí)階段被廣泛使用。GRPO的流程如擴(kuò)展數(shù)據(jù)圖2所示。

對(duì)于每個(gè)問(wèn)題q, GRPO從舊策略 中采樣一組輸出 , 然后通過(guò)最大化以下目標(biāo)來(lái)優(yōu)化策略模型 :

其中, 是參考策略, 和 是超參數(shù), 是優(yōu)勢(shì), 使用對(duì)應(yīng)于每組輸出的一組獎(jiǎng)勵(lì) 計(jì)算得出:

我們?cè)谘a(bǔ)充信息1.3節(jié)中對(duì)GRPO和PPO進(jìn)行了比較。

獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)是訓(xùn)練信號(hào)的來(lái)源, 決定了強(qiáng)化學(xué)習(xí)優(yōu)化的方向。對(duì)于DeepSeek-R1-Zero, 我們使用基于規(guī)則的獎(jiǎng)勵(lì)為數(shù)學(xué)、編程和邏輯推理領(lǐng)域的數(shù)據(jù)提供精確的反饋。對(duì)于DeepSeek-R1, 我們擴(kuò)展了這種方法, 結(jié)合了用于推理導(dǎo)向數(shù)據(jù)的基于規(guī)則的獎(jiǎng)勵(lì)和用于通用數(shù)據(jù)的基于模型的獎(jiǎng)勵(lì), 從而增強(qiáng)了學(xué)習(xí)過(guò)程在不同領(lǐng)域的適應(yīng)性。

基于規(guī)則的獎(jiǎng)勵(lì)
我們的基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)主要包括兩種類型的獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。

準(zhǔn)確性獎(jiǎng)勵(lì)評(píng)估響應(yīng)是否正確。例如, 在具有確定性結(jié)果的數(shù)學(xué)問(wèn)題中, 模型被要求以指定格式(例如, 在一個(gè)方框內(nèi))提供最終答案, 從而可以進(jìn)行可靠的基于規(guī)則的正確性驗(yàn)證。類似地, 對(duì)于代碼競(jìng)賽的提示, 可以使用編譯器根據(jù)一套預(yù)定義的測(cè)試用例來(lái)評(píng)估模型的響應(yīng), 從而生成關(guān)于正確性的客觀反饋。

格式獎(jiǎng)勵(lì)通過(guò)強(qiáng)制執(zhí)行特定的格式要求來(lái)補(bǔ)充準(zhǔn)確性獎(jiǎng)勵(lì)模型。特別地, 模型被激勵(lì)將其推理過(guò)程封裝在指定的標(biāo)簽內(nèi), 即 和。這確保了模型的思維過(guò)程被明確地描繪出來(lái), 增強(qiáng)了可解釋性并便于后續(xù)分析。

準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)以相同的權(quán)重組合。值得注意的是, 我們避免將神經(jīng)獎(jiǎng)勵(lì)模型——無(wú)論是基于結(jié)果還是基于過(guò)程的——應(yīng)用于推理任務(wù)。這個(gè)決定是基于我們的觀察, 即神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)期間容易受到獎(jiǎng)勵(lì)破解的影響。此外, 重新訓(xùn)練此類模型需要大量的計(jì)算資源, 并給訓(xùn)練流程增加了進(jìn)一步的復(fù)雜性, 從而使整個(gè)優(yōu)化過(guò)程變得復(fù)雜。

基于模型的獎(jiǎng)勵(lì)
對(duì)于通用數(shù)據(jù), 我們借助獎(jiǎng)勵(lì)模型來(lái)捕捉復(fù)雜和細(xì)微場(chǎng)景中的人類偏好。我們基于DeepSeek-V3的流程, 并使用類似的偏好對(duì)和訓(xùn)練提示分布。在有用性方面, 我們只關(guān)注最終的摘要, 確保評(píng)估強(qiáng)調(diào)響應(yīng)對(duì)用戶的用途和相關(guān)性, 同時(shí)最大限度地減少對(duì)底層推理過(guò)程的干擾。在無(wú)害性方面, 我們?cè)u(píng)估模型的整個(gè)響應(yīng), 包括推理過(guò)程和摘要, 以識(shí)別和減輕在生成過(guò)程中可能出現(xiàn)的任何潛在風(fēng)險(xiǎn)、偏見(jiàn)或有害內(nèi)容。

有用性獎(jiǎng)勵(lì)模型
為了進(jìn)行有用性獎(jiǎng)勵(lì)模型訓(xùn)練, 我們首先使用Arena-Hard提示格式(列于補(bǔ)充信息2.2節(jié))提示DeepSeek-V3來(lái)生成偏好對(duì), 其中每對(duì)包含一個(gè)用戶查詢和兩個(gè)候選響應(yīng)。對(duì)于每個(gè)偏好對(duì), 我們查詢DeepSeek-V3四次, 隨機(jī)將響應(yīng)分配為響應(yīng)A或響應(yīng)B以減輕位置偏差。最終的偏好得分通過(guò)平均四次獨(dú)立判斷來(lái)確定, 僅保留那些得分差異(Δ)超過(guò)1的配對(duì), 以確保有意義的區(qū)分。此外, 為了最小化與長(zhǎng)度相關(guān)的偏差, 我們確保整個(gè)數(shù)據(jù)集中被選擇和被拒絕的響應(yīng)具有相當(dāng)?shù)拈L(zhǎng)度。我們總共策劃了66,000個(gè)數(shù)據(jù)對(duì)用于訓(xùn)練獎(jiǎng)勵(lì)模型。該數(shù)據(jù)集中使用的提示都是非推理問(wèn)題, 來(lái)源于公開(kāi)可用的開(kāi)源數(shù)據(jù)集或已明確同意分享其數(shù)據(jù)以用于模型改進(jìn)的用戶。我們的獎(jiǎng)勵(lì)模型架構(gòu)與DeepSeek-R1的架構(gòu)一致, 增加了一個(gè)旨在預(yù)測(cè)標(biāo)量偏好分?jǐn)?shù)的獎(jiǎng)勵(lì)頭。

(5)

有用性獎(jiǎng)勵(lì)模型的訓(xùn)練批量大小為256, 學(xué)習(xí)率為 , 并在訓(xùn)練數(shù)據(jù)集上訓(xùn)練一個(gè)epoch。訓(xùn)練期間的最大序列長(zhǎng)度設(shè)置為8,192個(gè)詞元, 而在獎(jiǎng)勵(lì)模型推理期間沒(méi)有施加明確限制。

安全性獎(jiǎng)勵(lì)模型
為了評(píng)估和提高模型安全性, 我們策劃了一個(gè)包含106,000個(gè)提示的數(shù)據(jù)集, 其中模型生成的響應(yīng)根據(jù)預(yù)定義的安全指南被標(biāo)注為“安全”或“不安全”。與有用性獎(jiǎng)勵(lì)模型中使用的成對(duì)損失不同, 安全性獎(jiǎng)勵(lì)模型使用逐點(diǎn)方法進(jìn)行訓(xùn)練, 以區(qū)分安全和不安全的響應(yīng)。訓(xùn)練超參數(shù)與有用性獎(jiǎng)勵(lì)模型相同。

(6)

對(duì)于通用查詢, 每個(gè)實(shí)例被分類為屬于安全性數(shù)據(jù)集或有用性數(shù)據(jù)集。分配給每個(gè)查詢的通用獎(jiǎng)勵(lì) 對(duì)應(yīng)于相關(guān)數(shù)據(jù)集中定義的相應(yīng)獎(jiǎng)勵(lì)。

訓(xùn)練細(xì)節(jié)
DeepSeek-R1-Zero的訓(xùn)練細(xì)節(jié)
為了訓(xùn)練DeepSeek-R1-Zero, 我們將學(xué)習(xí)率設(shè)置為 , KL散度(Kullback–Leibler)系數(shù)設(shè)置為0.001, rollout的采樣溫度設(shè)置為1。對(duì)于每個(gè)問(wèn)題, 我們?cè)诘?.2k步之前采樣16個(gè)最大長(zhǎng)度為32,768個(gè)詞元的輸出, 之后則為65,536個(gè)詞元。因此, DeepSeek-R1-Zero的性能和響應(yīng)長(zhǎng)度在第8.2k步時(shí)都出現(xiàn)了顯著的躍升, 訓(xùn)練總共持續(xù)了10,400步, 相當(dāng)于1.6個(gè)訓(xùn)練epoch。每個(gè)訓(xùn)練步驟包含32個(gè)獨(dú)立問(wèn)題, 導(dǎo)致每步的訓(xùn)練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓(xùn)練, 每個(gè)rollout生成8,192個(gè)輸出, 這些輸出被隨機(jī)分成16個(gè)小批量, 并且只訓(xùn)練一個(gè)內(nèi)部epoch。

第一階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)
在強(qiáng)化學(xué)習(xí)的第一階段, 我們將學(xué)習(xí)率設(shè)置為 , KL系數(shù)設(shè)置為0.001, GRPO裁剪比率 設(shè)置為10, rollout的采樣溫度設(shè)置為1。對(duì)于每個(gè)問(wèn)題, 我們采樣16個(gè)最大長(zhǎng)度為32,768的輸出。每個(gè)訓(xùn)練步驟包含32個(gè)獨(dú)立問(wèn)題, 導(dǎo)致每步的訓(xùn)練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓(xùn)練, 每個(gè)rollout生成8,192個(gè)輸出, 這些輸出被隨機(jī)分成16個(gè)小批量, 并且只訓(xùn)練一個(gè)內(nèi)部epoch。然而, 為了緩解語(yǔ)言混用問(wèn)題, 我們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語(yǔ)言一致性獎(jiǎng)勵(lì), 該獎(jiǎng)勵(lì)計(jì)算為思維鏈中目標(biāo)語(yǔ)言單詞的比例。

(7)

盡管補(bǔ)充信息2.6節(jié)中的消融實(shí)驗(yàn)表明, 這種對(duì)齊會(huì)導(dǎo)致模型性能輕微下降, 但該獎(jiǎng)勵(lì)與人類偏好對(duì)齊, 使其更具可讀性。我們通過(guò)將其直接加到最終獎(jiǎng)勵(lì)中, 將語(yǔ)言一致性獎(jiǎng)勵(lì)應(yīng)用于推理和非推理數(shù)據(jù)。

請(qǐng)注意, 裁剪比率在訓(xùn)練中起著至關(guān)重要的作用。較低的值可能導(dǎo)致大量詞元的梯度被截?cái)? 從而降低模型性能, 而較高的值可能導(dǎo)致訓(xùn)練期間的不穩(wěn)定。本階段使用的強(qiáng)化學(xué)習(xí)數(shù)據(jù)的詳細(xì)信息在補(bǔ)充信息2.3節(jié)中提供。

第二階段強(qiáng)化學(xué)習(xí)的訓(xùn)練細(xì)節(jié)
具體來(lái)說(shuō), 我們使用獎(jiǎng)勵(lì)信號(hào)和多樣化的提示分布相結(jié)合的方式來(lái)訓(xùn)練模型。對(duì)于推理數(shù)據(jù), 我們遵循DeepSeek-R1-Zero中概述的方法, 該方法使用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)指導(dǎo)數(shù)學(xué)、編程和邏輯推理領(lǐng)域的學(xué)習(xí)。在訓(xùn)練過(guò)程中, 我們觀察到思維鏈經(jīng)常表現(xiàn)出語(yǔ)言混用, 特別是當(dāng)強(qiáng)化學(xué)習(xí)提示涉及多種語(yǔ)言時(shí)。對(duì)于通用數(shù)據(jù), 我們使用獎(jiǎng)勵(lì)模型來(lái)指導(dǎo)訓(xùn)練。最終, 獎(jiǎng)勵(lì)信號(hào)與多樣化數(shù)據(jù)分布的整合使我們能夠開(kāi)發(fā)出一個(gè)不僅在推理方面表現(xiàn)出色, 而且優(yōu)先考慮有用性和無(wú)害性的模型。給定一批數(shù)據(jù), 獎(jiǎng)勵(lì)可以表述為

(8)

其中
(9)

(10)

強(qiáng)化學(xué)習(xí)的第二階段保留了第一階段的大部分參數(shù), 主要區(qū)別在于將溫度降低到0.7, 因?yàn)槲覀儼l(fā)現(xiàn)此階段較高的溫度會(huì)導(dǎo)致生成內(nèi)容不連貫。該階段共包含1,700個(gè)訓(xùn)練步驟, 其中通用指令數(shù)據(jù)和基于偏好的獎(jiǎng)勵(lì)僅在最后的400步中被引入。我們發(fā)現(xiàn), 使用基于模型的偏好獎(jiǎng)勵(lì)信號(hào)進(jìn)行更多訓(xùn)練步驟可能導(dǎo)致獎(jiǎng)勵(lì)破解, 這在補(bǔ)充信息2.5節(jié)中有記錄。

(后續(xù)的Data availabilityAdditional information等部分為元信息、參考文獻(xiàn)和附錄圖表說(shuō)明, 格式和內(nèi)容保持原文形式, 僅對(duì)說(shuō)明性文字進(jìn)行翻譯。)

數(shù)據(jù)可用性

我們?cè)?https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 提供了我們用于拒絕采樣和強(qiáng)化學(xué)習(xí)提示的數(shù)據(jù)樣本。我們完整數(shù)據(jù)生成方法的綜合統(tǒng)計(jì)數(shù)據(jù)和細(xì)節(jié)在補(bǔ)充信息2.3節(jié)中呈現(xiàn)。

代碼可用性

DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練權(quán)重在MIT許可下可在 https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 獲取。推理腳本發(fā)布于 https://github.com/deepseek-ai/DeepSeek-V3 (https://doi.org/10.5281/zenodo.15753347)。神經(jīng)網(wǎng)絡(luò)是使用PyTorch開(kāi)發(fā)的, 分布式框架基于我們的內(nèi)部框架HAI-LLM (https://www.high-flyer.cn/en/blog/hai-llm)。推理框架基于vLLM。數(shù)據(jù)分析使用了Python v.3.8 (https://www.python.org/)、NumPy v.1.23.1 (https://github.com/numpy/numpy)、Matplotlib v.3.5.2 (https://github.com/matplotlib/matplotlib) 和 TensorBoard v.2.9.1 (https://github.com/tensorflow/tensorboard)。

參考文獻(xiàn)

  1. 1. Brown, T. B. et al. Language models are few-shot learners. [語(yǔ)言模型是小樣本學(xué)習(xí)者]. In Advances in Neural Information Processing Systems 33 (eds Larochelle, H. et al.) (ACM, 2020).

  2. 2. OpenAI et al. GPT4 technical report. [GPT-4技術(shù)報(bào)告]. Preprint at https://doi.org/10.48550/arXiv.2303.08774 (2024).

  3. 3. Wei, J. et al. Chain-of-thought prompting elicits reasoning in large language models. [思維鏈提示引發(fā)大型語(yǔ)言模型的推理能力]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 24824–24837 (ACM, 2022).

  4. 4. Wei, J. et al. Emergent abilities of large language models. [大型語(yǔ)言模型的涌現(xiàn)能力]. In Transactions on Machine Learning Research (eds Kamath, G. et al.) (2022).

  5. 5. Kaplan, J. et al. Scaling laws for neural language models. [神經(jīng)語(yǔ)言模型的擴(kuò)展法則]. Preprint at https://doi.org/10.48550/arXiv.2001.08361 (2020).

  6. 6. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. [大型語(yǔ)言模型是零樣本推理者]. In Advances in Neural Information Processing Systems 35 (eds Oh, A. H. et al.) 22199–22213 (ACM, 2022).

  7. 7. Chung, H. W. et al. Scaling instruction-finetuned language models. [擴(kuò)展指令微調(diào)語(yǔ)言模型]. J. Mach. Learn. Res.25, 1–53 (2024).

  8. 8. DeepSeek-AI et al. DeepSeek-V3 technical report. [DeepSeek-V3技術(shù)報(bào)告]. Preprint at https://doi.org/10.48550/arXiv.2412.19437 (2025).

  9. 9. Shao, Z. et al. DeepSeekMath: pushing the limits of mathematical reasoning in open language models. [DeepSeekMath:推動(dòng)開(kāi)放語(yǔ)言模型中數(shù)學(xué)推理的極限]. Preprint at https://doi.org/10.48550/arXiv.2402.03300 (2024).

  10. 10. Wang, X. et al. Self-consistency improves chain of thought reasoning in language models. [自洽性提升語(yǔ)言模型中的思維鏈推理]. In 11th International Conference on Learning Representations (ICLR, 2023).

  11. 11. Hendrycks, D. et al. Measuring massive multitask language understanding. [衡量大規(guī)模多任務(wù)語(yǔ)言理解能力]. In 9th International Conference on Learning Representations (ICLR, 2021).

  12. 12. Gema, A. P. et al. Are we done with MMLU? [MMLU評(píng)測(cè)已經(jīng)到頭了嗎?]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (eds Chiruzzo, L. et al.) Vol. 1 (Long Papers), 5069–5096 (ACL, 2025).

  13. 13. Wang, Y. et al. MMLU-Pro: a more robust and challenging multi-task language understanding benchmark. [MMLU-Pro:一個(gè)更魯棒且更具挑戰(zhàn)性的多任務(wù)語(yǔ)言理解基準(zhǔn)]. In Advances in Neural Information Processing Systems 37 (eds Globersons, A. et al.) 95266–95290 (ACM, 2024).

  14. 14. Dua, D. et al. DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. [DROP:一個(gè)需要對(duì)段落進(jìn)行離散推理的閱讀理解基準(zhǔn)]. In Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long and Short Papers) (eds Burstein, J. et al.) 2368–2378 (ACL, 2019).

  15. 15. Huang, Y. et al. C-EVAL: a multi-level multi-discipline Chinese evaluation suite for foundation models. [C-EVAL:一個(gè)面向基礎(chǔ)模型的多層次、多學(xué)科中文評(píng)估套件]. In Advances in Neural Information Processing Systems 36 (eds Oh, A. et al.) 62991–63010 (ACM, 2023).

  16. 16. Zhou, J. et al. Instruction-following evaluation for large language models. [面向大型語(yǔ)言模型的指令遵循能力評(píng)估]. Preprint at https://doi.org/10.48550/arXiv.2311.07911 (2023).

  17. 17. Krishna, S. et al. Fact, fetch, and reason: a unified evaluation of retrieval-augmented generation. [事實(shí)、檢索與推理:檢索增強(qiáng)生成的統(tǒng)一評(píng)估]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long Papers) 4745–4759 (ACL, 2025).

  18. 18. Rein, D. et al. GPQA: a graduate-level Google-proof Q&A benchmark. [GPQA:一個(gè)研究生水平、防搜索引擎的問(wèn)答基準(zhǔn)]. Preprint at https://doi.org/10.48550/arXiv.2311.12022 (2023).

  19. 19. OpenAI. Introducing SimpleQA; [介紹SimpleQA]. https://openai.com/index/introducing-simpleqa/ (2024).

  20. 20. He, Y. et al. Chinese SimpleQA: a Chinese factuality evaluation for large language models. [中文SimpleQA:一個(gè)面向大型語(yǔ)言模型的中文事實(shí)性評(píng)估]. In Proc. 63rd Annual Meeting of the Association for Computational Linguistics Vol. 1 (Long Papers), 19182–19208 (ACL, 2025).

  21. 21. Xu, L. et al. CLUE: a Chinese Language Understanding Evaluation benchmark. [CLUE:中文語(yǔ)言理解評(píng)估基準(zhǔn)]. In Proc. 28th International Conference on Computational Linguistics (eds Scott, D. et al.) 4762–4772 (International Committee on Computational Linguistics, 2020).

  22. 22. Dubois, Y., Galambosi, B., Liang, P. & Hashimoto, T. B. Length-controlled AlpacaEval: a simple way to debias automatic evaluators. [長(zhǎng)度受控的AlpacaEval:一種為自動(dòng)評(píng)估器去偏的簡(jiǎn)單方法]. Preprint at https://doi.org/10.48550/arXiv.2404.04475 (2025).

  23. 23. Li, T. et al. From crowdsourced data to high-quality benchmarks: Arena-Hard and BenchBuilder pipeline. [從眾包數(shù)據(jù)到高質(zhì)量基準(zhǔn):Arena-Hard與BenchBuilder流程]. Preprint at https://doi.org/10.48550/arXiv.2406.11939 (2024).

  24. 24. OpenAI. Introducing SWE-bench verified; [介紹SWE-bench verified]. https://openai.com/index/introducing-swe-bench-verified/ (2024).

  25. 25. Aider. Aider LLM leaderboards; [Aider LLM排行榜]. https://aider.chat/docs/leaderboards/ (2024).

  26. 26. Jain, N. et al. LiveCodeBench: holistic and contamination free evaluation of large language models for code. [LiveCodeBench:對(duì)大型語(yǔ)言模型代碼能力進(jìn)行全面的、無(wú)污染的評(píng)估]. In 13th International Conference on Learning Representations (ICLR, 2024).

  27. 27. Mirzayanov, M. Codeforces; [Codeforces編程競(jìng)賽平臺(tái)]. https://codeforces.com/ (2025).

  28. 28. Chinese Mathematical Society (CMS). Chinese National High School Mathematics Olympiad; [中國(guó)高中數(shù)學(xué)奧林匹克]. https://www.cms.org.cn/Home/comp/comp/cid/12.html (2024).

  29. 29. Mathematical Association of America. American Invitational Mathematics Examination; [美國(guó)數(shù)學(xué)邀請(qǐng)賽]. https://maa.org/maa-invitational-competitions (2024).

  30. 30. OpenAI. Hello GPT-4o; [你好,GPT-4o]. https://openai.com/index/hello-gpt-4o/ (2024).

  31. 31. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal policy optimization algorithms. [近端策略優(yōu)化算法]. Preprint at https://doi.org/10.48550/arXiv.1707.06347 (2017).

  32. 32. Ouyang, L. et al. Training language models to follow instructions with human feedback. [通過(guò)人類反饋訓(xùn)練語(yǔ)言模型遵循指令]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 27730–27744 (ACM, 2022).

  33. 33. Nano et al. deepseek-ai/DeepSeek-R1: v1.0.0. [deepseek-ai/DeepSeek-R1:v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753192 (2025).

  34. 34. Yu, X. et al. deepseek-ai/DeepSeek-V3: v1.0.0. [deepseek-ai/DeepSeek-V3:v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753346 (2025).

  35. 35. Paszke, A. et al. PyTorch: an imperative style, high-performance deep learning library. [PyTorch:一個(gè)命令式風(fēng)格、高性能的深度學(xué)習(xí)庫(kù)]. In Advances in Neural Information Processing Systems 32 (eds Wallach, H. M. et al.) 8026–8037 (ACM, 2019).

  36. 36. Kwon, W. et al. Efficient memory management for large language model serving with PagedAttention. [使用PagedAttention為大型語(yǔ)言模型服務(wù)實(shí)現(xiàn)高效內(nèi)存管理]. In Proc. ACM SIGOPS 29th Symposium on Operating Systems Principles 611–626 (ACM, 2023).

致謝

本研究由DeepSeek-AI支持。

作者信息

Fuli Luo
目前地址:獨(dú)立研究員,中國(guó)北京

Jinhao Tu
目前地址:建平中學(xué),中國(guó)上海

Kai Hu
目前地址:中國(guó)科學(xué)技術(shù)大學(xué),中國(guó)合肥

Kexin Huang, Wenqin Yu, Xinyuan Li, Yue Gong & Yujia He
目前地址:北京大學(xué),中國(guó)北京

Zijun Liu
目前地址:清華大學(xué),中國(guó)北京

Ziyang Song
目前地址:Citadel Securities,中國(guó)香港特別行政區(qū)

DeepSeek-AI 團(tuán)隊(duì),中國(guó)杭州

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Honghui Ding, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jingchang Chen, Jingyang Yuan, Jinhao Tu, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaichao You, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

貢獻(xiàn)

所有作者都對(duì)本出版物做出了貢獻(xiàn), 分別參與了數(shù)據(jù)收集與整理、實(shí)驗(yàn)設(shè)計(jì)和構(gòu)建LLM訓(xùn)練框架。作者們還參與了實(shí)驗(yàn)設(shè)置的實(shí)施與測(cè)試、強(qiáng)化學(xué)習(xí)過(guò)程的優(yōu)化以及結(jié)果分析?茖W(xué)發(fā)現(xiàn)經(jīng)所有貢獻(xiàn)者討論并批準(zhǔn)。本文由合作團(tuán)隊(duì)指定的一個(gè)作者小組撰寫(xiě), 并經(jīng)過(guò)了內(nèi)部集體審閱過(guò)程。所有作者都審閱并批準(zhǔn)了手稿的最終版本。核心貢獻(xiàn)者:D.G., D.Y., H.Z., J.S., R.Z., R.X., Q.Z., S.M., P.W., X.B., X.Z., X.Y., Y.W., Z.F.W., Z.G., Z.S., Z.L., Z.G. 這些被指定為核心貢獻(xiàn)者的作者對(duì)這項(xiàng)工作做出了同等貢獻(xiàn), 并按字母順序列出。其余作者也對(duì)本研究做出了有意義的貢獻(xiàn), 他們的名字同樣按字母順序列出。

通訊作者

聯(lián)系Wenfeng Liang。

倫理聲明

競(jìng)爭(zhēng)利益
作者聲明沒(méi)有競(jìng)爭(zhēng)利益, 并且不會(huì)就本手稿內(nèi)容申請(qǐng)專利。

同行評(píng)審

同行評(píng)審信息
《自然》感謝Edward Beeching、Yarin Gal、José Hernández-Orallo、Daphne Ippolito、Subbarao Kambhampati、Lewis Tunstall、Yiming Zhang和Lexin Zhou對(duì)本工作同行評(píng)審的貢獻(xiàn)。同行評(píng)審報(bào)告可供查閱。

附加信息

出版商說(shuō)明施普林格·自然對(duì)出版地圖和機(jī)構(gòu)附屬關(guān)系中的管轄權(quán)要求保持中立。

擴(kuò)展數(shù)據(jù)圖表

擴(kuò)展數(shù)據(jù)圖1:模型輸出中與推理相關(guān)的語(yǔ)言特征隨訓(xùn)練步驟的演變。

a, 在整個(gè)訓(xùn)練過(guò)程中, 模型生成輸出中代表性反思性術(shù)語(yǔ)的頻率。反思性術(shù)語(yǔ)——包括‘wait’(等等)、‘mistake’(錯(cuò)誤)、‘however’(然而)、‘but’(但是)、‘retry’(重試)、‘error’(誤差)、‘verify’(驗(yàn)證)、‘wrong’(錯(cuò)誤)、‘evaluate’(評(píng)估)和‘check’(檢查)——由三名人類專家小組識(shí)別和整理。每位專家獨(dú)立提出一組表示反思性推理的詞語(yǔ), 隨后通過(guò)共識(shí)合并成一個(gè)最終詞匯表。 b, 在訓(xùn)練過(guò)程中, 術(shù)語(yǔ)‘wait’(等等)在模型輸出中的頻率。該術(shù)語(yǔ)在初始訓(xùn)練階段幾乎不存在, 在4,000至7,000步之間零星出現(xiàn), 并在8,000步后頻率顯著增加。這些趨勢(shì)表明, 隨著訓(xùn)練的進(jìn)行, 出現(xiàn)了時(shí)間推理或自我監(jiān)控行為。

擴(kuò)展數(shù)據(jù)圖2:所提出的用于基于強(qiáng)化學(xué)習(xí)訓(xùn)練的GRPO圖示。


在所提出的框架中, 一個(gè)LLM被用作策略模型, 以根據(jù)給定的查詢q生成響應(yīng){o1, o2,…, oG}。組內(nèi)的每個(gè)響應(yīng)都由一個(gè)獎(jiǎng)勵(lì)模型——無(wú)論是學(xué)習(xí)的(基于模型)還是手動(dòng)指定的(基于規(guī)則)——進(jìn)行評(píng)估, 以分配一個(gè)標(biāo)量獎(jiǎng)勵(lì)信號(hào)。隨后, GRPO根據(jù)每個(gè)組成員被分配的獎(jiǎng)勵(lì)計(jì)算其相對(duì)優(yōu)勢(shì)。GRPO不依賴于顯式的值函數(shù)(如PPO中那樣), 而是直接從組內(nèi)獎(jiǎng)勵(lì)分布中估計(jì)優(yōu)勢(shì)。然后更新策略參數(shù)以最大化預(yù)期獎(jiǎng)勵(lì), 同時(shí)最小化與參考策略的偏離, 通常通過(guò)KL散度來(lái)量化。通過(guò)消除對(duì)單獨(dú)值網(wǎng)絡(luò)的需求, GRPO為傳統(tǒng)的行動(dòng)者-評(píng)論家方法(如PPO)提供了一個(gè)簡(jiǎn)化而有效的替代方案。

提示 (PROMPT)

設(shè) (b \geq 2) 為一個(gè)整數(shù)。如果一個(gè)正整數(shù) (n) 在 (b) 進(jìn)制下表示時(shí)恰好有兩位數(shù),并且這兩位數(shù)之和等于 (\sqrt{n}),則稱 (n) 是b-優(yōu)美數(shù) (b-eautiful)。例如,81 是13-優(yōu)美數(shù),因?yàn)?81 = 63(_\text{13}) 并且 6 + 3 = (\sqrt{81})。

找出滿足以下條件的最小整數(shù) (b \geq 2):存在超過(guò)十個(gè)b-優(yōu)美數(shù)。

請(qǐng)逐步推理,并將最終答案放在\boxed{}中。

評(píng)估 (Evaluation)

解析\boxed{}中的最終答案,并使用基于規(guī)則的評(píng)分器來(lái)判斷其是否與標(biāo)準(zhǔn)答案相等。根據(jù)需要對(duì)數(shù)值進(jìn)行四舍五入,并使用 'SymPy' 庫(kù)來(lái)解析表達(dá)式。

補(bǔ)充信息

補(bǔ)充信息
補(bǔ)充章節(jié) 1-11,包括補(bǔ)充表 1-29 和補(bǔ)充圖 1-16 —— 詳情請(qǐng)見(jiàn)目錄。

同行評(píng)審文件 (Peer Review file) 見(jiàn)附錄

權(quán)利與許可

開(kāi)放獲取 (Open Access)本文根據(jù)知識(shí)共享署名 4.0 國(guó)際許可協(xié)議 (Creative Commons Attribution 4.0 International License) 進(jìn)行許可,該協(xié)議允許以任何媒介或格式使用、分享、改編、分發(fā)和復(fù)制本作品,只要您對(duì)原作者和來(lái)源進(jìn)行適當(dāng)?shù)氖鹈,提供指向知識(shí)共享許可協(xié)議的鏈接,并注明是否對(duì)內(nèi)容進(jìn)行了修改。本文中的圖像或其他第三方材料均包含在文章的知識(shí)共享許可協(xié)議之內(nèi),除非在該材料的版權(quán)說(shuō)明中另有聲明。如果材料未包含在文章的知識(shí)共享許可協(xié)議中,并且您的預(yù)期用途不受法律法規(guī)允許或超出了許可的使用范圍,您將需要直接從版權(quán)所有者那里獲得許可。要查看此許可協(xié)議的副本,請(qǐng)?jiān)L問(wèn) http://creativecommons.org/licenses/by/4.0/。

(內(nèi)容來(lái)源:Web3天空之城)

為偉大思想而生!

AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

古事尋蹤記
2025-12-27 07:16:35
社保嚴(yán)查全面收緊!無(wú)數(shù)中小企業(yè),正在為十年前的小聰明買(mǎi)單

社保嚴(yán)查全面收緊!無(wú)數(shù)中小企業(yè),正在為十年前的小聰明買(mǎi)單

芳姐侃社會(huì)
2026-04-25 18:32:12
40球,巴黎創(chuàng)隊(duì)史單賽季歐冠進(jìn)球數(shù)新高

40球,巴黎創(chuàng)隊(duì)史單賽季歐冠進(jìn)球數(shù)新高

懂球帝
2026-04-29 03:41:16
凱恩歐冠淘汰賽已打入16球,成該階段進(jìn)球最多的英格蘭球員

凱恩歐冠淘汰賽已打入16球,成該階段進(jìn)球最多的英格蘭球員

懂球帝
2026-04-29 03:41:16
13球7助,KK加盟巴黎后歐冠參與進(jìn)球?yàn)橥谒星騿T最多

13球7助,KK加盟巴黎后歐冠參與進(jìn)球?yàn)橥谒星騿T最多

懂球帝
2026-04-29 04:34:06
40歲32天,諾伊爾成出戰(zhàn)歐冠半決賽第三年長(zhǎng)球員

40歲32天,諾伊爾成出戰(zhàn)歐冠半決賽第三年長(zhǎng)球員

懂球帝
2026-04-29 03:41:16
即將升入英冠,林肯城球員&球迷齊聲高歌:下賽季踢熱刺咯!

即將升入英冠,林肯城球員&球迷齊聲高歌:下賽季踢熱刺咯!

懂球帝
2026-04-28 13:14:06
地鐵搶座互毆后續(xù):警方立案,老太先動(dòng)手反占優(yōu),女子結(jié)局更慘

地鐵搶座互毆后續(xù):警方立案,老太先動(dòng)手反占優(yōu),女子結(jié)局更慘

阿鳧愛(ài)吐槽
2026-04-28 01:01:23
全面取消“寬帶5G融合套餐”,或是運(yùn)營(yíng)商未來(lái)扭轉(zhuǎn)局面的最佳出路!

全面取消“寬帶5G融合套餐”,或是運(yùn)營(yíng)商未來(lái)扭轉(zhuǎn)局面的最佳出路!

通信老柳
2026-04-24 08:21:36
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
“窮人炫富,難掩心酸!”男大學(xué)生炫耀坐高鐵一等座,因長(zhǎng)相被嘲

“窮人炫富,難掩心酸!”男大學(xué)生炫耀坐高鐵一等座,因長(zhǎng)相被嘲

妍妍教育日記
2026-04-24 09:05:03
第二個(gè)加納喬!曼聯(lián) 7100 萬(wàn)水貨徹底迷失,卡里克該棄用了

第二個(gè)加納喬!曼聯(lián) 7100 萬(wàn)水貨徹底迷失,卡里克該棄用了

瀾歸序
2026-04-29 01:24:33
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
76年他準(zhǔn)備好了“接班人演講稿”,毛主席突然讓華國(guó)鋒擔(dān)任代總理

76年他準(zhǔn)備好了“接班人演講稿”,毛主席突然讓華國(guó)鋒擔(dān)任代總理

銅臭的歷史味
2026-04-29 00:58:47
打起來(lái)了,以軍不宣而戰(zhàn);內(nèi)塔尼亞胡迎來(lái)勁敵,或被關(guān)進(jìn)大牢!

打起來(lái)了,以軍不宣而戰(zhàn);內(nèi)塔尼亞胡迎來(lái)勁敵,或被關(guān)進(jìn)大牢!

說(shuō)歷史的老牢
2026-04-27 23:23:31
帶30萬(wàn)大軍敗退臺(tái)灣,蔣介石親自到碼頭接,為何到臺(tái)灣只活了3年

帶30萬(wàn)大軍敗退臺(tái)灣,蔣介石親自到碼頭接,為何到臺(tái)灣只活了3年

夏目歷史君
2026-04-20 10:33:19
“談”還是“打”?臺(tái)灣最新民調(diào)給出驚人答案,大陸這步棋走對(duì)了

“談”還是“打”?臺(tái)灣最新民調(diào)給出驚人答案,大陸這步棋走對(duì)了

新浪財(cái)經(jīng)
2026-04-28 00:57:34
繼迪馬利亞后,登貝萊成第二位歐冠半決賽傳射的巴黎球員

繼迪馬利亞后,登貝萊成第二位歐冠半決賽傳射的巴黎球員

懂球帝
2026-04-29 04:23:07
北京這一夜,林芳兵變了,朱琳老了,沈丹萍腫了,唯她看著年輕了

北京這一夜,林芳兵變了,朱琳老了,沈丹萍腫了,唯她看著年輕了

以茶帶書(shū)
2026-04-28 19:32:51
最新 | 我市通報(bào)5起違反中央八項(xiàng)規(guī)定精神典型問(wèn)題

最新 | 我市通報(bào)5起違反中央八項(xiàng)規(guī)定精神典型問(wèn)題

天津廣播
2026-04-28 16:20:16
2026-04-29 04:55:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時(shí)代,互聯(lián)網(wǎng)思想觀察
2434文章數(shù) 16907關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
教育
健康
手機(jī)
軍事航空

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

手機(jī)要聞

三星裸眼3D屏來(lái)了,廣告牌能“跳”出來(lái)

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版