AI大神卡帕西發(fā)年終總結！大模型有6大轉折點，潛力挖掘不足10%

2025-12-23 11:21:10　來源: 智東西

北京舉報

分享至

智東西
編譯王欣逸
編輯程茜

智東西12月23日消息，12月20日，前特斯拉AI總監(jiān)、OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕西（Andrej Karpathy）在其個人博客上發(fā)布帖子，談到2025年大模型的6個轉折點，他認為行業(yè)對當前大模型潛力的挖掘尚不足10%，大模型比他預期的聰明得多，也笨拙得多。

在全文中，他特別提到了6個關鍵詞——RLVR（基于可驗證獎勵的強化學習）、大模型智能的“形態(tài)”、大模型新應用層、AI交互新范式、Vibe Coding（氛圍編程）以及大模型交互形式，還單獨提及了2個模型，Anthropic的編程模型Claude Code和谷歌的圖像編輯模型Nano Banana，以及1家公司AI編程創(chuàng)企Cursor。

2025年，預訓練、監(jiān)督微調以及基于人類反饋的強化學習的大模型傳統(tǒng)訓練范式發(fā)生改變，新的范式以基于可驗證獎勵的強化學習為核心，讓模型在數(shù)學、代碼等有明確對錯的環(huán)境中進行訓練，從而自發(fā)涌現(xiàn)出推理能力。

博客核心信息如下：

1、RLVR的突破在于利用數(shù)學、編程等可客觀驗證的獎勵函數(shù)對模型進行長期、深度的優(yōu)化，讓模型自發(fā)地形成了在人類看來酷似“推理”的策略，這一方法是提升模型能力性價比極高的方法。

2、大模型智能的本質是“召喚幽靈”，大模型由人類數(shù)據(jù)與訓練目標所定義，它沒有意識，完全不同于“會成長的生命體”。

3、基準測試極易受到RLVR或通過合成數(shù)據(jù)生成等較弱形式的影響，當下的AI基準測試正面臨“刷分”導致的可信度危機。

4、大模型新應用層的關鍵是構建以模型為核心的專業(yè)系統(tǒng)，通過編排多個模型調用、工具和私有數(shù)據(jù)，形成解決復雜任務的工作流，承擔上下文作用。

5、Claude Code的顯著特點是能運行在開發(fā)者的電腦上，調用開發(fā)者的私人環(huán)境、數(shù)據(jù)和上下文，這是一種與AI交互的全新范式。

6、通過Vibe Coding（氛圍編程），寫代碼不再嚴格局限于受過高度訓練的專業(yè)人士，任何人都可以嘗試，這將重塑軟件生態(tài)與職業(yè)定義。

7、大模型的輸出形態(tài)將從純文本演進成人們喜愛的方式，如圖像、信息圖、幻燈片、動畫/視頻、網(wǎng)頁應用等。

8、大模型正在演化成一種新型智能，卡帕西認為它既比預期聰明得多，又比預期笨拙得多，行業(yè)至今尚未發(fā)掘出大模型能力潛力的10%。

以下為卡帕西博客全文翻譯，題為《2025年大模型年度回顧（2025LLMYear in Review）》：

2025年是大模型取得強勁發(fā)展、進展顯著的一年。以下是我個人關注到的具有代表性、有點出乎意料的“范式變遷”（paradigm changes）清單，這些變化深刻影響行業(yè)格局，并在概念層面讓我感到印象深刻。

一、RLVR：基于可驗證獎勵的強化學習

2025年伊始，大模型標準生產(chǎn)流程大致如下：

1、預訓練（約2020年的GPT-2/3）

2、監(jiān)督微調（約2022年的InstructGPT）

3、基于人類反饋的強化學習（約2022年的RLHF）

在一段時間內，這曾是訓練生產(chǎn)級大模型的穩(wěn)定、已驗證的配方。然而，2025年，RLVR成為事實上的新的標準環(huán)境。

RLVR的核心突破在于，通過讓大模型在數(shù)學、編程等可自動驗證答案的環(huán)境中進行強化學習訓練，模型自發(fā)地形成了在人類看來酷似“推理”的策略：它們學會了將復雜問題拆解為中間步驟進行計算，并掌握了多種來回推敲以解決問題的策略（參見DeepSeek R1論文中的示例）。

這是傳統(tǒng)范式難以實現(xiàn)的能力，因為對于大模型來說，最優(yōu)的推理路徑和糾錯方式并不明確，模型必須在獎勵信號的引導下，自行探索一套適合自己的問題解決辦法。

與之前計算消耗相對較小的SFT（監(jiān)督微調）和RLHF（人類反饋強化學習）不同，RLVR涉及利用數(shù)學、編程等可客觀驗證的獎勵函數(shù)進行長期、深度的優(yōu)化。事實證明，運行RLVR階段是提升模型能力性價比極高的方法，因此迅速奪走了原本用于預訓練的大量計算資源。

2025年模型能力的飛躍，主要源于各大實驗室對這一范式的全力投入，其結果是，模型參數(shù)量雖然沒有發(fā)生顯著變化，但強化學習訓練過程大幅延長。

這個新階段還引入了一個前所未有的新維度：通過生成更長的推理軌跡、增加思考時間，開發(fā)者可靈活調控測試階段的計算量。

OpenAI在2024年底推出的o1模型首次展示了RLVR的潛力，而2025年初的o3版本則成為一個明顯的拐點，其能力的質變已能被清晰感知。

二、“幽靈”與“動物”：智能的鋸齒狀能力

2025年，整個行業(yè)開始開始更直觀地理解大模型智能的“形態(tài)”。我們面對的不是在“進化、成長著的動物”，而是在“召喚幽靈”。

大模型的技術棧（神經(jīng)網(wǎng)絡架構、訓練數(shù)據(jù)、訓練算法，尤其是優(yōu)化目標）與人類智能的方方面面都不同，因此我們得到的是智能空間中截然不同的實體，用動物的視角來思考它們是不合適的。

從監(jiān)督信號的根源看，人腦神經(jīng)網(wǎng)絡是為了叢林部落的生存而優(yōu)化的，而大模型的神經(jīng)網(wǎng)絡則被優(yōu)化用于模仿人類文本、在數(shù)學謎題中獲取獎勵、以及在競技場中獲得人類點贊。

隨著RLVR在可驗證領域的應用，大模型在這些特定領域的能力會出現(xiàn)“爆發(fā)式增長”，整體上呈現(xiàn)出一種有趣的鋸齒狀性能特征：它們可以同時是博學的天才，也是困惑的、認知能力受限的小學生，甚至可能在下一秒鐘就被一個越獄攻擊欺騙而泄露你的數(shù)據(jù)。

▲人類智能：藍色；AI智能：紅色。我喜歡這個版本的梗圖，因為它揭示了人類智能同樣也有其自身不同的“鋸齒狀”能力。抱歉我找不到它在社交平臺X上的原帖出處。

與此相關的是，2025年，我對基準測試普遍感到漠視與信任喪失。核心問題在于，基準測試幾乎天生就是可驗證的環(huán)境，因此極易受到RLVR或通過合成數(shù)據(jù)生成等較弱形式的影響。在典型的“刷分”過程中，大模型的實驗室團隊不可避免地會構建接近基準測試所處嵌入空間微小區(qū)域的訓練環(huán)境，并催生出針對性的能力鋸齒來覆蓋這些區(qū)域。如今，針對測試集的訓練已經(jīng)成為一門新的“藝術”。

如果碾壓所有基準測試卻仍然無法實現(xiàn)通用人工智能（AGI），那會是什么景象？

關于這一主題，我在以下文章中展開了更多討論：《動物vs幽靈（Animals vs. Ghosts）》《可驗證性（Verifiability）》《心智空間（The Space of Minds）》。

三、Cursor：新的大模型應用層

除了Cursor今年的飛速崛起之外，這家企業(yè)最引人關注的是，它有力揭示了一個全新的大模型應用層級，人們開始談論“某領域的Cursor模式”。正如我在今年的Y Combinator演講中強調的那樣，像Cursor這樣的大模型，核心價值在于針對特定垂直領域捆綁和組織大模型調用，具體有以下幾點：

1、它們負責處理“上下文工程”；

2、它們在幕后編排多個大模型調用，串聯(lián)成日益復雜的有向無環(huán)圖（DAG），能仔細權衡性能和成本；

3、它們?yōu)槿斯そ槿胩峁┨囟☉脠鼍暗膱D形用戶界面；

4、它們提供一個“自主程度調節(jié)滑塊”，靈活控制AI自主決策的權限范圍。

2025年，關于這個新應用層“厚度”的討論很多，如大模型實驗室會通吃所有應用場景，還是垂直領域的大模型應用有其廣闊的天地？我個人認為，大模型實驗室傾向于培養(yǎng)“通識能力強的大學生”式模型，而大模型應用則通過提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋循環(huán)，將這些通才組織、微調并激活為特定垂直領域可實際部署的“專業(yè)團隊”。

四、Claude Code：運行在你的電腦上的AI

Claude Code首次令人信服地展示了大模型智能體的形態(tài)，它通過循環(huán)方式串聯(lián)工具使用和推理，實現(xiàn)持續(xù)的問題解決。此外，Claude Code的顯著特點在于它運行在你的電腦上，調用你的私人環(huán)境、數(shù)據(jù)和上下文。

我認為OpenAI在這方面判斷有誤，因為他們早期的Codex/智能體工作重點放在了從ChatGPT編排的云端容器部署，而不是簡單的本地運行。盡管在云端運行的智能體集群感覺像是AGI的終極形態(tài)，但我們身處一個發(fā)展?jié)u進、變革速度有限的世界，能力分布仍呈鋸齒狀，因此直接在開發(fā)者的電腦上運行智能體更為合理。

關鍵區(qū)別并不在于“AI運算”發(fā)生在何處（云端或者本地），而在于其他一切：已經(jīng)存在且已啟動的計算機、其安裝環(huán)境、上下文、數(shù)據(jù)、密鑰、配置以及低延遲交互。Anthropic把優(yōu)先順序處理得很正確，將Claude Code封裝成一種簡潔優(yōu)雅的命令行界面形式，從而改變了AI的模樣：它不再只是一個像谷歌那樣需要訪問的網(wǎng)站，而是一個居住在你電腦中的小型精靈/幽靈。這是一種與AI交互的新穎、獨特的范式。

五、Vibe Coding

2025年，AI跨過了一個能力臨界點，使得僅通過自然語言描述就能構建各類令人驚嘆的程序成為可能，人們甚至無需在意代碼的存在。有趣的是，我曾在一條隨手發(fā)布的推文中創(chuàng)造了“Vibe Coding”這個詞，當時完全沒有想到它會發(fā)展至此。

通過Vibe Coding，寫代碼不再嚴格局限于受過高度訓練的專業(yè)人士，而是任何人都可以做的事情。從這個角度看，它正是我在《技術平權：大模型如何重塑技術擴散模式（Power to the people: How LLMs flip the script on technology diffusion）》一文中提到的又一個例證，與迄今為止所有其他技術截然不同，普通人從大模型中獲得的益處遠超專業(yè)人士、企業(yè)和政府。

Vibe Coding不僅賦能普通人接觸編程，更讓專業(yè)開發(fā)者能輕松編寫大量通過Vibe Coding實現(xiàn)的軟件，而這些軟件原本是永遠不會被創(chuàng)造出來的。例如在開發(fā)nanochat項目中，我就通過Vibe Coding用Rust自研了一套高效BPE分詞器，無需依賴現(xiàn)有庫或深入鉆研Rust。我今年還用Vibe Coding創(chuàng)造了許多項目，并快速實現(xiàn)了許多創(chuàng)意原型，例如 menugen、llm-council、reader3、HN time capsule等。我甚至通過Vibe Coding編寫了整套臨時應用程序，就為了找到一個bug。代碼突然間變得免費、短暫、可塑、用后即棄。Vibe Coding將重塑軟件生態(tài)與職業(yè)定義。

六、Nano Banana：大模型的圖形用戶界面（GUI）

谷歌Gemini Nano Banana是2025年最令人難以置信、最具范式轉移意義的模型之一。在我看來，大模型是類似20世紀70-80年代的全新計算范式，因此我們將看到基于相似邏輯的創(chuàng)新涌現(xiàn)，例如個人計算、微控制器（認知核心）、智能體互聯(lián)網(wǎng)等對應形態(tài)。特別是在用戶界面/用戶體驗上，當前與大模型“聊天”有點像上世紀80年代向計算機終端輸入指令。

文本是計算機（和大模型）偏愛的數(shù)據(jù)形式，但它不是人們偏愛的格式，尤其是在輸入上。人們其實不喜歡閱讀文字，因為它很慢而且費力。相反，人們喜歡以視覺和空間的方式接受信息，這正是傳統(tǒng)計算中圖形界面誕生的原因。同樣地，大模型應以我們喜愛的方式輸出信息——如圖像、信息圖、幻燈片、白板、動畫/視頻、網(wǎng)頁應用等。早期的實現(xiàn)形式包括表情符號和Markdown（輕量級文本標注語言），它們通過標題、加粗、列表、表格等方式“裝扮”文本以提升可讀性。

但究竟誰來構建大模型的圖形用戶界面呢？Nano Banana為此提供了第一個雛形。關鍵在于，它不僅涉及圖像生成能力，更融合了文本生成、圖像創(chuàng)作與世界知識，這些能力交織于模型權重之中，形成復合型智能。

七、結語

總而言之，2025年是大模型令人興奮又略帶驚喜的一年。大模型正在演化成一種新型智能，既比我預期的聰明得多，又比我預期的笨拙得多。無論如何，它們非常有用，而我認為行業(yè)至今尚未發(fā)掘出當前能力潛力的10%。與此同時，這個領域依然充滿嘗試空間與開放性概念。正如今年早些時候我在Dwarkesh播客中提到的：“我同時持有兩種看似矛盾的觀點：一方面相信進展將持續(xù)加速，另一方面認為仍有大量基礎工作亟待完成。”系好安全帶，迎接變革。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.