網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI 大神 Karpathy 2025 年度總結(jié)刷屏：AI 既是天才也是智障，這 6 個轉(zhuǎn)折最關(guān)鍵

2025-12-20 12:52:18　來源: 愛范兒

廣東舉報

分享至

最近各種年度回顧陸續(xù)上線， OpenAI 的前聯(lián)合創(chuàng)始人 Andrej Karpathy 也交出了自己對大模型的年度總結(jié)

就在今年早些時候，他在 YC 的一場演講刷爆了全網(wǎng)，提出了不少新的觀點：

軟件 3.0 已來：從最初的人寫代碼（1.0），到喂數(shù)據(jù)訓(xùn)練模型（2.0），現(xiàn)在我們進入了直接對模型「念咒語」（Prompt）的 3.0 時代。
LLM 是新操作系統(tǒng)：它不是像自來水一樣的普通商品，而是一個負(fù)責(zé)調(diào)度內(nèi)存（Context Window）和 CPU（推理算力）的復(fù)雜 OS。
Agent 的十年：別指望 AI Agent 一年就成熟，從 99% 到 99.999% 的可靠性，我們需要走上十年。

Karpathy 今天這篇《2025 年度總結(jié)》，他再次向我我們剖析了這一年 AI 究竟長出了什么樣的「腦子」。

以下是對 Karpathy 年度總結(jié)的精譯，APPSO 在不改變原意的基礎(chǔ)上做了更多通俗解讀。

如果想看原文可以點擊 https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是 LLM（大語言模型）發(fā)展強勁且充滿變數(shù)的一年。以下是我列出的幾點個人認(rèn)為值得注意且稍感意外的「范式轉(zhuǎn)變」——這些變化不僅重塑了行業(yè)版圖，更在概念層面上狠狠地沖擊了我的認(rèn)知。

太長不看版：

2025 年既讓人興奮，又有點讓人措手不及。

LLM 正在作為一種新型智能涌現(xiàn)，它同時比我預(yù)期的要聰明得多，也比我預(yù)期的要笨得多。

無論如何，它們極其有用。我認(rèn)為即使以目前的能力，行業(yè)甚至還沒挖掘出其潛力的 10%。同時，還有太多的想法可以嘗試，從概念上講，這個領(lǐng)域感覺依然廣闊。正如我今年早些時候提到的，我同時（表面上矛盾地）相信：我們將看到持續(xù)快速的進步，但前方仍有大量艱苦的工作要做。

系好安全帶，我們要發(fā)車了。

1. RLVR：教 AI 像做奧數(shù)題一樣「思考」

在解釋這個復(fù)雜的基礎(chǔ)概念之前，先看看以前是大模型訓(xùn)練是怎么做的？

在 2025 年初，各大實驗室訓(xùn)練 LLM 的「老三樣」配方非常穩(wěn)定：

1. 預(yù)訓(xùn)練（Pretraining）：像 GPT-3 那樣，讓 AI 讀遍全網(wǎng)文章，學(xué)會說話。

2. 監(jiān)督微調(diào)（SFT）：找人寫好標(biāo)準(zhǔn)答案，教 AI 怎么回答問題。

3. 人類反饋強化學(xué)習(xí)（RLHF）：讓 AI 生成幾個答案，人來打分，教它討人喜歡。

現(xiàn)在發(fā)生了什么變化？

2025 年，我們在這個配方里加了一味猛藥：RLVR（從可驗證獎勵中進行強化學(xué)習(xí)）。

這是什么意思？

簡單來說，就是不再讓人來打分（人太慢且主觀），而是讓 AI 去做那些「有標(biāo)準(zhǔn)答案」的任務(wù)，比如數(shù)學(xué)題或?qū)懘a。對就是對，錯就是錯，機器能自動驗證。

在數(shù)百萬次的自我博弈和試錯中，模型自發(fā)地演化出了看似「推理」的策略。它們學(xué)會了先把大問題拆解成小步驟，甚至學(xué)會了「回過頭來檢查」這種高級技巧（參考 DeepSeek R1 論文）。

核心對比：

舊范式（RLHF）：像是教小孩寫作文。因為沒有標(biāo)準(zhǔn)答案，AI 很難知道自己哪一步想錯了，只能模仿人類的語氣。
新范式（RLVR）：像是把 AI 關(guān)進奧數(shù)訓(xùn)練營。不用教它具體怎么想，只要給它足夠多的題和對錯反饋，它自己就能摸索出解題套路。

這一招太好用了，以至于 2025 年大部分算力都被這只「吞金獸」吃掉了。結(jié)果就是：模型并沒有變大，但訓(xùn)練時間變長了。我們還獲得了一個新旋鈕：讓 AI 思考得久一點。OpenAI 的 o1 是開端，而 o3 則是真正的拐點。

2. 幽靈 vs 動物：AI 不是「電子寵物」

2025 年，我和整個行業(yè)終于從直覺上理解了 LLM 智能的「形狀」。

一個驚悚的比喻：我們不是在像養(yǎng)寵物一樣「進化/養(yǎng)育動物」，我們是在「召喚幽靈」。

為什么這么說？

因為 AI 的一切都和生物不同。人類的大腦是為了在叢林里活下來、為了繁衍后代而優(yōu)化的；而 LLM 的大腦是為了模仿人類文字、在數(shù)學(xué)題里拿分、在競技場里騙贊而優(yōu)化的。

參差不齊的智能（Jagged Intelligence）：

正是因為 RLVR（可驗證獎勵）的存在，AI 的能力在某些領(lǐng)域（如數(shù)學(xué)、編程）會突然飆升成刺狀。這就導(dǎo)致了一種極其滑稽的現(xiàn)象：

它同時是一個絕世天才（秒解高數(shù)題）；
又是一個智障小學(xué)生（會被簡單的邏輯陷阱騙得團團轉(zhuǎn)）。

▲這里 Karpathy 引用了一張梗圖：人類智能是圓潤的藍(lán)色圓圈，AI 智能是像海膽一樣滿是尖刺的紅色圖形。這很形象.

這也解釋了為什么我對現(xiàn)在的「跑分榜單」（Benchmarks）失去了信任。

什么是「刷榜」的本質(zhì)？

既然榜單是可驗證的，那就可以用 RLVR 針對性訓(xùn)練?，F(xiàn)在的實驗室都在搞「應(yīng)試教育」，把 AI 的能力尖刺專門往考題上長。「在測試集上訓(xùn)練」已經(jīng)不僅僅是作弊，而成了一門新的藝術(shù)形式。

3. Cursor：不僅是編輯器，更是「包工頭」

Cursor 今年的爆火，揭示了一個新真相：LLM 應(yīng)用層比我們想象的要厚。

大家開始談?wù)摗羔t(yī)療界的 Cursor」、「法律界的 Cursor」。這些應(yīng)用到底做了什么？

「上下文工程師」：幫你整理好所有背景資料喂給 AI。
「工頭」：在后臺偷偷指揮多個 LLM 干活，把復(fù)雜任務(wù)拆解，還要幫你省錢。
「遙控器」：給你一個調(diào)節(jié)「自主性」的滑塊，決定放手讓 AI 干多少。

預(yù)測：大模型實驗室（如 OpenAI）會負(fù)責(zé)培養(yǎng)「全科大學(xué)生」；而應(yīng)用開發(fā)商（如 Cursor）則負(fù)責(zé)給這些學(xué)生提供私有數(shù)據(jù)和工具，把他們組建成「專業(yè)施工隊」。

4. Claude Code：住在你電腦里的「賽博幽靈」

Claude Code (CC) 的出現(xiàn)讓我眼前一亮。它不僅僅是一個能寫代碼的 Agent（智能體），更重要的是：它活在你的電腦里。

對比來看，我認(rèn)為OpenAI 搞錯了方向。

OpenAI 早期的 Agent 都在云端跑（ChatGPT），離你的真實環(huán)境太遠(yuǎn)。雖然云端智能體聽起來像是 AGI 的終局，但在當(dāng)前這個「參差不齊」的過渡階段，本地才是王道。

為什么本地很重要？

因為你的代碼、你的配置、你的密鑰、你的混亂環(huán)境，都在本地。Anthropic（Claude 的母公司）搞對了優(yōu)先級，他們把 AI 塞進了一個小小的命令行界面（CLI）里。

它不再是你瀏覽器里的一個網(wǎng)頁（像 Google 那樣），它變成了一個寄宿在你電腦里的「賽博幽靈」，隨時準(zhǔn)備幫你干活。這才是未來 AI 交互的樣子。

5. Vibe Coding

什么是 Vibe Coding？

這是我在推特上隨口造的一個詞（居然火了）：意思是寫代碼不再需要你真的懂語法，你只需要用英語描述你的「意圖」和「感覺」，剩下的交給 AI。

這帶來了什么改變？

對于普通人：編程的門檻徹底消失了。
對于專家：代碼變得像紙巾一樣「廉價、一次性、用完即棄」。

舉個例子，我為了找一個 Bug，可能會讓 AI 現(xiàn)場寫一個專門的 App 來測試，測完就刪。放在以前，為了找個 Bug 專門寫個 App？瘋了吧！但在 2025 年，代碼是免費的。

Vibe Coding 將會徹底重塑軟件行業(yè)，也會改寫程序員的招聘 JD。

6. Nano Banana：AI 終于有了自己的「臉」

為什么現(xiàn)在的 AI 交互很反人類？

不管是 ChatGPT 還是 Claude，我們還在用「打字」跟它們聊天。這就像 80 年代還在用 DOS 命令行的黑底白字。

事實是：計算機喜歡文本，但人類討厭讀文本。人類是視覺動物，我們喜歡看圖、看表、看視頻。

Google Gemini Nano banana（這是一個虛構(gòu)的模型代號，指代某種多模態(tài)交互模型）是 2025 年的另一個范式轉(zhuǎn)變。它暗示了未來的 LLM GUI（圖形界面）是什么樣子的。

未來的 AI 不應(yīng)該給你吐一堆字，它應(yīng)該直接給你畫一張圖、生成一個網(wǎng)頁、彈出一個交互面板。這不僅僅是「畫圖」，而是將文本生成、邏輯推理和視覺表達(dá)糾纏在一起的混合能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.