国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Andrej Karpathy:2025 年度盤點

0
分享至

本文來自 Andrej Karpathy

https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是大語言模型突飛猛進的一年

以下是我個人認為最值得關注的幾個「范式轉變」,這些變化重塑了整個行業(yè)格局,也在概念上給我留下了深刻印象


可驗證獎勵的強化學習(RLVR)

2025 年初,各大實驗室訓練 LLM 的標準流程大致是這樣的:

  1. 1. 預訓練(Pretraining),GPT-2/3 時代約 2020 年確立的基礎

  2. 2. 監(jiān)督微調(Supervised Finetuning, SFT),始于 InstructGPT,約 2022 年

  3. 3. 基于人類反饋的強化學習(RLHF),同樣始于約 2022 年

這套流程久經(jīng)驗證,是訓練生產(chǎn)級 LLM 的穩(wěn)定配方

而到了 2025 年,可驗證獎勵的強化學習(Reinforcement Learning from Verifiable Rewards, RLVR)正式成為這條流水線上的新主力環(huán)節(jié)


RLVR 的核心思路是讓 LLM 在一系列「答案可以自動驗證」的環(huán)境中訓練,比如數(shù)學題、編程挑戰(zhàn)等。神奇的是,經(jīng)過這種訓練,模型會自發(fā)地「學會思考」:它們開始把復雜問題拆解成中間步驟,并摸索出各種解題策略,比如反復推敲、來回驗證(詳見 DeepSeek R1 論文中的案例)


這些能力在之前的訓練范式下很難實現(xiàn),因為我們根本不知道對于這個模型而言「最優(yōu)的推理路徑」長什么樣,它必須自己在優(yōu)化獎勵的過程中摸索出來

與 SFT 和 RLHF 這兩個相對輕量的階段不同,RLVR 的訓練對象是客觀的、無法被刷分的獎勵函數(shù),模型沒法通過投機取巧來騙取高分,必須真正解決問題,因此可以進行更長時間的優(yōu)化。實踐證明 RLVR 的性價比極高,它像饕餮一樣吞噬了原本留給預訓練的算力

因此 2025 年的能力提升主要來自實驗室們消化這個新階段帶來的紅利,模型參數(shù)規(guī)模沒怎么變,但 RL 訓練跑得更久了


RLVR 還帶來了一個全新的調節(jié)旋鈕和配套的 Scaling Law:
通過生成更長的推理鏈條、增加「思考時間」,我們可以在推理階段用更多算力換取更強的能力


OpenAI 的 o1(2024 年底發(fā)布)是 RLVR 模型的首次亮相,但真正讓人直觀感受到質變的是 2025 年初發(fā)布的 o3

「召喚幽靈」vs「培育動物」/ 參差不齊的智能

2025 年,我以及整個行業(yè)開始真正在直覺層面理解 LLM 智能的「形狀」。我們不是在培育、進化某種動物,而是在召喚幽靈

LLM 的一切都與生物智能不同,神經(jīng)網(wǎng)絡架構、訓練數(shù)據(jù)、訓練算法,尤其是優(yōu)化目標。所以我們得到的是一種在智能空間中截然不同的實體,用動物的思維模式去理解它們并不合適

從監(jiān)督信號的角度看,人類神經(jīng)網(wǎng)絡是為了讓部落在叢林中存活而優(yōu)化的,但 LLM 的神經(jīng)網(wǎng)絡是為了模仿人類的文字、在數(shù)學謎題中拿分、在 LM Arena 上獲得點贊而優(yōu)化的

由于可驗證領域允許 RLVR 訓練,LLM 在這些領域附近的能力會尖峰式飆升,整體呈現(xiàn)出一種令人啼笑皆非的參差不齊特征。它們可以同時是學富五車的天才博學家,又是一個困惑懵懂、隨時可能被越獄攻擊騙走你數(shù)據(jù)的小學生

下圖,展示了人類智能「藍色」和 AI 智能「紅色」的對比

這張 meme 的有趣之處在于,它也指出了人類智能同樣是參差不齊的,只是參差的形狀不同


與此相關的是我在 2025 年對基準測試產(chǎn)生了普遍的冷感和不信任。核心問題在于基準測試幾乎從定義上就是可驗證的環(huán)境,因此天然容易被 RLVR 或通過合成數(shù)據(jù)生成的弱化版本攻克

在典型的刷榜流程中,實驗室團隊不可避免地會在基準測試所占據(jù)的嵌入空間小角落周圍構建訓練環(huán)境,然后長出覆蓋它們的尖刺。在測試集上訓練已經(jīng)成為一門新的藝術形式

如果我們刷爆了所有基準測試,卻依然沒有實現(xiàn) AGI,那會是什么樣子?

關于這一節(jié)的話題,可參考之前的內容:

  • ? Animals vs. Ghosts(動物 vs 幽靈)
    https://karpathy.bearblog.dev/animals-vs-ghosts/

  • ? Verifiability(可驗證性)
    https://karpathy.bearblog.dev/verifiability/

  • ? The Space of Minds(心智的空間)
    https://karpathy.bearblog.dev/the-space-of-minds/

Cursor / LLM 應用的新層級

Cursor 今年最讓我印象深刻的地方,除了它火箭般的增長,是它令人信服地揭示了 LLM 應用的一個新層級,人們開始討論「X 領域的 Cursor」


正如我今年在 Y Combinator 演講中所說,像 Cursor 這樣的 LLM 應用會針對特定垂直領域打包和編排 LLM 調用:

  • ? 它們負責上下文工程(Context Engineering)

  • ? 它們在底層編排多次 LLM 調用,串聯(lián)成越來越復雜的有向無環(huán)圖,在性能和成本之間精細權衡

  • ? 它們?yōu)槿嗽诨芈分校℉uman in the Loop)提供針對特定應用的圖形界面

  • ? 它們提供一個自主性滑塊,讓用戶決定 AI 可以自己做多少決定

2025 年有大量討論圍繞這個新應用層有多厚展開。LLM 實驗室會不會通吃所有應用場景?還是說 LLM 應用創(chuàng)業(yè)者仍有廣闊天地?

我個人的判斷是 LLM 實驗室傾向于培養(yǎng)出能力全面的大學畢業(yè)生,而 LLM 應用則會通過組織、微調,并結合私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路,把這些畢業(yè)生真正培訓成特定垂直領域的專業(yè)人士


Claude Code / 住在你電腦里的 AI

Claude Code 是第一個令人信服地展示了 LLM 智能體面貌的產(chǎn)品,它以循環(huán)的方式串聯(lián)起工具調用和推理,進行持續(xù)的問題求解

此外 Claude Code 讓我印象深刻的一點是它運行在你自己的電腦上,使用你的私有環(huán)境、數(shù)據(jù)和上下文。我認為 OpenAI 在這一點上走錯了路,他們早期的 Codex / Agent 工作重心放在了云端部署,在 ChatGPT 調度的容器里運行,而不是簡單地跑在本地


誠然在云端運行的智能體集群感覺像是 AGI 的終極形態(tài),但我們活在一個參差能力的中間世界,takeoff 足夠緩慢,因此讓智能體直接跑在開發(fā)者的電腦上更為合理

注意,真正關鍵的區(qū)別不在于 AI 操作碰巧在哪里運行(云端、本地還是別處),而在于其他一切:那臺已經(jīng)開機、配置好的電腦,它的安裝環(huán)境、上下文、數(shù)據(jù)、密鑰、配置,以及低延遲的交互

Anthropic 正確把握了這個優(yōu)先級,并將 Claude Code 打包成一個精致、極簡的命令行工具,改變了 AI 的面貌。它不再只是一個你去訪問的網(wǎng)站,而是一個住在你電腦里的小精靈。這是一種與 AI 交互的全新范式

氛圍編程(Vibe Coding)

2025 年是 AI 跨越能力門檻的一年,人們可以純用英語說出各種令人驚嘆的程序,甚至忘記代碼的存在。有趣的是「vibe coding」這個詞是我在一條靈光乍現(xiàn)的推文里隨手造的,完全沒想到它能傳播這么遠


有了氛圍編程,編程不再是受過高度訓練的專業(yè)人士的專屬,而是任何人都能做的事。從這個意義上說它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所寫內容的又一例證。與以往所有技術形成鮮明對比,普通人從 LLM 中獲得的收益遠遠超過專業(yè)人士、企業(yè)和政府

但氛圍編程不僅僅賦能普通人接觸編程,它還讓訓練有素的專業(yè)人士能夠寫出大量本來永遠不會被寫出的軟件。在 nanochat 項目中,我氛圍編程用 Rust 寫了一個高度定制、極其高效的 BPE 分詞器,而不必去學習現(xiàn)有的庫或真正精通 Rust

今年我氛圍編程寫了很多項目作為快速演示,比如 menugen、llm-council、reader3、HN time capsule。我甚至氛圍編程寫過一次性的臨時程序只為找到一個 bug,為什么不呢?代碼突然變得免費、短命、可塑、用完即棄


氛圍編程將重塑軟件業(yè),改變職位描述

Nano Banana / LLM 的圖形界面

Google Gemini Nano Banana 是 2025 年最令人驚嘆、最具范式轉變意義的模型之一

在我的世界觀里 LLM 是下一個重大計算范式,類似于 1970 年代、80 年代的計算機。因此我們將看到類似的創(chuàng)新浪潮,出于本質上相同的原因。我們將看到個人計算的等價物、微控制器的等價物(認知內核)、互聯(lián)網(wǎng)的等價物(智能體互聯(lián)網(wǎng))等等

具體到用戶界面,與 LLM 聊天有點像 1980 年代在計算機控制臺上敲命令。文本是計算機和 LLM 偏愛的原始數(shù)據(jù)表示,但它不是人類偏愛的格式,尤其是在輸入端。人們其實不喜歡閱讀文字,它慢且費力。相反人們喜歡以視覺化、空間化的方式消費信息,這正是傳統(tǒng)計算中發(fā)明圖形用戶界面的原因


同理 LLM 應該用我們偏愛的格式與我們交流:圖像、信息圖表、幻燈片、白板、動畫視頻、Web 應用等等。當然目前早期和現(xiàn)有的版本是 emoji 和 Markdown 這類東西,它們是裝扮和排版文字的方式,用標題、粗體、斜體、列表、表格等讓閱讀更輕松。但誰真正會去構建 LLM 的 GUI 呢?


從這個視角看 Nano Banana 是一個早期的雛形,暗示了未來可能的樣子。重要的是它不僅僅關乎圖像生成本身,而是關乎文本生成、圖像生成、世界知識三者融合在模型權重中所產(chǎn)生的聯(lián)合能力

小結

2025 年是 LLM 令人興奮的一年

LLM 正在作為一種全新的智能形態(tài)浮現(xiàn),它們同時比我預想的聰明得多,也比我預想的蠢得多。無論如何它們極其有用,而我認為即便在當前的能力水平下,整個行業(yè)也遠未實現(xiàn)其 10% 的潛力

與此同時有太多想法值得嘗試,從概念上看這個領域依然廣闊開放。正如我今年早些時候在 Dwarkesh 播客中提到的,我同時相信我們將繼續(xù)見證快速而持續(xù)的進步,但同時仍有大量工作要做

系好安全帶

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曼聯(lián)冬窗首簽浮現(xiàn)!9000萬求購德甲邊鋒 他是非洲杯過人王

曼聯(lián)冬窗首簽浮現(xiàn)!9000萬求購德甲邊鋒 他是非洲杯過人王

球事百科吖
2026-01-10 06:44:12
突變!竟然說出這句話!“沒美國,你在中國俄羅斯面前,啥也不是!”

突變!竟然說出這句話!“沒美國,你在中國俄羅斯面前,啥也不是!”

喀秋莎大世界
2026-01-08 22:33:44
女人染上“性癮”是一種怎樣的體驗?可能和你想象得不同

女人染上“性癮”是一種怎樣的體驗?可能和你想象得不同

紙上的心語
2025-11-23 11:36:00
侄女每次來我家都不肯進門,我偷裝了針孔監(jiān)控,看監(jiān)控后我渾身發(fā)冷

侄女每次來我家都不肯進門,我偷裝了針孔監(jiān)控,看監(jiān)控后我渾身發(fā)冷

罪案洞察者
2026-01-07 10:59:18
網(wǎng)友冰島偶遇周也,和素人合影卻翻車,網(wǎng)友吐槽:顏值比不上素人

網(wǎng)友冰島偶遇周也,和素人合影卻翻車,網(wǎng)友吐槽:顏值比不上素人

小徐講八卦
2026-01-09 09:30:17
周琦:很多國外球員挺看不起亞洲人,職業(yè)生涯最多十幾年需要為以后考慮

周琦:很多國外球員挺看不起亞洲人,職業(yè)生涯最多十幾年需要為以后考慮

懂球帝
2026-01-09 19:34:07
網(wǎng)紅“狗頭蘿莉”自曝:負債650萬成老賴,出行受限

網(wǎng)紅“狗頭蘿莉”自曝:負債650萬成老賴,出行受限

暖心萌阿菇?jīng)?/span>
2026-01-09 19:35:47
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
深夜夫妻駕車過山路,遇小孩求救,丈夫剛要停車,妻子大叫:快走

深夜夫妻駕車過山路,遇小孩求救,丈夫剛要停車,妻子大叫:快走

卡西莫多的故事
2025-11-22 15:13:21
WTT冠軍賽:女單大爆冷!國乒主力2:3不敵削球手,王曼昱3:0晉級

WTT冠軍賽:女單大爆冷!國乒主力2:3不敵削球手,王曼昱3:0晉級

國乒二三事
2026-01-10 06:35:58
秦海璐春晚彩排被偶遇,穿大衣戴墨鏡氣場全開,網(wǎng)友:被帥一臉!

秦海璐春晚彩排被偶遇,穿大衣戴墨鏡氣場全開,網(wǎng)友:被帥一臉!

木子愛娛樂大號
2026-01-09 21:45:16
“大尺度”新年掛歷火了!活菩薩椰樹慫了

“大尺度”新年掛歷火了!活菩薩椰樹慫了

李東陽朋友圈
2026-01-09 20:01:49
2026年退休新規(guī)來了!身份證年齡作廢,25年鐵律曝光,早看少吃虧

2026年退休新規(guī)來了!身份證年齡作廢,25年鐵律曝光,早看少吃虧

復轉這些年
2026-01-08 23:43:01
幫忙帶娃被網(wǎng)暴后續(xù),小姑子曬出多張證據(jù),親戚透露更多內情

幫忙帶娃被網(wǎng)暴后續(xù),小姑子曬出多張證據(jù),親戚透露更多內情

丁丁鯉史紀
2026-01-07 11:13:43
利率飆至2.95%!銀行開門紅瘋搶存款,貼息送禮藏坑,3招避坑不虧

利率飆至2.95%!銀行開門紅瘋搶存款,貼息送禮藏坑,3招避坑不虧

藍色海邊
2026-01-10 04:02:27
紀實:楊佳襲警案,北京小伙對執(zhí)法不滿,手拿剔骨刀砍死6位民警

紀實:楊佳襲警案,北京小伙對執(zhí)法不滿,手拿剔骨刀砍死6位民警

談史論天地
2026-01-08 19:40:03
第三架殲-36現(xiàn)身!印媒斷言:轟20首飛近在眼前

第三架殲-36現(xiàn)身!印媒斷言:轟20首飛近在眼前

楊風
2026-01-08 21:46:23
一代國民神車謝幕 比亞迪宋PLUS低調退市

一代國民神車謝幕 比亞迪宋PLUS低調退市

車質網(wǎng)
2026-01-08 09:14:54
俄緊急撤僑,72小時后,以色列或襲擊伊朗?特朗普:不需要國際法

俄緊急撤僑,72小時后,以色列或襲擊伊朗?特朗普:不需要國際法

林子說事
2026-01-10 06:13:42
首都隆重舉行康生同志追悼大會 1975年12月22日《人民日報》

首都隆重舉行康生同志追悼大會 1975年12月22日《人民日報》

那些看得見的老照片
2026-01-08 11:30:02
2026-01-10 08:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
245文章數(shù) 12關注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:日本吃下中方反制重拳后怕了 欲拉G7給自己壯膽

頭條要聞

媒體:日本吃下中方反制重拳后怕了 欲拉G7給自己壯膽

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關曉彤鹿晗風波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

游戲
家居
手機
公開課
軍事航空

Steam 模組版本控制功能上線 / 《底特律:變人》銷量破1500萬

家居要聞

木色留白 演繹現(xiàn)代自由

手機要聞

網(wǎng)易數(shù)碼2025年度好物揭曉:30款精選產(chǎn)品上榜,你用過哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進入關懷版