国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

林俊旸看到了什么

0
分享至


作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

Ilya Sutskever離開(kāi)OpenAI的時(shí)候,外界一度用一個(gè)半開(kāi)玩笑的句式表達(dá)對(duì)他當(dāng)時(shí)在技術(shù)判斷上的好奇。這個(gè)戲劇性的離開(kāi)決定背后,他究竟對(duì)當(dāng)時(shí)技術(shù)發(fā)展路線有何思考:What did Ilya see?

今天似乎也可以借用這個(gè)句式來(lái)討論剛剛離開(kāi)阿里巴巴,曾負(fù)責(zé)Qwen模型訓(xùn)練的林俊旸最新發(fā)布的一篇長(zhǎng)文。

這是他離開(kāi)Qwen后發(fā)的第一篇系統(tǒng)性的思考,這意味著它的很多觀點(diǎn)來(lái)自于Qwen的訓(xùn)練過(guò)程,同時(shí)又脫離了在這個(gè)團(tuán)隊(duì)里去討論它的局限。

一個(gè)真正操盤(pán)過(guò)今天最重要的模型之一的全部訓(xùn)練過(guò)程,同時(shí)可以避開(kāi)純內(nèi)部視角做思考,并系統(tǒng)呈現(xiàn)出來(lái)的研究者,今天沒(méi)有幾個(gè),這篇文章也因此值得仔細(xì)閱讀:What did Junyang see?

這篇題目為From "Reasoning" Thinking to "Agentic" Thinking的文章用英文首發(fā)在X上。全文中文翻譯我們放在文后。

和很多引起AI從業(yè)者廣泛討論的長(zhǎng)文一樣,它嘗試給一個(gè)所有人都感受著的巨大變化一個(gè)描述和定義,而非在預(yù)測(cè)什么還沒(méi)發(fā)生的事情。

他認(rèn)為AI技術(shù)演變此刻經(jīng)歷的切換,是從推理式思考到agent式思考的變化。

他給后者的定義是:

Agentic thinking is a model that reasons through action. 智能體式思考指的就是一個(gè)通過(guò)行動(dòng)來(lái)推理的模型。

這些判斷來(lái)自他自己對(duì)各個(gè)前沿實(shí)驗(yàn)室所做嘗試的思考,以及在Qwen的訓(xùn)練上直接踩過(guò)的坑。

OpenAI的O系列打開(kāi)了推理時(shí)代,但這些推理不夠靈活,何時(shí)該快何時(shí)該慢,無(wú)法解決,Qwen的嘗試更是“沒(méi)完全做對(duì)”,因?yàn)閺?fù)雜思考所需的訓(xùn)練,和反而是很多客戶需要的直接快速回答的訓(xùn)練,是沖突的。

在對(duì)比各家做法里,他認(rèn)為Anthropic的做法最有啟發(fā):思考應(yīng)該為具體的工作目標(biāo)服務(wù)。先判斷目標(biāo)任務(wù)類型,再對(duì)應(yīng)選擇模型思考方式。這樣,在編程等任務(wù)里,對(duì)AI推理質(zhì)量的判斷標(biāo)準(zhǔn)得以從o系列的“長(zhǎng)時(shí)間,重過(guò)程”的框子里跳出,并且更重要的是,這個(gè)思考過(guò)程需要天然就帶上工具調(diào)用、自我糾錯(cuò)等能力。

這樣一來(lái),模型的推理成為更復(fù)雜系統(tǒng)的一部分,新的推理能力需要通過(guò)對(duì)一整個(gè)agent系統(tǒng)的訓(xùn)練來(lái)完成。

而與其他諸多雄文不同的是,他的內(nèi)容沒(méi)停在這,而是直接給出了他認(rèn)為的具體解法。甚至,在外界廣泛關(guān)注他的下一步的此刻,這也可以視作劇透:

除了具體到諸如“訓(xùn)練和推理必須更清晰地解耦”,多agent系統(tǒng)里的分工,甚至是reward hacking 的具體有哪些“坑”等細(xì)節(jié)外,最重要的可能是這個(gè)判斷——

他認(rèn)為隨著Agentic Thinking變得重要,以往更多由模型自己主導(dǎo)智能進(jìn)步時(shí)的很多標(biāo)準(zhǔn)可以推翻了。

“訓(xùn)練的核心對(duì)象已變,不再是單一模型,而變成了模型 + 環(huán)境構(gòu)成的整個(gè)系統(tǒng)。更具體地說(shuō),是agent本身,配上圍繞它的一切工程。這意味著研究重要性也變了:模型架構(gòu)和訓(xùn)練數(shù)據(jù)自然是還很重要,但環(huán)境設(shè)計(jì)、吞吐基礎(chǔ)設(shè)施、評(píng)估器魯棒性、以及多個(gè)agent之間的協(xié)調(diào),重要性一點(diǎn)不亞于前者?!?/b>

這意味著競(jìng)爭(zhēng)的點(diǎn)也變成比拼誰(shuí)有更好的訓(xùn)練環(huán)境和更強(qiáng)的系統(tǒng)工程能力,以及在現(xiàn)實(shí)世界里做決策,然后得到真實(shí)反饋,再進(jìn)行學(xué)習(xí)的這個(gè)RL循環(huán)的能力。

他直接點(diǎn)出來(lái)一個(gè)創(chuàng)業(yè)方向:“環(huán)境構(gòu)建是下個(gè)熱門(mén)的創(chuàng)業(yè)方向”。

“環(huán)境構(gòu)建正在從一個(gè)順手搭的實(shí)驗(yàn)配件,變成一個(gè)獨(dú)立的創(chuàng)業(yè)賽道。如果你訓(xùn)練的智能體最終要在類生產(chǎn)環(huán)境中運(yùn)作,那這個(gè)環(huán)境本身就是你核心能力棧的一部分?!?/b>

他接下來(lái)要做的事情似乎也呼之欲出了。

在這些對(duì)整個(gè)技術(shù)所處階段的判斷之外,這篇文章也體現(xiàn)出林俊旸的個(gè)人思考方式特點(diǎn)。其中一個(gè)就是他對(duì)操控一整個(gè)復(fù)雜系統(tǒng)的癡迷。

他認(rèn)為,未來(lái)的路線圖是三級(jí)跳:從訓(xùn)練模型,到訓(xùn)練智能體,再到訓(xùn)練系統(tǒng)。

他的這篇文章必然會(huì)被拿來(lái)與已經(jīng)掌管起騰訊模型的姚順雨一年前那篇《AI下半場(chǎng)》做對(duì)比,而對(duì)于一個(gè)復(fù)雜系統(tǒng)的執(zhí)迷以及過(guò)去直接在最頂端操盤(pán)一整個(gè)大規(guī)模復(fù)雜系統(tǒng)的直接經(jīng)驗(yàn),可能是這兩篇文章里體現(xiàn)思路上最大的不同。


從他對(duì)“agent化思考”的解釋可以看出,在這里agent已經(jīng)不是被當(dāng)作模型的某種應(yīng)用形態(tài),它最終會(huì)大過(guò)模型。

過(guò)去很長(zhǎng)一段時(shí)間,大家對(duì)agent的討論的起點(diǎn)是,“模型很強(qiáng)大,要把它的能力釋放,構(gòu)建一個(gè)agent是個(gè)不錯(cuò)的主意”?!断掳雸?chǎng)》的文章里,最重要的觀點(diǎn)之一“語(yǔ)言通過(guò)agent中的推理實(shí)現(xiàn)泛化”也是這個(gè)意思。而林俊旸文章里體現(xiàn)出來(lái)的判斷則是:

agent已經(jīng)是最核心的那個(gè)智能系統(tǒng)本身,模型反而應(yīng)該只是其中一部分。

所以,接下來(lái)所有資源投入的方向、需要訓(xùn)練和進(jìn)化的也是這個(gè)系統(tǒng)本身。不再是要釋放模型能力,而是如何讓模型和系統(tǒng)里其他零部件一起最優(yōu)化地得到訓(xùn)練。

這是最大的變化,我們可能又到了一個(gè)可以打翻一切重新思考的時(shí)刻了。

附文章中文翻譯版

從“推理式思考”到“智能體式思考”

過(guò)去兩年,模型的評(píng)估方式,以及我們對(duì)模型能力的期待,都被徹底改寫(xiě)了。OpenAI 的 o1 證明了一件事:“思考”本身可以成為一種一等能力——它不僅可以被專門(mén)訓(xùn)練,也可以被直接暴露給用戶。DeepSeek-R1 則進(jìn)一步證明,帶有“推理”風(fēng)格的后訓(xùn)練方法,不只存在于最初那幾家頂級(jí)實(shí)驗(yàn)室內(nèi)部,它是可以被復(fù)現(xiàn)、被擴(kuò)展的。OpenAI 將 o1 描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練、能夠“在回答前先思考”的模型;DeepSeek 則把 R1 定位為一個(gè)開(kāi)放的推理模型,并宣稱其競(jìng)爭(zhēng)力可以對(duì)標(biāo) o1。

那個(gè)階段當(dāng)然很重要。但 2025 年上半年,行業(yè)主要討論的,仍然是“推理式思考”:如何讓模型在推理階段消耗更多計(jì)算、如何用更強(qiáng)的獎(jiǎng)勵(lì)機(jī)制去訓(xùn)練它、如何把這種額外的思考過(guò)程開(kāi)放給用戶,或者加以控制。

現(xiàn)在真正的問(wèn)題是:下一步是什么?

我認(rèn)為答案是:智能體式思考。也就是,為了行動(dòng)而思考;在與環(huán)境持續(xù)交互的過(guò)程中思考;并根據(jù)來(lái)自世界的反饋,不斷更新自己的計(jì)劃。

1. o1 和 R1 的崛起,真正教會(huì)了我們什么

第一波推理模型帶來(lái)的最重要啟示是:如果我們想把強(qiáng)化學(xué)習(xí)真正規(guī)模化地應(yīng)用到語(yǔ)言模型上,就必須擁有確定、穩(wěn)定、可擴(kuò)展的反饋信號(hào)。因此,數(shù)學(xué)、代碼、邏輯以及其他可驗(yàn)證領(lǐng)域迅速成為核心,因?yàn)樵谶@些場(chǎng)景里,獎(jiǎng)勵(lì)信號(hào)遠(yuǎn)比一般的偏好監(jiān)督更強(qiáng)。它們讓強(qiáng)化學(xué)習(xí)優(yōu)化的是“正確性”,而不是“看起來(lái)合理”。

這時(shí),基礎(chǔ)設(shè)施就變得至關(guān)重要。

一旦模型被訓(xùn)練成可以沿著更長(zhǎng)的軌跡進(jìn)行推理,強(qiáng)化學(xué)習(xí)就不再只是監(jiān)督微調(diào)之上的一個(gè)輕量附加層,而會(huì)變成一個(gè)系統(tǒng)工程問(wèn)題。你需要大規(guī)模 rollout,需要高吞吐的驗(yàn)證機(jī)制,需要穩(wěn)定的策略更新,還需要高效采樣。推理模型的出現(xiàn),本質(zhì)上既是一個(gè)建模故事,也是一個(gè)基礎(chǔ)設(shè)施故事。OpenAI 將 o1 描述為一條通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的“推理模型線”;而后來(lái)的 DeepSeek R1,又進(jìn)一步證明了:基于推理的強(qiáng)化學(xué)習(xí),需要大量專門(mén)的算法與基礎(chǔ)設(shè)施工作支撐。

第一個(gè)重大轉(zhuǎn)折已經(jīng)非常清楚:從擴(kuò)展預(yù)訓(xùn)練,轉(zhuǎn)向擴(kuò)展面向推理的后訓(xùn)練。

2. 真正的問(wèn)題,從來(lái)不只是“把 Thinking 和 Instruct 合并”

在 2025 年初,我們 Qwen 團(tuán)隊(duì)內(nèi)部曾經(jīng)有過(guò)一個(gè)相當(dāng)宏大的設(shè)想:理想中的系統(tǒng),應(yīng)該把 thinking 模式和 instruct 模式統(tǒng)一起來(lái)。它應(yīng)當(dāng)支持可調(diào)節(jié)的推理強(qiáng)度,類似 low / medium / high 這樣的思考檔位。更進(jìn)一步,它最好還能根據(jù) prompt 和上下文自動(dòng)推斷出合適的思考量,讓模型自己決定:什么時(shí)候立刻回答,什么時(shí)候多想一會(huì)兒,什么時(shí)候則值得為一個(gè)真正困難的問(wèn)題投入更多算力。

從概念上看,這個(gè)方向當(dāng)然是對(duì)的。Qwen3 就是其中最清晰、最公開(kāi)的一次嘗試之一。它提出了“混合思考模式”,在同一個(gè)模型家族中同時(shí)支持 thinking 和 non-thinking 兩類行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一條四階段的后訓(xùn)練流程,其中在長(zhǎng)鏈?zhǔn)剿季S冷啟動(dòng)和推理強(qiáng)化學(xué)習(xí)之后,還明確包含了“思考模式融合”這一步。

但“合并”這件事,說(shuō)起來(lái)容易,真正做好卻非常難。

最難的部分,其實(shí)是數(shù)據(jù)。

當(dāng)人們談?wù)撊绾稳诤?thinking 和 instruct 時(shí),首先想到的往往是模型側(cè)的兼容性:一個(gè) checkpoint 能不能同時(shí)支持兩種模式?一個(gè) chat template 能不能在二者之間切換?一個(gè) serving stack 能不能把這些控制開(kāi)關(guān)優(yōu)雅地暴露出來(lái)?

但更深層的問(wèn)題在于:這兩種模式的數(shù)據(jù)分布和行為目標(biāo),本質(zhì)上差異很大。

我們?cè)趪L試平衡模型融合與后訓(xùn)練數(shù)據(jù)質(zhì)量、多樣性提升的過(guò)程中,并沒(méi)有把所有事情都做對(duì)。與此同時(shí),我們也非常關(guān)注用戶實(shí)際是如何使用 thinking 模式和 instruct 模式的。一個(gè)強(qiáng) instruct 模型,通常會(huì)因?yàn)橐韵绿匦远华?jiǎng)勵(lì):直接、簡(jiǎn)潔、格式服從性強(qiáng)、低延遲,尤其擅長(zhǎng)處理那些重復(fù)性高、吞吐量大、企業(yè)場(chǎng)景常見(jiàn)的任務(wù),比如改寫(xiě)、標(biāo)注、模板化客服、結(jié)構(gòu)化抽取、運(yùn)營(yíng)問(wèn)答等。一個(gè)強(qiáng) thinking 模型,則會(huì)因?yàn)樵敢庠陔y題上消耗更多 token、能維持清晰的中間推理結(jié)構(gòu)、會(huì)探索替代路徑、并保留足夠多的內(nèi)部計(jì)算以切實(shí)提高最終正確率,而獲得獎(jiǎng)勵(lì)。

這兩種行為畫(huà)像,本身就是彼此拉扯的。

如果融合數(shù)據(jù)沒(méi)有被極其謹(jǐn)慎地整理,最終結(jié)果通常就是“兩頭都不夠好”:thinking 側(cè)會(huì)變得嘈雜、臃腫、或者缺乏決斷力;instruct 側(cè)則會(huì)失去原本的干脆、可靠和低成本,而這恰恰是商業(yè)用戶真正想要的。

所以在實(shí)踐中,“分開(kāi)做”依然很有吸引力。到了 2025 年后期,在 Qwen3 最初提出 hybrid framing 之后,2507 系列又分別發(fā)布了獨(dú)立的 Instruct 和 Thinking 更新,包括各自獨(dú)立的 30B 和 235B 版本。在商業(yè)部署里,大量客戶依舊明確需要高吞吐、低成本、高可控的 instruct 行為,去處理批量任務(wù)。對(duì)于這些場(chǎng)景來(lái)說(shuō),“融合”并不顯然是一種優(yōu)勢(shì)。將兩條線拆開(kāi),反而讓團(tuán)隊(duì)可以更專注地解決各自模式背后的數(shù)據(jù)和訓(xùn)練問(wèn)題。

當(dāng)然,也有其他實(shí)驗(yàn)室走了相反的路。Anthropic 公開(kāi)主張一種“集成式模型”哲學(xué):Claude 3.7 Sonnet 被介紹為一個(gè)混合推理模型,用戶既可以選擇普通回答,也可以開(kāi)啟 extended thinking,API 用戶還可以設(shè)置 thinking budget。Anthropic 明確表示,他們相信推理能力應(yīng)該是集成在模型內(nèi)部的能力,而不是一個(gè)獨(dú)立模型。GLM-4.5 也公開(kāi)把自己定位成一個(gè)同時(shí)包含 thinking 與 non-thinking 模式的混合推理模型,把推理、編碼和 agent 能力統(tǒng)一在一起;DeepSeek 隨后也在 V3.1 的“Think & Non-Think”混合推理中,朝著類似方向推進(jìn)。

真正關(guān)鍵的問(wèn)題,其實(shí)是:這種合并是不是“自然長(zhǎng)出來(lái)”的。

如果 thinking 和 instruct 只是被強(qiáng)行塞進(jìn)同一個(gè) checkpoint 里,但表現(xiàn)出來(lái)仍然像兩個(gè)別扭拼接在一起的人格,那最終的產(chǎn)品體驗(yàn)依舊會(huì)很不自然。真正成功的融合,應(yīng)該呈現(xiàn)出一個(gè)平滑的推理強(qiáng)度譜系。模型應(yīng)當(dāng)能夠表達(dá)多種不同層級(jí)的思考投入,最好還能自適應(yīng)地做出選擇。GPT 風(fēng)格的 effort control 所指向的,其實(shí)正是這個(gè)方向:它不是一個(gè)二元開(kāi)關(guān),而是一種關(guān)于計(jì)算資源分配的策略。

3. 為什么 Anthropic 的方向,是一次有價(jià)值的糾偏

Anthropic 在 Claude 3.7 和 Claude 4 上的公開(kāi)表述一直相對(duì)克制。他們強(qiáng)調(diào)的是集成式推理、用戶可控的思考預(yù)算、真實(shí)世界任務(wù)、代碼質(zhì)量,以及后來(lái)進(jìn)一步強(qiáng)調(diào)的——在 extended thinking 過(guò)程中調(diào)用工具的能力。Claude 3.7 被定義為一個(gè)擁有可控預(yù)算的混合推理模型;Claude 4 則把這件事又往前推進(jìn)了一步:允許推理與工具使用交錯(cuò)發(fā)生。與此同時(shí),Anthropic 始終把編碼、長(zhǎng)時(shí)程任務(wù)和 agent 工作流視為主要目標(biāo)。

更長(zhǎng)的推理痕跡,并不會(huì)自動(dòng)讓模型變得更聰明。

很多時(shí)候,過(guò)度暴露出來(lái)的“思考過(guò)程”,恰恰說(shuō)明模型的資源分配出了問(wèn)題。如果一個(gè)模型試圖以同樣冗長(zhǎng)的方式去“思考所有事情”,那它可能并不是更深刻,而是沒(méi)能正確排序優(yōu)先級(jí)、沒(méi)能有效壓縮信息、也沒(méi)能及時(shí)行動(dòng)。Anthropic 的路線,某種程度上體現(xiàn)了一種更有紀(jì)律的看法:思考應(yīng)當(dāng)被目標(biāo)工作負(fù)載塑形。

如果目標(biāo)是編碼,那么思考就應(yīng)該幫助模型完成代碼庫(kù)導(dǎo)航、任務(wù)規(guī)劃、問(wèn)題拆解、錯(cuò)誤恢復(fù)與工具編排。

如果目標(biāo)是 agent 工作流,那么思考就應(yīng)該提升它在長(zhǎng)時(shí)間跨度執(zhí)行中的質(zhì)量,而不是只產(chǎn)出一段看起來(lái)很厲害的中間 prose。

這種對(duì)“針對(duì)性效用”的強(qiáng)調(diào),其實(shí)指向了更大的變化:我們正在從“訓(xùn)練模型”的時(shí)代,走向“訓(xùn)練智能體”的時(shí)代。

我們?cè)?Qwen3 的博客里其實(shí)也明確寫(xiě)過(guò)這一點(diǎn):“我們正從一個(gè)聚焦于訓(xùn)練模型的時(shí)代,轉(zhuǎn)向一個(gè)以訓(xùn)練智能體為中心的時(shí)代?!蓖瑫r(shí),我們也把未來(lái)強(qiáng)化學(xué)習(xí)的進(jìn)展,與環(huán)境反饋驅(qū)動(dòng)下的長(zhǎng)時(shí)程推理聯(lián)系在一起。

所謂智能體,是一種能夠制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修正策略,并在長(zhǎng)時(shí)間尺度上持續(xù)推進(jìn)任務(wù)的系統(tǒng)。它的定義,不在于會(huì)不會(huì)“多想一點(diǎn)”,而在于它是否能與世界形成閉環(huán)交互。

4. “智能體式思考”到底意味著什么

智能體式思考,對(duì)應(yīng)的是一種完全不同的優(yōu)化目標(biāo)。

傳統(tǒng)的推理式思考,通常看的是:在給出最終答案之前,模型內(nèi)部的 deliberation 質(zhì)量如何。它能不能把定理做出來(lái)?能不能寫(xiě)出證明?能不能生成正確代碼?能不能通過(guò) benchmark?

而智能體式思考關(guān)注的是另一件事:模型在與環(huán)境交互的過(guò)程中,能否持續(xù)推進(jìn)任務(wù)。

核心問(wèn)題也因此發(fā)生了變化:它不再是“模型能不能思考得足夠久”,而是“模型能不能以一種能夠支撐有效行動(dòng)的方式去思考”。

智能體式思考必須處理好幾類事情,而這些恰恰是純推理模型往往可以回避的:

  • 什么時(shí)候該停止思考,轉(zhuǎn)而采取行動(dòng)

  • 應(yīng)該調(diào)用哪個(gè)工具,以及調(diào)用順序是什么

  • 如何吸收來(lái)自環(huán)境的噪聲信息或不完整觀測(cè)

  • 失敗后如何修改計(jì)劃

  • 如何在多輪交互、多次工具調(diào)用中保持連貫性

歸根到底,智能體式思考,就是一種通過(guò)行動(dòng)來(lái)完成推理的模型能力。

5. 為什么面向智能體的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施更難

一旦目標(biāo)從“解 benchmark 題”切換為“完成交互式任務(wù)”,強(qiáng)化學(xué)習(xí)的整個(gè)技術(shù)棧也會(huì)隨之改變。經(jīng)典推理強(qiáng)化學(xué)習(xí)所使用的那套基礎(chǔ)設(shè)施,已經(jīng)不夠用了。

在傳統(tǒng) reasoning RL 中,rollout 往往可以被視作相對(duì)封閉的軌跡,評(píng)估器也通常比較干凈、明確。而在 agentic RL 里,策略本身被嵌入進(jìn)了一個(gè)更大的執(zhí)行框架中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng),以及各種 orchestration framework。環(huán)境不再只是一個(gè)靜態(tài)驗(yàn)證器,而成了訓(xùn)練系統(tǒng)本身的一部分。

這會(huì)帶來(lái)一個(gè)新的系統(tǒng)性要求:訓(xùn)練與推理必須被更徹底地解耦。

如果做不到這一點(diǎn),rollout 的吞吐量就會(huì)迅速崩掉。想象一個(gè)編碼智能體:它需要把自己生成的代碼扔到一個(gè)真實(shí)的測(cè)試框架里去執(zhí)行。此時(shí),推理側(cè)會(huì)因?yàn)榈却龍?zhí)行反饋而停滯,訓(xùn)練側(cè)則因?yàn)槟貌坏揭淹瓿绍壽E而“斷糧”,整個(gè)流水線的 GPU 利用率會(huì)遠(yuǎn)低于經(jīng)典 reasoning RL 的水平。再疊加工具延遲、部分可觀測(cè)性和有狀態(tài)環(huán)境,這種低效只會(huì)被進(jìn)一步放大。結(jié)果就是:在你真正抵達(dá)目標(biāo)能力水平之前,實(shí)驗(yàn)速度就已經(jīng)慢到令人痛苦。

與此同時(shí),環(huán)境本身也開(kāi)始成為一種一等研究對(duì)象。

在 SFT 時(shí)代,我們癡迷于數(shù)據(jù)多樣性;而在 agent 時(shí)代,我們更應(yīng)該癡迷于環(huán)境質(zhì)量:它是否穩(wěn)定、是否真實(shí)、覆蓋度夠不夠、難度是否合適、狀態(tài)空間是否足夠豐富、反饋是否足夠有信息量、是否抗 exploit、rollout 生成能不能規(guī)模化。

環(huán)境構(gòu)建,已經(jīng)開(kāi)始從一個(gè)“順手做的副項(xiàng)目”,逐漸變成一個(gè)真正的創(chuàng)業(yè)賽道。因?yàn)槿绻阌?xùn)練的是一個(gè)要在接近生產(chǎn)環(huán)境的設(shè)置中運(yùn)行的智能體,那么環(huán)境本身就是核心能力棧的一部分。

6. 下一個(gè)前沿,是“更可用的思考”

我的判斷是,智能體式思考會(huì)成為主導(dǎo)性的思考范式。它最終甚至可能替代掉很大一部分舊式、靜態(tài)、獨(dú)白式的推理:那種過(guò)長(zhǎng)、封閉的內(nèi)部思考痕跡,試圖靠吐出越來(lái)越多文本,來(lái)彌補(bǔ)缺乏交互能力的不足。即便是在非常困難的數(shù)學(xué)或編碼任務(wù)上,一個(gè)真正先進(jìn)的系統(tǒng),也理應(yīng)擁有搜索、模擬、執(zhí)行、檢查、驗(yàn)證、修正的權(quán)利。我們的目標(biāo),是讓它穩(wěn)健且高產(chǎn)地解決問(wèn)題。

訓(xùn)練這類系統(tǒng)時(shí),最難的問(wèn)題之一,是 reward hacking。

一旦模型真正擁有了工具訪問(wèn)能力,reward hacking 就會(huì)變得危險(xiǎn)得多。一個(gè)能搜索的模型,可能會(huì)在 RL 過(guò)程中學(xué)會(huì)直接查答案;一個(gè)編碼智能體,可能會(huì)利用代碼倉(cāng)庫(kù)里的未來(lái)信息、濫用日志、或者發(fā)現(xiàn)某些能讓任務(wù)“看似完成”的捷徑,從而讓評(píng)估失真。只要環(huán)境里存在隱藏泄漏,策略就可能看起來(lái)像“超人”,但其實(shí)它學(xué)會(huì)的只是作弊。

這也是為什么,智能體時(shí)代會(huì)比推理時(shí)代更加脆弱、更加精細(xì)。更強(qiáng)的工具會(huì)讓模型更有用,但同時(shí)也會(huì)顯著擴(kuò)大虛假優(yōu)化的攻擊面。接下來(lái)真正嚴(yán)肅的研究瓶頸,很可能會(huì)集中在環(huán)境設(shè)計(jì)、評(píng)估器魯棒性、反作弊協(xié)議,以及 policy 與真實(shí)世界之間更原則化的接口設(shè)計(jì)上。

但方向已經(jīng)非常清楚了:帶工具的思考,天然比孤立的思考更有用,也更有可能真正提升生產(chǎn)力。

智能體式思考還將意味著另一件事:執(zhí)行框架工程(harness engineering) 會(huì)變得越來(lái)越重要。未來(lái)的核心智能,越來(lái)越可能來(lái)自多個(gè)智能體是如何被組織起來(lái)的:一個(gè)負(fù)責(zé)任務(wù)規(guī)劃和路由的 orchestrator,一組扮演領(lǐng)域?qū)<业膶S弥悄荏w,以及若干執(zhí)行更窄任務(wù)的 sub-agents;它們共同幫助系統(tǒng)控制上下文、避免污染,并在不同層級(jí)的推理之間維持隔離。

未來(lái)的演進(jìn)路徑會(huì)是:從訓(xùn)練模型,到訓(xùn)練智能體;再?gòu)挠?xùn)練智能體,到訓(xùn)練系統(tǒng)。

結(jié)論

這一輪推理浪潮的第一階段,已經(jīng)確認(rèn)了一件非常重要的事:當(dāng)反饋信號(hào)足夠可靠、基礎(chǔ)設(shè)施足夠支撐時(shí),疊加在語(yǔ)言模型之上的強(qiáng)化學(xué)習(xí),確實(shí)能夠產(chǎn)生質(zhì)變級(jí)別的認(rèn)知提升。

但更深層的轉(zhuǎn)變,其實(shí)是:從推理式思考,走向智能體式思考;從“思考更久”,走向“為了行動(dòng)而思考”。

訓(xùn)練的核心對(duì)象已經(jīng)變了。它不再只是模型本身,而是“模型 + 環(huán)境”的整個(gè)系統(tǒng);更具體地說(shuō),是智能體,以及包裹在它周?chē)哪翘讏?zhí)行框架。這也改變了什么才是最重要的研究資產(chǎn):當(dāng)然仍然包括模型架構(gòu)和訓(xùn)練數(shù)據(jù),但同樣重要的,還有環(huán)境設(shè)計(jì)、rollout 基礎(chǔ)設(shè)施、評(píng)估器魯棒性,以及多個(gè)智能體彼此協(xié)作時(shí)所依賴的接口。

它還改變了我們對(duì)“好思考”的定義:真正有價(jià)值的,不再是最長(zhǎng)、最顯眼的思維痕跡,而是那個(gè)最能支撐行動(dòng)在真實(shí)世界約束下持續(xù)推進(jìn)的思考軌跡。

它甚至還改變了競(jìng)爭(zhēng)優(yōu)勢(shì)將來(lái)自哪里。

在推理時(shí)代,優(yōu)勢(shì)主要來(lái)自更好的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的反饋信號(hào)、以及更可擴(kuò)展的訓(xùn)練流水線;而在智能體時(shí)代,優(yōu)勢(shì)將更多來(lái)自更好的環(huán)境、更緊密的訓(xùn)練—服務(wù)一體化、更強(qiáng)的執(zhí)行框架工程能力,以及把模型決策與真實(shí)后果閉環(huán)連接起來(lái)的能力。


點(diǎn)個(gè)愛(ài)心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上映多時(shí)票房只有零元,一個(gè)觀眾都沒(méi)有,五一檔最慘電影誕生了

上映多時(shí)票房只有零元,一個(gè)觀眾都沒(méi)有,五一檔最慘電影誕生了

影視高原說(shuō)
2026-05-01 08:47:30
打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

里芃芃體育
2026-05-03 11:15:13
希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

楊華評(píng)論
2026-05-03 02:48:59
蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開(kāi)并決定離婚

蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開(kāi)并決定離婚

曉艾故事匯
2026-04-05 16:11:46
摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無(wú)證據(jù)

摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無(wú)證據(jù)

紅星新聞
2026-05-02 16:01:48
女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒(méi)人理

女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒(méi)人理

丫頭舫
2026-05-01 22:17:59
網(wǎng)絡(luò)瘋傳賴清德妻子在美國(guó)購(gòu)買(mǎi)億元豪宅,賴辦回應(yīng)了

網(wǎng)絡(luò)瘋傳賴清德妻子在美國(guó)購(gòu)買(mǎi)億元豪宅,賴辦回應(yīng)了

海峽導(dǎo)報(bào)社
2026-05-02 10:52:21
倫敦世乒賽最新戰(zhàn)報(bào):國(guó)乒2連勝!張本智和慘敗,張本美和轟11-0

倫敦世乒賽最新戰(zhàn)報(bào):國(guó)乒2連勝!張本智和慘敗,張本美和轟11-0

羙晞
2026-05-03 09:15:03
中國(guó)對(duì)非洲國(guó)家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

中國(guó)對(duì)非洲國(guó)家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

深度報(bào)
2026-05-02 22:10:20
他是混血兒,出道20年默默無(wú)聞,《愛(ài)情沒(méi)有神話》和王菊搭戲火了

他是混血兒,出道20年默默無(wú)聞,《愛(ài)情沒(méi)有神話》和王菊搭戲火了

芬霏劇時(shí)光
2026-05-02 14:14:15
困獸之局:伊朗的窒息時(shí)刻

困獸之局:伊朗的窒息時(shí)刻

民間胡扯老哥
2026-05-02 11:36:28
誰(shuí)能想到!日本前首相在中國(guó)的土地上發(fā)聲:美國(guó)是全球最大威脅!

誰(shuí)能想到!日本前首相在中國(guó)的土地上發(fā)聲:美國(guó)是全球最大威脅!

娛樂(lè)圈的筆娛君
2026-05-03 12:06:23
1-3大冷!國(guó)乒不敵韓國(guó),比輸球還可怕,雪藏王楚欽 暴露3大短板

1-3大冷!國(guó)乒不敵韓國(guó),比輸球還可怕,雪藏王楚欽 暴露3大短板

大秦壁虎白話體育
2026-05-03 07:02:21
專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

橘子約定
2026-05-03 09:43:10
格力原董事長(zhǎng)周樂(lè)偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

格力原董事長(zhǎng)周樂(lè)偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

戶外釣魚(yú)哥阿旱
2026-05-03 03:28:33
晚飯七分飽被推翻了?提醒:過(guò)了62歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?提醒:過(guò)了62歲,吃飯盡量要做到這5點(diǎn)

芹姐說(shuō)生活
2026-05-02 15:28:33
中國(guó)代表:要防止朝鮮半島生戰(zhàn)生亂

中國(guó)代表:要防止朝鮮半島生戰(zhàn)生亂

新華社
2026-05-01 09:27:03
排隊(duì)8小時(shí)充電,今年五一高速上1540萬(wàn)輛電車(chē)打了一場(chǎng)漂亮翻身仗

排隊(duì)8小時(shí)充電,今年五一高速上1540萬(wàn)輛電車(chē)打了一場(chǎng)漂亮翻身仗

金哥說(shuō)新能源車(chē)
2026-05-02 14:04:53
霸氣 張雪舉杯邀請(qǐng)現(xiàn)場(chǎng)朋友慶祝奪冠 妻子:全場(chǎng)消費(fèi)都由我們買(mǎi)單

霸氣 張雪舉杯邀請(qǐng)現(xiàn)場(chǎng)朋友慶祝奪冠 妻子:全場(chǎng)消費(fèi)都由我們買(mǎi)單

風(fēng)過(guò)鄉(xiāng)
2026-05-03 08:27:36
一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測(cè)出了綠帽子

一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測(cè)出了綠帽子

千秋文化
2026-05-02 19:48:10
2026-05-03 12:55:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克罕見(jiàn)"拒答"!蘋(píng)果正被AI供應(yīng)鏈卡脖子

頭條要聞

上??萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

頭條要聞

上??萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂(lè)要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場(chǎng)股東會(huì)透露了啥

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

態(tài)度原創(chuàng)

房產(chǎn)
教育
游戲
公開(kāi)課
軍事航空

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

教育要聞

能者不想干,中學(xué)行政“空心化”何時(shí)休?

上線8個(gè)月DAU破千萬(wàn),這扇“窄門(mén)”被瓦手撞開(kāi)了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗公布伊方最新談判方案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版