国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

堆推理鏈全錯(cuò)了!林俊旸離職首曝:曾在阿里 Qwen 踩中一個(gè)“致命”技術(shù)誤區(qū)

0
分享至


作者 | 允毅

在外界圍繞“Harness Engineer”討論得熱火朝天之際,阿里千問技術(shù)負(fù)責(zé)人林俊旸在離職后首次公開發(fā)聲。

昨天深夜,他發(fā)布了一篇長文《From “Reasoning” Thinking to “Agentic” Thinking》(從“推理”思維到“智能體思維”),對 AI 下一波能力躍遷作出了一次系統(tǒng)性的判斷:大模型的未來,不是繼續(xù)把推理鏈拉得更長,而是轉(zhuǎn)向一種為了行動(dòng)而思考、在環(huán)境中思考、并通過反饋閉環(huán)持續(xù)修正的“智能體思維”

在這篇文章中,林俊旸罕見復(fù)盤了Qwen 在訓(xùn)練過程中的一次關(guān)鍵嘗試,以及他為何最終改變了判斷。

他在文中提到,2025 年初,團(tuán)隊(duì)曾試圖挑戰(zhàn)一件事:把 thinking 和 Instruct 模式合并到同一個(gè)模型中。在他的理想設(shè)定里,一個(gè)真正先進(jìn)的模型,不應(yīng)只有“會(huì)不會(huì)思考”這一個(gè)開關(guān),而應(yīng)該能夠根據(jù)提示詞和上下文,自動(dòng)判斷該投入多少推理計(jì)算:什么問題可以直接回答,什么問題需要多想一會(huì)兒,什么問題又值得顯著增加計(jì)算量。

Qwen3 正是這一方向的一次大膽嘗試,它首次引入了混合思維模式。但在林俊旸看來,結(jié)果并不理想。

合并之后,thinking 往往變得更啰嗦、更猶豫,而 Instruct 模式 也不再像過去那樣干脆、穩(wěn)定、低成本。問題的根源不在模型開關(guān),而在數(shù)據(jù)本身:兩種模式對應(yīng)的數(shù)據(jù)分布不同、行為目標(biāo)不同,如果缺乏精細(xì)化的融合與校準(zhǔn),最終往往不是“取長補(bǔ)短”,而是“兩頭都受損”。

這也是為什么,盡管 OpenAI 的 o1 和 DeepSeek-R1 已經(jīng)證明推理能力可以被訓(xùn)練、被復(fù)現(xiàn),并在 2025 年上半年將行業(yè)帶入“推理模型時(shí)代”,大家都在思考如何讓模型在推理階段投入更多計(jì)算、如何用更強(qiáng)獎(jiǎng)勵(lì)信號訓(xùn)練它們、如何控制額外的推理開銷時(shí),林俊旸卻開始追問另一個(gè)更根本的問題:大模型最好的思考方式,到底應(yīng)該是什么樣子?

他給出的答案是,單純延長推理鏈并不是終點(diǎn)。真正更有效的方向,是讓模型為了行動(dòng)而思考。

在這一判斷上,Anthropic 給了他重要啟發(fā)。林俊旸注意到,Anthropic 在 Claude 3.7 和 Claude 4 上,始終強(qiáng)調(diào)“思考應(yīng)該由目標(biāo)工作負(fù)載來塑造”

Claude 3.7 被定義為一個(gè)帶有可控預(yù)算的混合式推理模型;Claude 4 則更進(jìn)一步,允許推理過程與工具使用交錯(cuò)進(jìn)行。這種思路背后的關(guān)鍵,不是讓模型輸出更長的思維鏈,而是讓思考真正服務(wù)于編碼、工具調(diào)用、長時(shí)任務(wù)和智能體工作流。

由此,林俊旸重新審視了自己此前的實(shí)驗(yàn),也重新界定了“合并”這件事的真正含義。在他看來,理想中的統(tǒng)一,并不是把 thinking 和 Instruct 模式 粗暴塞進(jìn)同一個(gè) checkpoint,而是讓模型擁有一個(gè)更平滑的推理光譜:它既能表達(dá)不同層級的推理強(qiáng)度,也能在理想情況下根據(jù)任務(wù)難度自適應(yīng)地做出選擇。

這也構(gòu)成了他對 AI 下一階段最核心的判斷:從“推理思維”走向“智能體思維”。

如果說推理思維的典型形態(tài),是靜態(tài)的、內(nèi)部的、偏獨(dú)白式的長推理鏈;那么智能體思維則完全不同。它不是在封閉的模型內(nèi)部“想得更久”,而是在與環(huán)境持續(xù)互動(dòng)的過程中思考,在行動(dòng)中調(diào)用工具、獲取反饋、修正策略,并把思考真正嵌入到執(zhí)行過程之中。

這意味著,未來更強(qiáng)的模型不只是“更會(huì)解題”,還必須能夠處理一系列純推理模型很難解決的問題:

  • 決定什么時(shí)候該停止思考并采取行動(dòng)

  • 選擇調(diào)用哪個(gè)工具,以及調(diào)用順序

  • 吸收來自環(huán)境的噪聲觀測或不完整觀測

  • 在失敗之后修訂計(jì)劃

  • 在多輪交互、多個(gè)工具調(diào)用之間保持一致性

這與最近被頻繁討論的Harness Engineering正相對應(yīng)。

按照林俊旸的理解,未來智能體能力的核心,越來越不只來自模型本身,也來自圍繞模型搭建的那套“腳手架”——也就是環(huán)境、工具、約束、反饋循環(huán),以及多智能體協(xié)同機(jī)制。Harness Engineering 的價(jià)值,正是在于把一個(gè)“裸模型”變成一個(gè)能夠在現(xiàn)實(shí)任務(wù)中持續(xù)行動(dòng)、持續(xù)修正、持續(xù)完成工作的 Agent。

在推理時(shí)代,領(lǐng)先主要來自更強(qiáng)的強(qiáng)化學(xué)習(xí)算法、更穩(wěn)定的反饋信號和更可擴(kuò)展的訓(xùn)練流水線;而在智能體時(shí)代,領(lǐng)先將越來越取決于誰能構(gòu)建出更好的環(huán)境、更緊密的訓(xùn)推協(xié)同、更強(qiáng)的 harness engineering,以及誰能真正把模型的決策與現(xiàn)實(shí)后果閉環(huán)起來。

以下是林俊旸全文展現(xiàn):

從“推理”思維到“智能體思維”

過去兩年,重塑了我們評估模型的方式,也重塑了我們對模型的期待。OpenAI 的 o1 表明,“思考”可以成為一項(xiàng)核心能力:它既可以被專門訓(xùn)練,也可以被直接呈現(xiàn)給用戶。DeepSeek-R1 則證明,以推理為中心的后訓(xùn)練范式并非原始實(shí)驗(yàn)室獨(dú)有,它可以在外部被復(fù)現(xiàn)并進(jìn)一步擴(kuò)展。OpenAI 將 o1 描述為一個(gè)通過強(qiáng)化學(xué)習(xí)訓(xùn)練、能夠“先思考再作答”的模型;DeepSeek 則將 R1 定位為一個(gè)可與 o1 競爭的開源推理模型。

那個(gè)階段當(dāng)然重要。但 2025 年上半年,行業(yè)主要關(guān)注的仍然是“推理式思維”:如何讓模型在推理階段投入更多計(jì)算,如何用更強(qiáng)的獎(jiǎng)勵(lì)信號來訓(xùn)練它們,以及如何展示或控制這部分額外的推理開銷。現(xiàn)在的問題是,下一步會(huì)是什么?我認(rèn)為答案是:智能體思維。也就是為了行動(dòng)而思考,在與環(huán)境互動(dòng)的過程中思考,并根據(jù)來自外部世界的反饋不斷調(diào)整計(jì)劃。

1. o1 和 R1 的興起,究竟教會(huì)了我們什么

第一波推理模型告訴我們:如果想在語言模型上擴(kuò)展強(qiáng)化學(xué)習(xí),就需要確定、穩(wěn)定、可擴(kuò)展的反饋信號。數(shù)學(xué)、代碼、邏輯以及其他可驗(yàn)證領(lǐng)域因此變得格外關(guān)鍵,因?yàn)檫@些場景下的獎(jiǎng)勵(lì)信號遠(yuǎn)強(qiáng)于一般性的偏好監(jiān)督。它們讓強(qiáng)化學(xué)習(xí)優(yōu)化的是“正確性”,而不是“看起來合理”?;A(chǔ)設(shè)施也因此變得至關(guān)重要。

一旦模型被訓(xùn)練到能夠處理更長的推理軌跡,強(qiáng)化學(xué)習(xí)就不再只是監(jiān)督微調(diào)上的一個(gè)輕量附加模塊,而會(huì)變成一個(gè)系統(tǒng)工程問題。你需要大規(guī)模 rollout 生成、高吞吐驗(yàn)證、穩(wěn)定的策略更新以及高效的采樣。推理模型的出現(xiàn),既是模型層面的故事,也是基礎(chǔ)設(shè)施層面的故事。OpenAI 將 o1 描述為一條通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的推理模型路線;而 DeepSeek R1 隨后進(jìn)一步強(qiáng)化了這一方向,展示了基于推理的強(qiáng)化學(xué)習(xí)對專門算法和基礎(chǔ)設(shè)施投入有多高。第一個(gè)重要轉(zhuǎn)變,就是從擴(kuò)展預(yù)訓(xùn)練,轉(zhuǎn)向擴(kuò)展面向推理的后訓(xùn)練。

2. 真正的問題,從來不只是“把思考模式和 Instruct 模式 合并”

在 2025 年初,Qwen 團(tuán)隊(duì)中的許多人腦海里都有一個(gè)頗具野心的愿景。理想中的系統(tǒng),應(yīng)當(dāng)統(tǒng)一思考模式與 Instruct 模式。它應(yīng)支持可調(diào)節(jié)的推理難度或推理光譜,類似 low 、 medium、high 這樣的推理檔位。更理想的是,它還能根據(jù)提示詞和上下文自動(dòng)判斷合適的推理強(qiáng)度,讓模型自己決定:什么時(shí)候可以立即回答,什么時(shí)候需要多想一會(huì)兒,什么時(shí)候又值得為真正困難的問題投入更多計(jì)算。

從概念上看,這個(gè)方向是對的。Qwen3 可以說是其中最清晰的公開嘗試之一。它提出了“混合思考模式”,支持同一模型家族同時(shí)具備思考與非思考兩種行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一個(gè)四階段的后訓(xùn)練流程,其中在長鏈思維冷啟動(dòng)和推理強(qiáng)化學(xué)習(xí)之后,明確包含了“思考模式融合”。

但“合并”說起來容易,真正做好卻很難。難點(diǎn)在于數(shù)據(jù)。人們談到合并思考模式與 Instruct 模式 時(shí),往往首先想到的是模型側(cè)的兼容性:一個(gè) checkpoint 能不能同時(shí)支持兩種模式,一個(gè)聊天模板能不能在二者之間切換,一套服務(wù)棧能不能暴露合適的開關(guān)??筛顚拥膯栴}在于,這兩種模式對應(yīng)的數(shù)據(jù)分布和行為目標(biāo)本身就有明顯差異。

在試圖平衡模型合并與提升后訓(xùn)練數(shù)據(jù)質(zhì)量、數(shù)據(jù)多樣性的過程中,我們并不是每一步都做得盡善盡美。在那輪調(diào)整中,我們也格外關(guān)注了用戶究竟是如何使用思考模式和 Instruct 模式 的。一個(gè)強(qiáng)大的 Instruct 模式 模型,通常因其直接、簡潔、格式遵循度高,以及在重寫、標(biāo)注、模板化客服、結(jié)構(gòu)化抽取、運(yùn)營問答等高頻高吞吐企業(yè)任務(wù)上的低延遲表現(xiàn)而受到獎(jiǎng)勵(lì)。一個(gè)強(qiáng)大的思考模型,則會(huì)因其在難題上愿意投入更多 token、能維持連貫的中間結(jié)構(gòu)、能探索備選路徑,并保留足夠的內(nèi)部計(jì)算以切實(shí)提升最終正確率而受到獎(jiǎng)勵(lì)。

這兩種行為畫像天然存在拉扯。如果合并數(shù)據(jù)沒有經(jīng)過足夠精細(xì)的篩選和設(shè)計(jì),結(jié)果往往是兩邊都做不好:“思考”行為會(huì)變得嘈雜、臃腫、猶疑不決;而“Instruct 模式”行為則會(huì)失去應(yīng)有的利落、可靠和成本優(yōu)勢,不再符合商業(yè)用戶的實(shí)際需求。

因此,在實(shí)踐中,“分開做”依然很有吸引力。2025 年稍晚些時(shí)候,在 Qwen3 最初提出混合框架之后,2507 系列推出了彼此獨(dú)立的 Instruct 和 Thinking 更新,其中包括分別獨(dú)立的 30B 和 235B 版本。在商業(yè)部署中,大量客戶依然需要的是高吞吐、低成本、強(qiáng)可控的 Instruct 模式 行為,用于批量化操作。對這些場景來說,合并并不一定帶來明確收益。將產(chǎn)品線拆開,反而能讓團(tuán)隊(duì)更清晰地分別解決兩種模式各自對應(yīng)的數(shù)據(jù)和訓(xùn)練問題。

其他實(shí)驗(yàn)室則選擇了相反的道路。Anthropic 公開主張一種一體化模型哲學(xué):Claude 3.7 Sonnet 被定義為一個(gè)混合式推理模型,用戶既可以選擇普通回答,也可以選擇擴(kuò)展思考;API 用戶還可以設(shè)置思考預(yù)算。Anthropic 明確表示,他們相信推理應(yīng)當(dāng)是一種集成能力,而不是一個(gè)單獨(dú)的模型。GLM-4.5 也公開將自己定位為混合式推理模型,同時(shí)支持思考與非思考模式,并統(tǒng)一了推理、編碼和智能體能力;DeepSeek 后來在 V3.1 上也朝類似方向邁進(jìn),推出了“Think & Non-Think”的混合推理。

關(guān)鍵問題在于,這種融合是否是“自然長出來的”。如果思考模式和 Instruct 模式 只是被塞進(jìn)同一個(gè) checkpoint 里,但表現(xiàn)出來仍像兩個(gè)生硬拼接的人格,那么產(chǎn)品體驗(yàn)依然不會(huì)自然。真正成功的融合,要求推理投入是一個(gè)平滑連續(xù)的譜系。模型應(yīng)能夠表達(dá)多個(gè)層級的推理強(qiáng)度,并且理想情況下,還能自適應(yīng)地做出選擇。GPT 風(fēng)格的 effort control 正指向這個(gè)方向:它不是一個(gè)二元開關(guān),而是一套關(guān)于計(jì)算投入的策略。

3. 為什么 Anthropic 的方向是一種有益的糾偏

Anthropic 圍繞 Claude 3.7 和 Claude 4 的公開表述是相當(dāng)克制的。他們強(qiáng)調(diào)的是一體化推理、用戶可控的思考預(yù)算、真實(shí)世界任務(wù)、代碼質(zhì)量,以及后續(xù)在擴(kuò)展思考過程中使用工具的能力。Claude 3.7 被描述為一個(gè)帶有可控預(yù)算的混合式推理模型;Claude 4 則在此基礎(chǔ)上更進(jìn)一步,允許推理過程與工具使用交錯(cuò)進(jìn)行。與此同時(shí),Anthropic 還將編碼、長時(shí)任務(wù)和智能體工作流明確放在核心目標(biāo)位置上。

更長的推理軌跡,并不會(huì)自動(dòng)讓模型變得更聰明。很多時(shí)候,過度外顯的推理反而暴露了資源分配不當(dāng)。如果模型試圖用同樣冗長的方式去“思考”所有問題,它可能其實(shí)是在優(yōu)先級判斷上出了問題,沒能有效壓縮信息,也沒能及時(shí)采取行動(dòng)。Anthropic 的路線傳達(dá)出一種更克制、更有紀(jì)律性的看法:思考應(yīng)當(dāng)由目標(biāo)工作負(fù)載來塑造。如果目標(biāo)是編碼,那么思考就應(yīng)當(dāng)幫助模型進(jìn)行代碼庫導(dǎo)航、任務(wù)規(guī)劃、問題拆解、錯(cuò)誤恢復(fù)和工具編排;如果目標(biāo)是智能體工作流,那么思考就應(yīng)當(dāng)提升模型在長時(shí)間尺度上的執(zhí)行質(zhì)量,而不是產(chǎn)出一段看起來很厲害的中間推理文本。

這種對“目標(biāo)效用”的強(qiáng)調(diào),實(shí)際上指向了一個(gè)更大的變化:我們正在從“訓(xùn)練模型”的時(shí)代,邁向“訓(xùn)練智能體”的時(shí)代。我們在 Qwen3 的博客里也明確寫過:“我們正在從一個(gè)專注于訓(xùn)練模型的時(shí)代,轉(zhuǎn)向一個(gè)以訓(xùn)練智能體為中心的時(shí)代。”同時(shí),我們也把未來強(qiáng)化學(xué)習(xí)的推進(jìn)方向,與依賴環(huán)境反饋的長時(shí)程推理聯(lián)系在了一起。一個(gè)智能體,是那種能夠制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修正策略,并在較長時(shí)間范圍內(nèi)持續(xù)推進(jìn)任務(wù)的系統(tǒng)。它的本質(zhì),在于與世界之間的閉環(huán)交互。

4. “智能體思維”到底意味著什么

智能體思維對應(yīng)的是一個(gè)完全不同的優(yōu)化目標(biāo)。推理式思維通??粗氐氖牵耗P驮诮o出最終答案之前,內(nèi)部思考的質(zhì)量如何——它能不能解出定理、寫出證明、產(chǎn)出正確代碼,或者通過基準(zhǔn)測試。智能體思維關(guān)注的則是:模型在與環(huán)境交互的過程中,能否持續(xù)推進(jìn)問題的解決。

核心問題也因此從“模型能不能想得足夠久”,轉(zhuǎn)變?yōu)椤澳P湍懿荒芤砸环N能夠支撐有效行動(dòng)的方式去思考”。智能體思維必須處理若干純推理模型往往可以回避的問題:

  • 決定什么時(shí)候該停止思考并采取行動(dòng)

  • 選擇調(diào)用哪個(gè)工具,以及調(diào)用順序

  • 吸收來自環(huán)境的噪聲觀測或不完整觀測

  • 在失敗之后修訂計(jì)劃

  • 在多輪交互、多個(gè)工具調(diào)用之間保持一致性

智能體思維,本質(zhì)上是一種圍繞行動(dòng)展開、在環(huán)境中運(yùn)作、并依賴反饋閉環(huán)不斷修正自身的思維能力。它不是為了生成更長的中間過程而思考,而是為了讓行動(dòng)持續(xù)有效地推進(jìn)。

5. 為什么智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施更難

一旦目標(biāo)從“解基準(zhǔn)題”變成“解交互任務(wù)”,強(qiáng)化學(xué)習(xí)的整套技術(shù)棧就會(huì)發(fā)生變化。用于經(jīng)典推理強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施已經(jīng)不夠用了。在推理強(qiáng)化學(xué)習(xí)里,你通常還能把 rollout 生成視為相對自包含的軌跡,配合相對干凈的評估器。而在智能體強(qiáng)化學(xué)習(xí)里,策略是被嵌入在一個(gè)更大的執(zhí)行框架中的:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng),以及各種編排框架。環(huán)境不再只是一個(gè)靜態(tài)驗(yàn)證器,而成為訓(xùn)練系統(tǒng)本身的一部分。

這就帶來了一個(gè)新的系統(tǒng)要求:訓(xùn)練與推理必須更徹底地解耦。如果做不到這一點(diǎn),rollout 生成的吞吐會(huì)迅速崩掉。設(shè)想一個(gè)編碼智能體,它需要把自己生成的代碼放到實(shí)時(shí)測試環(huán)境里執(zhí)行:推理側(cè)會(huì)因?yàn)榈却龍?zhí)行反饋而卡住,訓(xùn)練側(cè)又會(huì)因?yàn)槟貌坏酵瓿傻能壽E而“斷糧”,整條流水線的 GPU 利用率會(huì)遠(yuǎn)低于經(jīng)典推理強(qiáng)化學(xué)習(xí)中的水平。再疊加工具延遲、部分可觀測性和有狀態(tài)環(huán)境,這些低效只會(huì)被進(jìn)一步放大。最終,實(shí)驗(yàn)會(huì)在離目標(biāo)能力還很遠(yuǎn)的時(shí)候,就已經(jīng)變得緩慢、痛苦且難以擴(kuò)展。

環(huán)境本身,也因此成了一類一等研究對象。在 SFT 時(shí)代,我們癡迷的是數(shù)據(jù)多樣性;在智能體時(shí)代,我們應(yīng)該癡迷的是環(huán)境質(zhì)量:穩(wěn)定性、真實(shí)性、覆蓋面、難度、狀態(tài)多樣性、反饋豐富度、抗利用能力,以及 rollout 生成的可擴(kuò)展性。環(huán)境構(gòu)建已經(jīng)開始從“順手做的副項(xiàng)目”,變成一個(gè)真正的創(chuàng)業(yè)賽道。如果智能體的目標(biāo)是在接近生產(chǎn)環(huán)境的設(shè)置中運(yùn)行,那么環(huán)境本身就是核心能力棧的一部分。

6. 下一個(gè)前沿,是更“可用”的思考

我的判斷是,智能體思維會(huì)成為未來最主要的思考形態(tài)。我甚至認(rèn)為,它最終可能替代掉大量舊式的、靜態(tài)獨(dú)白式的推理:那種冗長、孤立的內(nèi)部思維軌跡,試圖通過輸出越來越多文本來彌補(bǔ)無法交互的缺陷。即便面對非常困難的數(shù)學(xué)題或編碼任務(wù),一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)去搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修正。目標(biāo)應(yīng)當(dāng)是穩(wěn)健、高效地解決問題,而不是單純展示一段很長的“思考過程”。

訓(xùn)練這類系統(tǒng)時(shí)最棘手的挑戰(zhàn),是 reward hacking。一旦模型獲得了真正有用的工具訪問權(quán)限,reward hacking 就會(huì)變得危險(xiǎn)得多。一個(gè)帶搜索能力的模型,可能會(huì)在強(qiáng)化學(xué)習(xí)過程中學(xué)會(huì)直接搜索答案;一個(gè)編碼智能體,可能會(huì)利用代碼倉庫里的未來信息、濫用日志,或者發(fā)現(xiàn)一些讓任務(wù)本身失效的捷徑。一個(gè)存在隱蔽泄漏的環(huán)境,會(huì)讓策略看起來像“超人”,而實(shí)際上它學(xué)到的只是作弊。這正是為什么智能體時(shí)代要比推理時(shí)代微妙得多。更強(qiáng)的工具當(dāng)然會(huì)讓模型更有用,但也同時(shí)擴(kuò)大了偽優(yōu)化的攻擊面。我們應(yīng)當(dāng)預(yù)期,下一批真正嚴(yán)肅的研究瓶頸,將來自環(huán)境設(shè)計(jì)、評估器魯棒性、反作弊協(xié)議,以及策略與世界之間更原則化的接口設(shè)計(jì)。盡管如此,方向是明確的:能夠借助工具進(jìn)行思考,顯然比孤立思考更有用,也更有機(jī)會(huì)真正提升生產(chǎn)力。

智能體思維也意味著 harness engineering 會(huì)變得越來越重要。未來的核心智能,將越來越多地體現(xiàn)在多個(gè)智能體的組織方式上:一個(gè)負(fù)責(zé)規(guī)劃與分發(fā)工作的協(xié)調(diào)器,一些扮演領(lǐng)域?qū)<业膶S弥悄荏w,以及一些處理更窄任務(wù)范圍的子智能體;這些子智能體不僅負(fù)責(zé)執(zhí)行,也有助于控制上下文、避免污染,并維持不同推理層級之間的隔離。未來的演進(jìn)路徑,將是從訓(xùn)練模型,走向訓(xùn)練智能體,再走向訓(xùn)練系統(tǒng)。

結(jié) 論

推理浪潮的第一階段,確立了一件重要的事:當(dāng)反饋信號足夠可靠、基礎(chǔ)設(shè)施足以支撐時(shí),在語言模型之上施加強(qiáng)化學(xué)習(xí),能夠帶來質(zhì)量層面顯著更強(qiáng)的認(rèn)知能力。

而更深層的變化,是從“推理式思維”走向“智能體思維”:從“想得更久”,轉(zhuǎn)向“為了行動(dòng)而思考”。訓(xùn)練的核心對象已經(jīng)改變了。它不再只是模型本身,而是“模型 + 環(huán)境”組成的系統(tǒng);更具體地說,是智能體及其周邊的執(zhí)行框架。這也改變了哪些研究產(chǎn)物最重要:模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然依舊重要,但環(huán)境設(shè)計(jì)、rollout 基礎(chǔ)設(shè)施、評估器魯棒性,以及多智能體協(xié)同所依賴的接口,同樣變得關(guān)鍵。它還改變了“好的思考”到底意味著什么:真正有價(jià)值的,不是最長、最顯眼的思維軌跡,而是在現(xiàn)實(shí)約束下最能支撐持續(xù)行動(dòng)、最能在環(huán)境中有效運(yùn)作、并能通過反饋閉環(huán)不斷修正的那種思考。

這也改變了競爭優(yōu)勢將來自哪里。在推理時(shí)代,優(yōu)勢主要來自更好的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的反饋信號,以及更可擴(kuò)展的訓(xùn)練流水線。而在智能體時(shí)代,優(yōu)勢將更多來自更好的環(huán)境、更緊密的訓(xùn)推協(xié)同、更強(qiáng)的 harness engineering,以及把模型決策與其后果真正閉環(huán)起來的能力。

https://x.com/justinlin610/status/2037116325210829168?s=46

聲明:本文為 AI 前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題,將聚焦一線實(shí)踐與踩坑復(fù)盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本攤牌了!高市上專機(jī)前撂下狠話,日本鎖定戰(zhàn)場,中方清算開始

日本攤牌了!高市上專機(jī)前撂下狠話,日本鎖定戰(zhàn)場,中方清算開始

井普椿的獨(dú)白
2026-05-07 15:20:37
芭提雅海灣8名外國游客不雅行為引爭議,當(dāng)?shù)孛癖姳硎緩?qiáng)烈不滿

芭提雅海灣8名外國游客不雅行為引爭議,當(dāng)?shù)孛癖姳硎緩?qiáng)烈不滿

曼谷陳大叔
2026-05-06 15:05:34
丟了7年的手機(jī)突然發(fā)回定位 還自動(dòng)拍下了使用者的照片 失主:已經(jīng)成功要回了手機(jī)

丟了7年的手機(jī)突然發(fā)回定位 還自動(dòng)拍下了使用者的照片 失主:已經(jīng)成功要回了手機(jī)

閃電新聞
2026-05-06 12:58:59
錢賺夠了名聲沒了,英皇風(fēng)波再升級!荒唐一幕出現(xiàn),霍震霆也遭殃

錢賺夠了名聲沒了,英皇風(fēng)波再升級!荒唐一幕出現(xiàn),霍震霆也遭殃

青杉依舊啊啊
2026-05-07 09:41:09
同濟(jì)大學(xué)教師王某團(tuán)隊(duì)一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學(xué)校正調(diào)查

同濟(jì)大學(xué)教師王某團(tuán)隊(duì)一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學(xué)校正調(diào)查

紅星新聞
2026-04-16 21:08:20
C羅購入全球限量20臺定制奔馳G63敞篷版,車門踏板鑲嵌CR7

C羅購入全球限量20臺定制奔馳G63敞篷版,車門踏板鑲嵌CR7

銜春信
2026-05-06 16:59:27
錢再多有什么用!58歲伍佰的最新現(xiàn)狀,給所有中年男人提了個(gè)醒

錢再多有什么用!58歲伍佰的最新現(xiàn)狀,給所有中年男人提了個(gè)醒

臨云史策
2026-05-07 11:01:17
中建“靜音式裁員”

中建“靜音式裁員”

地產(chǎn)微資訊
2026-05-07 09:13:34
美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

美日菲“肩并肩2026”聯(lián)合演習(xí)中,一張熟悉的面孔再次出現(xiàn)

三叔的裝備空間
2026-05-06 23:40:02
每體:恩里克每隔30分鐘就要活動(dòng)一次;晚餐曾連吃6個(gè)雞蛋

每體:恩里克每隔30分鐘就要活動(dòng)一次;晚餐曾連吃6個(gè)雞蛋

懂球帝
2026-05-07 10:24:12
伊朗外長用中文發(fā)帖

伊朗外長用中文發(fā)帖

魯中晨報(bào)
2026-05-07 11:34:04
美國郁悶到了極點(diǎn),為什么別人都不還手,中國老是還手呢?

美國郁悶到了極點(diǎn),為什么別人都不還手,中國老是還手呢?

混沌錄
2026-05-06 18:04:25
從75架到35架!C919累計(jì)交付腰斬,國產(chǎn)發(fā)動(dòng)機(jī)2026年Q3裝機(jī)破局!

從75架到35架!C919累計(jì)交付腰斬,國產(chǎn)發(fā)動(dòng)機(jī)2026年Q3裝機(jī)破局!

蜉蝣說
2026-05-07 10:22:17
主持人:姆巴佩現(xiàn)在完全為愛癡狂,其女友會(huì)在8月15日甩了他

主持人:姆巴佩現(xiàn)在完全為愛癡狂,其女友會(huì)在8月15日甩了他

懂球帝
2026-05-07 09:41:10
梁文鋒賭對了!自斷一臂適配國產(chǎn)芯片后,終于拿到國家級定價(jià)權(quán)!

梁文鋒賭對了!自斷一臂適配國產(chǎn)芯片后,終于拿到國家級定價(jià)權(quán)!

丁懰驚悚影視解說
2026-05-07 10:44:39
周薪40萬鎊無球可踢!努涅斯已與新月達(dá)成協(xié)議,下賽季離隊(duì)

周薪40萬鎊無球可踢!努涅斯已與新月達(dá)成協(xié)議,下賽季離隊(duì)

懂個(gè)球
2026-05-07 17:14:44
海軍節(jié)意外走紅!素人小姐姐素顏出圈,顏值碾壓一眾明星太驚艷。

海軍節(jié)意外走紅!素人小姐姐素顏出圈,顏值碾壓一眾明星太驚艷。

阿振觀點(diǎn)
2026-05-05 06:58:15
中國前駐美國大使李道豫因病逝世,享年93歲

中國前駐美國大使李道豫因病逝世,享年93歲

新京報(bào)
2026-05-07 16:34:23
伊朗外長向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

伊朗外長向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

環(huán)球網(wǎng)資訊
2026-05-07 06:48:13
12天10個(gè)漲停板!股民:感覺天下無敵了!

12天10個(gè)漲停板!股民:感覺天下無敵了!

數(shù)據(jù)挖掘分析
2026-05-07 15:15:08
2026-05-07 18:59:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1477文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

頭條要聞

媒體:不是中國離不開世界杯 是世界杯更需要中國

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

孫楊強(qiáng)迫拉張豆豆手那一幕,我看笑了,也看怒了

財(cái)經(jīng)要聞

金融“風(fēng)暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
健康
公開課

教育要聞

【教研幫扶】廣東省教育研究院走進(jìn)肇慶教研幫扶活動(dòng)中學(xué)歷史專場舉行

數(shù)碼要聞

華為MatePad Pro Max平板海外首發(fā),預(yù)裝HarmonyOS 4.3系統(tǒng)

本地新聞

用青花瓷的方式,打開西溪濕地

干細(xì)胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版