国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

林俊旸離職后首度發(fā)聲

0
分享至

3月26日晚間,前千問技術(shù)負(fù)責(zé)人林俊旸在x上發(fā)布長文詳談自己對大模型發(fā)展路線的理解及對AI下一階段的預(yù)判,這也是林俊旸自阿里離職后,首度發(fā)聲。



原文:Junyang Lin (@JustinLin610)

翻譯:文心一言(注:有錯誤的希望大家指正)

文本正文

過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI 的 o1 證明了「思考」可以成為一種核心能力——一種你專門訓(xùn)練并向用戶開放的能力。DeepSeek-R1 證明了推理風(fēng)格的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)和規(guī)?;?。OpenAI 將 o1 描述為一個通過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,讓它「在回答之前先思考」。DeepSeek 則將 R1 定位為一個與 o1 競爭的開源推理模型。

那個階段很重要。但 2025 年上半年主要是關(guān)于推理思考(reasoning thinking):如何讓模型在推理時投入更多計(jì)算,如何用更強(qiáng)的獎勵信號來訓(xùn)練它們,如何展示或調(diào)控額外的推理投入。

現(xiàn)在的問題是:下一步是什么?我認(rèn)為答案是智能體思考(agentic thinking):為了行動而思考,同時與環(huán)境交互,并根據(jù)來自真實(shí)世界的反饋持續(xù)更新計(jì)劃。

1. o1 和 R1 的崛起真正教會了我們什么

第一波推理模型教會了我們:如果想在語言模型中擴(kuò)展強(qiáng)化學(xué)習(xí),我們需要確定性的、穩(wěn)定的、可擴(kuò)展的反饋信號。數(shù)學(xué)、代碼、邏輯和其他可驗(yàn)證領(lǐng)域成為核心,因?yàn)檫@些場景中的獎勵信號比通用的偏好監(jiān)督強(qiáng)得多。它們讓 RL 能針對「正確性」而非「看起來合理」來優(yōu)化。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為通過更長的軌跡進(jìn)行推理,RL 就不再是監(jiān)督微調(diào)的輕量級附加組件,而變成了一個系統(tǒng)工程問題。你需要大規(guī)模的 rollout、高吞吐量的驗(yàn)證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)既是一個基礎(chǔ)設(shè)施故事,也是一個建模故事。

第一個重大轉(zhuǎn)變:從擴(kuò)展預(yù)訓(xùn)練到擴(kuò)展推理后訓(xùn)練。

2. 真正的問題從來不只是「合并思考和指令模式」

2025 年初,Qwen 團(tuán)隊(duì)中的很多人有一個宏大的愿景:理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理力度,類似于低/中/高的推理設(shè)置。更好的是,它應(yīng)該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計(jì)算。

概念上,這是正確的方向。Qwen3 是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一個四階段后訓(xùn)練流程,明確包含了在長 CoT 冷啟動和推理 RL 之后的「思考模式融合」。

但合并說起來容易,做好很難。難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎己椭噶顣r,往往首先想到模型端的兼容性:一個檢查點(diǎn)能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務(wù)棧能否提供合適的控制開關(guān)。更深層的問題是,兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。

我們在試圖平衡模型合并與提高后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性時,并沒有完全做對:

  • 一個好的指令模型通常因直接、簡潔、格式合規(guī)、低延遲而獲得獎勵——服務(wù)于重寫、標(biāo)注、模板化客服、結(jié)構(gòu)化提取和運(yùn)營 QA 等重復(fù)性高吞吐企業(yè)任務(wù)。
  • 一個好的思考模型則因在困難問題上花更多 token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠的內(nèi)部計(jì)算來切實(shí)提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數(shù)據(jù)沒有精心策劃,結(jié)果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業(yè)用戶實(shí)際需要的更昂貴。

實(shí)踐中,分離仍然有吸引力。2025 年晚些時候,Qwen3 的 2507 系列發(fā)布了獨(dú)立的 Instruct 和 Thinking 更新,包括獨(dú)立的 30B 和 235B 變體。在商業(yè)部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進(jìn)行批量操作。對于這些場景,合并并不是明顯的好處。

其他實(shí)驗(yàn)室選擇了相反的路線。Anthropic 公開倡導(dǎo)集成模型哲學(xué):Claude 3.7 Sonnet 作為混合推理模型推出,用戶可以選擇普通回復(fù)或擴(kuò)展思考,API 用戶可以設(shè)置思考預(yù)算。Anthropic 明確表示,他們相信推理應(yīng)該是一種集成能力,而不是一個單獨(dú)的模型。

關(guān)鍵問題是合并是否有機(jī)。如果思考和指令只是被共同放置在一個檢查點(diǎn)內(nèi),但仍然表現(xiàn)得像兩個尷尬縫合的人格,產(chǎn)品體驗(yàn)就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應(yīng)該能表達(dá)多個層次的努力,并理想地在它們之間自適應(yīng)選擇。GPT 風(fēng)格的 effort control 指向了這一點(diǎn):一種關(guān)于計(jì)算的策略,而非一個二元開關(guān)。

3. 為什么 Anthropic 的方向是有益的矯正

產(chǎn)生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計(jì)算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優(yōu)先級、無法精簡壓縮、也無法果斷行動。Anthropic 的路線暗示了一種更克制的理念:思考應(yīng)該圍繞具體的任務(wù)目標(biāo)來組織。

這種對目標(biāo)效用的強(qiáng)調(diào)指向更大的東西:我們正在從訓(xùn)練模型的時代走向訓(xùn)練 Agent 的時代。Agent 是一個能制定計(jì)劃、決定何時行動、使用工具、感知環(huán)境反饋、修訂策略、并在長時間范圍內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它由與世界的閉環(huán)交互來定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個不同的優(yōu)化目標(biāo)。

  • 推理思考
  • 通常以最終答案前的內(nèi)部推導(dǎo)質(zhì)量來衡量:模型能否解出定理、寫出證明、產(chǎn)生正確的代碼、或通過基準(zhǔn)測試。
  • 智能體思考
  • 關(guān)注的是模型能否在與環(huán)境交互的同時持續(xù)取得進(jìn)展。

核心問題從「模型能否思考足夠長?」轉(zhuǎn)變?yōu)椤?strong>模型能否以一種維持有效行動的方式來思考?」

智能體思考必須處理純推理模型大多可以避免的幾件事:

  • 決定何時停止思考并采取行動;
  • 選擇調(diào)用哪個工具,以什么順序;
  • 整合來自環(huán)境的嘈雜或不完整的觀察;
  • 在失敗后修訂計(jì)劃;
  • 在多輪和多次工具調(diào)用中保持連貫性。

智能體思考,就是讓模型通過行動來推理。

5. 為什么智能體 RL 基礎(chǔ)設(shè)施更難

一旦目標(biāo)從解決基準(zhǔn)測試問題轉(zhuǎn)向解決交互式任務(wù),RL 技術(shù)棧就變了。用于經(jīng)典推理 RL 的基礎(chǔ)設(shè)施不夠用了。在智能體 RL 中,模型的策略被嵌入到一個更龐大的外圍系統(tǒng)中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng)和編排框架。環(huán)境不再是靜態(tài)的驗(yàn)證器,它本身就是訓(xùn)練系統(tǒng)的一部分。

這創(chuàng)造了新的系統(tǒng)需求:訓(xùn)練和推理必須更干凈地解耦。沒有這種解耦,rollout 吞吐量就會崩潰。想象一個編碼 Agent,需要在實(shí)時測試環(huán)境中運(yùn)行它生成的代碼:推理端卡在那里等執(zhí)行反饋,訓(xùn)練端因?yàn)槟貌坏阶銐虻耐暾壽E而空轉(zhuǎn),整個管道運(yùn)行遠(yuǎn)低于預(yù)期的 GPU 利用率。

環(huán)境本身也成為一級研究產(chǎn)物。在 SFT 時代,我們癡迷于數(shù)據(jù)多樣性。在 Agent 時代,我們應(yīng)該癡迷于環(huán)境質(zhì)量:穩(wěn)定性、現(xiàn)實(shí)性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富度、防利用性和 rollout 生成的可擴(kuò)展性。環(huán)境構(gòu)建已經(jīng)開始從邊緣項(xiàng)目變成一個真正的創(chuàng)業(yè)品類。

6. 下一個前沿是更有用的思考

我的預(yù)期是智能體思考將成為主導(dǎo)的思考形式。它最終可能會取代大部分舊的靜態(tài)獨(dú)白式推理思考:那種過于冗長、孤立的內(nèi)部軌跡,試圖通過輸出越來越多的文本來彌補(bǔ)缺乏交互的不足。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上,一個真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修訂。目標(biāo)是穩(wěn)健而高效地解決問題。

訓(xùn)練這類系統(tǒng)最難的挑戰(zhàn)是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險得多。有搜索能力的模型可能在 RL 期間學(xué)會直接搜索答案。編碼 Agent 可能會利用代碼倉庫中的未來信息走捷徑。存在隱性信息泄漏的訓(xùn)練環(huán)境,可以讓模型表現(xiàn)看起來超越人類,但實(shí)際上只是在訓(xùn)練它作弊。

智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個 Agent 如何被組織:一個規(guī)劃和路由工作的編排者,充當(dāng)領(lǐng)域?qū)<业膶I(yè) Agent,以及執(zhí)行更窄任務(wù)的子 Agent。未來是從訓(xùn)練模型到訓(xùn)練 Agent,從訓(xùn)練 Agent 到訓(xùn)練系統(tǒng)的轉(zhuǎn)變。

結(jié)論

更深層的轉(zhuǎn)變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓(xùn)練的核心對象已經(jīng)改變了。它不再是單獨(dú)的模型,而是模型加環(huán)境的系統(tǒng)。這改變了「好的思考」意味著什么:在真實(shí)世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

在推理時代,優(yōu)勢來自更好的 RL 算法、更強(qiáng)的反饋信號和更可擴(kuò)展的訓(xùn)練管道。在 Agent 時代,優(yōu)勢將來自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環(huán)的能力。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
難怪男生會介意女朋友穿吊帶!原來高個子視角是這樣的,太社死了

難怪男生會介意女朋友穿吊帶!原來高個子視角是這樣的,太社死了

墻頭草
2026-03-01 10:50:05
鄭麗文火了!她的簽名竟然讓人驚呆了!

鄭麗文火了!她的簽名竟然讓人驚呆了!

書畫相約
2026-04-15 07:39:14
胡德海逝世,享年98歲

胡德海逝世,享年98歲

中國遠(yuǎn)程教育雜志社
2026-04-15 11:10:23
一場114-110的險勝,讓馬刺如坐針氈,快船、勇士也感到絕望

一場114-110的險勝,讓馬刺如坐針氈,快船、勇士也感到絕望

毒舌NBA
2026-04-15 13:34:30
回憶殺,勇士隊(duì)庫里深情回憶童年時杜蘭特對他的“小白臉”玩笑

回憶殺,勇士隊(duì)庫里深情回憶童年時杜蘭特對他的“小白臉”玩笑

好火子
2026-04-16 03:28:13
鐘楚曦馬爾代夫度假,大尺度泳衣大秀好身材,大長腿太吸睛!

鐘楚曦馬爾代夫度假,大尺度泳衣大秀好身材,大長腿太吸睛!

圓夢的小老頭
2026-03-02 22:32:57
臺海觀察:十項(xiàng)涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

臺海觀察:十項(xiàng)涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

上觀新聞
2026-04-15 06:55:05
歷史性突破!人民幣首次躍居全球原油貿(mào)易第二大結(jié)算貨幣

歷史性突破!人民幣首次躍居全球原油貿(mào)易第二大結(jié)算貨幣

允華說
2026-04-15 10:35:42
凌晨1點(diǎn)告別德國!樊振東最后一場,數(shù)萬球迷會為他守夜嗎?

凌晨1點(diǎn)告別德國!樊振東最后一場,數(shù)萬球迷會為他守夜嗎?

曉隯就是我
2026-04-15 10:59:55
獲勝第二天,毛焦?fàn)柡霸捴袊?,對華稱呼也變了,澤連斯基高興太早

獲勝第二天,毛焦?fàn)柡霸捴袊?,對華稱呼也變了,澤連斯基高興太早

史潎的生活日記
2026-04-16 04:35:09
網(wǎng)友:林志穎祖宗18代都要感謝陳若儀,她生了一個高帥版的林奶奶

網(wǎng)友:林志穎祖宗18代都要感謝陳若儀,她生了一個高帥版的林奶奶

動物奇奇怪怪
2026-04-15 19:36:00
日本派兵開始搞大事,人民日報向全球通告日本罪行,北約30國站臺

日本派兵開始搞大事,人民日報向全球通告日本罪行,北約30國站臺

傲傲講歷史
2026-04-13 23:21:05
悟性最強(qiáng)的三個星座,一點(diǎn)就通,不管面對什么領(lǐng)域,都能成為傳奇

悟性最強(qiáng)的三個星座,一點(diǎn)就通,不管面對什么領(lǐng)域,都能成為傳奇

知書夜話
2026-04-16 04:55:09
公安部172號令:70歲以上不用年審,有兩件事必須做

公安部172號令:70歲以上不用年審,有兩件事必須做

小影的娛樂
2026-04-14 21:10:17
忠告子女:再孝順,也不要為年過75歲的老父老母,做這幾件事!

忠告子女:再孝順,也不要為年過75歲的老父老母,做這幾件事!

藝鑒在線
2026-04-16 06:09:16
桑切斯:以色列從根本上踐踏國際法

桑切斯:以色列從根本上踐踏國際法

看看新聞Knews
2026-04-15 10:12:32
保姆偷3瓶價值十幾萬的茅臺被抓,我準(zhǔn)備報警她卻哀求:我在救你

保姆偷3瓶價值十幾萬的茅臺被抓,我準(zhǔn)備報警她卻哀求:我在救你

小月故事
2026-04-15 19:11:08
英足總:對塞門約遭受歧視感到憤慨,已向球員和曼城提供支持

英足總:對塞門約遭受歧視感到憤慨,已向球員和曼城提供支持

懂球帝
2026-04-16 07:47:23
外媒:SpaceX在約19小時內(nèi)完成兩次星鏈衛(wèi)星發(fā)射

外媒:SpaceX在約19小時內(nèi)完成兩次星鏈衛(wèi)星發(fā)射

CNMO科技
2026-04-15 18:16:11
裘德·洛花1個月變成普京,新片預(yù)告片里連眼神都換了

裘德·洛花1個月變成普京,新片預(yù)告片里連眼神都換了

影視情報室
2026-04-14 08:05:09
2026-04-16 08:16:49
互聯(lián)網(wǎng)坊間八卦 incentive-icons
互聯(lián)網(wǎng)坊間八卦
多平臺入駐
5934文章數(shù) 6887關(guān)注度
往期回顧 全部

科技要聞

小鵬最貴SUV預(yù)售39.98萬!L4架構(gòu)3000TOPS算力

頭條要聞

歐洲100萬人請?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

頭條要聞

歐洲100萬人請?jiān)敢笾撇靡陨?以總理:歐洲道德軟弱

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

教育
時尚
旅游
手機(jī)
親子

教育要聞

錦州市第一高級中學(xué)紀(jì)念復(fù)校30周年展覽館

赫本愛穿的傘裙,好優(yōu)雅!

旅游要聞

意大利媒體:云南潑水節(jié)成跨境旅游新焦點(diǎn)

手機(jī)要聞

驍龍8 Elite Gen6曝光!臺積電2nm+2+3+3架構(gòu),小米18系列穩(wěn)了

親子要聞

南方家長注意!華南汛期提前、潮濕加碼,這種“呼吸道殺手”正全年潛伏

無障礙瀏覽 進(jìn)入關(guān)懷版