国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推翻推理鏈!林俊旸復(fù)盤Qwen,大模型走錯關(guān)鍵一步

0
分享至



最近,AI圈最火的話題,莫過于“HarnessEngineer(駕馭工程)”和“智能體思維”。而前阿里千問技術(shù)負(fù)責(zé)人林俊旸,在離職后首次公開發(fā)聲,就用一篇長文《從“推理”思維到“智能體思維”》,給這場討論定了調(diào)——大模型的未來,不是比誰的推理鏈更長,而是要學(xué)會“為行動而思考”,在與世界的互動中解決問題。

這篇文章,不僅是他對千問研發(fā)歷程的復(fù)盤,更是對整個AI行業(yè)方向的一次重新校準(zhǔn)。當(dāng)OpenAI的o1、DeepSeek-R1把“推理模型時代”推向高潮時,林俊旸卻提出了一個更根本的問題:大模型最好的思考方式,到底應(yīng)該是什么樣子?答案,藏在從“推理思維”到“智能體思維”的范式轉(zhuǎn)移里。

一、Qwen3的試錯:混合思維的“兩頭受損”

2025年初,千問團(tuán)隊(duì)做了一次大膽嘗試——把“思考模式(thinking)”和“指令模式(Instruct)”合并到同一個模型里,也就是后來的Qwen3。林俊旸的理想很美好:一個先進(jìn)的模型,不該只有“會不會思考”的開關(guān),而要能根據(jù)問題難度,自動決定該投入多少算力——簡單問題直接答,復(fù)雜問題多想想,難題就全力推演。

但現(xiàn)實(shí)給了他們一記重?fù)?。合并后的模型,思考變得啰嗦、猶豫,指令模式也不再干脆、穩(wěn)定、低成本。問題不在模型架構(gòu),而在數(shù)據(jù)本身:兩種模式的數(shù)據(jù)分布、行為目標(biāo)完全不同,強(qiáng)行融合只會“兩頭受損”,而非取長補(bǔ)短。

這次失敗,讓林俊旸徹底清醒:單純延長推理鏈、堆算力,不是AI的終極答案。當(dāng)行業(yè)都在琢磨“怎么讓模型多想一會兒”時,他開始追問——AI的思考,到底該服務(wù)于什么?

二、推理思維vs智能體思維:兩種完全不同的“大腦”

要理解這場變革,得先分清兩種思維的本質(zhì)區(qū)別。

1.推理思維:悶頭推演的“解題機(jī)器”

以O(shè)penAIo1、DeepSeek-R1為代表,核心是靜態(tài)、內(nèi)部、獨(dú)白式的長推理鏈。

目標(biāo):追求“思考的質(zhì)量和正確性”,比如解數(shù)學(xué)題、寫代碼、通過基準(zhǔn)測試。

方式:模型在封閉環(huán)境里“悶頭想”,靠延長推理鏈、增加計(jì)算量,輸出越來越長的“思考過程”文本。

局限:只能“回答問題”,不能“解決問題”——它知道答案,但不會動手做;能生成方案,但無法落地執(zhí)行。

2.智能體思維:邊做邊想的“行動者”

這是林俊旸提出的新方向,核心是為行動而思考,在環(huán)境中思考,通過反饋閉環(huán)修正。

目標(biāo):不是“想得夠久”,而是“用思考支撐有效行動”,在與世界的互動中持續(xù)推進(jìn)任務(wù)。

方式:模型不再孤立推演,而是邊想邊做——調(diào)用工具、獲取反饋、失敗后改計(jì)劃、多輪交互中保持思路一致。

能力:能處理純推理模型解決不了的問題——何時停止思考動手、選什么工具、整合嘈雜的環(huán)境信息、修訂計(jì)劃、維持多輪交互一致性。

Anthropic的Claude系列,給了林俊旸關(guān)鍵啟發(fā)。Claude3.7是“可控預(yù)算的混合推理模型”,Claude4更讓推理和工具調(diào)用交錯進(jìn)行——思考不再是為了展示,而是服務(wù)于編碼、工具調(diào)用、長時任務(wù)和智能體工作流。

三、HarnessEngineering:智能體的“腳手架”與“操作系統(tǒng)”

智能體思維要落地,離不開一個核心概念——HarnessEngineering(駕馭工程)。林俊旸把它比作AI的“腳手架”,也是模型的“操作系統(tǒng)”。

1.什么是Harness?

如果把大模型比作“引擎”,Harness就是圍繞引擎造的“車”——沒有它,再強(qiáng)的引擎也跑不起來。

本質(zhì):為AI搭建環(huán)境、工具、約束、反饋循環(huán)、多智能體協(xié)同機(jī)制的完整系統(tǒng)。

作用:把“裸模型”變成能在現(xiàn)實(shí)任務(wù)中持續(xù)行動、修正、完成工作的Agent(智能體)。

公式:Agent=Model+Harness——模型是大腦,Harness是手腳、眼睛、控制系統(tǒng)。

2.Harness的核心價(jià)值:解決“執(zhí)行難題”

很多時候,模型執(zhí)行任務(wù)失敗,不是不夠聰明,而是外部系統(tǒng)太亂——它會迷失方向、重復(fù)失敗、忘記目標(biāo)。Harness就是來解決這些問題的:

工具管理:協(xié)調(diào)模型調(diào)用API、數(shù)據(jù)庫、代碼執(zhí)行器等,讓“思考”落地為“行動”。

反饋閉環(huán):把行動結(jié)果返回給模型,讓它知道“做對了沒”,并修正策略。

約束與安全:設(shè)定規(guī)則、沙箱環(huán)境,防止模型“作弊”(比如直接搜答案、濫用工具)。

多智能體協(xié)同:協(xié)調(diào)規(guī)劃器、領(lǐng)域?qū)<?、子智能體分工,讓復(fù)雜任務(wù)高效推進(jìn)。

四、從訓(xùn)練模型到訓(xùn)練系統(tǒng):AI競爭的新戰(zhàn)場

林俊旸的核心判斷,是AI行業(yè)正在從“訓(xùn)練模型”的時代,走向“訓(xùn)練智能體”,再到“訓(xùn)練系統(tǒng)”的時代。這意味著,競爭優(yōu)勢的來源徹底變了。

1.推理時代的優(yōu)勢:算法、算力、數(shù)據(jù)

過去,誰的強(qiáng)化學(xué)習(xí)算法更強(qiáng)、反饋信號更穩(wěn)、訓(xùn)練流水線更可擴(kuò)展,誰就領(lǐng)先。大家比拼的是模型本身——參數(shù)規(guī)模、推理能力、數(shù)據(jù)質(zhì)量。

2.智能體時代的優(yōu)勢:環(huán)境、Harness、閉環(huán)能力

未來,核心競爭力轉(zhuǎn)向系統(tǒng)工程能力:

環(huán)境設(shè)計(jì):環(huán)境的穩(wěn)定性、真實(shí)性、覆蓋面、反饋豐富度,成了“一等研究對象”——就像SFT時代癡迷數(shù)據(jù)多樣性,現(xiàn)在要癡迷環(huán)境質(zhì)量。

訓(xùn)推協(xié)同:訓(xùn)練和推理緊密結(jié)合,讓模型在接近生產(chǎn)的環(huán)境中學(xué)習(xí),解決“推理側(cè)等待反饋、訓(xùn)練側(cè)斷糧”的低效問題。

反作弊與魯棒性:防范“獎勵作弊”(比如模型搜答案、走捷徑),提升評估器、環(huán)境的抗利用能力。

多智能體接口:設(shè)計(jì)高效的協(xié)同機(jī)制,讓不同智能體各司其職,控制上下文、避免污染。

五、未來已來:AI從“回答者”變成“辦事者”

智能體思維的終極意義,是讓AI從“被動回答問題的百科全書”,變成“主動解決問題的數(shù)字行動者”。

舉個例子:你要安排一場商務(wù)晚宴。

傳統(tǒng)大模型:給你生成菜單、推薦餐廳、寫邀請函,但聯(lián)系餐廳、預(yù)訂、發(fā)邀請、確認(rèn),全要你自己做。

AI智能體:你只說“下周三8人晚宴,人均500元,CEO海鮮過敏”,它自動查日歷、篩餐廳、預(yù)訂、發(fā)邀請、提醒你——你只需要最終確認(rèn)。

這就是智能體思維的價(jià)值:不是展示最長的思考鏈,而是在現(xiàn)實(shí)約束下,最穩(wěn)健、高效地解決問題。哪怕是最難的數(shù)學(xué)題、編碼任務(wù),先進(jìn)的系統(tǒng)也會去搜索、模擬、執(zhí)行、驗(yàn)證,而不是悶頭寫長文本。

六、AI的下一場革命,是“落地”的革命

林俊旸的這篇文章,給狂熱的AI行業(yè)潑了一盆冷水,也指明了方向——大模型的未來,不在“推理鏈更長”,而在“行動能力更強(qiáng)”。

從推理思維到智能體思維,從訓(xùn)練模型到訓(xùn)練系統(tǒng),從比拼算法到比拼Harness工程能力,AI正在經(jīng)歷一場深刻的范式轉(zhuǎn)移。這場變革,不是技術(shù)細(xì)節(jié)的優(yōu)化,而是從“能思考”到“能做事”的本質(zhì)跨越。

未來,真正的AI強(qiáng)者,不再只是“會解題的學(xué)霸”,而是“能辦事的實(shí)干家”。而我們,也將迎來一個AI真正融入日常、解決實(shí)際問題的新時代——這,才是人工智能的終極價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒謝苗的命

得得電影
2026-04-15 09:48:34
“早就該炸掉”?令西安居民痛恨的三門峽大壩,是壯舉還是敗筆?

“早就該炸掉”?令西安居民痛恨的三門峽大壩,是壯舉還是敗筆?

娛樂圈見解說
2026-04-16 04:34:53
時隔12年,35歲劉詩雯公布人生重大決定,張繼科后悔了嗎?

時隔12年,35歲劉詩雯公布人生重大決定,張繼科后悔了嗎?

拳擊時空
2026-04-16 06:10:24
【歐冠】拜仁絕殺晉級!史詩大戰(zhàn)6比4雙殺克星皇馬

【歐冠】拜仁絕殺晉級!史詩大戰(zhàn)6比4雙殺克星皇馬

體壇周報(bào)
2026-04-16 07:03:14
震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

火山詩話
2026-04-14 06:27:39
雙航母封鎖伊朗,特朗普對華攤牌:中國船不許過,要買石油找美國

雙航母封鎖伊朗,特朗普對華攤牌:中國船不許過,要買石油找美國

諦聽骨語本尊
2026-04-14 16:17:57
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

霽寒飄雪
2026-04-16 09:30:28
特朗普發(fā)飆指責(zé)多國是叛徒,呂特站了出來:歐洲必須馬上做出保證

特朗普發(fā)飆指責(zé)多國是叛徒,呂特站了出來:歐洲必須馬上做出保證

浪子阿邴聊體育
2026-04-15 07:33:26
張婉婷曝宋寧峰近況:他每天就是下跪、哭、悔過,就是死都不離開

張婉婷曝宋寧峰近況:他每天就是下跪、哭、悔過,就是死都不離開

觀魚聽雨
2026-04-15 22:30:00
云南鴕鳥肉案兇手被判死刑,當(dāng)?shù)卦嗳速徺I,這些人后來怎樣了

云南鴕鳥肉案兇手被判死刑,當(dāng)?shù)卦嗳速徺I,這些人后來怎樣了

林林故事揭秘
2025-01-03 17:30:21
打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國,不是以色列,而是他們

打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國,不是以色列,而是他們

面包夾知識
2026-04-15 15:32:31
東北某縣級電視臺餐廳午餐,著實(shí)沒想到啊

東北某縣級電視臺餐廳午餐,著實(shí)沒想到啊

微微熱評
2026-04-15 22:25:29
浙江一退伍老兵不辦百歲壽宴,拿出積蓄為小區(qū)560余戶每戶發(fā)100元福利;女兒:支持,讓大家都能沾喜氣

浙江一退伍老兵不辦百歲壽宴,拿出積蓄為小區(qū)560余戶每戶發(fā)100元福利;女兒:支持,讓大家都能沾喜氣

臺州交通廣播
2026-04-15 17:06:54
東北人搬去海南,大腦會悄悄發(fā)生什么變化?

東北人搬去海南,大腦會悄悄發(fā)生什么變化?

果殼
2026-04-15 16:09:29
極端女權(quán)糾察隊(duì)是怎么把自己做成臭襪子的

極端女權(quán)糾察隊(duì)是怎么把自己做成臭襪子的

熊太行
2026-04-16 09:16:03
誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

誰能想到,蘇林上任首訪中國,竟是自家人都擺不平的大麻煩

動物奇奇怪怪
2026-04-15 13:19:42
越南中央軍委書記、副書記、常委名單

越南中央軍委書記、副書記、常委名單

汲古知新
2026-04-14 21:58:41
開國十大武林高手,許世友只能排第八?

開國十大武林高手,許世友只能排第八?

祁州校尉
2026-04-15 17:30:14
上海市中心這面墻涉嫌侵權(quán)!當(dāng)事人氣笑,多方回應(yīng)

上海市中心這面墻涉嫌侵權(quán)!當(dāng)事人氣笑,多方回應(yīng)

看看新聞Knews
2026-04-15 20:56:15
斬殺B-21,中國殲-36四號機(jī)現(xiàn)身,美媒:美軍突襲目標(biāo)變?yōu)槎沓?>
    </a>
        <h3>
      <a href=說宇宙
2026-04-15 15:54:10
2026-04-16 10:31:00
魏家東 incentive-icons
魏家東
一個人的營銷商學(xué)院!
2645文章數(shù) 12236關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

油輪被困波斯灣1個多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
數(shù)碼
公開課

家居要聞

簡而不減 暖居之道

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

數(shù)碼要聞

華為官宣WATCH FIT 5系列智能手表4月20日發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版