網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

林俊旸看到了什么

2026-03-27 09:32:09　來(lái)源: 硅星人

北京舉報(bào)

分享至

作者｜王兆洋
郵箱｜ wangzhaoyang@pingwest.com

Ilya Sutskever離開(kāi)OpenAI的時(shí)候，外界一度用一個(gè)半開(kāi)玩笑的句式表達(dá)對(duì)他當(dāng)時(shí)在技術(shù)判斷上的好奇。這個(gè)戲劇性的離開(kāi)決定背后，他究竟對(duì)當(dāng)時(shí)技術(shù)發(fā)展路線有何思考：What did Ilya see?

今天似乎也可以借用這個(gè)句式來(lái)討論剛剛離開(kāi)阿里巴巴，曾負(fù)責(zé)Qwen模型訓(xùn)練的林俊旸最新發(fā)布的一篇長(zhǎng)文。

這是他離開(kāi)Qwen后發(fā)的第一篇系統(tǒng)性的思考，這意味著它的很多觀點(diǎn)來(lái)自于Qwen的訓(xùn)練過(guò)程，同時(shí)又脫離了在這個(gè)團(tuán)隊(duì)里去討論它的局限。

一個(gè)真正操盤(pán)過(guò)今天最重要的模型之一的全部訓(xùn)練過(guò)程，同時(shí)可以避開(kāi)純內(nèi)部視角做思考，并系統(tǒng)呈現(xiàn)出來(lái)的研究者，今天沒(méi)有幾個(gè)，這篇文章也因此值得仔細(xì)閱讀：What did Junyang see?

這篇題目為From "Reasoning" Thinking to "Agentic" Thinking的文章用英文首發(fā)在X上。全文中文翻譯我們放在文后。

和很多引起AI從業(yè)者廣泛討論的長(zhǎng)文一樣，它嘗試給一個(gè)所有人都感受著的巨大變化一個(gè)描述和定義，而非在預(yù)測(cè)什么還沒(méi)發(fā)生的事情。

他認(rèn)為AI技術(shù)演變此刻經(jīng)歷的切換，是從推理式思考到agent式思考的變化。

他給后者的定義是：

Agentic thinking is a model that reasons through action. 智能體式思考指的就是一個(gè)通過(guò)行動(dòng)來(lái)推理的模型。

這些判斷來(lái)自他自己對(duì)各個(gè)前沿實(shí)驗(yàn)室所做嘗試的思考，以及在Qwen的訓(xùn)練上直接踩過(guò)的坑。

OpenAI的O系列打開(kāi)了推理時(shí)代，但這些推理不夠靈活，何時(shí)該快何時(shí)該慢，無(wú)法解決，Qwen的嘗試更是“沒(méi)完全做對(duì)”，因?yàn)閺?fù)雜思考所需的訓(xùn)練，和反而是很多客戶需要的直接快速回答的訓(xùn)練，是沖突的。

在對(duì)比各家做法里，他認(rèn)為Anthropic的做法最有啟發(fā)：思考應(yīng)該為具體的工作目標(biāo)服務(wù)。先判斷目標(biāo)任務(wù)類型，再對(duì)應(yīng)選擇模型思考方式。這樣，在編程等任務(wù)里，對(duì)AI推理質(zhì)量的判斷標(biāo)準(zhǔn)得以從o系列的“長(zhǎng)時(shí)間，重過(guò)程”的框子里跳出，并且更重要的是，這個(gè)思考過(guò)程需要天然就帶上工具調(diào)用、自我糾錯(cuò)等能力。

這樣一來(lái)，模型的推理成為更復(fù)雜系統(tǒng)的一部分，新的推理能力需要通過(guò)對(duì)一整個(gè)agent系統(tǒng)的訓(xùn)練來(lái)完成。

而與其他諸多雄文不同的是，他的內(nèi)容沒(méi)停在這，而是直接給出了他認(rèn)為的具體解法。甚至，在外界廣泛關(guān)注他的下一步的此刻，這也可以視作劇透：

除了具體到諸如“訓(xùn)練和推理必須更清晰地解耦”，多agent系統(tǒng)里的分工，甚至是reward hacking 的具體有哪些“坑”等細(xì)節(jié)外，最重要的可能是這個(gè)判斷——

他認(rèn)為隨著Agentic Thinking變得重要，以往更多由模型自己主導(dǎo)智能進(jìn)步時(shí)的很多標(biāo)準(zhǔn)可以推翻了。

“訓(xùn)練的核心對(duì)象已變，不再是單一模型，而變成了模型 + 環(huán)境構(gòu)成的整個(gè)系統(tǒng)。更具體地說(shuō)，是agent本身，配上圍繞它的一切工程。這意味著研究重要性也變了：模型架構(gòu)和訓(xùn)練數(shù)據(jù)自然是還很重要，但環(huán)境設(shè)計(jì)、吞吐基礎(chǔ)設(shè)施、評(píng)估器魯棒性、以及多個(gè)agent之間的協(xié)調(diào)，重要性一點(diǎn)不亞于前者?！?/b>

這意味著競(jìng)爭(zhēng)的點(diǎn)也變成比拼誰(shuí)有更好的訓(xùn)練環(huán)境和更強(qiáng)的系統(tǒng)工程能力，以及在現(xiàn)實(shí)世界里做決策，然后得到真實(shí)反饋，再進(jìn)行學(xué)習(xí)的這個(gè)RL循環(huán)的能力。

他直接點(diǎn)出來(lái)一個(gè)創(chuàng)業(yè)方向：“環(huán)境構(gòu)建是下個(gè)熱門(mén)的創(chuàng)業(yè)方向”。

“環(huán)境構(gòu)建正在從一個(gè)順手搭的實(shí)驗(yàn)配件，變成一個(gè)獨(dú)立的創(chuàng)業(yè)賽道。如果你訓(xùn)練的智能體最終要在類生產(chǎn)環(huán)境中運(yùn)作，那這個(gè)環(huán)境本身就是你核心能力棧的一部分?！?/b>

他接下來(lái)要做的事情似乎也呼之欲出了。

在這些對(duì)整個(gè)技術(shù)所處階段的判斷之外，這篇文章也體現(xiàn)出林俊旸的個(gè)人思考方式特點(diǎn)。其中一個(gè)就是他對(duì)操控一整個(gè)復(fù)雜系統(tǒng)的癡迷。

他認(rèn)為，未來(lái)的路線圖是三級(jí)跳：從訓(xùn)練模型，到訓(xùn)練智能體，再到訓(xùn)練系統(tǒng)。

他的這篇文章必然會(huì)被拿來(lái)與已經(jīng)掌管起騰訊模型的姚順雨一年前那篇《AI下半場(chǎng)》做對(duì)比，而對(duì)于一個(gè)復(fù)雜系統(tǒng)的執(zhí)迷以及過(guò)去直接在最頂端操盤(pán)一整個(gè)大規(guī)模復(fù)雜系統(tǒng)的直接經(jīng)驗(yàn)，可能是這兩篇文章里體現(xiàn)思路上最大的不同。

從他對(duì)“agent化思考”的解釋可以看出，在這里agent已經(jīng)不是被當(dāng)作模型的某種應(yīng)用形態(tài)，它最終會(huì)大過(guò)模型。

過(guò)去很長(zhǎng)一段時(shí)間，大家對(duì)agent的討論的起點(diǎn)是，“模型很強(qiáng)大，要把它的能力釋放，構(gòu)建一個(gè)agent是個(gè)不錯(cuò)的主意”?！断掳雸?chǎng)》的文章里，最重要的觀點(diǎn)之一“語(yǔ)言通過(guò)agent中的推理實(shí)現(xiàn)泛化”也是這個(gè)意思。而林俊旸文章里體現(xiàn)出來(lái)的判斷則是：

agent已經(jīng)是最核心的那個(gè)智能系統(tǒng)本身，模型反而應(yīng)該只是其中一部分。

所以，接下來(lái)所有資源投入的方向、需要訓(xùn)練和進(jìn)化的也是這個(gè)系統(tǒng)本身。不再是要釋放模型能力，而是如何讓模型和系統(tǒng)里其他零部件一起最優(yōu)化地得到訓(xùn)練。

這是最大的變化，我們可能又到了一個(gè)可以打翻一切重新思考的時(shí)刻了。

附文章中文翻譯版

從“推理式思考”到“智能體式思考”

過(guò)去兩年，模型的評(píng)估方式，以及我們對(duì)模型能力的期待，都被徹底改寫(xiě)了。OpenAI 的 o1 證明了一件事：“思考”本身可以成為一種一等能力——它不僅可以被專門(mén)訓(xùn)練，也可以被直接暴露給用戶。DeepSeek-R1 則進(jìn)一步證明，帶有“推理”風(fēng)格的后訓(xùn)練方法，不只存在于最初那幾家頂級(jí)實(shí)驗(yàn)室內(nèi)部，它是可以被復(fù)現(xiàn)、被擴(kuò)展的。OpenAI 將 o1 描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練、能夠“在回答前先思考”的模型；DeepSeek 則把 R1 定位為一個(gè)開(kāi)放的推理模型，并宣稱其競(jìng)爭(zhēng)力可以對(duì)標(biāo) o1。

那個(gè)階段當(dāng)然很重要。但 2025 年上半年，行業(yè)主要討論的，仍然是“推理式思考”：如何讓模型在推理階段消耗更多計(jì)算、如何用更強(qiáng)的獎(jiǎng)勵(lì)機(jī)制去訓(xùn)練它、如何把這種額外的思考過(guò)程開(kāi)放給用戶，或者加以控制。

現(xiàn)在真正的問(wèn)題是：下一步是什么？

我認(rèn)為答案是：智能體式思考。也就是，為了行動(dòng)而思考；在與環(huán)境持續(xù)交互的過(guò)程中思考；并根據(jù)來(lái)自世界的反饋，不斷更新自己的計(jì)劃。

1. o1 和 R1 的崛起，真正教會(huì)了我們什么

第一波推理模型帶來(lái)的最重要啟示是：如果我們想把強(qiáng)化學(xué)習(xí)真正規(guī)模化地應(yīng)用到語(yǔ)言模型上，就必須擁有確定、穩(wěn)定、可擴(kuò)展的反饋信號(hào)。因此，數(shù)學(xué)、代碼、邏輯以及其他可驗(yàn)證領(lǐng)域迅速成為核心，因?yàn)樵谶@些場(chǎng)景里，獎(jiǎng)勵(lì)信號(hào)遠(yuǎn)比一般的偏好監(jiān)督更強(qiáng)。它們讓強(qiáng)化學(xué)習(xí)優(yōu)化的是“正確性”，而不是“看起來(lái)合理”。

這時(shí)，基礎(chǔ)設(shè)施就變得至關(guān)重要。

一旦模型被訓(xùn)練成可以沿著更長(zhǎng)的軌跡進(jìn)行推理，強(qiáng)化學(xué)習(xí)就不再只是監(jiān)督微調(diào)之上的一個(gè)輕量附加層，而會(huì)變成一個(gè)系統(tǒng)工程問(wèn)題。你需要大規(guī)模 rollout，需要高吞吐的驗(yàn)證機(jī)制，需要穩(wěn)定的策略更新，還需要高效采樣。推理模型的出現(xiàn)，本質(zhì)上既是一個(gè)建模故事，也是一個(gè)基礎(chǔ)設(shè)施故事。OpenAI 將 o1 描述為一條通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的“推理模型線”；而后來(lái)的 DeepSeek R1，又進(jìn)一步證明了：基于推理的強(qiáng)化學(xué)習(xí)，需要大量專門(mén)的算法與基礎(chǔ)設(shè)施工作支撐。

第一個(gè)重大轉(zhuǎn)折已經(jīng)非常清楚：從擴(kuò)展預(yù)訓(xùn)練，轉(zhuǎn)向擴(kuò)展面向推理的后訓(xùn)練。

2. 真正的問(wèn)題，從來(lái)不只是“把 Thinking 和 Instruct 合并”

在 2025 年初，我們 Qwen 團(tuán)隊(duì)內(nèi)部曾經(jīng)有過(guò)一個(gè)相當(dāng)宏大的設(shè)想：理想中的系統(tǒng)，應(yīng)該把 thinking 模式和 instruct 模式統(tǒng)一起來(lái)。它應(yīng)當(dāng)支持可調(diào)節(jié)的推理強(qiáng)度，類似 low / medium / high 這樣的思考檔位。更進(jìn)一步，它最好還能根據(jù) prompt 和上下文自動(dòng)推斷出合適的思考量，讓模型自己決定：什么時(shí)候立刻回答，什么時(shí)候多想一會(huì)兒，什么時(shí)候則值得為一個(gè)真正困難的問(wèn)題投入更多算力。

從概念上看，這個(gè)方向當(dāng)然是對(duì)的。Qwen3 就是其中最清晰、最公開(kāi)的一次嘗試之一。它提出了“混合思考模式”，在同一個(gè)模型家族中同時(shí)支持 thinking 和 non-thinking 兩類行為，強(qiáng)調(diào)可控的思考預(yù)算，并描述了一條四階段的后訓(xùn)練流程，其中在長(zhǎng)鏈?zhǔn)剿季S冷啟動(dòng)和推理強(qiáng)化學(xué)習(xí)之后，還明確包含了“思考模式融合”這一步。

但“合并”這件事，說(shuō)起來(lái)容易，真正做好卻非常難。

最難的部分，其實(shí)是數(shù)據(jù)。

當(dāng)人們談?wù)撊绾稳诤?thinking 和 instruct 時(shí)，首先想到的往往是模型側(cè)的兼容性：一個(gè) checkpoint 能不能同時(shí)支持兩種模式？一個(gè) chat template 能不能在二者之間切換？一個(gè) serving stack 能不能把這些控制開(kāi)關(guān)優(yōu)雅地暴露出來(lái)？

但更深層的問(wèn)題在于：這兩種模式的數(shù)據(jù)分布和行為目標(biāo)，本質(zhì)上差異很大。

我們?cè)趪L試平衡模型融合與后訓(xùn)練數(shù)據(jù)質(zhì)量、多樣性提升的過(guò)程中，并沒(méi)有把所有事情都做對(duì)。與此同時(shí)，我們也非常關(guān)注用戶實(shí)際是如何使用 thinking 模式和 instruct 模式的。一個(gè)強(qiáng) instruct 模型，通常會(huì)因?yàn)橐韵绿匦远华?jiǎng)勵(lì)：直接、簡(jiǎn)潔、格式服從性強(qiáng)、低延遲，尤其擅長(zhǎng)處理那些重復(fù)性高、吞吐量大、企業(yè)場(chǎng)景常見(jiàn)的任務(wù)，比如改寫(xiě)、標(biāo)注、模板化客服、結(jié)構(gòu)化抽取、運(yùn)營(yíng)問(wèn)答等。一個(gè)強(qiáng) thinking 模型，則會(huì)因?yàn)樵敢庠陔y題上消耗更多 token、能維持清晰的中間推理結(jié)構(gòu)、會(huì)探索替代路徑、并保留足夠多的內(nèi)部計(jì)算以切實(shí)提高最終正確率，而獲得獎(jiǎng)勵(lì)。

這兩種行為畫(huà)像，本身就是彼此拉扯的。

如果融合數(shù)據(jù)沒(méi)有被極其謹(jǐn)慎地整理，最終結(jié)果通常就是“兩頭都不夠好”：thinking 側(cè)會(huì)變得嘈雜、臃腫、或者缺乏決斷力；instruct 側(cè)則會(huì)失去原本的干脆、可靠和低成本，而這恰恰是商業(yè)用戶真正想要的。

所以在實(shí)踐中，“分開(kāi)做”依然很有吸引力。到了 2025 年后期，在 Qwen3 最初提出 hybrid framing 之后，2507 系列又分別發(fā)布了獨(dú)立的 Instruct 和 Thinking 更新，包括各自獨(dú)立的 30B 和 235B 版本。在商業(yè)部署里，大量客戶依舊明確需要高吞吐、低成本、高可控的 instruct 行為，去處理批量任務(wù)。對(duì)于這些場(chǎng)景來(lái)說(shuō)，“融合”并不顯然是一種優(yōu)勢(shì)。將兩條線拆開(kāi)，反而讓團(tuán)隊(duì)可以更專注地解決各自模式背后的數(shù)據(jù)和訓(xùn)練問(wèn)題。

當(dāng)然，也有其他實(shí)驗(yàn)室走了相反的路。Anthropic 公開(kāi)主張一種“集成式模型”哲學(xué)：Claude 3.7 Sonnet 被介紹為一個(gè)混合推理模型，用戶既可以選擇普通回答，也可以開(kāi)啟 extended thinking，API 用戶還可以設(shè)置 thinking budget。Anthropic 明確表示，他們相信推理能力應(yīng)該是集成在模型內(nèi)部的能力，而不是一個(gè)獨(dú)立模型。GLM-4.5 也公開(kāi)把自己定位成一個(gè)同時(shí)包含 thinking 與 non-thinking 模式的混合推理模型，把推理、編碼和 agent 能力統(tǒng)一在一起；DeepSeek 隨后也在 V3.1 的“Think & Non-Think”混合推理中，朝著類似方向推進(jìn)。

真正關(guān)鍵的問(wèn)題，其實(shí)是：這種合并是不是“自然長(zhǎng)出來(lái)”的。

如果 thinking 和 instruct 只是被強(qiáng)行塞進(jìn)同一個(gè) checkpoint 里，但表現(xiàn)出來(lái)仍然像兩個(gè)別扭拼接在一起的人格，那最終的產(chǎn)品體驗(yàn)依舊會(huì)很不自然。真正成功的融合，應(yīng)該呈現(xiàn)出一個(gè)平滑的推理強(qiáng)度譜系。模型應(yīng)當(dāng)能夠表達(dá)多種不同層級(jí)的思考投入，最好還能自適應(yīng)地做出選擇。GPT 風(fēng)格的 effort control 所指向的，其實(shí)正是這個(gè)方向：它不是一個(gè)二元開(kāi)關(guān)，而是一種關(guān)于計(jì)算資源分配的策略。

3. 為什么 Anthropic 的方向，是一次有價(jià)值的糾偏

Anthropic 在 Claude 3.7 和 Claude 4 上的公開(kāi)表述一直相對(duì)克制。他們強(qiáng)調(diào)的是集成式推理、用戶可控的思考預(yù)算、真實(shí)世界任務(wù)、代碼質(zhì)量，以及后來(lái)進(jìn)一步強(qiáng)調(diào)的——在 extended thinking 過(guò)程中調(diào)用工具的能力。Claude 3.7 被定義為一個(gè)擁有可控預(yù)算的混合推理模型；Claude 4 則把這件事又往前推進(jìn)了一步：允許推理與工具使用交錯(cuò)發(fā)生。與此同時(shí)，Anthropic 始終把編碼、長(zhǎng)時(shí)程任務(wù)和 agent 工作流視為主要目標(biāo)。

更長(zhǎng)的推理痕跡，并不會(huì)自動(dòng)讓模型變得更聰明。

很多時(shí)候，過(guò)度暴露出來(lái)的“思考過(guò)程”，恰恰說(shuō)明模型的資源分配出了問(wèn)題。如果一個(gè)模型試圖以同樣冗長(zhǎng)的方式去“思考所有事情”，那它可能并不是更深刻，而是沒(méi)能正確排序優(yōu)先級(jí)、沒(méi)能有效壓縮信息、也沒(méi)能及時(shí)行動(dòng)。Anthropic 的路線，某種程度上體現(xiàn)了一種更有紀(jì)律的看法：思考應(yīng)當(dāng)被目標(biāo)工作負(fù)載塑形。

如果目標(biāo)是編碼，那么思考就應(yīng)該幫助模型完成代碼庫(kù)導(dǎo)航、任務(wù)規(guī)劃、問(wèn)題拆解、錯(cuò)誤恢復(fù)與工具編排。

如果目標(biāo)是 agent 工作流，那么思考就應(yīng)該提升它在長(zhǎng)時(shí)間跨度執(zhí)行中的質(zhì)量，而不是只產(chǎn)出一段看起來(lái)很厲害的中間 prose。

這種對(duì)“針對(duì)性效用”的強(qiáng)調(diào)，其實(shí)指向了更大的變化：我們正在從“訓(xùn)練模型”的時(shí)代，走向“訓(xùn)練智能體”的時(shí)代。

我們?cè)?Qwen3 的博客里其實(shí)也明確寫(xiě)過(guò)這一點(diǎn)：“我們正從一個(gè)聚焦于訓(xùn)練模型的時(shí)代，轉(zhuǎn)向一個(gè)以訓(xùn)練智能體為中心的時(shí)代?！蓖瑫r(shí)，我們也把未來(lái)強(qiáng)化學(xué)習(xí)的進(jìn)展，與環(huán)境反饋驅(qū)動(dòng)下的長(zhǎng)時(shí)程推理聯(lián)系在一起。

所謂智能體，是一種能夠制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修正策略，并在長(zhǎng)時(shí)間尺度上持續(xù)推進(jìn)任務(wù)的系統(tǒng)。它的定義，不在于會(huì)不會(huì)“多想一點(diǎn)”，而在于它是否能與世界形成閉環(huán)交互。

4. “智能體式思考”到底意味著什么

智能體式思考，對(duì)應(yīng)的是一種完全不同的優(yōu)化目標(biāo)。

傳統(tǒng)的推理式思考，通常看的是：在給出最終答案之前，模型內(nèi)部的 deliberation 質(zhì)量如何。它能不能把定理做出來(lái)？能不能寫(xiě)出證明？能不能生成正確代碼？能不能通過(guò) benchmark？

而智能體式思考關(guān)注的是另一件事：模型在與環(huán)境交互的過(guò)程中，能否持續(xù)推進(jìn)任務(wù)。

核心問(wèn)題也因此發(fā)生了變化：它不再是“模型能不能思考得足夠久”，而是“模型能不能以一種能夠支撐有效行動(dòng)的方式去思考”。

智能體式思考必須處理好幾類事情，而這些恰恰是純推理模型往往可以回避的：

什么時(shí)候該停止思考，轉(zhuǎn)而采取行動(dòng)
應(yīng)該調(diào)用哪個(gè)工具，以及調(diào)用順序是什么
如何吸收來(lái)自環(huán)境的噪聲信息或不完整觀測(cè)
失敗后如何修改計(jì)劃
如何在多輪交互、多次工具調(diào)用中保持連貫性

歸根到底，智能體式思考，就是一種通過(guò)行動(dòng)來(lái)完成推理的模型能力。

5. 為什么面向智能體的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施更難

一旦目標(biāo)從“解 benchmark 題”切換為“完成交互式任務(wù)”，強(qiáng)化學(xué)習(xí)的整個(gè)技術(shù)棧也會(huì)隨之改變。經(jīng)典推理強(qiáng)化學(xué)習(xí)所使用的那套基礎(chǔ)設(shè)施，已經(jīng)不夠用了。

在傳統(tǒng) reasoning RL 中，rollout 往往可以被視作相對(duì)封閉的軌跡，評(píng)估器也通常比較干凈、明確。而在 agentic RL 里，策略本身被嵌入進(jìn)了一個(gè)更大的執(zhí)行框架中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng)，以及各種 orchestration framework。環(huán)境不再只是一個(gè)靜態(tài)驗(yàn)證器，而成了訓(xùn)練系統(tǒng)本身的一部分。

這會(huì)帶來(lái)一個(gè)新的系統(tǒng)性要求：訓(xùn)練與推理必須被更徹底地解耦。

如果做不到這一點(diǎn)，rollout 的吞吐量就會(huì)迅速崩掉。想象一個(gè)編碼智能體：它需要把自己生成的代碼扔到一個(gè)真實(shí)的測(cè)試框架里去執(zhí)行。此時(shí)，推理側(cè)會(huì)因?yàn)榈却龍?zhí)行反饋而停滯，訓(xùn)練側(cè)則因?yàn)槟貌坏揭淹瓿绍壽E而“斷糧”，整個(gè)流水線的 GPU 利用率會(huì)遠(yuǎn)低于經(jīng)典 reasoning RL 的水平。再疊加工具延遲、部分可觀測(cè)性和有狀態(tài)環(huán)境，這種低效只會(huì)被進(jìn)一步放大。結(jié)果就是：在你真正抵達(dá)目標(biāo)能力水平之前，實(shí)驗(yàn)速度就已經(jīng)慢到令人痛苦。

與此同時(shí)，環(huán)境本身也開(kāi)始成為一種一等研究對(duì)象。

在 SFT 時(shí)代，我們癡迷于數(shù)據(jù)多樣性；而在 agent 時(shí)代，我們更應(yīng)該癡迷于環(huán)境質(zhì)量：它是否穩(wěn)定、是否真實(shí)、覆蓋度夠不夠、難度是否合適、狀態(tài)空間是否足夠豐富、反饋是否足夠有信息量、是否抗 exploit、rollout 生成能不能規(guī)模化。

環(huán)境構(gòu)建，已經(jīng)開(kāi)始從一個(gè)“順手做的副項(xiàng)目”，逐漸變成一個(gè)真正的創(chuàng)業(yè)賽道。因?yàn)槿绻阌?xùn)練的是一個(gè)要在接近生產(chǎn)環(huán)境的設(shè)置中運(yùn)行的智能體，那么環(huán)境本身就是核心能力棧的一部分。

6. 下一個(gè)前沿，是“更可用的思考”

我的判斷是，智能體式思考會(huì)成為主導(dǎo)性的思考范式。它最終甚至可能替代掉很大一部分舊式、靜態(tài)、獨(dú)白式的推理：那種過(guò)長(zhǎng)、封閉的內(nèi)部思考痕跡，試圖靠吐出越來(lái)越多文本，來(lái)彌補(bǔ)缺乏交互能力的不足。即便是在非常困難的數(shù)學(xué)或編碼任務(wù)上，一個(gè)真正先進(jìn)的系統(tǒng)，也理應(yīng)擁有搜索、模擬、執(zhí)行、檢查、驗(yàn)證、修正的權(quán)利。我們的目標(biāo)，是讓它穩(wěn)健且高產(chǎn)地解決問(wèn)題。

訓(xùn)練這類系統(tǒng)時(shí)，最難的問(wèn)題之一，是 reward hacking。

一旦模型真正擁有了工具訪問(wèn)能力，reward hacking 就會(huì)變得危險(xiǎn)得多。一個(gè)能搜索的模型，可能會(huì)在 RL 過(guò)程中學(xué)會(huì)直接查答案；一個(gè)編碼智能體，可能會(huì)利用代碼倉(cāng)庫(kù)里的未來(lái)信息、濫用日志、或者發(fā)現(xiàn)某些能讓任務(wù)“看似完成”的捷徑，從而讓評(píng)估失真。只要環(huán)境里存在隱藏泄漏，策略就可能看起來(lái)像“超人”，但其實(shí)它學(xué)會(huì)的只是作弊。

這也是為什么，智能體時(shí)代會(huì)比推理時(shí)代更加脆弱、更加精細(xì)。更強(qiáng)的工具會(huì)讓模型更有用，但同時(shí)也會(huì)顯著擴(kuò)大虛假優(yōu)化的攻擊面。接下來(lái)真正嚴(yán)肅的研究瓶頸，很可能會(huì)集中在環(huán)境設(shè)計(jì)、評(píng)估器魯棒性、反作弊協(xié)議，以及 policy 與真實(shí)世界之間更原則化的接口設(shè)計(jì)上。

但方向已經(jīng)非常清楚了：帶工具的思考，天然比孤立的思考更有用，也更有可能真正提升生產(chǎn)力。

智能體式思考還將意味著另一件事：執(zhí)行框架工程（harness engineering） 會(huì)變得越來(lái)越重要。未來(lái)的核心智能，越來(lái)越可能來(lái)自多個(gè)智能體是如何被組織起來(lái)的：一個(gè)負(fù)責(zé)任務(wù)規(guī)劃和路由的 orchestrator，一組扮演領(lǐng)域?qū)＜业膶Ｓ弥悄荏w，以及若干執(zhí)行更窄任務(wù)的 sub-agents；它們共同幫助系統(tǒng)控制上下文、避免污染，并在不同層級(jí)的推理之間維持隔離。

未來(lái)的演進(jìn)路徑會(huì)是：從訓(xùn)練模型，到訓(xùn)練智能體；再?gòu)挠?xùn)練智能體，到訓(xùn)練系統(tǒng)。

結(jié)論

這一輪推理浪潮的第一階段，已經(jīng)確認(rèn)了一件非常重要的事：當(dāng)反饋信號(hào)足夠可靠、基礎(chǔ)設(shè)施足夠支撐時(shí)，疊加在語(yǔ)言模型之上的強(qiáng)化學(xué)習(xí)，確實(shí)能夠產(chǎn)生質(zhì)變級(jí)別的認(rèn)知提升。

但更深層的轉(zhuǎn)變，其實(shí)是：從推理式思考，走向智能體式思考；從“思考更久”，走向“為了行動(dòng)而思考”。

訓(xùn)練的核心對(duì)象已經(jīng)變了。它不再只是模型本身，而是“模型 + 環(huán)境”的整個(gè)系統(tǒng)；更具體地說(shuō)，是智能體，以及包裹在它周?chē)哪翘讏?zhí)行框架。這也改變了什么才是最重要的研究資產(chǎn)：當(dāng)然仍然包括模型架構(gòu)和訓(xùn)練數(shù)據(jù)，但同樣重要的，還有環(huán)境設(shè)計(jì)、rollout 基礎(chǔ)設(shè)施、評(píng)估器魯棒性，以及多個(gè)智能體彼此協(xié)作時(shí)所依賴的接口。

它還改變了我們對(duì)“好思考”的定義：真正有價(jià)值的，不再是最長(zhǎng)、最顯眼的思維痕跡，而是那個(gè)最能支撐行動(dòng)在真實(shí)世界約束下持續(xù)推進(jìn)的思考軌跡。

它甚至還改變了競(jìng)爭(zhēng)優(yōu)勢(shì)將來(lái)自哪里。

在推理時(shí)代，優(yōu)勢(shì)主要來(lái)自更好的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的反饋信號(hào)、以及更可擴(kuò)展的訓(xùn)練流水線；而在智能體時(shí)代，優(yōu)勢(shì)將更多來(lái)自更好的環(huán)境、更緊密的訓(xùn)練—服務(wù)一體化、更強(qiáng)的執(zhí)行框架工程能力，以及把模型決策與真實(shí)后果閉環(huán)連接起來(lái)的能力。

點(diǎn)個(gè)“愛(ài)心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

這套題，GPT-5.5、Opus 4.7加起來(lái)沒(méi)考到1分，人類卻拿了滿分100

機(jī)器之心Pro 2026-05-03 09:22:46
1 跟貼 1

Karpathy：很多App就不該出生,人類護(hù)城河只剩理解,CPU將淪為配角

機(jī)器之心Pro 2026-05-01 20:44:49
0 跟貼 0

AI能改10萬(wàn)行代碼，卻讓你走路去洗車(chē)！Karpathy戳破「鋸齒狀智能」

新智元 2026-05-01 17:08:00
1 跟貼 1

騰訊混元CL-bench續(xù)作發(fā)布，讓大模型讀懂你的日常生活

機(jī)器之心Pro 2026-05-01 19:53:00
1 跟貼 1

從Token、算力到智能體：數(shù)字中國(guó)建設(shè)峰會(huì)上的AI進(jìn)化論

財(cái)聯(lián)社 2026-05-01 12:26:30
0 跟貼 0

突破長(zhǎng)序列與低耗部署核心瓶頸！中國(guó)科學(xué)院發(fā)布類腦大模型瞬悉2.0

新智元 2026-05-02 14:14:33
0 跟貼 0

硅谷大廠的AI“含金量”開(kāi)始分級(jí)

鈦媒體APP 2026-05-03 10:46:11
0 跟貼 0

馬斯克的Grok 4.3悄悄上線，跑分評(píng)測(cè)出爐

新智元 2026-05-02 17:06:34
12 跟貼 12

圖靈獎(jiǎng)得主：勸年輕人別學(xué)計(jì)算機(jī)，行業(yè)紅利正在消失

DeepTech深科技 2026-05-02 18:30:19
6 跟貼 6

新一代具身智能仿真框架：高吞吐并行高保真渲染助力規(guī)?；?xùn)練

量子位 2026-05-01 14:32:45
1 跟貼 1

兩年前質(zhì)疑“AI花太多、賺太少”，高盛研究主管承認(rèn)“看錯(cuò)了”，但“鏟子已被充分定價(jià)，現(xiàn)在看多云”

華爾街見(jiàn)聞官方 2026-05-03 11:34:49
0 跟貼 0

華為openJiuwen社區(qū)攜手中科大靈境造物重塑AI科研

量子位 2026-05-01 21:59:41
0 跟貼 0

剛剛，小扎買(mǎi)了一家機(jī)器人公司，要做人形機(jī)器人的「安卓平臺(tái)」

機(jī)器之心Pro 2026-05-03 09:25:01
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

DeepSeek V4最大的遺憾

量子位 2026-05-03 11:45:33
0 跟貼 0

懸疑推理女王，阿加莎筆下最為精彩的一案

谷谷追劇人 2026-05-01 14:18:01
1 跟貼 1

有人只用API就猜出了GPT、Claude、Gemini的參數(shù)量？社區(qū)吵翻了

機(jī)器之心Pro 2026-05-01 19:56:22
4 跟貼 4

香港又一部黑馬倫理猛片，尺度炸裂題材禁忌，適合成年人觀看！

何夕夕與書(shū) 2026-05-01 04:30:20
0 跟貼 0

門(mén)禁被男子當(dāng)過(guò)人道具，一番操作讓人意外，運(yùn)動(dòng)邏輯完全說(shuō)得通！

白熊愛(ài)搞笑 2026-05-01 19:17:42
1 跟貼 1

漢語(yǔ)翻譯還得看我騰哥，神翻譯爆笑場(chǎng)面

爆笑山哥 2026-05-01 08:00:30
0 跟貼 0

不翻譯誰(shuí)看得懂

固執(zhí)追劇 2026-05-02 20:49:20
1 跟貼 1

美國(guó)國(guó)防部長(zhǎng)已下令從德國(guó)撤出5000名駐軍，撤軍工作將在未來(lái)6至12個(gè)月內(nèi)完成

魯中晨報(bào) 2026-05-02 07:55:05
19462 跟貼 19462

歷史的韻腳——把三千年歷史讀進(jìn)大語(yǔ)言模型

新浪財(cái)經(jīng) 2026-05-03 10:57:53
0 跟貼 0

上中下三條削藩策略朱允炆為何偏偏選擇下策？

朝話熹史 2026-04-29 15:46:25
0 跟貼 0

這就是最基礎(chǔ)的邏輯了，所以學(xué)校不教邏輯學(xué)

楊小楊愛(ài)看劇 2026-05-01 16:31:16
10963 跟貼 10963

智能體從「單兵作戰(zhàn)」到「精銳團(tuán)隊(duì)」 -2

機(jī)器之心Pro 2026-04-28 16:56:00
0 跟貼 0

美軍新一代班用機(jī)槍，XM250輕機(jī)槍，重塑美軍火力壓制邏輯！

環(huán)球武器 2026-04-30 09:30:56
0 跟貼 0

AReaL v1.0開(kāi)源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0

PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0

這翻譯太強(qiáng)了，看完我佩服得五體投地

兔子王追劇 2026-05-03 10:30:59
1 跟貼 1

一篇文章，讓你真正看懂微積分的本質(zhì)

真相Truth 2026-04-30 22:01:58
2 跟貼 2

不要讓算法養(yǎng)成我們的粉色圍欄

小貓上樹(shù) 2026-05-02 21:15:53
0 跟貼 0

對(duì)話東軟集團(tuán)副總裁龐宏巖：座艙智能體的爆發(fā)，更需要一個(gè)安全底座

新智駕 2026-05-01 15:46:19
0 跟貼 0

一臺(tái)打字機(jī)，敲出14年血淚！中國(guó)檢察官向哲濬之子追尋東京審判歷史

環(huán)球網(wǎng)資訊 2026-05-03 10:54:59
1 跟貼 1

爆火！把智能體當(dāng)游戲角色來(lái)玩，一個(gè)人就是一個(gè)公司

機(jī)器之心Pro 2026-02-12 18:04:44
0 跟貼 0

奔馳召回217輛G 580：一顆螺栓的魯棒性困局

我是一個(gè)養(yǎng)蝦人 2026-04-30 17:23:38
0 跟貼 0

說(shuō)話內(nèi)容沒(méi)聽(tīng)清楚，誰(shuí)能幫忙精準(zhǔn)翻譯，快來(lái)一展語(yǔ)言神通

搞笑小哈皮 2026-05-03 09:58:47
1 跟貼 1

還推理上了，信任呢

我是劉太浪本人 2026-05-02 22:31:18
0 跟貼 0

圍棋實(shí)戰(zhàn)解析：柒柒黑先困境，實(shí)用策略揭秘

巫馬仙儀 2026-05-03 10:03:57
1 跟貼 1

教育產(chǎn)業(yè)日?qǐng)?bào)(05.02) : 科研動(dòng)態(tài)

億歐 2026-05-03 11:57:49
0 跟貼 0

上映多時(shí)票房只有零元，一個(gè)觀眾都沒(méi)有，五一檔最慘電影誕生了
影視高原說(shuō)
2026-05-01 08:47:30

打服了對(duì)手！塞爾比瓦菲、艾倫齊夸贊吳宜澤，他會(huì)是斯諾克新冠軍
里芃芃體育
2026-05-03 11:15:13

希金斯：墨菲這屆世錦賽就像神一樣，意志力比拼里我關(guān)鍵黑球手軟
楊華評(píng)論
2026-05-03 02:48:59

蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占，我笑著離開(kāi)并決定離婚
曉艾故事匯
2026-04-05 16:11:46

摩根大通女高管被控性侵已婚印度裔男下屬，女方否認(rèn)，公司調(diào)查稱并無(wú)證據(jù)
紅星新聞
2026-05-02 16:01:48

女子找到工作月薪12000，僅面試一次老板就同意，入職兩天沒(méi)人理
丫頭舫
2026-05-01 22:17:59

網(wǎng)絡(luò)瘋傳賴清德妻子在美國(guó)購(gòu)買(mǎi)億元豪宅，賴辦回應(yīng)了
海峽導(dǎo)報(bào)社
2026-05-02 10:52:21

倫敦世乒賽最新戰(zhàn)報(bào)：國(guó)乒2連勝！張本智和慘敗，張本美和轟11-0
羙晞
2026-05-03 09:15:03

中國(guó)對(duì)非洲國(guó)家實(shí)施零關(guān)稅，唯一例外的斯威士蘭格外“搶眼”
深度報(bào)
2026-05-02 22:10:20

他是混血兒，出道20年默默無(wú)聞，《愛(ài)情沒(méi)有神話》和王菊搭戲火了
芬霏劇時(shí)光
2026-05-02 14:14:15

困獸之局：伊朗的窒息時(shí)刻
民間胡扯老哥
2026-05-02 11:36:28

誰(shuí)能想到！日本前首相在中國(guó)的土地上發(fā)聲：美國(guó)是全球最大威脅！
娛樂(lè)圈的筆娛君
2026-05-03 12:06:23

1-3大冷！國(guó)乒不敵韓國(guó)，比輸球還可怕，雪藏王楚欽暴露3大短板
大秦壁虎白話體育
2026-05-03 07:02:21

專家呼吁：馬上停用6種食用油，它是肝癌加速器！再香也別吃
橘子約定
2026-05-03 09:43:10

格力原董事長(zhǎng)周樂(lè)偉投案，全網(wǎng)找董明珠：踢走十年，她憑什么反殺
戶外釣魚(yú)哥阿旱
2026-05-03 03:28:33

晚飯七分飽被推翻了？提醒：過(guò)了62歲，吃飯盡量要做到這5點(diǎn)
芹姐說(shuō)生活
2026-05-02 15:28:33

中國(guó)代表：要防止朝鮮半島生戰(zhàn)生亂
新華社
2026-05-01 09:27:03

排隊(duì)8小時(shí)充電，今年五一高速上1540萬(wàn)輛電車(chē)打了一場(chǎng)漂亮翻身仗
金哥說(shuō)新能源車(chē)
2026-05-02 14:04:53

霸氣張雪舉杯邀請(qǐng)現(xiàn)場(chǎng)朋友慶祝奪冠妻子：全場(chǎng)消費(fèi)都由我們買(mǎi)單
風(fēng)過(guò)鄉(xiāng)
2026-05-03 08:27:36

一位親子鑒定師的自述：我從業(yè)10年，給上千個(gè)男人檢測(cè)出了綠帽子
千秋文化
2026-05-02 19:48:10

2026-05-03 12:55:00

硅星人

硅（Si）是創(chuàng)造未來(lái)的基礎(chǔ)，歡迎來(lái)到這個(gè)星球。

3054文章數(shù) 10493關(guān)注度

往期回顧全部

科技要聞

庫(kù)克罕見(jiàn)"拒答"！蘋(píng)果正被AI供應(yīng)鏈卡脖子

馬斯克去年1583億美元天價(jià)年薪實(shí)際一分沒(méi)拿

英國(guó)法院裁定三星向中興賠償3.92億美元

AI熱潮耗盡庫(kù)存，Mac Mini起售調(diào)高200美元

蘋(píng)果大漲超3%，英特爾市值破5000億

頭條要聞

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世年僅39歲

35歲主管被AI"替崗"起訴公司索賠26萬(wàn) 法院判了

男子花6塊5給殘障人士買(mǎi)可樂(lè)：他、老板娘和我都高興

牛彈琴：比網(wǎng)紅還網(wǎng)紅快80歲的特朗普一晚上發(fā)8張圖

白宮記協(xié)晚宴槍手獄中細(xì)節(jié)披露：24小時(shí)禁閉穿束縛衣

頭條要聞

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世年僅39歲

35歲主管被AI"替崗"起訴公司索賠26萬(wàn) 法院判了

男子花6塊5給殘障人士買(mǎi)可樂(lè)：他、老板娘和我都高興

牛彈琴：比網(wǎng)紅還網(wǎng)紅快80歲的特朗普一晚上發(fā)8張圖

白宮記協(xié)晚宴槍手獄中細(xì)節(jié)披露：24小時(shí)禁閉穿束縛衣

體育要聞

裁判準(zhǔn)備下班，結(jié)果吳宜澤進(jìn)了決賽

黑七！76人4-3淘汰綠軍恩比德34+12+6塔圖姆缺陣

向大帝致敬！膝蓋反關(guān)節(jié)+處理手術(shù)傷口+大腿抽筋：一瘸一拐飛撲球

足壇一夜動(dòng)態(tài)：巴薩2-1奪冠在望阿森納3-0領(lǐng)先6分沙爾克回德甲

挽救2個(gè)賽點(diǎn) 22歲吳宜澤17-16勝艾倫：首進(jìn)世錦賽決賽與墨菲爭(zhēng)冠

娛樂(lè)要聞

蔡卓妍婚后首現(xiàn)身戴結(jié)婚戒指笑容不斷

高圓圓趙又廷游三亞牽手逛街好甜蜜

黃曉明貴州參加剪彩活動(dòng)，戴墨鏡頭發(fā)濃密

竇靖童和宋妍霏巴黎被偶遇兩人互動(dòng)親密難掩默契

陳偉霆期待與兒子共建樹(shù)屋網(wǎng)友讓他參加親子綜藝

財(cái)經(jīng)要聞

后巴菲特時(shí)代，首場(chǎng)股東會(huì)透露了啥

美聯(lián)儲(chǔ)，“分裂”了

假期出游，我被AI坑慘了

炸裂！頂級(jí)量化巨頭，員工人均年薪1800萬(wàn)！

百億私募林園投資打新十大違規(guī)行為曝光！中證協(xié)：部分報(bào)價(jià)員沒(méi)管控任何通訊設(shè)備

汽車(chē)要聞

同比大漲190% 方程豹4月銷(xiāo)量29138臺(tái)

5月首發(fā)亮相奕派M8 奕派科技4月銷(xiāo)量20537輛

風(fēng)云T9L全解析：“理工男”的浪漫情懷該如何表達(dá)？

2026北京國(guó)際車(chē)展碎碎念合資品牌開(kāi)始反撲？

五一要開(kāi)車(chē)出去玩？別忘了檢查車(chē)上這3個(gè)地方，新手照著做就行

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

教育

游戲

公開(kāi)課

軍事航空

房產(chǎn)要聞

五一樓市徹底明牌！塔尖人群都在重倉(cāng)凱旋新世界

所有戶型全賣(mài)爆！?？赥OP級(jí)豪宅，景觀樣板間五一全線開(kāi)放！

熬了6年，漲了2億，三亞核心區(qū)這塊地再次上架

CBD+省名校+準(zhǔn)現(xiàn)房!國(guó)興絕版地段，驚現(xiàn)爆款新盤(pán)!

教育要聞

能者不想干，中學(xué)行政“空心化”何時(shí)休？

難題就是不斷的轉(zhuǎn)化，再轉(zhuǎn)化！

這三句話一定要盡早告訴孩子

西湖大學(xué)太“雙標(biāo)”！外籍學(xué)生學(xué)費(fèi)35萬(wàn)一年，國(guó)內(nèi)學(xué)生僅6千元

“我孩子又沒(méi)犯啥大錯(cuò)！”高二學(xué)生被勸退，這回網(wǎng)友站在學(xué)校這邊

上線8個(gè)月DAU破千萬(wàn)，這扇“窄門(mén)”被瓦手撞開(kāi)了

大型整活現(xiàn)場(chǎng)！玩家腦洞飛起各種新Xbox命名都來(lái)了

60歲老媽直播通關(guān)生化危機(jī)9！評(píng)價(jià)亮了全是真實(shí)感受

《地鐵2039》Steam愿望單破100萬(wàn)!撞車(chē)GTA6能行嗎

公開(kāi)課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門(mén)檻

為什么人類有不同的膚色？

七個(gè)無(wú)法存下錢(qián)的壞習(xí)慣

李彥宏：百度離破產(chǎn)30天

軍事要聞

伊朗公布伊方最新談判方案

特朗普稱將審查伊朗提出的結(jié)束沖突新方案

哥倫比亞總統(tǒng)：反對(duì)對(duì)古巴進(jìn)行任何形式的軍事干預(yù)

美國(guó)會(huì)高層稱對(duì)駐德美軍撤出計(jì)劃“深感擔(dān)憂”

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

林俊旸看到了什么

庫(kù)克罕見(jiàn)"拒答"！蘋(píng)果正被AI供應(yīng)鏈卡脖子

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

裁判準(zhǔn)備下班，結(jié)果吳宜澤進(jìn)了決賽

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

后巴菲特時(shí)代，首場(chǎng)股東會(huì)透露了啥

態(tài)度原創(chuàng)

五一樓市徹底明牌！塔尖人群都在重倉(cāng)凱旋新世界

能者不想干，中學(xué)行政“空心化”何時(shí)休？

上線8個(gè)月DAU破千萬(wàn)，這扇“窄門(mén)”被瓦手撞開(kāi)了

伊朗公布伊方最新談判方案

庫(kù)克罕見(jiàn)"拒答"！蘋(píng)果正被AI供應(yīng)鏈卡脖子

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世年僅39歲

上?？萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世年僅39歲

裁判準(zhǔn)備下班，結(jié)果吳宜澤進(jìn)了決賽

蔡卓妍婚后首現(xiàn)身戴結(jié)婚戒指笑容不斷

五一樓市徹底明牌！塔尖人群都在重倉(cāng)凱旋新世界

能者不想干，中學(xué)行政“空心化”何時(shí)休？