重磅官宣！深圳又引入一位頂尖科學家加盟！

2025-12-17 23:47:50　來源: 深圳夢

廣東舉報

分享至

深圳剛剛發(fā)布人才大禮包，就傳來好消息！

12月17日，騰訊升級大模型研發(fā)架構，新成立AI Infra部、AI Data部、數(shù)據(jù)計算平臺部，全面強化其大模型的研發(fā)體系與核心能力。Vinces Yao出任“CEO/總裁辦公室”首席AI科學家，向騰訊總裁劉熾平匯報；同時兼任AI Infra部、大語言模型部負責人，向技術工程事業(yè)群總裁盧山匯報。盡管內(nèi)部信息并未公布其中文姓名，但媒體從多個信源處獲悉，其為今年9月傳言加入騰訊的前OpenAI研究科學家、AI領域頂尖人才姚順雨。

深圳夢注意到，12月16日，深圳發(fā)布《關于加強青年人才來深發(fā)展服務保障的若干措施》（以下簡稱《若干措施》），由市人力資源和社會保障局等部門出臺人才認定、住房保障和創(chuàng)業(yè)空間等一系列配套實施辦法，吸引和支持青年人才來深發(fā)展?！度舾纱胧酚?026年1月1日起施行，將為青年人才解除來深發(fā)展的后顧之憂，該政策提供從“一張床”到“一間房”的安居保障，以及從“一張桌”到“一間辦公室”的樂業(yè)空間，全方位、長周期陪伴青年人才成長。

27歲OpenAI前研究員姚順雨入職騰訊：

任總辦首席AI科學家，負責大語言模型部等

12月17日，澎湃新聞記者獲悉，騰訊升級大模型研發(fā)架構，新成立AI Infra部、AI Data部、數(shù)據(jù)計算平臺部，全面強化其大模型的研發(fā)體系與核心能力。Vinces Yao出任“CEO/總裁辦公室”首席AI科學家，向騰訊總裁劉熾平匯報；同時兼任AI Infra部、大語言模型部負責人，向技術工程事業(yè)群總裁盧山匯報。

作為騰訊大模型體系的重要一環(huán)，AI Infra部將負責大模型訓練和推理平臺技術能力建設，聚焦大模型分布式訓練、高性能推理服務等核心技術能力，構建大模型AI Infra核心競爭力，為大模型算法研發(fā)和業(yè)務場景落地提供穩(wěn)定高效的技術支持和服務。

騰訊方面向澎湃新聞記者表示，AI大模型研究與工程技術緊密相關。此次大模型研發(fā)架構升級，在進一步強化騰訊工程化優(yōu)勢同時，旨在提升AI大模型研究能力，聚焦公司AI戰(zhàn)略布局，提升AI大模型的研發(fā)效率。

盡管內(nèi)部信息并未公布其中文姓名，但鳳凰網(wǎng)科技從多個信源處獲悉，其為今年9月傳言加入騰訊的前OpenAI研究科學家、AI領域頂尖人才姚順雨。

據(jù)公開資料，姚順雨畢業(yè)于清華大學姚班，清華姚班是清華大學計算機科學實驗班的簡稱，由世界著名計算機科學家姚期智院士于2005年創(chuàng)辦，旨在培養(yǎng)國際頂尖的計算機科學及交叉創(chuàng)新人才。姚順雨曾任姚班聯(lián)席會主席，還是清華大學學生說唱社聯(lián)合創(chuàng)始人。

姚順雨隨后就讀于普林斯頓大學，獲計算機博士學位。其在博士期間提出思維樹（Tree of Thoughts）框架改進決策模型，構建CoALA模塊化認知架構。

2024年，姚順雨加入OpenAI，參與智能體產(chǎn)品operator與deep research開發(fā)，是項目的核心貢獻者。在前期研究過程中，他為語言智能體方向的開啟和發(fā)展做出了基礎性貢獻。

2025年5月23日，《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”中國區(qū)名單發(fā)布，27歲的姚順雨入選，成為最年輕的入選者。

（來源：澎湃新聞、鳳凰網(wǎng)科技）

突發(fā)！OpenAI大神姚順雨，任騰訊首席AI科學家

【新智元導讀】OpenAI大神姚順雨，突然入職鵝廠，雙重身份曝光，任CEO/總裁辦公室首席AI科學家，同時兼任AI Infra部、大語言模型負責人。

今天，OpenAI科學家、清華校友姚順雨入職騰訊，出任CEO/總裁辦公室首席AI科學家！

個人主頁暫未更新

幾個月前，全網(wǎng)一則關于姚順雨去向的爆料，在AI圈掀起漣漪。

如今，這個被反復討論卻始終未被官方正式的消息，終于迎來了大結局。

有媒體報道，騰訊要對內(nèi)部大模型研發(fā)體系，進行一次力度空前的架構升級，其中包括——

新成立AI Infra部、AI Data部、數(shù)據(jù)計算平臺部，試圖從算力、數(shù)據(jù)到平臺能力。

一切行動，就是為了全面夯實大模型「地基」。

與此同時，一直未正式露面的姚順雨，也首次以官方身份亮相，擔任兩大職務——

任CEO/總裁辦公室首席AI科學家，向騰訊總裁劉熾平匯報；

兼任AI Infra部、大語言模型部負責人，向技術工程事業(yè)群總裁盧山匯報

這位AI天才的加入，將為中國大語言模型領域帶來怎樣的變革？

清華姚班畢業(yè)，頂級學霸

姚順雨本科畢業(yè)于清華大學，是姚班出身的典型「學霸」，學業(yè)生涯一路閃耀。

初中階段，他就讀于合肥45中，后升入合肥市第一中學。

2014年，他斬獲「全國信息學奧林匹克競賽」（NOI）銀牌。次年，更以安徽省理科第三的高考成績考入清華姚班，主修計算機科學，并曾擔任姚班學生會主席。

2019年本科畢業(yè)后，他前往普林斯頓大學直接攻讀博士學位。

2024年博士畢業(yè)后，他直接加入OpenAI。

他主要研究「智能體」，在OpenAI研究用于數(shù)字自動化（WebShop、SWE-bench、tau-bench）的語言智能體，相關成果包括ReAct、Reflexion、思維樹、SWE-agent、CoALA等。

據(jù)谷歌學術統(tǒng)計，其代表作「ReAct」和「思維樹」被引數(shù)已超4000次，總引用數(shù)近1.6w。

早在博士期間，姚順雨已深耕智能體領域。

在博士學位論文中，他系統(tǒng)總結了語言智能體的核心價值——從「下一個token預測」邁向「數(shù)字自動化」，并提出一系列新基準測試、新方法論與新原則框架。

傳送門：https://ysymyth.github.io/papers/Dissertation-finalized.pdf

值得一提的是，姚順雨還將自己的博士答辯全程在B站公開。

論文中，他還特別回顧了與博士生導師Karthik Narasimhan的深厚情誼。

2019年，盡管已選擇普林斯頓，姚順雨仍對未來方向有所猶豫。

正是在此時，他主動聯(lián)系Karthik，提出「GPT-2這類語言模型看起來很有前景，或許能直接用于解決文本游戲」？

Karthik欣然應允。

此后五年，姚順雨不僅在研究中收獲豐碩，更與導師結下亦師亦友的情誼——Karthik甚至成為他婚禮上的伴郎。

熟悉的人或許都知道，Karthik是GPT開創(chuàng)性論文的作者之一，本人曾在2017-2018年間于OpenAI擔任訪問研究員。

AI進入下半場

今年4月，姚順雨對AI發(fā)展趨勢提出了獨到見解：

強化學習終于迎來實效，而接下來，「評估」將超越「訓練」成為關鍵。

他指出，AI已進入「下半場」，重心正從「解題」轉向「命題」。

在他看來，「評測將比訓練更重要」是當前最值得關注的趨勢。

長期以來，評測雖與訓練、優(yōu)化并列為學習算法的三大要素，卻從未獲得如此高度的重視。

姚順雨強調，當前的核心問題是，弄清楚究竟要讓AI做什么。

要在AI新時代中勝出，我們必須及時調整思維與能力結構——

更貼近產(chǎn)品經(jīng)理的角色：定義問題、設定指標、組織迭代，讓AI能力在真實世界中轉化為可衡量的價值。

而OpenAI最新研究也印證了這一觀點：評測方法是影響模型幻覺的關鍵因素，優(yōu)化評測手段可進一步釋放大模型的潛力。

論文地址：https://arxiv.org/pdf/2509.04664

或許，在接下來的旅程中，姚順雨將會踐行自己的理念——通過評測重新定義AI的邊界與價值。

（內(nèi)容來源：新智元）

姚班學霸、OpenAI姚順雨：大模型下半場是產(chǎn)品的游戲

AI趨勢正在“中場休息”，在此之前訓練＞評估，在此之后評估＞訓練。

這是OpenAI員工、姚班校友姚順雨給出的最新判斷。

AI發(fā)展分為上下兩階段。上半場以模型和方法為中心，核心構建了模型和訓練方法；隨著AI技術成熟，下半場的重點轉向如何定義有現(xiàn)實意義的任務、如何有效評估AI系統(tǒng)的表現(xiàn)。

這要求研究者要及時轉變思維和技能樹方向，可能要更接近于產(chǎn)品經(jīng)理。

為啥會出現(xiàn)這種轉變？

因為強化學習終于能泛化了。

在姚順雨最新的blog中，他系統(tǒng)性闡釋了如上觀點以及背后思考。想法剛剛發(fā)布就得到了不少業(yè)內(nèi)人士的認可：

我同意你的觀點。評估中還有一點值得考慮：成本成為越來越重要的影響因素。

離線RL/無監(jiān)督學習→在線RL學習策略。我們是不是已經(jīng)準備好轉型了？

值得一提的是，這篇文章也有AI參與了撰寫。

這篇博文是基于我在斯坦福大學和哥倫比亞大學的演講。我使用OpenAI深度研究來閱讀我的PPT并打了草稿。

AI下半場是產(chǎn)品的游戲

姚順雨表示，人工智能發(fā)展走向新階段，我們的思維方式應該變一變了。

把重點從解決問題轉移到定義問題，在新時代評估比訓練更重要。我們不僅要思考“我們能否訓練一個模型來解決XX”，而是要思考“我們應該訓練AI做什么？我們?nèi)绾魏饬空嬲倪M步？”

為啥這么說？

先來看AI的上半場發(fā)生了什么。

AI上半場：方法為王

在AI發(fā)展的“前半場”，最有影響力的工作主要集中在模型和訓練方法（如 Transformer、AlexNet、GPT-3），而不是任務或基準。即便是非常重要的基準數(shù)據(jù)集如ImageNet，其引用量也不到AlexNet的三分之一。

究其原因，是因為方法比任務更難、更有趣。

構建新算法或模型架構通常需要深刻的洞察和復雜的工程實踐——比如反向傳播算法、AlexNet、Transformer這樣的突破；相比之下，任務的設定往往只是把人類的已有任務（如翻譯、圖像識別）轉化為可度量的標準，技術含量相對較低。

沒什么洞察力，甚至都沒什么工程力的體現(xiàn)。

加之，任務容易定義但不夠通用，而方法（如Transformer）卻可被廣泛應用到NLP、CV、RL等多個領域，從而產(chǎn)生跨任務的通用價值。

一個好的模型架構或算法可以在多個基準上“爬山”（hillclimb），因為它具有通用性和簡潔性。這也是為什么“方法勝于任務”在這個階段成為主導邏輯。

盡管這種以“方法創(chuàng)新”為主導的范式持續(xù)多年并催生了巨大突破，但這些方法的積累最終帶來了范式轉變的臨界點——這些基礎能力的集成已經(jīng)可以構建出“可工作的AI任務解法配方（recipe）”，也就意味著：我們終于可以認真考慮如何解決真實任務本身，而不僅僅是構建更強的模型。

強化學習里，算法是次要的

姚順雨認為，配方由三要素組成：

大規(guī)模語言訓練

計算與數(shù)據(jù)的規(guī)?；?/p>

推理與行動

具備這三要素即可產(chǎn)出穩(wěn)定且強大的AI。

通過強化學習可以理解為何是這三要素。

強化學習的三大核心是算法、環(huán)境和先驗知識。

長期以來，強化學習研究者大多主要關注算法，忽視環(huán)境和先驗。但隨著經(jīng)驗增長，大家發(fā)現(xiàn)環(huán)境和先驗對實際效果影響巨大。

但是在深度強化學習時代，環(huán)境變得很重要。

算法的性能通常特定于它的開發(fā)和測試環(huán)境。如果忽視了環(huán)境，就可能建立一個“最優(yōu)”的算法，但這個算法只是在特定情況下很強。

那為什么不首先找出真正想要解決的環(huán)境，然后再找最適合它的算法？

姚順雨表示，這正是OpenAI最初的思路。

OpenAI最初的計劃就是把整個數(shù)字世界變成一個可以用強化學習解決的“環(huán)境”，然后用聰明的RL算法來解決這些環(huán)境中的任務，最終實現(xiàn)數(shù)字通用人工智能（digital AGI）。

OpenAI在這個思路下完成了很多經(jīng)典工作，比如用RL打Dota、解決機械手等。

但它并沒有實現(xiàn)讓RL解決計算機/上網(wǎng)的問題，RL Agent也無法遷移到其他環(huán)境，似乎差了點什么。

到了GPT-2/3時期，OpenAI意識到，缺的是先驗知識。

需要引入強大的語言先驗知識，才能解決在復雜環(huán)境中難以泛化的問題。這使得RL Agent在聊天或網(wǎng)頁任務中有顯著提升，如WebGPT、ChatGPT。

但這好像和人類智慧上仍舊有差別，比如人類可以輕松上手一個新游戲、哪怕是零樣本，但是當時AI做不到。

影響泛化的關鍵是“推理能力”。

人類不是單純執(zhí)行指令，而是會進行抽象思考。比如：“地牢危險 → 我需要武器 → 沒有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。

姚順雨說，推理是種“奇怪”的動作。

推理本身不直接改變世界，但其空間是無限組合的。在傳統(tǒng) RL 框架中，它是“不劃算”的 —— 推理不像行動那樣有即時反饋，反而會“稀釋”獎勵。

但如果把“推理”加入RL的動作空間，并結合語言預訓練模型的先驗，就可以帶來極強的泛化能力。類似于：雖然你面對的是無限個空盒子，但你從過往經(jīng)驗中學會了如何在空盒子中識別有價值的選擇。

所以，一旦有了好的語言預訓練先驗+合適的環(huán)境設計（允許語言推理），RL法本身反倒變得次要。

o系列、R1、Deep Research、智能體等，都是由此而來。

或許正如喬布斯所說，你無法預見未來的點點滴滴是如何連接的；只有回頭看時，你才能把它們串聯(lián)起來。

下半場要有新的評估規(guī)則

由此，配方改變了AI社區(qū)的比賽規(guī)則。

開發(fā)新模型→刷新基準→創(chuàng)建更難的基準→更強的新模型。

這種規(guī)則在AI發(fā)展的上半場是有必要的，因為在模型智能水平不夠高時，提高智商通常會提高效用。

可問題是，盡管AI已經(jīng)在各類基準測試（如圍棋、SAT、律師考試、IOI 等）中超越人類，但這些成就并未真正轉化為現(xiàn)實世界的價值或效用。

Jason Wei的一張圖可以很好解釋這一趨勢，AI刷榜的速度越來越快，但是世界因此改變了嗎？

姚順雨認為當前的評估方式主要存在兩方面局限，導致AI在解決現(xiàn)實問題上嚴重脫節(jié)。

1. 假設任務是獨立同分布的（i.i.d.）：模型被要求獨立完成每個任務，然后取平均得分。這種方式忽略了任務之間的連貫性和學習效應，無法評估模型長期適應能力和記憶機制的重要性。

2. 假設評估過程應自動化且與人無關：當前模型接收輸入 → 完成任務 → 接收評分。但真實世界中，大多數(shù)任務（如客戶服務、軟件開發(fā)）都需要持續(xù)的人機互動。

解決之道就是重新設計評估方式，為下半場制定新的游戲規(guī)則。

姚順雨認為創(chuàng)新的評估應該貼近現(xiàn)實世界任務、優(yōu)化模型配方解決任務，形成新的正向循環(huán)。

這個游戲很難，因為它陌生，但是也很令人興奮。上半場的玩家解決視頻、游戲和考試任務，下半場的玩家則利用智能創(chuàng)建有用的產(chǎn)品，建立起價值數(shù)十億甚至數(shù)萬億美元的公司。歡迎來到AI下半場！

姚班學霸、思維樹作者

最后再來介紹一下本文作者姚順雨。

他去年加入OpenAI，擔任研究員，負責研究智能體。

他身上的關鍵字有：

清華姚班

姚班聯(lián)席會主席

清華大學學生說唱社聯(lián)合創(chuàng)始人

普林斯頓計算機博士

他的研究成果包括：

思維樹（Tree of Thoughts）：讓LLM反復思考，大幅提高推理能力。

SWE-bench：一個大模型能力評估數(shù)據(jù)集。

SWE-agent：一個開源AI程序員。

最后，想要閱讀更原汁原味的版本，可戳：https://ysymyth.github.io/The-Second-Half/

本文來自微信公眾號：，作者：明敏

來源：深圳夢（微信號ID：SZeverything）綜合

我們的使命是：星辰大海，只與夢想者同行！

擁有深圳夢，請關注（微信號ID：SZeverything）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.