国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華學霸翁家翌:拒絕DeepSeek,到OpenAI去

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

“如果人生是一場游戲,那我的游戲結(jié)算分數(shù)是記得我名字的人的數(shù)量?!?/p>

做更有意義的事,讓更多人記得他的名字,這是翁家翌從高中時代以來的夢想。

近日,ChatGPT背后的一位中國工程師翁家翌在AI播客WhynotTV Podcast中亮相,并首次講述了自己從清華少年到OpenAI基礎(chǔ)設(shè)施工程骨干的經(jīng)歷。

2020年,翁家翌在清華大學計算機科學與技術(shù)系獲得本科學位,隨后,在卡內(nèi)基梅隆大學碩士畢業(yè)后,2022年,翁家翌加入OpenAI任研究工程師。

在OpenAI期間,翁家翌的名字出現(xiàn)在了從ChatGPT到GPT-4o再到GPT-5的幾乎每一次重大模型發(fā)布的貢獻者名單中。他的核心貢獻可以總結(jié)為三個關(guān)鍵詞:強化學習(RL)、后訓(xùn)練(Post-training)以及Infra(基礎(chǔ)設(shè)施)。


在清華“做慈善”

在清華,翁家翌第一次清晰地意識到“信息差”這件事。

“我不覺得信息差是一件值得被保護的東西?!庇谑牵诔缟袃?nèi)卷和競爭的環(huán)境里,翁家翌做了一件在當時并不“討老師喜歡的事”。他把自己所有搜集到的作業(yè)、代碼、學習資料,幾乎原封不動地開源到GitHub。

“你現(xiàn)在去清華隨便抓個計算機系的學弟,問認不認識捐樓的人,他們大概率不認識,但你問他認不認識翁家翌,他應(yīng)該認識。因為畢竟大家都看我的作業(yè)?!?/p>

在清華,信息差往往被當作一種生存資源,但是他卻覺得,每個人都應(yīng)該平等的擁有信息。

“我不想讓后人重蹈覆轍,經(jīng)常疲于奔命。因為很多人不是很擅長搜集東西,但是他其實是很有能力的。如果能夠給這些人一個信息平權(quán)的機會,那他可能會活得更好。我當時覺得如果把自己的作業(yè)開源的話,可能會幫更多學弟學妹擁有更多自己的時間去做他們更想做的事情?!?/p>

這種信息平權(quán)與開源的理念后來一直影響著他的生活。

大二那年,他進入朱軍老師的實驗室。在貝葉斯、GAN(生成式對抗網(wǎng)絡(luò))、強化學習三個方向里選了強化學習,“我當時其實不知道它們分別是什么,以為強化學習是搞圖像的。”

翁家翌坦言,圖形學曾是他最感興趣的,他在圖形學課程甚至完成了一個16K高清圖渲染大作業(yè),并發(fā)明了一種加速迭代收斂的新算法,最終拿到了全班僅有的兩個A+之一。

但他還是做了取舍。“搞科研不能腳踏兩條船”,他最終選擇了繼續(xù)走強化學習的路。

他的第一個科研項目是在一個上世紀90年代的游戲中訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓智能體在固定地圖里完成從出生點到終點的任務(wù),包括殺怪、撿血包、避障、通關(guān)。雖然最終他用強化學習方法拿下冠軍,但卻意識到自己并不享受整個過程。

他將強化學習研究稱為“煉丹”,因為研究者往往需要花費數(shù)周時間在黑盒般的算法中反復(fù)調(diào)試超參數(shù)。這種痛苦的經(jīng)歷讓他意識到,當時的強化學習研究高度依賴啟發(fā)式(Heuristic)方法,且環(huán)境單一、算力匱乏,極難實現(xiàn)規(guī)?;⊿cale up)。

也正因此,他開始有意識地將重心轉(zhuǎn)向工具層面:“我非常擅長做軟件工程的事,可以重構(gòu)代碼、優(yōu)化用戶體驗。至于怎么調(diào),那不是我想碰的東西?!?/p>

在進入OpenAI之前,當時業(yè)界主流的強化學習框架是RLlib。在翁家翌看來,RLlib雖然功能強大,但極其臃腫且抽象層級過高,導(dǎo)致研究者很難看清底層的邏輯,且修改成本極大。于是秉持著“與其忍受,不如重造”的想法,他在短短兩周內(nèi)就手擼出了天授框架的第一版。

對他而言,天授不僅僅是一個技術(shù)項目,更是一個“產(chǎn)品”。在他看來,技術(shù)是什么樣不重要,重要的是抓住需求。

后來,為了解決留學生群體的信息差,他開發(fā)了“退學網(wǎng)(Tuixue Online)”,一個能夠自動抓取簽證預(yù)約狀態(tài)的系統(tǒng)。對翁家翌而言,只要解決了大家真實的痛點,它就是有價值的。

他把這兩個項目都稱作“做慈善”。這不僅讓他確定了自己真正所熱愛的技術(shù)方向,也帶給他強大的滿足感:“完全nonprofit(非盈利),這種慈善項目讓我感覺非常滿足?!?/p>


“我不想去大廠當螺絲釘”

碩士期間,翁家翌便開始琢磨找工作的事?!耙婚_始投了18家公司,就收到Google和AutoML(陳天奇團隊)的offer。”

面對大廠的橄欖枝,他說:“我不想去Google,在大廠當螺絲釘,然后做一些自己不是那么喜歡的事兒?!?/p>

在此之后,他拿到幻方量化、英偉達、TikTok,以及Facebook AI Research(FAIR)的offer。“當時幻方要搞一個AI Lab,也就是后來的DeepSeek?!?/p>

他坦言,如果沒有其他選擇,可能就會加入幻方做強化學習infra。但最終,他等到了OpenAI。

“OpenAI跟DeepMind是當時RL里面搞得最好的兩個research lab(研究實驗室)。我希望能夠有一個機會來體驗世界上最前沿的一些research(研究)到底是怎么做的,而不是像在學校里面,像小作坊一樣只有幾個PHD手搓一個東西?!?/p>

2022年,翁家翌正式加入OpenAI,那時ChatGPT還沒走進大家的視野。

翁家翌完整參與了從ChatGPT、GPT-4o到正在研發(fā)中的GPT-5幾乎所有重大模型的開發(fā)進程。他的名字出現(xiàn)在每一份核心貢獻者名單中,他的工作邏輯可以說是用極致的工程能力為科研算法鋪路。

在OpenAI內(nèi)部,翁家翌最核心的貢獻是主導(dǎo)并搭建了整個后訓(xùn)練階段(Post-training)的強化學習基礎(chǔ)設(shè)施(RL Infra)?!懊堪l(fā)一個大的release(發(fā)布),每發(fā)一個大的模型,我的名字就得放上去?!彼χf,“因為大家都在用整個Post-Training infra去訓(xùn)練RHF的模型?!?/p>

所謂的Post-training,其實是讓大模型變得更像人的關(guān)鍵環(huán)節(jié)。翁家翌搭建的RL Infra支撐了模型在這個階段的對齊和邏輯推理訓(xùn)練。這意味著他要處理的是如何在大規(guī)模算力集群上,讓強化學習算法穩(wěn)定、高效地運行,且能靈活適配研究員們不斷冒出的新想法。

在翁家翌看來,模型的性能差異有時并不源于算法優(yōu)劣,而源于基礎(chǔ)設(shè)施的完善程度。他表示:“每家的Infra structure都有不同程度的Bug,誰修的Bug多,誰的模型性能就越好?!彼贠penAI的日常,很大一部分就是通過極致的工程手段,排除系統(tǒng)中的不確定性,讓算法的潛力得以完全釋放。

“賣鏟子”是翁家翌對自己技術(shù)路徑最生動的隱喻。在淘金熱中,挖金礦的人(做研究、發(fā)Paper)可能空手而歸,但賣鏟子的人(做工具、造基礎(chǔ)設(shè)施)永遠有其確定性的價值。

同時,翁家翌也正在參與OpenAI下一代RL Infra的重構(gòu)工作?!芭f架構(gòu)已經(jīng)三年多了,堆積的問題其實已經(jīng)很多了?!監(jiān)penAI要推倒重來,目標是清理技術(shù)債,幫助研究員以更高迭代效率推進實。

在OpenAI在取得巨大的成功之后,有無數(shù)的團隊成員離開了這家公司。但在翁家翌看來,“一個健康的組織就是所有人都是可以被替代的。”他也承認,在OpenAI內(nèi)部,現(xiàn)在沒有誰是不可替代的。

談及ChatGPT的成功,翁家翌將其歸功于OpenAI組織內(nèi)部的信息流暢度。他分享到,領(lǐng)導(dǎo)層始終保持對細節(jié)的強關(guān)注,Greg Brockman(聯(lián)合創(chuàng)始人兼總裁)幾乎參與過公司所有基礎(chǔ)設(shè)施模塊,而Sam Altman(聯(lián)合創(chuàng)始人兼CEO)也通過研究助理及時了解公司內(nèi)部所有的技術(shù)進展。

談及AGI,翁家翌表示:“OpenAI內(nèi)部抓15個人,可能有20種定義AGI的方法?!睂τ谒麃碚f,“如果AI能完成80%、90%我認為有意義的任務(wù),那它可能就是是AGI了?!钡蔡寡?,目前他日常負責的代碼上,尚無法放心交給模型修改。

雖然熱愛開源,但人總是要在現(xiàn)實之間做出權(quán)衡。面對“OpenAI不Open”的質(zhì)疑,翁家翌表示:“你沒法直接把最好的模型開源,因為公司要生存,這很現(xiàn)實”尤其在資源密集型的模型研發(fā)階段,資本輸血與商業(yè)可持續(xù)是讓公司能夠存活和繼續(xù)創(chuàng)新的必要條件。

不過他也開心地說道,如果公司資源不受限,“我當然會很開心地開源RL Infra團隊這兩三年的成果?!?/p>


“如果想進工業(yè)界,讀PhD是浪費生命”

在找工作之前,其實翁家翌也思考過要不要讀博。他說,在清華的體系里,學歷永遠是越高越好,“當身處那個環(huán)境的時候,其實很難跳出這個評價體系。”

但翁家翌想建立一個自己的評價體系。他對這個問題直言不諱:“如果想進工業(yè)界,讀PhD其實是在浪費生命?!?/p>

在他看來,“教一個研究員(Researcher)如何做好工程(Engineering),要遠比教一個工程師(Engineer)如何做好研究來的難?!?/p>

在訪談中,他多次強調(diào)一個對工業(yè)界極其關(guān)鍵、但在學術(shù)體系中并不被優(yōu)先訓(xùn)練的工程化迭代能力。

傳統(tǒng)PhD訓(xùn)練,更強調(diào)的是如何選一個“學術(shù)上成立”的方向,如何把故事講完整、把實驗結(jié)果畫得漂亮、把論文寫得自洽。這些能力在學術(shù)體系中至關(guān)重要,但在工業(yè)界,尤其是大模型時代的AI公司里,已經(jīng)不再是最稀缺的能力。

在他看來,今天的研究型工業(yè)實驗室,并不缺創(chuàng)新和想法,也不缺能夠判斷方向?qū)Σ粚Φ娜恕?strong>真正稀缺的是誰能在單位時間內(nèi),驗證更多正確的Idea。而這件事,幾乎完全依賴于工程與Infra。

他表示,如果目標已經(jīng)非常明確是要進入工業(yè)界、進入AI lab,那更有效的路徑,反而是盡早通過碩士、本科階段的項目積累,構(gòu)建出與博士學生同臺競爭的能力結(jié)構(gòu)。

“你完全可以以master為跳板,甚至在本科的時候,就攢夠進入工業(yè)界的籌碼。關(guān)鍵不是你有沒有PhD title,而是你有沒有差異化?!?/p>

在訪談的最后,翁家翌表示,如果讓AI去解決一個世界難題,他最想做的是預(yù)測未來。

“所有的東西都是可以被預(yù)測的,所以理論上它是可以用AI解決的?!痹谖碳乙羁磥?,世界是確定性的,自由意志是幻覺,所有事件在宇宙大爆炸之初就已注定。這是他堅信的宿命論。

“上帝不擲骰子”,他說,“我嘗試去證偽,我也非常想讓他能夠證偽?!薄拔矣X得三維生物都是有自己的局限性的。在三維生物的認知里面,時間就是一個線性單向流動的。但是有可能在四維的時間里面,時間并不是單向流動的,它可以任意跳躍。這是我找到的迄今為止合理的解釋?!?/p>

他認為,面對這種令人不安的世界觀,最好的方式就是假裝不知道,然后去體驗當下的人生。

盡管在事業(yè)上取得了巨大成功,但翁家翌坦言自己目前正處于一個迷茫期。他感覺在RL Infra這個他長期熱愛的領(lǐng)域確定性的事情變得越來越多。他給自己未來的目標是擁有充分的自由和資源去找到并做自己真正想做的事。

在訪談的最后,他說:“我曾經(jīng)一度想通了自己想要什么,但是我其實還是沒有那么想通,這個問題值得一生去思考?!?/p>



運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新華社:哈梅內(nèi)伊確認死亡

新華社:哈梅內(nèi)伊確認死亡

名人茍或
2026-03-01 10:07:01
特朗普下令:所有聯(lián)邦政府機構(gòu)將立即停用Anthropic

特朗普下令:所有聯(lián)邦政府機構(gòu)將立即停用Anthropic

財聯(lián)社
2026-02-28 05:45:05
55歲單身阿姨自述:晚年再婚兩次后才發(fā)現(xiàn),原來男人都是一個德行

55歲單身阿姨自述:晚年再婚兩次后才發(fā)現(xiàn),原來男人都是一個德行

惟來
2026-02-28 09:40:00
河村勇輝本場首發(fā)出戰(zhàn)34分鐘 得到11分19助4籃板1搶斷

河村勇輝本場首發(fā)出戰(zhàn)34分鐘 得到11分19助4籃板1搶斷

環(huán)球體壇啄木鳥
2026-02-28 17:16:45
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
伊朗局勢如何影響金價 專家稱未來48小時決定金價走勢

伊朗局勢如何影響金價 專家稱未來48小時決定金價走勢

財聯(lián)社
2026-02-28 19:03:05
趙云沒相中寡婦樊氏,說6字借口,如今成男人口頭禪,失戀時必說

趙云沒相中寡婦樊氏,說6字借口,如今成男人口頭禪,失戀時必說

小豫講故事
2026-02-28 09:55:19
中使館:請在以中國公民堅持非必要不外出 提前熟悉周邊避彈設(shè)施和避險路線,確保人身和財產(chǎn)安全

中使館:請在以中國公民堅持非必要不外出 提前熟悉周邊避彈設(shè)施和避險路線,確保人身和財產(chǎn)安全

每日經(jīng)濟新聞
2026-02-28 10:26:19
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)失敗

美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)失敗

每日經(jīng)濟新聞
2026-02-28 19:08:30
剛開戰(zhàn)就反轉(zhuǎn)?外媒稱伊朗獲中國反艦王牌,白宮徹底坐不住了

剛開戰(zhàn)就反轉(zhuǎn)?外媒稱伊朗獲中國反艦王牌,白宮徹底坐不住了

胖福的小木屋
2026-02-28 21:40:48
伊朗外長披露哈梅內(nèi)伊最新情況

伊朗外長披露哈梅內(nèi)伊最新情況

第一財經(jīng)資訊
2026-02-28 23:22:00
美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)失敗

美以刺殺伊朗最高領(lǐng)袖和總統(tǒng)失敗

財聯(lián)社
2026-02-28 18:48:32
美以沒想到,伊朗改變打法,戰(zhàn)爭剛開始就不可控

美以沒想到,伊朗改變打法,戰(zhàn)爭剛開始就不可控

兵國大事
2026-03-01 00:00:28
網(wǎng)傳阿塔最高領(lǐng)導(dǎo)人阿洪扎達在空襲中身亡

網(wǎng)傳阿塔最高領(lǐng)導(dǎo)人阿洪扎達在空襲中身亡

頭條爆料007
2026-02-28 06:29:13
美國媒體:中國突破禁令的方式簡單粗暴,日本將助中國科技騰飛

美國媒體:中國突破禁令的方式簡單粗暴,日本將助中國科技騰飛

蜉蝣說
2026-01-09 14:37:07
男子爬到何仙姑雕像頭頂拍照,山東蓬萊閣景區(qū)回應(yīng):“八仙過海”石雕屬于公共區(qū)域無人值守,后續(xù)會加強巡邏

男子爬到何仙姑雕像頭頂拍照,山東蓬萊閣景區(qū)回應(yīng):“八仙過?!笔駥儆诠矃^(qū)域無人值守,后續(xù)會加強巡邏

三湘都市報
2026-02-28 13:37:39
兩知名女港星自曝遭潛規(guī)則,涉導(dǎo)演、TVB高層,好友女星遭遇更慘

兩知名女港星自曝遭潛規(guī)則,涉導(dǎo)演、TVB高層,好友女星遭遇更慘

叨嘮
2026-02-28 19:39:53
英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

桂系007
2026-02-28 23:56:12
上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

天天熱點見聞
2026-03-01 04:39:01
2026-03-01 10:35:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
時尚
教育
親子
數(shù)碼

旅游要聞

春晚一鳴,“爾濱”“燃”冬!百萬人潮涌入中央大街,道里區(qū)交出開年最“熱”文旅答卷

普通人穿衣不需要太復(fù)雜!顏色恰當、搭配和諧,高級又耐看

教育要聞

專業(yè)排名百分比揭秘!別再理解錯了

親子要聞

逆天,在醫(yī)院上班懷孕都要提前申請了!

數(shù)碼要聞

小米Watch 5智能手表海外發(fā)布,搭載谷歌Wear OS系統(tǒng)

無障礙瀏覽 進入關(guān)懷版