国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

厲害!天才博士剛畢業(yè),就被前OpenAI CTO搶走!年薪或300萬起步

0
分享至

MIT天才博士一畢業(yè),火速加盟OpenAI前CTO初創(chuàng)!

最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學(xué)位。

下一步,他將加入Thinking Machines,專注于大模型預(yù)訓(xùn)練的工作。


評論區(qū)下方,英偉達科學(xué)家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。



清華雙學(xué)位學(xué)霸,MIT博士開掛人生

打開他的個人主頁,多元而充實的經(jīng)歷便映入眼簾。

肖光烜本科畢業(yè)于清華大學(xué),拿到了雙學(xué)位,主修的是計算機科學(xué),金融學(xué)是第二學(xué)位。


在此期間,他獲得了清華大學(xué)綜合優(yōu)秀獎學(xué)金(2019)、全國大學(xué)生數(shù)學(xué)建模競賽(CUMCM)一等獎(2020)、國家獎學(xué)金(2020)、清華大學(xué)「未來學(xué)者」獎學(xué)金(2021)等多項獎項。

他曾于2020–2021年作為訪問生(Visiting Student),前往斯坦福大學(xué)計算機系開展科研工作。

2022年,肖光烜加入MIT攻讀博士學(xué)位,導(dǎo)師為韓松(Song Han)教授。

個人研究方向聚焦于:深度學(xué)習(xí)的高效算法與系統(tǒng),尤其是大規(guī)?;A(chǔ)模型(Foundation Model)。


他于2022年9月至2026年1月,在MIT EECS擔(dān)任全職研究助理(Research Assistant)。

讀博期間,肖光烜曾多次進入全球頂級科技大廠從事前沿研究實習(xí),具備了豐富的一線工業(yè)研發(fā)的經(jīng)驗。


論文地址:https://arxiv.org/pdf/2309.17453

2024年2-5月期間,他作為英偉達實習(xí)生,研究方向是為長上下文大語言模型推理加速。

他和團隊提出了DuoAttention,結(jié)合檢索與流式注意力頭,實現(xiàn)高效推理。


論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

隨后,他又參與了多項核心研究項目,其中包括:

  • XAttention:基于反對角評分的塊稀疏注意力機制

  • StreamingVLM:面向無限視頻流的實時理解模型

  • FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優(yōu)化

值得一提的是,肖光烜在研究之外,還有豐富的興趣愛好,比如足球、乒乓球、圍棋、鋼琴。

他曾擔(dān)任所在院系足球隊的隊長兼先鋒,貝多芬的作品是個人最愛。


一篇博士論文,破解LLM三大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。


不得不承認,如今大模型已經(jīng)無所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長上下文直接OOM(內(nèi)存溢出),這是幾乎所有LLM工程團隊每天都在面對的現(xiàn)實。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個罕見的、從工程到理論、從算法到架構(gòu)的完整答案。

論文中, 他們提出了SmoothQuant,解決了一個長期困擾工業(yè)界的問題——激活值異常(activation outliers)。

SmoothQuant通過一個巧妙的數(shù)學(xué)等價變換,把量化難點從「激活」轉(zhuǎn)移到「權(quán)重」。

結(jié)果,它實現(xiàn)了首個在十億級模型上W8A8無損量化,無需重新訓(xùn)練,顯存更小、推理更快。

針對超長序列的處理,作者在StreamingLLM中發(fā)現(xiàn)了「注意力匯點」(attention sink)現(xiàn)象——

即使沒有任何語義,初始token會被后續(xù)token持續(xù)關(guān)注。這些token的作用不是「理解」,而是數(shù)值穩(wěn)定。

結(jié)果,實現(xiàn)了常數(shù)內(nèi)存的流式推理,模型上下文長度從數(shù)千token擴展到百萬級。

更進一步,他們又把這一思想推廣到多模態(tài),StreamingVLM可以在保持時間一致性的同時處理長達數(shù)小時的視頻內(nèi)容。

對于超長上下文場景,團隊又提出一個互補方案,分別針對不同的性能瓶頸。

  • KVCache太大,采用DuoAttention

注意力頭本身就有分工:少數(shù)負責(zé)「全局檢索」,多數(shù)只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

  • 預(yù)填充(Prefill)太慢,采用XAttention

利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現(xiàn)顯著的加速效果。

論文的最后,并沒有止步于「優(yōu)化現(xiàn)有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現(xiàn)實是,GPU不答應(yīng),于是有了FlashMoBA,一種定制化的CUDA內(nèi)核,使小塊架構(gòu)在實踐中可行,并實現(xiàn)了最高可達9倍的速度提升。

這篇論文的價值在于,構(gòu)建了一整套高效大模型的完整框架,既回應(yīng)了當(dāng)下的現(xiàn)實挑戰(zhàn),也為下一代計算高效、普惠可及的AGI奠定了基礎(chǔ)。

平均350萬年薪,碾壓OpenAI

最后來到一個大家比較感興趣的話題——薪資。

去年,硅谷人才爭奪戰(zhàn)激烈,BI一篇獨家挖到了Thinking Machines(TML)給員工們開出的薪資——

基礎(chǔ)年薪高達50萬美元(約350萬元)。


據(jù)BI獲取的招聘數(shù)據(jù),TML向兩名技術(shù)員工支付了45萬美元的基礎(chǔ)年薪,另一名員工的年薪則高達50萬美元。

第四名員工被列為「聯(lián)合創(chuàng)始人/機器學(xué)習(xí)專家」,其年薪同樣為45萬美元。這些薪酬數(shù)據(jù),來自2025年第一季度,早于Murati以100億美元的估值,成功完成20億美元的種子輪融資。

總體來看,TML為這四名技術(shù)員工提供的平均年薪達到462,500美元。

相較之下,TML明顯高于業(yè)內(nèi)更為成熟LLM公司——

OpenAI在相關(guān)申報文件中列出的29名技術(shù)員工,平均年薪為292,115美元。

其中最高薪資為53萬美元,最低為20萬美元。

Anthropic向14名技術(shù)員工支付的平均年薪為387,500美元,薪資區(qū)間在30萬至69萬美元之間。

雖然比起Meta瘋狂的超1億美元薪酬還差得遠,但這一水平也在硅谷數(shù)一數(shù)二。

果然,21世紀(jì)最貴的還是人才。

參考資料:

https://x.com/Guangxuan_Xiao/status/2008779396497502337

https://guangxuanx.com/

https://scholar.google.com/citations?user=sRGO-EcAAAAJ

https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6

(來源:新智元版權(quán)屬原作者 謹(jǐn)致謝意)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券,可拉動消費近2萬億元

全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券,可拉動消費近2萬億元

第一財經(jīng)資訊
2026-03-02 10:53:10
登上訪華專機前,默茨亮明意圖:不想緩和關(guān)系,只想賺中國的錢

登上訪華專機前,默茨亮明意圖:不想緩和關(guān)系,只想賺中國的錢

boss外傳
2026-03-01 14:00:03
三艘英美油輪遭到襲擊

三艘英美油輪遭到襲擊

新華社
2026-03-02 15:05:08
有趣!伊朗被打,“專家們”顏面盡失!

有趣!伊朗被打,“專家們”顏面盡失!

走讀新生
2026-03-02 10:38:39
周鴻祎:360鎖定3名潛伏長達十年的美國特工,并上報國家!

周鴻祎:360鎖定3名潛伏長達十年的美國特工,并上報國家!

達文西看世界
2026-03-02 11:48:37
以軍轟炸黎巴嫩首都

以軍轟炸黎巴嫩首都

界面新聞
2026-03-02 08:53:26
中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

深度報
2026-02-27 21:36:50
黃志忠沒想到,拋棄糟糠妻何音成他人珍寶

黃志忠沒想到,拋棄糟糠妻何音成他人珍寶

暖心萌阿菇?jīng)?/span>
2026-02-28 19:24:14
收評:滬指放量漲0.47% 油氣股逆勢爆發(fā)

收評:滬指放量漲0.47% 油氣股逆勢爆發(fā)

財聯(lián)社
2026-03-02 15:03:08
二野軍政委回鄉(xiāng)探親,家中空無一人,打聽后才知妻兒已被村長賣掉

二野軍政委回鄉(xiāng)探親,家中空無一人,打聽后才知妻兒已被村長賣掉

諾言卿史錄
2026-03-02 09:02:40
油氣股午后再度走強 中國石油封漲停創(chuàng)近11年新高

油氣股午后再度走強 中國石油封漲停創(chuàng)近11年新高

財聯(lián)社
2026-03-02 13:28:26
請注意:伊朗的事情已經(jīng)再無懸念,川普應(yīng)已開始著手加拿大

請注意:伊朗的事情已經(jīng)再無懸念,川普應(yīng)已開始著手加拿大

邵旭峰域
2026-03-02 11:52:58
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

Thurman在昆明
2026-03-02 01:31:00
?什么叫特供?真是超出普通人的想象

?什么叫特供?真是超出普通人的想象

深度報
2026-02-28 22:23:31
國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡,3艘違規(guī)美英油輪遭導(dǎo)彈擊中!特朗普稱美方“基本摧毀”伊朗海軍總部

國際油價跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡,3艘違規(guī)美英油輪遭導(dǎo)彈擊中!特朗普稱美方“基本摧毀”伊朗海軍總部

每日經(jīng)濟新聞
2026-03-02 08:14:14
偉偉道來 |美以伊戰(zhàn)爭會持續(xù)多長時間?有無談判止戰(zhàn)的機會和窗口?

偉偉道來 |美以伊戰(zhàn)爭會持續(xù)多長時間?有無談判止戰(zhàn)的機會和窗口?

經(jīng)濟觀察報
2026-03-02 11:30:41
沒人敢明說的真相:法拍拍不掉的房子,正在悄悄轉(zhuǎn)嫁成本

沒人敢明說的真相:法拍拍不掉的房子,正在悄悄轉(zhuǎn)嫁成本

言叔財經(jīng)視角
2026-03-01 22:50:30
新華時評:當(dāng)炸彈落在校園,文明底線何在

新華時評:當(dāng)炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強烈譴責(zé)美以“流氓行徑”

美軍公布傷亡情況!伊朗向美航母發(fā)射4枚導(dǎo)彈,美軍:導(dǎo)彈甚至沒有接近航母,已擊沉一艘伊朗船只;朝鮮強烈譴責(zé)美以“流氓行徑”

每日經(jīng)濟新聞
2026-03-02 00:23:54
浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級地震

浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級地震

閃電新聞
2026-03-02 11:03:08
2026-03-02 15:24:49
化學(xué)人生 incentive-icons
化學(xué)人生
~人生如化學(xué) 化學(xué)悟人生~
7022文章數(shù) 20613關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時代

態(tài)度原創(chuàng)

親子
健康
手機
本地
公開課

親子要聞

小時候“不合群”的孩子,長大后更有出息?3個優(yōu)勢普通人比不了

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

最高暴漲3000元!史上最猛安卓漲價潮來了 2026年手機出貨量將創(chuàng)13年來新低

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版