国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MIT天才博士剛畢業(yè),就被前OpenAI CTO搶走!年薪或300萬(wàn)起步

0
分享至

MIT天才博士,清華學(xué)霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型預(yù)訓(xùn)練。

MIT天才博士一畢業(yè),火速加盟OpenAI前CTO初創(chuàng)!

最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學(xué)位。

下一步,他將加入Thinking Machines,專(zhuān)注于大模型預(yù)訓(xùn)練的工作。


評(píng)論區(qū)下方,英偉達(dá)科學(xué)家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。



清華雙學(xué)位學(xué)霸,MIT博士開(kāi)掛人生

打開(kāi)他的個(gè)人主頁(yè),多元而充實(shí)的經(jīng)歷便映入眼簾。

肖光烜本科畢業(yè)于清華大學(xué),拿到了雙學(xué)位,主修的是計(jì)算機(jī)科學(xué),金融學(xué)是第二學(xué)位。


在此期間,他獲得了清華大學(xué)綜合優(yōu)秀獎(jiǎng)學(xué)金(2019)、全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽(CUMCM)一等獎(jiǎng)(2020)、國(guó)家獎(jiǎng)學(xué)金(2020)、清華大學(xué)「未來(lái)學(xué)者」獎(jiǎng)學(xué)金(2021)等多項(xiàng)獎(jiǎng)項(xiàng)。

他曾于2020–2021年作為訪(fǎng)問(wèn)生(Visiting Student),前往斯坦福大學(xué)計(jì)算機(jī)系開(kāi)展科研工作。

2022年,肖光烜加入MIT攻讀博士學(xué)位,導(dǎo)師為韓松(Song Han)教授。

個(gè)人研究方向聚焦于:深度學(xué)習(xí)的高效算法與系統(tǒng),尤其是大規(guī)模基礎(chǔ)模型(Foundation Model)。


他于2022年9月至2026年1月,在MIT EECS擔(dān)任全職研究助理(Research Assistant)。

讀博期間,肖光烜曾多次進(jìn)入全球頂級(jí)科技大廠(chǎng)從事前沿研究實(shí)習(xí),具備了豐富的一線(xiàn)工業(yè)研發(fā)的經(jīng)驗(yàn)。


論文地址:https://arxiv.org/pdf/2309.17453

2024年2-5月期間,他作為英偉達(dá)實(shí)習(xí)生,研究方向是為長(zhǎng)上下文大語(yǔ)言模型推理加速。

他和團(tuán)隊(duì)提出了DuoAttention,結(jié)合檢索與流式注意力頭,實(shí)現(xiàn)高效推理。


論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

隨后,他又參與了多項(xiàng)核心研究項(xiàng)目,其中包括:

  • XAttention:基于反對(duì)角評(píng)分的塊稀疏注意力機(jī)制

  • StreamingVLM:面向無(wú)限視頻流的實(shí)時(shí)理解模型

  • FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優(yōu)化

值得一提的是,肖光烜在研究之外,還有豐富的興趣愛(ài)好,比如足球、乒乓球、圍棋、鋼琴。

他曾擔(dān)任所在院系足球隊(duì)的隊(duì)長(zhǎng)兼先鋒,貝多芬的作品是個(gè)人最?lèi)?ài)。


一篇博士論文,破解LLM三大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。


不得不承認(rèn),如今大模型已經(jīng)無(wú)所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長(zhǎng)上下文直接OOM(內(nèi)存溢出),這是幾乎所有LLM工程團(tuán)隊(duì)每天都在面對(duì)的現(xiàn)實(shí)。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個(gè)罕見(jiàn)的、從工程到理論、從算法到架構(gòu)的完整答案。

論文中, 他們提出了SmoothQuant,解決了一個(gè)長(zhǎng)期困擾工業(yè)界的問(wèn)題——激活值異常(activation outliers)。

SmoothQuant通過(guò)一個(gè)巧妙的數(shù)學(xué)等價(jià)變換,把量化難點(diǎn)從「激活」轉(zhuǎn)移到「權(quán)重」。

結(jié)果,它實(shí)現(xiàn)了首個(gè)在十億級(jí)模型上W8A8無(wú)損量化,無(wú)需重新訓(xùn)練,顯存更小、推理更快。

針對(duì)超長(zhǎng)序列的處理,作者在StreamingLLM中發(fā)現(xiàn)了「注意力匯點(diǎn)」(attention sink)現(xiàn)象——

即使沒(méi)有任何語(yǔ)義,初始token會(huì)被后續(xù)token持續(xù)關(guān)注。這些token的作用不是「理解」,而是數(shù)值穩(wěn)定。

結(jié)果,實(shí)現(xiàn)了常數(shù)內(nèi)存的流式推理,模型上下文長(zhǎng)度從數(shù)千token擴(kuò)展到百萬(wàn)級(jí)。

更進(jìn)一步,他們又把這一思想推廣到多模態(tài),StreamingVLM可以在保持時(shí)間一致性的同時(shí)處理長(zhǎng)達(dá)數(shù)小時(shí)的視頻內(nèi)容。

對(duì)于超長(zhǎng)上下文場(chǎng)景,團(tuán)隊(duì)又提出一個(gè)互補(bǔ)方案,分別針對(duì)不同的性能瓶頸。

  • KVCache太大,采用DuoAttention

注意力頭本身就有分工:少數(shù)負(fù)責(zé)「全局檢索」,多數(shù)只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

  • 預(yù)填充(Prefill)太慢,采用XAttention

利用反對(duì)角線(xiàn)評(píng)分機(jī)制,僅識(shí)別、計(jì)算必要的注意力塊,從而實(shí)現(xiàn)顯著的加速效果。

論文的最后,并沒(méi)有止步于「優(yōu)化現(xiàn)有模型」,通過(guò)對(duì)MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現(xiàn)實(shí)是,GPU不答應(yīng),于是有了FlashMoBA,一種定制化的CUDA內(nèi)核,使小塊架構(gòu)在實(shí)踐中可行,并實(shí)現(xiàn)了最高可達(dá)9倍的速度提升。

這篇論文的價(jià)值在于,構(gòu)建了一整套高效大模型的完整框架,既回應(yīng)了當(dāng)下的現(xiàn)實(shí)挑戰(zhàn),也為下一代計(jì)算高效、普惠可及的AGI奠定了基礎(chǔ)。

平均350萬(wàn)年薪,碾壓OpenAI

最后來(lái)到一個(gè)大家比較感興趣的話(huà)題——薪資。

去年,硅谷人才爭(zhēng)奪戰(zhàn)激烈,BI一篇獨(dú)家挖到了Thinking Machines(TML)給員工們開(kāi)出的薪資——

基礎(chǔ)年薪高達(dá)50萬(wàn)美元(約350萬(wàn)元)。


據(jù)BI獲取的招聘數(shù)據(jù),TML向兩名技術(shù)員工支付了45萬(wàn)美元的基礎(chǔ)年薪,另一名員工的年薪則高達(dá)50萬(wàn)美元。

第四名員工被列為「聯(lián)合創(chuàng)始人/機(jī)器學(xué)習(xí)專(zhuān)家」,其年薪同樣為45萬(wàn)美元。

這些薪酬數(shù)據(jù),來(lái)自2025年第一季度,早于Murati以100億美元的估值,成功完成20億美元的種子輪融資。

總體來(lái)看,TML為這四名技術(shù)員工提供的平均年薪達(dá)到462,500美元。

相較之下,TML明顯高于業(yè)內(nèi)更為成熟LLM公司——

OpenAI在相關(guān)申報(bào)文件中列出的29名技術(shù)員工,平均年薪為292,115美元。

其中最高薪資為53萬(wàn)美元,最低為20萬(wàn)美元。

Anthropic向14名技術(shù)員工支付的平均年薪為387,500美元,薪資區(qū)間在30萬(wàn)至69萬(wàn)美元之間。

雖然比起Meta瘋狂的超1億美元薪酬還差得遠(yuǎn),但這一水平也在硅谷數(shù)一數(shù)二。

果然,21世紀(jì)最貴的還是人才。


參考資料:

https://x.com/Guangxuan_Xiao/status/2008779396497502337

https://guangxuanx.com/

https://scholar.google.com/citations?user=sRGO-EcAAAAJ

https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6

文章來(lái)源:新智元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩中國(guó)球員參賽!中東局勢(shì)惡化ATP挑戰(zhàn)賽取消,球場(chǎng)附近曾爆炸

兩中國(guó)球員參賽!中東局勢(shì)惡化ATP挑戰(zhàn)賽取消,球場(chǎng)附近曾爆炸

全景體育V
2026-03-04 07:50:25
人吶,讀不懂這5個(gè)"天道法則",就不會(huì)過(guò)不好這一生

人吶,讀不懂這5個(gè)"天道法則",就不會(huì)過(guò)不好這一生

金沛的國(guó)學(xué)筆記
2026-02-11 15:02:58
血戰(zhàn)五天,美國(guó)人也很納悶:伊朗導(dǎo)彈還沒(méi)炸光?美媒給出意外答案

血戰(zhàn)五天,美國(guó)人也很納悶:伊朗導(dǎo)彈還沒(méi)炸光?美媒給出意外答案

原來(lái)仙女不講理
2026-03-04 12:23:45
人生的底氣來(lái)自父輩傳授的經(jīng)驗(yàn)!網(wǎng)友:銀行卡掰斷,少走彎路

人生的底氣來(lái)自父輩傳授的經(jīng)驗(yàn)!網(wǎng)友:銀行卡掰斷,少走彎路

另子維愛(ài)讀史
2026-03-03 22:15:44
小米Tag官網(wǎng)上架:10g重量,售價(jià)69元起

小米Tag官網(wǎng)上架:10g重量,售價(jià)69元起

安卓中國(guó)
2026-03-03 11:47:07
難怪樸槿惠終身未婚,原來(lái)她心中的理想標(biāo)準(zhǔn),竟是一位“中國(guó)人”

難怪樸槿惠終身未婚,原來(lái)她心中的理想標(biāo)準(zhǔn),竟是一位“中國(guó)人”

小莜讀史
2026-03-03 22:36:33
吳桂賢為何好命?大起大落的人生之路,守住良知底線(xiàn)

吳桂賢為何好命?大起大落的人生之路,守住良知底線(xiàn)

混沌錄
2026-01-29 23:47:04
伊朗“專(zhuān)家”選舉新頭領(lǐng)的會(huì)場(chǎng)被炸,法國(guó)核動(dòng)力航母駛往地中海

伊朗“專(zhuān)家”選舉新頭領(lǐng)的會(huì)場(chǎng)被炸,法國(guó)核動(dòng)力航母駛往地中海

近距離
2026-03-04 12:05:07
英媒大膽預(yù)測(cè):美國(guó)輸?shù)艉椭袊?guó)的競(jìng)爭(zhēng),會(huì)比當(dāng)年英國(guó)都痛苦好幾倍

英媒大膽預(yù)測(cè):美國(guó)輸?shù)艉椭袊?guó)的競(jìng)爭(zhēng),會(huì)比當(dāng)年英國(guó)都痛苦好幾倍

生活魔術(shù)專(zhuān)家
2026-03-01 19:40:40
中組部人社部明確:公職人員違紀(jì)待遇標(biāo)準(zhǔn) 一文全理清

中組部人社部明確:公職人員違紀(jì)待遇標(biāo)準(zhǔn) 一文全理清

解說(shuō)阿洎
2026-03-04 09:41:08
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深?lèi)?ài)雜談
2026-02-21 21:37:02
最高法:以彩禮為名騙取財(cái)物構(gòu)成犯罪

最高法:以彩禮為名騙取財(cái)物構(gòu)成犯罪

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-03-03 12:45:15
狗仔曝31歲白鹿和24歲陳鑫海熱戀?2人相差7歲,曾舜晞只是煙霧彈

狗仔曝31歲白鹿和24歲陳鑫海熱戀?2人相差7歲,曾舜晞只是煙霧彈

好賢觀史記
2026-03-02 21:15:49
哪個(gè)細(xì)節(jié)讓你突然發(fā)現(xiàn)自己消費(fèi)降級(jí)了?電動(dòng)車(chē),真的誰(shuí)騎誰(shuí)香

哪個(gè)細(xì)節(jié)讓你突然發(fā)現(xiàn)自己消費(fèi)降級(jí)了?電動(dòng)車(chē),真的誰(shuí)騎誰(shuí)香

另子維愛(ài)讀史
2026-02-13 21:18:44
日本東證指數(shù)跌幅擴(kuò)大至4%

日本東證指數(shù)跌幅擴(kuò)大至4%

每日經(jīng)濟(jì)新聞
2026-03-04 10:34:04
長(zhǎng)得那么漂亮,可惜一直火不起來(lái)!她一直很低調(diào)

長(zhǎng)得那么漂亮,可惜一直火不起來(lái)!她一直很低調(diào)

阿廢冷眼觀察所
2026-03-04 04:49:40
珠江口貝類(lèi)檢出24毫克-千克神經(jīng)毒素,中科院團(tuán)隊(duì)鎖定產(chǎn)毒真兇

珠江口貝類(lèi)檢出24毫克-千克神經(jīng)毒素,中科院團(tuán)隊(duì)鎖定產(chǎn)毒真兇

涼了時(shí)光人
2026-03-03 22:41:01
1955年授銜,11位國(guó)軍起義將領(lǐng),都授什么軍銜?

1955年授銜,11位國(guó)軍起義將領(lǐng),都授什么軍銜?

幽州校尉
2026-03-04 07:25:03
沖突第四天!烏克蘭要出戰(zhàn)?澤連斯基看穿伊朗戰(zhàn)術(shù),提出驚人交易

沖突第四天!烏克蘭要出戰(zhàn)?澤連斯基看穿伊朗戰(zhàn)術(shù),提出驚人交易

咣當(dāng)?shù)厍?/span>
2026-03-03 19:45:50
謝娜要求薛之謙道歉后,劇情逆轉(zhuǎn),很多人力挺他

謝娜要求薛之謙道歉后,劇情逆轉(zhuǎn),很多人力挺他

話(huà)娛論影
2026-03-04 07:21:38
2026-03-04 13:32:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5389文章數(shù) 64616關(guān)注度
往期回顧 全部

教育要聞

班主任點(diǎn)名:書(shū)包里的5樣?xùn)|西,趕緊扔掉,否則成績(jī)一落千丈!

頭條要聞

從霍爾木茲海峽到地中海 伊朗首度攻擊歐盟國(guó)家

頭條要聞

從霍爾木茲海峽到地中海 伊朗首度攻擊歐盟國(guó)家

體育要聞

“頭鐵”拼圖在NBA也有生存環(huán)境

娛樂(lè)要聞

迪麗熱巴轉(zhuǎn)機(jī)滯留迪拜 錯(cuò)過(guò)巴黎時(shí)裝周

財(cái)經(jīng)要聞

伊朗,正在打破特朗普的幻想

科技要聞

新MacBook Pro首發(fā)M5 Pro/Max芯片 17999起

汽車(chē)要聞

比亞迪元PLUS遭導(dǎo)彈襲擊 車(chē)輛未起火/乘員均生還

態(tài)度原創(chuàng)

旅游
本地
數(shù)碼
房產(chǎn)
公開(kāi)課

旅游要聞

擂響“東方第一鼓”雅集翰墨繪團(tuán)圓,浦東元宵游園會(huì)勁展“動(dòng)”“靜”中國(guó)韻

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

數(shù)碼要聞

AI路由器接管一切!MWC上的智能家居,終于開(kāi)始治「連接病」

房產(chǎn)要聞

400組,30套!聚億·椰海錦程為何能在春節(jié)火出圈?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版