国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

字節(jié)的“羅福莉”,撐起了Seedance的半邊天

0
分享至




隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子里,女性數(shù)量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節(jié)跳動,就有一位羅福莉式的人物。

她就是Seedance 2.0視頻生成模型的預訓練負責人,曾妍。

一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發(fā)負責人周暢、視頻生成技術核心負責人蔣璐。

很少有人知道,曾妍的存在,同樣無可或缺。

因為預訓練是整個模型的“基石”,它決定了模型的能力上限。

大多數(shù)人把預訓練當成“喂數(shù)據”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。

數(shù)據怎么配比、架構怎么設計、訓練策略怎么調整,每一個決策都在決定模型能看到什么、理解什么、生成什么。

無論你后面怎么努力優(yōu)化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現(xiàn)如今的高度。

不僅是貢獻大,曾妍的晉升速度在字節(jié)也是相當快的。

從她畢業(yè)進入字節(jié)開始算起,到現(xiàn)在的4-2職級,曾妍僅僅花了5年時間。

4-2職級對應高級總監(jiān)/權威架構師層級,屬于公司核心戰(zhàn)略級技術骨干,年包(含基本工資、年終獎、股票)普遍在500萬以上。

她到底做了什么,才有如此成就?讓我們從她的求學之路說起。

01

從西交到字節(jié)

說實話,當我第一次看到曾妍的履歷時,并沒有覺得特別驚艷。

1997年出生,西安交通大學本科,加拿大蒙特利爾大學計算機碩士。這條路徑放到現(xiàn)在的AI圈里太常見了。

但接下來發(fā)生的事,就不那么“標準”了。

2021年9月,曾妍以校招生身份加入字節(jié)跳動 AI Lab,起點職級是算法工程師。

入職僅兩個月,曾妍就以第一作者身份在arXiv上發(fā)表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是后來大家熟知的X-VLM模型。



這篇論文解決的問題,用大白話說就是:怎么讓 AI 既能看懂“大場面”,又能注意到“小細節(jié)”。

傳統(tǒng)的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文本的對應關系,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。

另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節(jié),但計算成本高得嚇人,還得依賴大量人工標注數(shù)據。

曾妍提出的X-VLM,就是取兩者之所長。

它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,并與文本中的不同粒度信息精準對齊。

或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。

這個“多粒度對齊”的思想,在當時看起來只是個學術創(chuàng)新,但它為曾妍后來擔任Seedance 2.0預訓練負責人埋下了伏筆。

因為視頻生成的預訓練,本質上也是個多粒度建模的問題。

你要想生成一個好看的視頻,那就既要把握整體敘事節(jié)奏,讓一段視頻有連貫的故事線;又要控制每一幀的細節(jié)質量,確保人物面容不變形、物體運動符合物理規(guī)律;還要建立時序維度上的關聯(lián)關系,讓前后幀之間的過渡自然流暢。

這剛和X-VLM的底層邏輯是一致的。

接下來的兩年,曾妍就像開了掛一樣。

她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發(fā)表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。

2023年,一個關鍵轉折點到來了。

字節(jié)跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。

這個時間節(jié)點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節(jié)也在這波浪潮中調整了技術戰(zhàn)略。

曾妍擅長的多模態(tài)預訓練,在視頻生成這個新戰(zhàn)場上,能發(fā)揮她的全部實力。

在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。

先說CCLM(Cross-View Language Modeling)。

這個項目讓AI模型同時學會“跨語言”和“跨模態(tài)”的理解能力。CCLM通過統(tǒng)一的預訓練框架,讓在英文圖像-文本數(shù)據上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態(tài)任務上。

說白了,就是讓 AI 學會“舉一反三”——在英文視頻上學到的理解能力,能直接用到中文、日文、西班牙文的視頻上。

再說Lynx。

這是一個系統(tǒng)性研究如何訓練GPT-4風格多模態(tài)大語言模型的項目。2023年正是GPT-4剛發(fā)布的時候,大家都在摸索怎么做出“能看圖說話”的大模型。

曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練數(shù)據配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態(tài)理解和指令跟隨能力上都表現(xiàn)出色。

用人話說,就是研究“怎么造出一個既能看懂圖片又能流暢對話的AI”,并且搞清楚了哪些因素真正重要。

真正讓曾妍“出圈”的,是2023年年底的PixelDance。

這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視頻生成領域一個長期存在的矛盾,如何平衡動態(tài)性和穩(wěn)定性。

你想想,如果一個AI生成的視頻動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現(xiàn)畫面崩壞、角色變形、物體突然消失這些“靈異事件”。

反過來,如果你追求穩(wěn)定性,讓角色和場景保持一致,人物面容不突變,那生成的視頻就容易僵硬,像幻燈片切換而不是流暢的動態(tài)影像。

曾妍團隊的突破在于,他們在預訓練階段就建立了嚴格的時序約束。

傳統(tǒng)的視頻生成模型都是先生成視頻,然后再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態(tài)內容。

核心創(chuàng)新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文本指令聯(lián)合約束視頻生成,同時在網絡結構中新增時序卷積與時序注意力層,從生成的源頭就錨定了視頻的起止狀態(tài),從而保證大動態(tài)動作下的主體與場景一致性。

就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。

PixelDance的成功,讓曾妍在字節(jié)內部的地位迅速提升。

2024年,她從算法工程師晉升為算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉升不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。

在大廠里,這兩種能力的差別,就像會做菜和會開餐廳的差別。

02

從 PixelDance 到 Seedance 2.0

有意思的是,PixelDance就是Seedance的前身。

Seed代表字節(jié)的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標志著模型從研究原型向商業(yè)產品的轉變。

2025年6月11日,字節(jié)正式發(fā)布了Seedance 1.0,曾妍是該模型的核心研發(fā)負責人。

雖然直至2026年2月,曾妍才被字節(jié)官方確認為Seedance 2.0 視頻模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。

她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。

Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。

傳統(tǒng)視頻生成模型采用“先畫后配”的模式。即先生成視頻畫面,再單獨生成或匹配音頻。

這種方式的問題在于,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節(jié)奏與畫面情緒脫節(jié),音效出現(xiàn)的時機與畫面動作不匹配。

Seedance 2.0通過視頻與音頻并行生成的方式,共享同一個理解編碼器,從根源上實現(xiàn)了音畫原生協(xié)同。

這個架構設計的關鍵在于,讓模型在生成每一幀畫面的同時,就考慮對應的音頻應該是什么樣的,而不是等畫面全部生成完再去“配”音頻。

文章開頭我就講了,預訓練是整個模型能力的基石。

曾妍在這個階段需要處理海量的視頻數(shù)據,建立視覺、文本、音頻等多模態(tài)之間的對齊關系。

她通過引入“跨分支校準模塊”,實時校準視頻與音頻的節(jié)奏、情緒與場景匹配度,確保嘴型與臺詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。

預訓練階段把所有的多模態(tài)對齊關系、物理規(guī)律、運動模式都塞進模型里,成為“默認項”。后續(xù)模型只要調用到相關內容,就會立刻給出預訓練時的結果。



它不是簡單地讓模型記住訓練數(shù)據,而是讓模型從海量數(shù)據中提煉出普遍規(guī)律,形成對世界的基礎理解。

Seedance 2.0生成時長1分鐘的2K視頻僅需60秒,比上一代Seedance 1.5 Pro快了30%。

速度提升的背后,是曾妍團隊在預訓練階段對模型架構、訓練策略、數(shù)據配比的精細調優(yōu)。

她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪優(yōu)化。

優(yōu)化注意力機制減少冗余計算,改進噪聲調度策略加快收斂速度,精選高質量訓練數(shù)據提升樣本效率。

每一個優(yōu)化點單獨看都不起眼,但累積起來就是質的飛躍。模型規(guī)模越大,訓練成本越高,每一個百分點的效率提升都意味著數(shù)百萬元的成本節(jié)約和數(shù)周的時間縮短。

Seedance 2.0還實現(xiàn)了多鏡頭敘事能力。這意味著模型不僅能生成長視頻,還能理解“全景-中景-特寫”的專業(yè)分鏡邏輯,自動規(guī)劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。

曾妍團隊通過高質量樣本,讓模型學習到了人類導演的鏡頭語言和敘事節(jié)奏。這種從數(shù)據中提煉出的“導演直覺”。

03

曾妍與羅福莉


同為女性AI科學家,曾妍和羅福莉在模型研發(fā)中,都擅長尋找“平衡點”。

在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏激活,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。

這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需激活”的機制,讓大模型的成本驟然下降,卻不怎么損失性能。

羅福莉在性能與成本之間,找到了這樣一個平衡點。



到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯(lián)合研發(fā)資源管理系統(tǒng)ARL-Tangram,讓模型的算力成本直降71.2%。

然而成本下降并不意味著性能下降。使用了該技術的萬億參數(shù)的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。

羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平臺復制的方法論。

曾妍的平衡點則是前文提到的動態(tài)性和穩(wěn)定性,讓視頻生成模型又能講好故事,又有畫面張力和視覺沖擊力。

兩人不同的是職業(yè)規(guī)劃。

羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創(chuàng)業(yè)公司,從工程應用到模型研究”。

曾妍則是在字節(jié)內部一路深耕,5年時間完成了從校招畢業(yè)生,坐到了4-2的位置。

兩條路徑沒有高下之分。

在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。

有可能他們研究的方向,你聽都沒聽過,但就是有效。

她們的故事才剛剛開始。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東航MU5735周年祭,面對詢問,民航局回復:相關信息不予公開

東航MU5735周年祭,面對詢問,民航局回復:相關信息不予公開

干史人
2026-02-26 11:05:04
難以置信!董倩與欄目組清晨5點半抵達張雪工廠,為了不影響生產

難以置信!董倩與欄目組清晨5點半抵達張雪工廠,為了不影響生產

火山詩話
2026-04-14 06:14:43
一場戰(zhàn)爭便能照出我們輿論戰(zhàn)線一些人“沒頭腦”“缺是非”

一場戰(zhàn)爭便能照出我們輿論戰(zhàn)線一些人“沒頭腦”“缺是非”

阿爾法34號
2026-03-27 07:04:02
八千里路云和月:看到張云旗夫婦的下場才知,丁玉嬌隱忍有多聰明

八千里路云和月:看到張云旗夫婦的下場才知,丁玉嬌隱忍有多聰明

容妃
2026-04-14 15:19:19
1949年,蔣介石帶走的“道教天師”,死在臺北民居,傳承斷裂50年

1949年,蔣介石帶走的“道教天師”,死在臺北民居,傳承斷裂50年

瘋狂的小歷史
2026-04-13 11:40:07
回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

說歷史的老牢
2026-04-13 18:19:43
有人問,許家印欠下的2.44萬億債務,到底多久能還上?

有人問,許家印欠下的2.44萬億債務,到底多久能還上?

流蘇晚晴
2026-04-11 17:52:29
巴媒:巴鐵出兵沙特后獲120億美元購中國武器

巴媒:巴鐵出兵沙特后獲120億美元購中國武器

懸崖邊上的愛情
2026-04-14 10:40:07
稱重快餐2年倒閉4.8萬家,怪15元的自助盒飯?zhí)恚?>
    </a>
        <h3>
      <a href=三人成虎V5
2026-04-12 16:20:10
外媒:土耳其威脅攻打以色列,以防長要埃爾多安“閉嘴”

外媒:土耳其威脅攻打以色列,以防長要埃爾多安“閉嘴”

參考消息
2026-04-13 15:46:06
【業(yè)績速遞】這些公司一季度業(yè)績大幅預增,5公司凈利潤料翻倍增長

【業(yè)績速遞】這些公司一季度業(yè)績大幅預增,5公司凈利潤料翻倍增長

證券時報
2026-04-14 21:52:05
美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

尋墨閣
2026-04-13 04:07:48
“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

蝴蝶花雨話教育
2026-04-02 10:30:13
欠中國500億沒能力償還,準備拿小島抵債?比澳門面積大2倍

欠中國500億沒能力償還,準備拿小島抵債?比澳門面積大2倍

角落的隱藏美景
2026-04-11 05:03:19
阿爾瓦雷斯39場歐冠進24球,僅5人曾在前40場突破25球

阿爾瓦雷斯39場歐冠進24球,僅5人曾在前40場突破25球

懂球帝
2026-04-14 06:10:10
歐爾班輸不起,玩陰的?親歐爾班媒體同時散布了一個爆炸性信息!

歐爾班輸不起,玩陰的?親歐爾班媒體同時散布了一個爆炸性信息!

陌初寒上只
2026-04-13 21:00:37
奇怪的冷知識,研究表明:自慰能預防和治療早泄!

奇怪的冷知識,研究表明:自慰能預防和治療早泄!

黯泉
2026-04-14 18:18:40
美48架F-35直撲東北,解放軍警告:敢動必全殲

美48架F-35直撲東北,解放軍警告:敢動必全殲

陌冷紫a
2026-04-13 17:39:17
饞哭全國:芒果、鳳梨、椰子、荔枝專機來了

饞哭全國:芒果、鳳梨、椰子、荔枝專機來了

快科技
2026-04-14 23:59:03
有中國公民被逮捕及處罰!中使館提醒→

有中國公民被逮捕及處罰!中使館提醒→

魯中晨報
2026-04-14 17:16:04
2026-04-15 00:43:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2374文章數(shù) 8057關注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

網曝鐘麗緹代孕要了個男孩 備孕近10年

財經要聞

許家印認罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風云T9L上市

態(tài)度原創(chuàng)

家居
手機
游戲
本地
公開課

家居要聞

現(xiàn)代融合 自然靈動

手機要聞

三星Galaxy系列手機/平板在美國市場漲價,最高漲幅達80美元

系好安全帶!原作者確認《地鐵2039》將比前作更黑暗

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版