国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 2025 | 用蛋白質(zhì)動(dòng)態(tài)詞表“搭積木”,ProDVa高效組裝可折疊新蛋白

0
分享至

本文提出"蛋白質(zhì)動(dòng)態(tài)詞表"機(jī)制,融合深度生成模型與天然蛋白片段結(jié)構(gòu)先驗(yàn),在功能導(dǎo)向設(shè)計(jì)中同步提升結(jié)構(gòu)可折疊性與功能對(duì)齊度。相比SOTA模型,ProDVa僅使用0.04%訓(xùn)練數(shù)據(jù)即可生成更多可穩(wěn)定折疊的序列,且性能幾乎無損。當(dāng)前評(píng)估基于計(jì)算模擬,尚未經(jīng)濕實(shí)驗(yàn)驗(yàn)證,未來需跨領(lǐng)域合作推進(jìn)。


論文標(biāo)題: Protein Design with Dynamic Protein Vocabulary 論文鏈接: https://arxiv.org/pdf/2505.18966 代碼鏈接: https://github.com/sornkL/ProDVa

基于功能的蛋白質(zhì)設(shè)計(jì)任務(wù)(function-guided protein design)旨在根據(jù)功能描述或關(guān)鍵詞,生成符合的蛋白質(zhì)序列。其核心挑戰(zhàn)在于,如何確保從蛋白質(zhì)序列龐大空間中設(shè)計(jì)的序列既滿足給定功能,也能正確折疊成穩(wěn)定的 3D 結(jié)構(gòu)(即可折疊性好)。

近年來,蛋白質(zhì)語言模型(PLMs)在該任務(wù)上展現(xiàn)了巨大潛力,可以根據(jù)上下文描述以氨基酸為詞元生成符合功能的全新蛋白質(zhì)序列。但是,PLMs 面臨兩個(gè)核心挑戰(zhàn):

  1. 20 種標(biāo)準(zhǔn)氨基酸(以及分詞器自動(dòng)切分的連續(xù)片段)構(gòu)成的詞元缺乏明確的生物學(xué)意義;

  2. 解碼生成的蛋白質(zhì)序列雖然符合給定功能,但可折疊性差。

現(xiàn)代生物信息學(xué)既存在 SwissProt [1] 等經(jīng)過大規(guī)模專家標(biāo)注且濕實(shí)驗(yàn)實(shí)證的蛋白質(zhì)數(shù)據(jù)庫(kù),也存在 InterPro [2][3] 等工具能夠提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白質(zhì)片段(IPR30659)已被實(shí)證為一個(gè) SecY 保守位點(diǎn)(conserved site)。

受傳統(tǒng)蛋白質(zhì)設(shè)計(jì)借鑒已知天然結(jié)構(gòu)的啟發(fā),來自華東師范大學(xué)、復(fù)旦大學(xué)、中國(guó)電信人工智能研究院(TeleAI)的研究團(tuán)隊(duì)提出了一個(gè)新問題:PLMs 能否在設(shè)計(jì)過程中充分利用天然蛋白質(zhì)功能片段來得到功能易滿足、結(jié)構(gòu)更合理的新蛋白質(zhì)?

LLMs 動(dòng)態(tài)詞表生成技術(shù) [4] 首先將任意短語表征嵌入靜態(tài)詞表的語義空間,然后在每個(gè)解碼時(shí)刻自由選擇生成詞元(對(duì)應(yīng)氨基酸 Token)或一整個(gè)短語(對(duì)應(yīng)天然功能片段)。

結(jié)合該技術(shù),本文提出了新型 PLM 架構(gòu) ProDVa,根據(jù)文本功能描述,動(dòng)態(tài)地從蛋白質(zhì)數(shù)據(jù)庫(kù)中檢索功能相近的氨基酸序列,通過構(gòu)建對(duì)應(yīng)的蛋白質(zhì)動(dòng)態(tài)詞表(Dynamic Protein Vocabulary)設(shè)計(jì)滿足要求功能的蛋白質(zhì)。

一、思路驗(yàn)證:天然片段是提升結(jié)構(gòu)穩(wěn)定性的關(guān)鍵

作者首先通過一個(gè)簡(jiǎn)單實(shí)驗(yàn)驗(yàn)證核心直覺:蛋白質(zhì)由 20 種標(biāo)準(zhǔn)氨基酸組成,其中連續(xù)的功能子序列(如結(jié)構(gòu)域、活性位點(diǎn)等)被稱為片段(fragment),它們往往決定結(jié)構(gòu)與功能。

實(shí)驗(yàn)發(fā)現(xiàn),即便將天然蛋白質(zhì)片段隨機(jī)插入到隨機(jī)生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布與可折疊性上均顯著優(yōu)于完全隨機(jī)生成(Random)。


(a) 不同方法生成的蛋白質(zhì)在ESM C embedding空間中的UMAP可視化,灰色表示天然蛋白質(zhì)的分布。(b) pLDDT (predicted Local Distance Difference Test)性能對(duì)比,該指標(biāo)衡量單個(gè)殘基局部結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確度。 (c) PAE (Predicted Aligned Error)性能對(duì)比,該指標(biāo)評(píng)估不同殘基之間相對(duì)位置的預(yù)測(cè)準(zhǔn)確度。黃色散點(diǎn)(Random+)比紅色散點(diǎn)(Random)分布更廣,更接近天然蛋白質(zhì),且在結(jié)構(gòu)評(píng)估指標(biāo)上表現(xiàn)顯著更好。

這有力證明了:采用天然片段協(xié)助設(shè)計(jì)極具潛力。進(jìn)一步,在實(shí)際應(yīng)用中,如何按照用戶需要,有目的地選擇和拼接這些天然片段,是 ProDVa 關(guān)注的核心問題。

二、蛋白質(zhì)動(dòng)態(tài)詞表實(shí)現(xiàn)智能組裝

為了實(shí)現(xiàn)對(duì)蛋白質(zhì)片段的智能組裝,ProDVa 包含三個(gè)核心組件:

  1. 文本語言模型 (Text Language Model):理解用戶輸入的自然語言功能描述。

  2. 蛋白質(zhì)語言模型 (Protein Language Model):根據(jù)輸入功能描述,自回歸地設(shè)計(jì)氨基酸序列。

  3. 片段編碼器 (Fragment Encoder):理解天然蛋白質(zhì)片段的表示。

核心創(chuàng)新在于蛋白質(zhì)動(dòng)態(tài)詞表(Dynamic Protein Vocabulary)。傳統(tǒng) PLMs 的詞表僅含 20 種標(biāo)準(zhǔn)氨基酸或分詞器自動(dòng)切分的連續(xù)片段,而 ProDVa 在生成時(shí)可動(dòng)態(tài)引入由天然片段組成的臨時(shí)詞表。推理流程如下:

  1. 根據(jù)功能描述,從支持文檔庫(kù)檢索最相似的 K 個(gè)蛋白質(zhì);

  2. 提取其中的功能片段形成任務(wù)相關(guān)的候選集;

  3. 生成時(shí),模型可在每一步選擇生成單個(gè)氨基酸 Token,或直接生成一個(gè)完整片段。

為讓模型正確使用片段,訓(xùn)練中引入三個(gè)目標(biāo):

  1. 下一個(gè) Token/片段預(yù)測(cè):保證序列生成連貫;

  2. 片段類型預(yù)測(cè):區(qū)分結(jié)構(gòu)域、活性位點(diǎn)等類型,讓編碼器理解片段的生物學(xué)意義;

  3. 片段描述匹配:通過對(duì)比學(xué)習(xí),使片段表示與功能描述在向量空間中對(duì)齊。

三、實(shí)驗(yàn)結(jié)果

在基于功能關(guān)鍵詞和復(fù)雜文本描述的兩類蛋白質(zhì)設(shè)計(jì)任務(wù)中,ProDVa 均表現(xiàn)優(yōu)異:

  1. 結(jié)構(gòu)可折疊性顯著提升:與SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味著生成的蛋白質(zhì)更可能折疊成穩(wěn)定的 3D 結(jié)構(gòu)。

  2. 高效的數(shù)據(jù)利用能力:在功能對(duì)齊性能幾乎不損失(ProTrek Score 差0.1%)的情況下,訓(xùn)練數(shù)據(jù)量?jī)H為 Pinal 的 0.04%(約 71.2 萬對(duì)),顯著降低訓(xùn)練成本。

  1. 通用性強(qiáng):在無條件生成任務(wù)中,同樣優(yōu)于所有基線,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。

四、總結(jié)與展望

本文提出了“蛋白質(zhì)動(dòng)態(tài)詞表”這一新機(jī)制,將深度生成模型與天然蛋白質(zhì)片段的結(jié)構(gòu)先驗(yàn)相結(jié)合,在基于功能的蛋白質(zhì)設(shè)計(jì)任務(wù)中顯著提升了結(jié)構(gòu)可折疊性,同時(shí)保持高功能對(duì)齊度。

相比現(xiàn)有 SOTA 模型,ProDVa 在僅使用 0.04% 訓(xùn)練數(shù)據(jù)的情況下,幾乎不降低功能對(duì)齊性能,卻能生成更多可穩(wěn)定折疊的蛋白質(zhì)序列。

當(dāng)然,當(dāng)前所有評(píng)估方法都是使用計(jì)算機(jī)模擬的指標(biāo)進(jìn)行衡量,尚未通過濕實(shí)驗(yàn)驗(yàn)證其是否真的能在生物體內(nèi)發(fā)揮預(yù)想的功能。我們期待未來更多跨領(lǐng)域合作推動(dòng)其落地與驗(yàn)證。

參考文獻(xiàn)

[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.

[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.

[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.

[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.

來源:公眾號(hào)【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

被罵上熱搜后,山姆終于低頭了!這6款下架神物悄悄回來了

半身Naked
2026-03-11 20:25:32
于冬被曝欠澳門賭場(chǎng)百萬!律師稱已還清,投了沈騰新片票房已41億

于冬被曝欠澳門賭場(chǎng)百萬!律師稱已還清,投了沈騰新片票房已41億

頭號(hào)電影院
2026-03-13 21:56:30
半天11艘船,亮出“中方身份”

半天11艘船,亮出“中方身份”

觀察者網(wǎng)
2026-03-13 23:21:09
北京樓市:用真實(shí)的數(shù)據(jù)說話

北京樓市:用真實(shí)的數(shù)據(jù)說話

說故事的阿襲
2026-03-14 19:22:02
包養(yǎng)10位情婦,睡覺翻牌生下11個(gè)私生子,75歲還在拼命生娃!

包養(yǎng)10位情婦,睡覺翻牌生下11個(gè)私生子,75歲還在拼命生娃!

來科點(diǎn)譜
2026-02-16 07:12:06
令人唏噓!5年過去了,曾經(jīng)打進(jìn)東決的五人首發(fā),如今全部離隊(duì)!

令人唏噓!5年過去了,曾經(jīng)打進(jìn)東決的五人首發(fā),如今全部離隊(duì)!

籃球圈里的那些事
2026-03-14 22:21:15
今年“3·15”晚會(huì)將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費(fèi)者權(quán)益違法行為

今年“3·15”晚會(huì)將關(guān)注食品安全、公共安全等領(lǐng)域侵害消費(fèi)者權(quán)益違法行為

新京報(bào)
2026-03-13 22:06:17
楊尚昆和哈梅內(nèi)伊的“三無”會(huì)見,楊尚昆說了幾句轉(zhuǎn)身就走

楊尚昆和哈梅內(nèi)伊的“三無”會(huì)見,楊尚昆說了幾句轉(zhuǎn)身就走

犀利強(qiáng)哥
2026-03-04 21:40:54
兩艘印度運(yùn)輸船順利通過霍爾木茲海峽

兩艘印度運(yùn)輸船順利通過霍爾木茲海峽

界面新聞
2026-03-14 17:42:02
上海人有錢到令人發(fā)指!奢侈品商場(chǎng)斷崖式領(lǐng)先~

上海人有錢到令人發(fā)指!奢侈品商場(chǎng)斷崖式領(lǐng)先~

次元君情感
2026-03-14 19:05:05
趴在中國(guó)仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

趴在中國(guó)仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了!

青煙小先生
2026-03-14 10:26:24
致命碰撞!伊以同時(shí)吹響總攻號(hào)角,終極對(duì)決正式打響!

致命碰撞!伊以同時(shí)吹響總攻號(hào)角,終極對(duì)決正式打響!

大嘴說天下
2026-03-13 19:45:52
86:76拿下南蘇丹,中國(guó)女籃余下的任務(wù)就一個(gè)

86:76拿下南蘇丹,中國(guó)女籃余下的任務(wù)就一個(gè)

丑蕪
2026-03-14 21:20:45
伊朗女足主帥:國(guó)家電視臺(tái)把我們定性為戰(zhàn)時(shí)叛徒 迫使球員們逃走

伊朗女足主帥:國(guó)家電視臺(tái)把我們定性為戰(zhàn)時(shí)叛徒 迫使球員們逃走

念洲
2026-03-14 06:48:31
低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

死亡威脅中,受傷的伊朗最高領(lǐng)袖“亮相”了

中國(guó)新聞周刊
2026-03-13 16:48:07
哈梅內(nèi)伊沒有“遇害”

哈梅內(nèi)伊沒有“遇害”

西樓飲月
2026-03-02 22:33:08
江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當(dāng)場(chǎng)愣住

江蘇5歲孫子幼兒園失蹤,2天后背著書包回家,誰料,書包里竟背著20萬現(xiàn)金,爺爺當(dāng)場(chǎng)愣住

感覺會(huì)火
2026-03-14 14:52:10
2026-03-14 23:04:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
時(shí)尚
健康

藝術(shù)要聞

海口江東第一高樓,中國(guó)石化打造,形如“鉆石”!

數(shù)碼要聞

設(shè)計(jì)還在20年前的冰箱如何升級(jí)?容聲:中國(guó)人需要自己的中國(guó)冰箱

親子要聞

小龍寶為啥不跟爺爺奶奶玩了?婆婆買蝦怪兒媳婦愛吃,兒子氣跑了

女人到了三四十歲穿衣要顯貴,這些穿搭值得借鑒,大方又好看

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版