国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

西湖大學(xué)發(fā)布SaprotHub,讓生物學(xué)家輕松訓(xùn)練調(diào)用蛋白質(zhì)語言模型

0
分享至



作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

如同人類擁有語言,生命世界也有一套由氨基酸序列構(gòu)成的「分子語言」—— 蛋白質(zhì) 。近年來,人工智能領(lǐng)域的蛋白質(zhì)語言模型(PLMs)展現(xiàn)出解碼這套語言的強(qiáng)大能力,能夠精準(zhǔn)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)與功能。

然而,這些尖端模型的訓(xùn)練與使用,往往需要深厚的機(jī)器學(xué)習(xí)專業(yè)知識(shí)和編程能力,這在 AI 開發(fā)者與廣大生物學(xué)家之間形成了一道鴻溝。

為了打破這一壁壘,西湖大學(xué)原發(fā)杰團(tuán)隊(duì)首先提出了一種新穎的蛋白質(zhì)表征方法 —— 將蛋白質(zhì)一維序列與三維結(jié)構(gòu)相結(jié)合形成「結(jié)構(gòu)感知」詞匯表并據(jù)此訓(xùn)練出了蛋白質(zhì)語言大模型 Saprot。

在此基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步推出了 SaprotHub 開源平臺(tái) 。該平臺(tái)旨在將 Saprot 等一系列先進(jìn)蛋白質(zhì)語言模型的能力開放給生命科學(xué)領(lǐng)域研究者,它也是開放蛋白質(zhì)模型聯(lián)盟(Open Protein Modeling Consortium, OPMC)為推動(dòng)全球科研協(xié)作、共建開源社區(qū)而邁出的關(guān)鍵第一步。

這項(xiàng)研究成果已于近期發(fā)表在國際頂尖期刊《自然?生物技術(shù)》(Nature Biotechnology)上,論文題為《Democratizing Protein Language Model Training, Sharing and Collaboration》。



論文地址:https://www.nature.com/articles/s41587-025-02859-7

蛋白質(zhì)研究的挑戰(zhàn):從模型「孤島」到協(xié)作「藍(lán)?!?/p>

蛋白質(zhì)是生命活動(dòng)的基石,而近年來,以 AlphaFold2 為代表的蛋白質(zhì)語言模型(PLMs)在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)與功能方面取得了革命性突破。然而,這些強(qiáng)大的 AI 工具如同精密的專業(yè)設(shè)備,其訓(xùn)練和部署通常需要深厚的機(jī)器學(xué)習(xí)知識(shí),這為廣大從事實(shí)驗(yàn)研究的生物學(xué)家設(shè)置了難以逾越的技術(shù)鴻溝。從復(fù)雜的編程環(huán)境配置,到海量數(shù)據(jù)的預(yù)處理,再到模型訓(xùn)練和評(píng)估,整個(gè)流程充滿了挑戰(zhàn)。這不僅限制了 AI 技術(shù)的普及,也減緩了其在醫(yī)藥、生物技術(shù)等領(lǐng)域的創(chuàng)新應(yīng)用進(jìn)程。



圖 1. Saprot 模型架構(gòu)

SaprotHub:三大支柱構(gòu)建的開源協(xié)作新范式

為了應(yīng)對(duì)這一挑戰(zhàn),團(tuán)隊(duì)構(gòu)建了以 SaprotHub 為核心的一站式解決方案,它不僅是一個(gè)平臺(tái),更是一個(gè)融合了前沿 AI 大模型技術(shù)、開源工具和全球社區(qū)的完整生態(tài)系統(tǒng):

  • 核心引擎 — Saprot 語言模型:Saprot 是本項(xiàng)工作的基石。它開創(chuàng)性地提出了一種「結(jié)構(gòu)感知」(Structure-Aware)詞匯表,將蛋白質(zhì)的一維氨基酸序列與其三維局部結(jié)構(gòu)信息進(jìn)行聯(lián)合編碼,從而構(gòu)建出一種全新的蛋白質(zhì)「語言」。同時(shí),研究團(tuán)隊(duì)基于 AlphaFold2 預(yù)測(cè)的數(shù)千萬個(gè)蛋白質(zhì)結(jié)構(gòu),采用了 64 塊 NVIDIA A100 GPU,經(jīng)過數(shù)月訓(xùn)練完成了 Saprot 模型的訓(xùn)練。其性能在數(shù)十項(xiàng)蛋白質(zhì)功能預(yù)測(cè)任務(wù)中得到了充分驗(yàn)證,并成功超越了如 ESM-2 等業(yè)界頂尖模型。自發(fā)布以來,Saprot 模型在學(xué)術(shù)界與工業(yè)界獲得了廣泛的關(guān)注和應(yīng)用。相關(guān)論文被引用已超過 200 次,模型累計(jì)下載量逾 70 萬次,并獲得了大量來自社區(qū)的真實(shí)生物實(shí)驗(yàn)驗(yàn)證,彰顯了其作為基礎(chǔ)模型的影響力。值得一提的是,Saprot 于 2024 年 5 月登頂 ProteinGym 蛋白質(zhì)突變效應(yīng)預(yù)測(cè)排行榜,并在此后近半年的時(shí)間里持續(xù)排名第一。
  • 開源工具 — 「一鍵式」蛋白質(zhì)語言模型訓(xùn)練平臺(tái) ColabSaprot:為了將 Saprot 的能力釋放給生命科學(xué)領(lǐng)域的研究者,團(tuán)隊(duì)基于免費(fèi)的 Google Colab 云平臺(tái),通過數(shù)月開發(fā),上萬行的代碼編寫,實(shí)現(xiàn)了 ColabSaprot「一鍵式」開源訓(xùn)練平臺(tái)。它將原本需要編寫繁瑣代碼才能進(jìn)行的蛋白質(zhì)語言模型微調(diào)、功能預(yù)測(cè)等任務(wù),簡(jiǎn)化為用戶在網(wǎng)頁上的幾次鼠標(biāo)點(diǎn)擊,讓不具備編程背景的生物學(xué)家也能輕松訓(xùn)練前沿蛋白質(zhì)語言模型,實(shí)現(xiàn)從想法到驗(yàn)證的快速迭代 。為了方便研究者快速上手,團(tuán)隊(duì)錄制了詳細(xì)的教程視頻,涵蓋了從模型訓(xùn)練到使用等各個(gè)方面。

ColabSaprot鏈接:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

教程鏈接:

https://www.bilibili.com/video/BV1Y1i9YBEhv

https://www.youtube.com/watch?v=nmLtjlCI_7M



圖 2. ColabSaprot 在線平臺(tái),具備細(xì)致的操作介紹以及簡(jiǎn)易的使用步驟

  • 全球協(xié)作 — OPMC 成員共建的開放社區(qū):SaprotHub 不僅僅是蛋白質(zhì)語言模型的共享中心,更是開放蛋白質(zhì)模型聯(lián)盟(OPMC)理念的先行者。該聯(lián)盟匯聚了來自西湖大學(xué)、麻省理工學(xué)院(MIT)、首爾大學(xué)、哈佛大學(xué)、慕尼黑工業(yè)大學(xué)、微軟等全球數(shù)十家頂尖科研機(jī)構(gòu)的研究力量 ,旨在共同推進(jìn)蛋白質(zhì)領(lǐng)域的蓬勃發(fā)展。為了實(shí)現(xiàn)開源共建的良性生態(tài),團(tuán)隊(duì)采用低秩適應(yīng)矩陣(LoRA)的方式保存模型權(quán)重,并建立了 SaprotHub 模型與數(shù)據(jù)倉庫。通過將 ColabSaprot 開源平臺(tái)與 SaprotHub 進(jìn)行無縫耦合,OPMC 成員和全球研究者可以便捷地分享、下載和迭代模型。目前,SaprotHub 已經(jīng)存儲(chǔ)了數(shù)十種不同類型的蛋白質(zhì)訓(xùn)練數(shù)據(jù)集以及可供研究者直接預(yù)測(cè)的蛋白質(zhì)語言模型。為了方便研究者快速檢索,團(tuán)隊(duì)針對(duì)性地開發(fā)了相應(yīng)的搜索引擎,允許研究者根據(jù)關(guān)鍵詞直接檢索到相關(guān)的數(shù)據(jù)和模型。

SaprotHub 模型與數(shù)據(jù)倉庫:https://huggingface.co/SaProtHub

搜索引擎:https://huggingface.co/spaces/SaProtHub/SaprotHub-search



圖 3. SaprotHub 利用 LoRA 技術(shù)存儲(chǔ)模型權(quán)重,實(shí)現(xiàn)模型的便利共享

從虛擬到現(xiàn)實(shí):計(jì)算機(jī)模擬性能驗(yàn)證與多項(xiàng)濕實(shí)驗(yàn)驗(yàn)證

SaprotHub 的價(jià)值不僅在于其便捷性,更在于其預(yù)測(cè)準(zhǔn)確性。在團(tuán)隊(duì)開展的用戶研究中,12 位沒有 AI 背景的生物學(xué)研究者使用該平臺(tái),取得了與 AI 研究者相媲美的成果。



圖 4. 生物研究者利用平臺(tái)能夠訓(xùn)練出和 AI 研究者相媲美的成果

更進(jìn)一步,平臺(tái)預(yù)測(cè)的有效性在一系列生物濕實(shí)驗(yàn)中得到了驗(yàn)證:

  • 工業(yè)酶改造:一家生物技術(shù)公司利用 ColabSaprot 對(duì)一種工業(yè)用木聚糖酶進(jìn)行改造,成功將酶的活性提升了 2.55 倍。
  • 基因編輯工具優(yōu)化:研究人員利用該平臺(tái)對(duì) TDG 基因編輯工具進(jìn)行優(yōu)化,預(yù)測(cè)出的多個(gè)新版本在實(shí)驗(yàn)中展現(xiàn)出翻倍的編輯效率。
  • 熒光蛋白設(shè)計(jì):平臺(tái)還被用于設(shè)計(jì)更亮的綠色熒光蛋白(GFP),其中一個(gè)新設(shè)計(jì)的蛋白,其熒光亮度達(dá)到了原始版本的 8 倍以上。

這些成功案例證明,SaprotHub 能夠?qū)?AI 的預(yù)測(cè)能力轉(zhuǎn)化為現(xiàn)實(shí)世界中的生物學(xué)功能突破。

核心突破

1.全新蛋白質(zhì)語言模型:發(fā)布了具備技術(shù)創(chuàng)新(結(jié)構(gòu)感知詞匯表)的 Saprot 蛋白質(zhì)語言大模型。其在 14 項(xiàng)基準(zhǔn)測(cè)試中性能超越了 ESM-2 等現(xiàn)有經(jīng)典模型,已在該領(lǐng)域展現(xiàn)了其作為基礎(chǔ)模型的影響力。

2.開源協(xié)作范式:作為開放蛋白質(zhì)模型聯(lián)盟(OPMC)的第一步,匯聚了來自 MIT、哈佛、牛津、首爾大學(xué)等全球頂尖機(jī)構(gòu)的智慧,為蛋白質(zhì)領(lǐng)域建立了集模型訓(xùn)練、分享、合作、迭代于一體的開源社區(qū)平臺(tái)。

3.蛋白質(zhì)語言模型技術(shù)民主化:通過「一鍵式」的 ColabSaprot 工具,將先進(jìn)蛋白質(zhì)語言模型的復(fù)雜訓(xùn)練和使用流程民主化,賦能全球不具備編程背景的生物學(xué)家,使其從 AI 的「使用者」轉(zhuǎn)變?yōu)椤竸?chuàng)造者」和「貢獻(xiàn)者」。

4.真實(shí)場(chǎng)景驗(yàn)證:平臺(tái)的有效性在工業(yè)酶改造、基因編輯工具優(yōu)化等多個(gè)真實(shí)的濕實(shí)驗(yàn)場(chǎng)景中得到驗(yàn)證,展示了其通過計(jì)算機(jī)模擬輔助現(xiàn)實(shí)生物學(xué)突破的能力。

結(jié)語與展望

SaprotHub 的發(fā)布,不止是提供了一個(gè)工具。它以一個(gè)創(chuàng)新的自研蛋白質(zhì)語言模型(Saprot)為基礎(chǔ),通過開源平臺(tái)(ColabSaprot)來催化一個(gè)全球性的科研協(xié)作網(wǎng)絡(luò)(OPMC)。這為 AI 輔助的生命科學(xué)研究提供了一種可持續(xù)發(fā)展的「開源、共建、共享」模式。目前,該生態(tài)已進(jìn)一步集成了 ESM-2、ProtT5 等更多業(yè)界主流模型 ,開啟了蛋白質(zhì)科學(xué)的「大航海時(shí)代」。

西湖大學(xué)原發(fā)杰實(shí)驗(yàn)室現(xiàn)有 2026 年博士研究生招生名額,有意向者可將個(gè)人簡(jiǎn)歷(含教育背景、科研經(jīng)歷、成果證明等)及相關(guān)材料投遞至指定郵箱,郵件主題請(qǐng)注明「2026 博士申請(qǐng) + 姓名」。

投遞郵箱:yuanfajie@westlake.edu.cn

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“查完醫(yī)保賬戶才發(fā)現(xiàn)被連續(xù)扣了四年錢”,惠民保“自動(dòng)扣費(fèi)”引爭(zhēng)議,但真相竟是??

“查完醫(yī)保賬戶才發(fā)現(xiàn)被連續(xù)扣了四年錢”,惠民?!白詣?dòng)扣費(fèi)”引爭(zhēng)議,但真相竟是??

每日經(jīng)濟(jì)新聞
2025-12-26 21:08:22
情況有變,中俄后院出現(xiàn)“叛徒”,公然支持日本入常,不得不防!

情況有變,中俄后院出現(xiàn)“叛徒”,公然支持日本入常,不得不防!

米師傅安裝
2025-12-27 02:16:19
網(wǎng)友隱姓埋名揭秘行業(yè)內(nèi)幕,打破信息差避坑,實(shí)在太給力了

網(wǎng)友隱姓埋名揭秘行業(yè)內(nèi)幕,打破信息差避坑,實(shí)在太給力了

另子維愛讀史
2025-12-26 16:49:26
游客留下20美元,被憤怒美國女服務(wù)員追討,你在美國給過小費(fèi)嗎?

游客留下20美元,被憤怒美國女服務(wù)員追討,你在美國給過小費(fèi)嗎?

侃侃兒談
2025-11-26 08:42:53
高市早苗“人設(shè)”塌了

高市早苗“人設(shè)”塌了

陸棄
2025-12-26 08:30:03
2026款?yuàn)W迪Q5L預(yù)售31.3萬!全新外觀,搭華為智駕+五代EA888引擎

2026款?yuàn)W迪Q5L預(yù)售31.3萬!全新外觀,搭華為智駕+五代EA888引擎

小史談車
2025-12-26 10:28:52
上海營業(yè)排名最高的六大商場(chǎng),不求最好但求最貴,上檔次有面子

上海營業(yè)排名最高的六大商場(chǎng),不求最好但求最貴,上檔次有面子

小蜜情感說
2025-12-26 00:43:20
吉利怒告欣旺達(dá),索賠23 億,起因?yàn)槿ツ陿O氪001充電變慢事件

吉利怒告欣旺達(dá),索賠23 億,起因?yàn)槿ツ陿O氪001充電變慢事件

電科技網(wǎng)
2025-12-26 23:37:40
“我穿一條汗褲就跑到一樓”;云南德宏州盈江縣發(fā)生3.9級(jí)地震,高校學(xué)生下樓避險(xiǎn)

“我穿一條汗褲就跑到一樓”;云南德宏州盈江縣發(fā)生3.9級(jí)地震,高校學(xué)生下樓避險(xiǎn)

大風(fēng)新聞
2025-12-26 09:46:23
王傳君生病后近照變化大,面部浮腫肚子胖成球,疑似因吃藥受影響

王傳君生病后近照變化大,面部浮腫肚子胖成球,疑似因吃藥受影響

萌神木木
2025-12-26 15:24:12
扯掉綁在人民身上的斬殺線——感謝救星

扯掉綁在人民身上的斬殺線——感謝救星

超級(jí)學(xué)爸蛋總
2025-12-26 21:32:37
泰山隊(duì)近況:瓦科降薪100萬歐留隊(duì),宿茂臻或取代韓鵬成為主帥

泰山隊(duì)近況:瓦科降薪100萬歐留隊(duì),宿茂臻或取代韓鵬成為主帥

姜大叔侃球
2025-12-26 20:54:42
四川華西醫(yī)院有多牛?網(wǎng)友:醫(yī)術(shù)和醫(yī)德不能畫等號(hào)

四川華西醫(yī)院有多牛?網(wǎng)友:醫(yī)術(shù)和醫(yī)德不能畫等號(hào)

帶你感受人間冷暖
2025-12-25 00:15:06
廣期所鉑期貨主力合約開盤漲停

廣期所鉑期貨主力合約開盤漲停

界面新聞
2025-12-26 09:02:27
人算不如天算!年底喜鵲報(bào)喜,3生肖迎來關(guān)鍵轉(zhuǎn)折,正財(cái)橫財(cái)天降

人算不如天算!年底喜鵲報(bào)喜,3生肖迎來關(guān)鍵轉(zhuǎn)折,正財(cái)橫財(cái)天降

毅談生肖
2025-12-23 11:36:40
釋永信與師姐釋永梅合影流出!22年前,她胸前掛著當(dāng)時(shí)最時(shí)尚手機(jī)

釋永信與師姐釋永梅合影流出!22年前,她胸前掛著當(dāng)時(shí)最時(shí)尚手機(jī)

火山詩話
2025-07-31 09:05:51
鄭告蔣家后代:蔣介石逝哪葬哪,是對(duì)全體中國人民的最好安排!

鄭告蔣家后代:蔣介石逝哪葬哪,是對(duì)全體中國人民的最好安排!

扶蘇聊歷史
2025-12-26 16:08:12
臺(tái)南軍系贈(zèng)“手槍”力挺,謝龍介:終結(jié)賴清德本命區(qū)32年綠營執(zhí)政

臺(tái)南軍系贈(zèng)“手槍”力挺,謝龍介:終結(jié)賴清德本命區(qū)32年綠營執(zhí)政

海峽導(dǎo)報(bào)社
2025-12-25 17:40:15
年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬元月薪選擇及時(shí)止損

年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬元月薪選擇及時(shí)止損

流年拾光
2025-10-23 20:33:16
靈活就業(yè)社保覆蓋不高,國務(wù)院報(bào)告:探索平臺(tái)承擔(dān)部分繳費(fèi)可行性

靈活就業(yè)社保覆蓋不高,國務(wù)院報(bào)告:探索平臺(tái)承擔(dān)部分繳費(fèi)可行性

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-26 12:12:07
2025-12-27 03:39:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1191文章數(shù) 222關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

親子
藝術(shù)
家居
數(shù)碼
教育

親子要聞

為什么買好衣服給孩子是個(gè)大坑?你絕對(duì)想不到!

藝術(shù)要聞

你絕對(duì)想不到,佛陀微笑隱藏的秘密竟然是!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

數(shù)碼要聞

盛色推出“OF24TC”23.8英寸顯示器:1080P 144Hz,499元

教育要聞

不公布成績(jī)排名其實(shí)也不耽誤學(xué)生知道誰是優(yōu)秀生誰是差生!

無障礙瀏覽 進(jìn)入關(guān)懷版