国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek論文發(fā)表16天后,國內(nèi)團隊已經(jīng)寫出了模型的“生物字典”

0
分享至

*內(nèi)容來源:機器之心、測序中國微信公眾號

今年1月,DeepSeek發(fā)布了一項名為Engram(條件記憶)的技術(shù),在大模型圈子里掀起不小波瀾。

它的核心思想很簡單:別讓模型死記硬背常識,直接給它一個“外掛記憶庫”。

具體做法是:把常見的詞語組合(N-gram),比如“人工智能”、“光合作用”,預(yù)先存進一個哈希表,模型需要時查表即可,省下大量算力專注推理。

這個思路,能不能用在其他領(lǐng)域的模型訓(xùn)推上?答案是:能,且效果驚人。

就在Engram論文發(fā)布僅16天后,同樣位于杭州的一支研發(fā)團隊,推出GengramGenomic Engram)模塊,把“外掛字典”搬進了基因組世界。



  • 代碼鏈接:

    https://github.com/zhejianglab/Gengram

  • 模型鏈接:

    https://huggingface.co/ZhejiangLab/Gengram

  • 論文鏈接:

    https://arxiv.org/abs/2601.22203

傳統(tǒng)方法的困境:

為每個堿基“重復(fù)造輪子”

當(dāng)前,主流的基因組基礎(chǔ)模型,如Deepmind的AlphaGenome等,普遍采用一種叫“單堿基分詞”的策略,也就是把DNA序列拆成一個個單獨的字母(A/T/C/G)來處理。

這聽起來非常符合生物學(xué)邏輯,并且操作精度更高,然而代價也是巨大的。

首先是效率低下。要識別一個關(guān)鍵功能片段(比如啟動子或剪接位點),模型得靠多層注意力機制,從零開始“拼湊”出像“TATAAAA”這樣的經(jīng)典堿基組合(Motif)。

其次是容易迷失。在動輒幾萬甚至幾十萬堿基的長序列中,模型常常“只見樹木,不見森林”,何況人類的基因組是一串長達30億字符的連續(xù)序列。

用更容易理解的方式來打個比方:人類學(xué)習(xí)“魑魅魍魎”時,一眼就能理解這是個成語。但傳統(tǒng)的基因組模型卻得先分析每個“鬼”字究竟是什么鬼……既要區(qū)分又要預(yù)測,最終結(jié)果就是既費力,又不準。

Gengram是怎么工作的?

Gengram的核心邏輯承襲自Engram:將“靜態(tài)的Motif識別”與“動態(tài)的上下文推理”進行解耦處理。

Gengram預(yù)先構(gòu)建了一個可微分的哈希表,存儲所有長度為1到6的DNA片段(稱為k-mer,如“ATG”、“CGTA”)對應(yīng)的語義向量。這些k-mer很多就是已知的生物學(xué)功能單元(比如轉(zhuǎn)錄因子結(jié)合位點),相當(dāng)于給AI配了一本《基因組學(xué)實用短語手冊》。

與其他領(lǐng)域相比,DNA只有4個字母(A/T/C/G)及少量未知堿基(N)構(gòu)成,整個字符集極小。Gengram無需承擔(dān)復(fù)雜的Tokenizer壓縮負擔(dān),查表速度極快,幾乎不增加計算開銷。

事實上,由于功能重要性不同,并非所有Motif都需要這本“字典”的加持。為此,Gengram引入了動態(tài)門控機制

模型可以結(jié)合上下文語境自主決定何時“查字典”:在遇到外顯子、啟動子等關(guān)鍵Motif區(qū)域時激活檢索功能;在通過非編碼背景區(qū)域時關(guān)閉檢索,依賴推理,優(yōu)化資源。

經(jīng)團隊測試,這個門控目前已經(jīng)掌握了“什么時候該查詢參考資料,什么時候該獨立思考”的判斷能力。

小模塊,大提升

事實上,Gengram只是一個僅約2000萬參數(shù)的輕量化插件,對于百億級規(guī)模的模型來說微不足道,但它帶來的性能提升卻令人振奮。

在8k和32k兩個上下文版本中,同等訓(xùn)練設(shè)定下,應(yīng)用了Gengram的模型幾乎在所有任務(wù)里領(lǐng)先未應(yīng)用的版本。

其中,剪接位點預(yù)測AUC提升了16.1%(從0.776到0.901),表觀遺傳預(yù)測任務(wù)(H3K36me3)AUC提升了22.6%(從0.656到0.804)。

這種跨越式的性能飛躍,賦予了模型驚人的數(shù)據(jù)杠桿效應(yīng)。

在與多款主流DNA基礎(chǔ)模型的橫向測評中,集成Gengram的模型僅需極小規(guī)模的訓(xùn)練數(shù)據(jù),和較小的激活參數(shù)量,便能在核心任務(wù)上媲美乃至超越訓(xùn)練數(shù)據(jù)規(guī)模領(lǐng)先其數(shù)十倍的公開模型,大幅提升了模型訓(xùn)練的數(shù)據(jù)能效比。

同時,Gengram展現(xiàn)出了卓越的通用適配能力,能夠跨越Dense(稠密)與MoE(混合專家)等不同模型架構(gòu)實現(xiàn)無縫部署。


跨稀疏度負載均衡:在Top-2/128、64和32專家配置下,使用與不使用Gengram模塊的負載均衡損失曲線對比,表明其在多種稀疏度設(shè)置下均能實現(xiàn)穩(wěn)定性能

此外,模型開始“涌現(xiàn)”出對DNA物理本質(zhì)的理解。

當(dāng)團隊為Gengram局部聚合窗口測試窗口大小策略時,結(jié)果顯示:窗口大小參數(shù)設(shè)置為21bp時,其性能達到峰值。

為什么偏偏是21?

因為DNA雙螺旋結(jié)構(gòu)每10.5個堿基對旋轉(zhuǎn)一圈,而21個堿基對正好對應(yīng)兩個完整的螺旋周期。這意味著,每相隔21bp的堿基在物理空間上其實位于螺旋的同一側(cè),具備相似的生化環(huán)境和特征。

換句話說,Gengram在沒有學(xué)習(xí)過任何結(jié)構(gòu)生物學(xué)知識的前提下,通過計算自己悟到了DNA序列信息和空間相位規(guī)律。


DNA雙螺旋結(jié)構(gòu)示意圖展示了B型DNA的結(jié)構(gòu)參數(shù),DNA雙螺旋每10.5個堿基對旋轉(zhuǎn)一圈


不同Gengram窗口大小下的驗證損失,由此選擇了21寬度的窗口

范式啟示:

Gengram為AI科學(xué)模型提供新探索路徑

Gengram的成功,遠不止于解決基因組建模的特定難題。它更像一個精巧的概念驗證,為如何構(gòu)建新一代懂科學(xué)的AI探索了一種新的模式。

從“暴力記憶”到“結(jié)構(gòu)化知識外掛”:效率范式的轉(zhuǎn)變。傳統(tǒng)AI模型增強能力主要靠擴張參數(shù)與數(shù)據(jù),本質(zhì)是讓網(wǎng)絡(luò)更費力地“記住”一切。Gengram則將領(lǐng)域內(nèi)確鑿的、結(jié)構(gòu)化的先驗知識(如功能Motif)做成一個輕量、可查詢的外部知識庫。這讓核心模型能從繁瑣的模式記憶中解脫,專注于更高級的上下文推理與組合創(chuàng)新。這預(yù)示著,未來科學(xué)基礎(chǔ)模型的架構(gòu),可能是“通用模型核心+多個領(lǐng)域?qū)S貌寮钡膮f(xié)同形態(tài)。

“歸納偏置”注入:生物物理規(guī)律的“硬編碼”。通過將B型DNA雙螺旋每10.5個堿基完成一個旋轉(zhuǎn)周期(即約21bp的雙圈周期)這一結(jié)構(gòu)特性,顯式轉(zhuǎn)化為模型內(nèi)部的局部窗口機制,Gengram成功地將這種物理空間相位的周期性作為先驗知識注入模型,使其能夠捕捉特定相位的立體化學(xué)模式和蛋白質(zhì)綁定偏好。

可解釋性的內(nèi)生設(shè)計:讓AI的“思維過程”透明化模型不再僅僅進行隱式的統(tǒng)計擬合,而是通過顯式的Hash查詢和門控記憶通路,在淺層即展現(xiàn)出對TATA-box、poly(T)等關(guān)鍵功能基元的高度敏感性,其內(nèi)部殘差強度的峰值與基因組功能邊界精準對齊,實現(xiàn)了從“黑盒計算”向“具備生物學(xué)認知足跡”的演進。

解決長程依賴的新路徑:從局部最優(yōu)到全局洞察。實驗證明,Gengram使得僅在8K長度上訓(xùn)練的模型,卻獲得了處理32K長序列的優(yōu)異能力。這為基因調(diào)控元件預(yù)測、表觀遺傳學(xué)分析、跨物種進化分析以及復(fù)雜的多組學(xué)建模等復(fù)雜長序列問題,開辟了精細化局部感知驅(qū)動全局理解的新途徑。

Gengram建立了一種將領(lǐng)域特有規(guī)律轉(zhuǎn)化為顯式架構(gòu)約束的創(chuàng)新范式,證明了通過精細化的局部結(jié)構(gòu)化感知可以有效彌補標(biāo)稱上下文長度的局限,實現(xiàn)低成本且高效的長程依賴建模。

低調(diào)的Genos Team

Gengram的發(fā)布,讓人們將目光投向了杭州AI版圖的另一塊重要拼圖Genos團隊。這支低調(diào)的團隊結(jié)合了華大生命科學(xué)研究院的組學(xué)大數(shù)據(jù)經(jīng)驗,與之江實驗室的計算和模型能力。這種交叉創(chuàng)新壁壘,這是單純的 計算機科學(xué)團隊或 生命科學(xué)團隊 無法比擬的優(yōu)勢。

論文里的實驗,大多基于人類基因組基礎(chǔ)模型Genos實現(xiàn),Genos是研發(fā)團隊于去年10月發(fā)布的,從可公開獲取的信息來看,Genos多數(shù)指標(biāo)都超越了當(dāng)前的業(yè)界頂流Evo-2。目前,Genos已應(yīng)用于華大基因面向遺傳病臨床檢測的大語言模型GeneT,助力提高遺傳病分析解讀的水平。

如果說DeepSeek證明了通用AI的極限,那么Genos團隊則用行動展示了當(dāng)AI深度對齊生物學(xué)邏輯時,我們離真正讀懂“生命之書”又近了一大步。


讓我知道你“在看”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
近八百架無人機導(dǎo)彈奔襲莫斯科等地!烏克蘭對俄發(fā)動最大規(guī)模攻擊

近八百架無人機導(dǎo)彈奔襲莫斯科等地!烏克蘭對俄發(fā)動最大規(guī)模攻擊

項鵬飛
2026-03-10 16:56:37
3月12日俄烏最新:“莫斯科之盾”碎了

3月12日俄烏最新:“莫斯科之盾”碎了

西樓飲月
2026-03-12 20:03:46
手機頂部出現(xiàn)這 3 個圖標(biāo),請立刻警惕!你的隱私正在被偷偷泄露

手機頂部出現(xiàn)這 3 個圖標(biāo),請立刻警惕!你的隱私正在被偷偷泄露

小柱解說游戲
2026-03-11 08:34:44
男人最懂男人:張嘉倪 vs 邵晴,買超選邵晴,早有貓膩

男人最懂男人:張嘉倪 vs 邵晴,買超選邵晴,早有貓膩

草莓解說體育
2026-03-12 14:53:34
爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

爆冷晉級16強卻收壞消息!溫瑞博下輪死磕隊友!高情商回應(yīng)擊敗世界第二

好乒乓
2026-03-13 12:24:14
窮可以卑微到什么地步?網(wǎng)友:換我早身心崩潰了

窮可以卑微到什么地步?網(wǎng)友:換我早身心崩潰了

夜深愛雜談
2026-03-12 21:00:23
鴻蒙智行再翻車!拿吉利手動避險視頻宣傳自家智駕

鴻蒙智行再翻車!拿吉利手動避險視頻宣傳自家智駕

鞭牛士
2026-03-13 10:01:05
人活多久,看走路就知道?壽命短的人,走路一般會出現(xiàn)這7個特征

人活多久,看走路就知道?壽命短的人,走路一般會出現(xiàn)這7個特征

健康之光
2026-03-05 18:10:03
31分+180俱樂部!黃蜂小將打出庫里式賽季

31分+180俱樂部!黃蜂小將打出庫里式賽季

大眼瞄世界
2026-03-12 23:09:14
小楊阿姨徹底不演了!自曝未復(fù)工并非家有喜事,馬筱梅謊言被戳破

小楊阿姨徹底不演了!自曝未復(fù)工并非家有喜事,馬筱梅謊言被戳破

潮鹿逐夢
2026-03-12 16:57:05
伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

點燃好奇心
2026-03-12 15:16:00
追覓發(fā)布汽車固態(tài)電池:計劃年內(nèi)小批量交付,2027年大規(guī)模量產(chǎn)

追覓發(fā)布汽車固態(tài)電池:計劃年內(nèi)小批量交付,2027年大規(guī)模量產(chǎn)

IT之家
2026-03-12 12:46:07
哈馬斯沒料到,伊朗攻擊再猛,也無法在以色列手里,打開拉法口岸

哈馬斯沒料到,伊朗攻擊再猛,也無法在以色列手里,打開拉法口岸

快看張同學(xué)
2026-03-13 12:30:43
伊朗挨揍后的品行表現(xiàn),暴露了它為什么會挨揍

伊朗挨揍后的品行表現(xiàn),暴露了它為什么會挨揍

常識群
2026-03-12 13:43:27
這才是標(biāo)準的東方美人,長相柔和大氣,端莊優(yōu)雅,一臉旺夫相!

這才是標(biāo)準的東方美人,長相柔和大氣,端莊優(yōu)雅,一臉旺夫相!

可樂談情感
2026-03-13 09:21:04
費玉清70歲獨居臺北淡水老宅,與61歲閨蜜為伴

費玉清70歲獨居臺北淡水老宅,與61歲閨蜜為伴

天啟大世界
2026-03-10 23:10:16
向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

向佐踢主持人后續(xù)!百克力回應(yīng),確實有不爽,曝對方私下真實人品

離離言幾許
2026-03-12 16:53:51
72歲毛永明現(xiàn)狀:移居美國住豪宅,身體發(fā)福認不出,妹妹陪他晚年

72歲毛永明現(xiàn)狀:移居美國住豪宅,身體發(fā)福認不出,妹妹陪他晚年

以茶帶書
2026-03-12 19:13:17
阿拉伯、伊斯蘭、穆斯林有什么聯(lián)系與區(qū)別,究竟屬于怎樣的關(guān)系?

阿拉伯、伊斯蘭、穆斯林有什么聯(lián)系與區(qū)別,究竟屬于怎樣的關(guān)系?

長風(fēng)文史
2026-03-11 19:08:09
混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

混社會的人出來之后變得怎樣了 看網(wǎng)友講述 發(fā)現(xiàn)真的好慘

侃神評故事
2026-03-12 15:25:05
2026-03-13 13:55:00
華大集團BGI
華大集團BGI
基因科技造福人類
2212文章數(shù) 1968關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

牛彈琴:全世界必須放棄幻想了 美國高層倒吸一口涼氣

頭條要聞

牛彈琴:全世界必須放棄幻想了 美國高層倒吸一口涼氣

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

"短劇"苦抄襲

汽車要聞

本田汽車全年業(yè)績由盈轉(zhuǎn)虧 高管們降薪3個月以擔(dān)責(zé)

態(tài)度原創(chuàng)

親子
健康
家居
房產(chǎn)
本地

親子要聞

2026中老年駱駝奶粉推薦:駝奶粉哪個牌子正宗?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

藝術(shù)之家 法式優(yōu)雅

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

本地新聞

坐標(biāo)北京,過敏季反向遷徒

無障礙瀏覽 進入關(guān)懷版