国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek論文發(fā)表16天后,國內(nèi)團(tuán)隊已經(jīng)寫出了模型的「生物字典」

0
分享至





機(jī)器之心編輯部

今年 1 月,DeepSeek 發(fā)布了一項名為 Engram(條件記憶)的技術(shù),在大模型圈子里掀起不小波瀾。

它的核心思想很簡單:別讓模型死記硬背常識,直接給它一個「外掛記憶庫」。

具體做法是:把常見的 N-gram,比如「人工智能」、「光合作用」,預(yù)先存進(jìn)一個哈希表,模型需要時查表即可,省下大量算力專注推理。

這個思路,能不能用在其他領(lǐng)域的模型訓(xùn)推上?答案是:能,且效果驚人。

就在 Engram 論文(《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》)發(fā)布僅 16 天后,同樣 base 在杭州的一支研發(fā)團(tuán)隊,推出Gengram(Genomic Engram)模塊,把「外掛字典」搬進(jìn)了基因組世界。



  • 代碼鏈接: https://github.com/zhejianglab/Gengram
  • 模型鏈接: https://huggingface.co/ZhejiangLab/Gengram
  • 論文鏈接: https://github.com/zhejianglab/Gengram/tree/main/paper

傳統(tǒng)方法的困境:為每個堿基「重復(fù)造輪子」

當(dāng)前,主流的基因組基礎(chǔ)模型(Genomic Foundation Models, GFMs),如 Deepmind 的 AlphaGenome 等,普遍采用一種叫「單堿基分詞」的策略,也就是把 DNA 序列拆成一個個單獨的字母(A/T/C/G)來處理。

這聽起來非常符合生物學(xué)邏輯,并且操作精度更高,然而代價也是巨大的。

首先是效率低下。要識別一個關(guān)鍵功能片段(比如啟動子或剪接位點),模型得靠多層注意力機(jī)制,從零開始「拼湊」出像「TATAAAA」這樣的經(jīng)典堿基組合(Motif)。

其次是容易迷失。在動輒幾萬甚至幾十萬堿基的長序列中,模型常?!钢灰姌淠荆灰娚帧?,何況人類的基因組是一串長達(dá) 30 億字符的連續(xù)序列。

用更容易理解的方式來打個比方:人類學(xué)習(xí)「魑魅魍魎」時,一眼就能理解這是個成語。但傳統(tǒng)的基因組模型卻得先分析每個「鬼」字究竟是什么鬼…… 既要區(qū)分又要預(yù)測,最終結(jié)果就是既費力,又不準(zhǔn)。

Gengram 是怎么工作的?

Gengram 的核心邏輯承襲自 Engram:將「靜態(tài)的 Motif 識別」與「動態(tài)的上下文推理」進(jìn)行解耦處理

Gengram 預(yù)先構(gòu)建了一個可微分的哈希表,存儲所有長度為 1 到 6 的 DNA 片段(稱為 k-mer,如「ATG」、「CGTA」)對應(yīng)的語義向量。這些 k-mer 很多就是已知的生物學(xué)功能單元(比如轉(zhuǎn)錄因子結(jié)合位點),相當(dāng)于給 AI 配了一本《基因組學(xué)實用短語手冊》。

與其他領(lǐng)域相比,DNA 只有 4 個字母(A/T/C/G)及少量未知堿基(N)構(gòu)成,整個字符集極小。Gengram 無需承擔(dān)復(fù)雜的 Tokenizer 壓縮負(fù)擔(dān),查表速度極快,幾乎不增加計算開銷。

事實上,由于功能重要性不同,并非所有 Motif 都需要這本「字典」的加持。為此,Gengram 引入了動態(tài)門控機(jī)制

模型可以結(jié)合上下文語境自主決定何時「查字典」:在遇到外顯子、啟動子等關(guān)鍵 Motif 區(qū)域時激活檢索功能;在通過非編碼背景區(qū)域時關(guān)閉檢索,依賴推理,優(yōu)化資源。

經(jīng)團(tuán)隊測試,這個門控目前已經(jīng)掌握了「什么時候該查詢參考資料,什么時候該獨立思考」的判斷能力。

小模塊,大提升

事實上,Gengram 只是一個僅約 2000 萬參數(shù)的輕量化插件,對于百億級規(guī)模的模型來說微不足道,但它帶來的性能提升卻令人振奮。

在 8k 和 32k 兩個上下文版本中,同等訓(xùn)練設(shè)定下,應(yīng)用了 Gengram 的模型幾乎在所有任務(wù)里領(lǐng)先未應(yīng)用的版本。

其中,剪接位點預(yù)測 AUC 提升了16.1%(從 0.776 到 0.901),表觀遺傳預(yù)測任務(wù)(H3K36me3) AUC 提升了22.6%(從 0.656 到 0.804)。

這種跨越式的性能飛躍,賦予了模型驚人的數(shù)據(jù)杠桿效應(yīng)。

在與多款主流 DNA 基礎(chǔ)模型的橫向測評中,集成 Gengram 的模型僅需極小規(guī)模的訓(xùn)練數(shù)據(jù),和較小的激活參數(shù)量,便能在核心任務(wù)上媲美乃至超越訓(xùn)練數(shù)據(jù)規(guī)模領(lǐng)先其數(shù)十倍的公開模型,大幅提升了模型訓(xùn)練的數(shù)據(jù)能效比。

同時,Gengram 展現(xiàn)出了卓越的通用適配能力,能夠跨越 Dense(稠密) 與 MoE(混合專家) 等不同模型架構(gòu)實現(xiàn)無縫部署。

無論采用何種注意力機(jī)制變體,Gengram 均能在有效降低訓(xùn)練損失的同時,顯著加速模型收斂。特別是針對 MoE 架構(gòu)中專家負(fù)載失衡這一頑疾,Gengram 通過吸收局部高頻噪聲,顯著改善了專家負(fù)載均衡,實現(xiàn)了模型性能與架構(gòu)效率的協(xié)同跨越。



跨稀疏度負(fù)載均衡:在 Top-2 / 128、64 和 32 專家配置下,使用與不使用 Gengram 模塊的負(fù)載均衡損失曲線對比,表明其在多種稀疏度設(shè)置下均能實現(xiàn)穩(wěn)定性能。

此外,模型開始「涌現(xiàn)」出對 DNA 物理本質(zhì)的理解。

當(dāng)團(tuán)隊為 Gengram 局部聚合窗口(Local Window Aggregation)測試窗口大小策略時,結(jié)果顯示:窗口大小參數(shù)設(shè)置為 21bp 時,其性能達(dá)到峰值

為什么偏偏是 21?

因為 DNA 雙螺旋結(jié)構(gòu)每 10.5 個堿基旋轉(zhuǎn)一圈,而 21 個堿基正好對應(yīng)兩個完整的螺旋周期。這意味著,每相隔 21bp 的堿基在物理空間上其實位于螺旋的同一側(cè),具備相似的生化環(huán)境和特征。

換句話說,Gengram 在沒有學(xué)習(xí)過任何結(jié)構(gòu)生物學(xué)知識的前提下,通過計算自己悟到了 DNA 序列信息和空間相位規(guī)律。



DNA 雙螺旋結(jié)構(gòu)示意圖展示了 B 型 DNA 的結(jié)構(gòu)參數(shù),DNA 雙螺旋每 10.5 個堿基對旋轉(zhuǎn)一圈。



不同 Gengram 窗口大小下的驗證損失,由此選擇了 21 寬度的窗口

范式啟示:Gengram 為 AI 科學(xué)模型提供新探索路徑

Gengram 的成功,遠(yuǎn)不止于解決基因組建模的特定難題。它更像一個精巧的概念驗證,為如何構(gòu)建新一代懂科學(xué)的 AI 探索了一種新的模式。

從「暴力記憶」到「結(jié)構(gòu)化知識外掛」:效率范式的轉(zhuǎn)變。傳統(tǒng) AI 模型增強(qiáng)能力主要靠擴(kuò)張參數(shù)與數(shù)據(jù),本質(zhì)是讓網(wǎng)絡(luò)更費力地「記住」 一切。Gengram 則將領(lǐng)域內(nèi)確鑿的、結(jié)構(gòu)化的先驗知識(如功能 Motif)做成一個輕量、可查詢的外部知識庫。這讓核心模型能從繁瑣的模式記憶中解脫,專注于更高級的上下文推理與組合創(chuàng)新。這預(yù)示著,未來科學(xué)基礎(chǔ)模型的架構(gòu),可能是「通用模型核心+多個領(lǐng)域?qū)S貌寮沟膮f(xié)同形態(tài)。

「歸納偏置」注入:生物物理規(guī)律的「硬編碼」。通過將 B 型 DNA 雙螺旋每 10.5 個堿基完成一個旋轉(zhuǎn)周期(即約 21 bp 的雙圈周期)這一結(jié)構(gòu)特性,顯式轉(zhuǎn)化為模型內(nèi)部的局部窗口機(jī)制,Gengram 成功地將這種物理空間相位的周期性作為先驗知識注入模型,使其能夠捕捉特定相位的立體化學(xué)模式和蛋白質(zhì)綁定偏好。

可解釋性的內(nèi)生設(shè)計:讓 AI 的「思維過程」透明化。模型不再僅僅進(jìn)行隱式的統(tǒng)計擬合,而是通過顯式的 Hash 查詢和門控記憶通路,在淺層即展現(xiàn)出對 TATA-box、poly (T) 等關(guān)鍵功能基元的高度敏感性,其內(nèi)部殘差強(qiáng)度的峰值與基因組功能邊界精準(zhǔn)對齊,實現(xiàn)了從「黑盒計算」向「具備生物學(xué)認(rèn)知足跡」的演進(jìn)。

解決長程依賴的新路徑:從局部最優(yōu)到全局洞察。實驗證明,Gengram 使得僅在 8K 長度上訓(xùn)練的模型,卻獲得了處理 32K 長序列的優(yōu)異能力。這為基因調(diào)控元件預(yù)測、表觀遺傳學(xué)分析、跨物種進(jìn)化分析以及復(fù)雜的多組學(xué)建模等復(fù)雜長序列問題,開辟了精細(xì)化局部感知驅(qū)動全局理解的新途徑。

Gengram 建立了一種將領(lǐng)域特有規(guī)律轉(zhuǎn)化為顯式架構(gòu)約束的創(chuàng)新范式,證明了通過精細(xì)化的局部結(jié)構(gòu)化感知可以有效彌補(bǔ)標(biāo)稱上下文長度的局限,實現(xiàn)低成本且高效的長程依賴建模。

低調(diào)的 Genos Team 是啥背景?

盡管論文署名低調(diào)地使用了「Genos Team」,但從開源代碼庫的 Zhejianglab 和 BGI-HangzhouAI 能夠推斷出這支團(tuán)隊的硬核背景:一家是坐落在杭州的專注于智能計算的新型研發(fā)機(jī)構(gòu)之江實驗室,另一家是杭州華大生命科學(xué)研究院。

兩個團(tuán)隊的融合,構(gòu)建起「AI + 生命科學(xué)」的交叉創(chuàng)新壁壘,這是純 CS 團(tuán)隊或純基因團(tuán)隊無法比擬的優(yōu)勢。

論文里的實驗,大多基于人類基因組基礎(chǔ)模型 Genos 實現(xiàn),從可公開獲取的信息來看,Genos 多數(shù)指標(biāo)都超越了目前的業(yè)界頂流 Evo-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
壓歲錢發(fā)到幾歲就不用發(fā)了?最好不要超過這個年齡,免得雙方尷尬

壓歲錢發(fā)到幾歲就不用發(fā)了?最好不要超過這個年齡,免得雙方尷尬

浩源的媽媽
2026-01-31 06:18:53
破案了!難怪袁巴元寧愿和張雨綺閃婚也不和已育一女的葛曉倩領(lǐng)證

破案了!難怪袁巴元寧愿和張雨綺閃婚也不和已育一女的葛曉倩領(lǐng)證

樂悠悠娛樂
2026-02-01 11:51:39
鴻蒙智行開年開門紅!1月交付57915臺 同比增長65.6%

鴻蒙智行開年開門紅!1月交付57915臺 同比增長65.6%

快科技
2026-02-01 07:54:04
俄媒預(yù)測美國襲擊伊朗“五種劇本”

俄媒預(yù)測美國襲擊伊朗“五種劇本”

參考消息
2026-01-30 14:27:09
加拿大怒了:美國慫恿能源大省鬧獨立

加拿大怒了:美國慫恿能源大省鬧獨立

上觀新聞
2026-01-30 14:49:05
法國嘉賓坦言,從沒見過中國這種工業(yè)強(qiáng)權(quán),我想高呼:毛主席萬歲

法國嘉賓坦言,從沒見過中國這種工業(yè)強(qiáng)權(quán),我想高呼:毛主席萬歲

江山此夜季
2026-01-31 23:51:53
軟蛋!申京贏球也該罵!杜蘭特殺死比賽!弗拉格34+12+5打爆火箭

軟蛋!申京贏球也該罵!杜蘭特殺死比賽!弗拉格34+12+5打爆火箭

Tracy的籃球博物館
2026-02-01 12:12:13
英國首相斯塔默上海行引熱議,身邊 “中文十級” 英國女星身份不簡單

英國首相斯塔默上海行引熱議,身邊 “中文十級” 英國女星身份不簡單

老吳教育課堂
2026-02-01 05:34:21
奔馳全新S級轎車配置公布:支持車位到車位輔助駕駛

奔馳全新S級轎車配置公布:支持車位到車位輔助駕駛

CNMO科技
2026-01-30 11:34:19
曝美聯(lián)儲主席提名人卷入愛潑斯坦案 目前白宮及沃什方面暫未置評

曝美聯(lián)儲主席提名人卷入愛潑斯坦案 目前白宮及沃什方面暫未置評

財聯(lián)社
2026-01-31 15:50:59
CBA常規(guī)賽過半!這5隊的表現(xiàn)讓人太失望,兩大爭冠熱門被打回原形

CBA常規(guī)賽過半!這5隊的表現(xiàn)讓人太失望,兩大爭冠熱門被打回原形

老葉評球
2026-02-01 12:01:31
愛潑斯坦檔案更新:安德魯王子新曝駭人照片,四肢著地趴于女子上方

愛潑斯坦檔案更新:安德魯王子新曝駭人照片,四肢著地趴于女子上方

小鹿姐姐情感說
2026-01-31 22:09:42
要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

桂系007
2025-11-05 23:52:21
女子嫁云南果商,吃車?yán)遄拥媒o錢,偷拉一車水果回娘家,婆婆炸了

女子嫁云南果商,吃車?yán)遄拥媒o錢,偷拉一車水果回娘家,婆婆炸了

離離言幾許
2026-01-30 21:33:54
起風(fēng)了,軍權(quán)剛到手,委代總統(tǒng)就收命令,立即驅(qū)逐中方外交官?

起風(fēng)了,軍權(quán)剛到手,委代總統(tǒng)就收命令,立即驅(qū)逐中方外交官?

吳欣純Deborah
2026-01-31 18:15:06
中國頂尖核武專家叛逃美國!內(nèi)幕揭開:“叛徒”竟被世人盛贊?

中國頂尖核武專家叛逃美國!內(nèi)幕揭開:“叛徒”竟被世人盛贊?

華人星光
2026-01-31 12:46:01
4-0,23歲國際米蘭舊將精確制導(dǎo),率隊完勝維羅納,豪取意甲3連勝

4-0,23歲國際米蘭舊將精確制導(dǎo),率隊完勝維羅納,豪取意甲3連勝

凌空倒鉤
2026-02-01 05:41:44
不得不說,華爾街這幫人真壞透了,全世界都被他們演了一出大戲!

不得不說,華爾街這幫人真壞透了,全世界都被他們演了一出大戲!

南權(quán)先生
2026-01-31 15:43:15
別買這種“加絨褲”!央視曝光,真的有毒,穿得越久,危害越大

別買這種“加絨褲”!央視曝光,真的有毒,穿得越久,危害越大

離離言幾許
2026-01-30 20:54:49
2026-02-01 13:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12226文章數(shù) 142560關(guān)注度
往期回顧 全部

科技要聞

騰訊元寶宣布:10億現(xiàn)金紅包,今日開搶

頭條要聞

金價大跳水后 男子斥資20多萬元抄底買入200克

頭條要聞

金價大跳水后 男子斥資20多萬元抄底買入200克

體育要聞

鎖喉吃紅牌+扇耳光 英超15人打群架

娛樂要聞

馬年春晚第三次聯(lián)排,多位明星現(xiàn)身

財經(jīng)要聞

黃仁勛臺北"夜宴":匯聚近40位臺企高管

汽車要聞

新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動加持

態(tài)度原創(chuàng)

健康
數(shù)碼
家居
公開課
軍事航空

耳石癥分類型,癥狀大不同

數(shù)碼要聞

博西家電重構(gòu)新年俗,讓團(tuán)圓不再被家務(wù)“捆綁”

家居要聞

藍(lán)調(diào)空舍 自由與個性

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗民眾:伊朗不會屈服于美國霸權(quán)

無障礙瀏覽 進(jìn)入關(guān)懷版