一位獨立研究者發(fā)現(xiàn)人工智能架構(gòu)的演化規(guī)律與生物進化驚人相似

2026-04-28 17:25:54　來源: 科技行者

天津舉報

分享至

這項由獨立研究者完成的研究以預(yù)印本形式發(fā)布于2026年4月，論文編號為arXiv:2604.10571，有興趣深入了解的讀者可以通過該編號查詢完整論文。

如果有人告訴你，硅基的人工智能架構(gòu)和碳基的生物基因組，這兩種看起來風(fēng)馬牛不相及的東西，居然遵循著同一套進化法則——你會不會覺得這是在開玩笑？一個是工程師在鍵盤上敲出來的代碼結(jié)構(gòu)，一個是億萬年自然選擇磨礪出來的生命藍圖，它們有什么共同點可言？

然而，這項研究給出了一個嚴肅的答案：有，而且不只是隱約相似，而是在統(tǒng)計數(shù)字上高度吻合。

這位獨立研究者做的事情，可以用一個比喻來理解。假設(shè)你是一名考古學(xué)家，手里有兩堆來自截然不同文明的陶器碎片——一堆來自古埃及，一堆來自古代中國——你想知道這兩批陶器是否遵循相同的制作規(guī)律。于是你把它們打碎，測量每一塊碎片的厚度、重量和形狀，然后比較這些測量數(shù)據(jù)的分布規(guī)律。研究者做的正是類似的事情，只不過他"打碎"的是神經(jīng)網(wǎng)絡(luò)架構(gòu)，"測量"的是每一次小改動對性能的影響，然后把這些數(shù)據(jù)和生物學(xué)家測量基因突變影響的數(shù)據(jù)放在一起比較。

為了完成這項比較，研究者從161篇機器學(xué)習(xí)論文中收集了935個"消融實驗"的數(shù)據(jù)。所謂消融實驗，就是工程師在驗證一個神經(jīng)網(wǎng)絡(luò)架構(gòu)時，專門把其中某個組件拆掉，看看性能會怎么變化——這和生物學(xué)家做的"基因敲除實驗"幾乎是同一件事：把某個基因關(guān)掉，看看生物體的健康狀況如何改變。收集完這些數(shù)據(jù)之后，他把結(jié)果和來自九種生物體的基因突變數(shù)據(jù)進行了系統(tǒng)比較，這九種生物體橫跨了從RNA病毒到人類的四個數(shù)量級的基因組復(fù)雜度。

接下來發(fā)生的事情，就是這篇論文最令人著迷的部分。

一、被改動的零件，大多數(shù)都是壞消息

先來理解一個核心概念，叫做"適應(yīng)度效應(yīng)分布"，生物學(xué)家用英文縮寫DFE來表示它。這個概念本質(zhì)上很簡單：當(dāng)你對一個系統(tǒng)做一次隨機改動，這次改動是好是壞、好到什么程度、壞到什么程度，把所有這些結(jié)果的分布畫成一張圖，就得到了DFE。

生物學(xué)家發(fā)現(xiàn)，對于任何生物體，這張圖的形狀都非常相似：大多數(shù)突變是有害的，少數(shù)突變幾乎沒有影響，極少數(shù)突變是有益的。更具體地說，這張圖有一個"厚尾巴"——極端情況（極度有害或極度有益）出現(xiàn)的頻率，比正常的鐘形曲線預(yù)測的要高得多。這個形狀可以用一種叫做"Student's t分布"的數(shù)學(xué)函數(shù)來精確描述。

研究者對那935個神經(jīng)網(wǎng)絡(luò)改動數(shù)據(jù)做了同樣的測量。結(jié)果是：AI架構(gòu)的DFE，形狀和生物的DFE高度吻合——同樣的厚尾巴，同樣的偏斜，同樣用Student's t分布能夠完美描述。

具體數(shù)字方面，在568個"主要消融"實驗（即完整拆除某個組件的實驗，類似于完全敲除一個基因）中，68%的改動是有害的，19%的改動幾乎沒有影響，只有13%的改動是有益的。換句話說，當(dāng)工程師把神經(jīng)網(wǎng)絡(luò)的某個核心模塊整個拿掉，十次里有將近七次會讓性能變差，只有一兩次會帶來驚喜。

把這個比例放到生物世界里對比，就會發(fā)現(xiàn)一個有趣的位置關(guān)系。AI架構(gòu)的"有害改動比例"（68%），比病毒（約72%）稍低，比簡單的真核生物如酵母（約60%）和果蠅（約52%）稍高。換句話說，AI架構(gòu)在進化的坐標系里，大致坐落在"緊湊基因組病毒"和"簡單真核生物"之間的位置。

用形狀相似度來衡量的話，AI架構(gòu)的DFE與果蠅（KS距離0.07）和酵母菌（KS距離0.09）最為接近。這里的KS距離可以理解為兩條曲線之間的"差異程度"，數(shù)值越小說明越相似，0.07和0.09都是非常小的數(shù)字，意味著這兩條來自截然不同世界的曲線，幾乎像是同一個模具刻出來的。

不過，研究者在這里做了一個重要的方法論說明，體現(xiàn)了值得稱道的學(xué)術(shù)誠實。大多數(shù)生物體的DFE數(shù)據(jù)，并非逐條記錄每一次突變的效果，而是通過統(tǒng)計模型推算出來的匯總參數(shù)。因此，AI數(shù)據(jù)和生物數(shù)據(jù)之間的比較，嚴格來說是在拿一份真實的原始數(shù)據(jù)，和一批根據(jù)已發(fā)表參數(shù)重新生成的"模擬數(shù)據(jù)"做對比。這個不對稱性確實存在，研究者明確標注了這一點，并表示主要結(jié)論依賴的是不受這個問題影響的參數(shù)比較（如各類別的比例和分布形狀參數(shù)），而不是樣本級別的細節(jié)比較。

二、"定向搜索"和"隨機搜索"，差在哪里

在所有的發(fā)現(xiàn)里，最能說明問題的，是那個"13%的有益改動"。

在生物世界里，有益突變的比例通常只有1%到6%。為什么這么低？因為自然界里的突變是隨機的。一個已經(jīng)被自然選擇打磨了億萬年的生物體，就像一個已經(jīng)調(diào)好參數(shù)的精密機器，隨機亂動一個零件，幾乎不可能恰好改進性能。

但AI工程師不是隨機亂動，他們是有目的地做改動——他們測試的改動，都是他們認為"也許有用"的改動。這就像是一個技術(shù)嫻熟的工匠，在調(diào)整一件樂器時，不是隨機撥弄零件，而是根據(jù)音色判斷哪里可能還有提升空間。正因如此，AI實驗里有益改動的比例（13%）顯著高于生物界的隨機突變。

但關(guān)鍵在于：雖然有益改動的比例更高了，但整體分布的形狀沒有變。分布依然是那個厚尾巴、負偏斜的樣子，依然可以用同一個數(shù)學(xué)函數(shù)描述。這意味著什么？它意味著AI架構(gòu)進化的整體地形，和生物進化的地形是一樣的——工程師只是在這塊地形上走得更快、更準，但地形本身的形狀（哪些方向是懸崖，哪些方向是緩坡，哪些方向通往山頂）并沒有改變。這就是研究者提出的核心論點：進化的統(tǒng)計規(guī)律，是由適應(yīng)度景觀的形狀決定的，而不是由搜索機制（隨機突變還是有目的設(shè)計）決定的。

研究還發(fā)現(xiàn)，不同類型的改動呈現(xiàn)出和生物學(xué)高度吻合的分層結(jié)構(gòu)。完全拆除一個組件（主要消融，類似于完全刪除一個基因）的有害比例最高，達到68%；只調(diào)整超參數(shù)（次要消融，類似于基因表達量的輕微變化）的有害比例則降低到51%，中性比例上升到32%；介于兩者之間的改動（用更簡單的替代品替換一個組件）有害比例為72%。這個"改動幅度越大，越容易出問題"的規(guī)律，在生物學(xué)里早已被充分記錄，如今在AI架構(gòu)里得到了同樣的體現(xiàn)。

還有一個關(guān)于數(shù)據(jù)來源的有趣發(fā)現(xiàn)。研究者對比了手動整理的數(shù)據(jù)（140條）和用AI工具自動提取的數(shù)據(jù)（795條），發(fā)現(xiàn)兩者之間存在顯著差異。差異的根源很具體：手動整理時，研究者主要記錄了"拆掉組件"的實驗，結(jié)果有益改動的比例為0%；而自動提取工具掃描了更廣泛的實驗類型，包括了那些測試"替換成更好的組件"的實驗，結(jié)果有益改動的比例上升到15.3%。這說明手動整理反而帶來了一種系統(tǒng)性偏差——漏掉了積極的發(fā)現(xiàn)。這個結(jié)論有點出乎意料：在這個案例里，AI工具提取的數(shù)據(jù)，比人工整理的數(shù)據(jù)更全面。

三、AI架構(gòu)的進化歷史，像極了寒武紀大爆發(fā)

研究者不只看了AI架構(gòu)的"基因突變分布"，還研究了它的宏觀進化歷史——從2012年到2024年，AI架構(gòu)的種類是如何隨時間涌現(xiàn)和消亡的。

他整理了125個有名字的AI架構(gòu)，記錄了每一個的誕生年份、"祖先架構(gòu)"和應(yīng)用領(lǐng)域。然后把這些數(shù)據(jù)和古生物學(xué)數(shù)據(jù)庫里的化石記錄做對比——對比對象包括寒武紀的三葉蟲（從5.4億年前到4.8億年前），以及恐龍滅絕之后哺乳動物的大輻射（從8000萬年前到4000萬年前）。

把AI架構(gòu)數(shù)量隨時間變化的曲線畫出來，會發(fā)現(xiàn)它非常完美地符合一個叫做"邏輯斯諦增長"的數(shù)學(xué)模型，擬合優(yōu)度R?高達0.994。這個模型的含義可以用一個生活化的類比來理解：一個新開業(yè)的咖啡館，剛開始客人很少，然后口碑發(fā)酵，客流急速增長，最終因為店里座位數(shù)量有限，客流穩(wěn)定在一個天花板附近。AI架構(gòu)的多樣性也是這樣——從2012年AlexNet問世開始快速增長，目前已經(jīng)接近飽和，估算的"容量上限"大約是142種主要架構(gòu)，目前已經(jīng)到達了其中的約88%。

更有趣的是，這條增長曲線不是平滑的，而是跌宕起伏的。在2017年（Transformer架構(gòu)橫空出世）和2021年（CLIP和擴散模型涌現(xiàn)）出現(xiàn)了兩個明顯的爆發(fā)期，前后各有十幾個新架構(gòu)密集出現(xiàn)。這兩個峰值之間，有一段相對平靜的時期。這種"爆發(fā)—平靜—再爆發(fā)"的節(jié)奏，和古生物學(xué)里著名的"間斷平衡"理論高度吻合——生物進化不是勻速的漂移，而是長期穩(wěn)定、偶爾劇變。

從"生態(tài)位填充"的角度看，這個過程也和生物進化驚人相似。計算機視覺（CV）領(lǐng)域是最先被開拓的"生態(tài)位"（2012年到2016年），然后是自然語言處理（2017年之后），再然后是音頻和多模態(tài)領(lǐng)域（2021年之后）。這個"先占廣泛生態(tài)位，再深入細分領(lǐng)域"的順序，和生態(tài)學(xué)里大滅絕之后的物種復(fù)蘇規(guī)律完全一致：泛化型物種先繁榮，特化型物種隨后填充剩余空間。

RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）的衰落和Transformer的崛起，則被類比為一次"質(zhì)量滅絕"事件。RNN的最后一個新變體大約出現(xiàn)在2015年，然后沉寂，兩年后Transformer大爆發(fā)——這個"衰落先于繼任者崛起約兩年"的時間差，和古生物學(xué)里大滅絕之后物種恢復(fù)所需的滯后時間規(guī)律相符。GAN（生成對抗網(wǎng)絡(luò)）的衰落與擴散模型的崛起，也呈現(xiàn)出同樣的節(jié)奏。

把AI架構(gòu)的輻射曲線、三葉蟲的輻射曲線、哺乳動物的輻射曲線標準化后疊放在一起，會看到三條來自不同時代、不同基底的曲線，呈現(xiàn)出幾乎相同的"加速上升、達到峰值、然后下降"的弧形。

四、相同的問題，獨立發(fā)現(xiàn)了相同的答案

研究者還專門統(tǒng)計了AI領(lǐng)域里的"趨同進化"現(xiàn)象。趨同進化是生物學(xué)里一個著名的現(xiàn)象：比如鳥類的翅膀、蝙蝠的翅膀、昆蟲的翅膀，這三種"翅膀"是由完全不同的祖先、通過完全不同的進化路徑獨立演化出來的，但它們都是為了解決"如何在空氣中飛行"這個共同問題。

在AI架構(gòu)里，類似的事情也發(fā)生了。研究者找出了14個被不同團隊、在不同應(yīng)用領(lǐng)域里獨立發(fā)明了至少三次的架構(gòu)特性。注意力機制（就是Transformer里那個讓模型學(xué)會"關(guān)注什么"的核心組件）被獨立發(fā)明了5次，分別出現(xiàn)在自然語言處理、計算機視覺、視頻處理和多模態(tài)領(lǐng)域。特征歸一化（讓模型內(nèi)部的數(shù)據(jù)保持穩(wěn)定分布的技術(shù)）同樣被獨立發(fā)明了5次，門控機制（控制信息是否通過的結(jié)構(gòu)）5次，位置編碼（讓模型理解序列順序的技術(shù)）5次，對比自監(jiān)督學(xué)習(xí)（一種不依賴標注數(shù)據(jù)進行訓(xùn)練的范式）也是5次。

這些發(fā)現(xiàn)與生物趨同進化有一個有趣的功能類比：注意力機制在功能上類似于動物的眼睛，都是"選擇性收集信息"的工具，眼睛在生物界被獨立進化了約7次；特征歸一化類似于生物體的體內(nèi)穩(wěn)態(tài)調(diào)節(jié)機制，獨立進化了約3次；門控機制類似于細胞膜上的離子通道，獨立進化了約4次。雖然AI的獨立發(fā)明次數(shù)（3到5次）少于某些生物特性的獨立進化次數(shù)（可以多到上百次），但考慮到AI領(lǐng)域只有大約20個主要研究團隊，而生物世界有數(shù)百萬個獨立的物種譜系，把這個數(shù)字按照"獨立譜系數(shù)量"歸一化之后，AI趨同進化的密度大約是生物界的5萬倍——定向搜索大大加速了趨同發(fā)現(xiàn)的速度。

研究者坦誠地指出了這個分析的一個局限性：生物界的不同物種譜系真的是互相隔離的，而AI研究者會讀彼此的論文、參加同一個學(xué)術(shù)會議、閱讀同一個預(yù)印本平臺。這意味著AI里的"獨立發(fā)明"，可能受到了潛移默化的知識傳播影響，獨立性不如生物界那么純粹。因此，這14個"趨同進化"案例的獨立發(fā)明次數(shù)，應(yīng)該被理解為"上限估計"而非嚴格的獨立性證明。即便如此，在嚴格要求"不同應(yīng)用領(lǐng)域、無共同作者"的前提下，注意力機制有4個獨立起源，歸一化有4個，門控機制有4個，這些數(shù)字依然是實質(zhì)性的。

五、越成熟的系統(tǒng)，越脆弱

研究者還追蹤了幾個具體的架構(gòu)譜系隨著"世代推進"發(fā)生的變化，包括CNN家族、Transformer NLP家族和視覺Transformer家族。

在Transformer NLP譜系里，隨著從2017年的原始Transformer，到2019年的BERT，再到2020年的T5，再到2022年的Switch Transformer，DFE的分布越來越"集中"，有害改動的比例越來越高。換句話說，越是成熟的架構(gòu)，越容不下隨意的改動——因為每個組件都已經(jīng)被高度優(yōu)化，拆掉任何一個都會造成明顯損失。

這個規(guī)律在生物世界里也是一樣：RNA病毒（基因組高度緊湊、每個基因都被充分利用）的有害突變比例高達約70%，而人類（基因組里有大量"非功能序列"、改動空間更大）的有害突變比例只有約55%。把AI架構(gòu)的各個世代和這些生物體放在同一張圖上，會看到它們點綴在同一條趨勢線上——隨著系統(tǒng)優(yōu)化程度提高，有害改動的比例單調(diào)上升。這是一條跨越碳基和硅基的普適規(guī)律。

Mamba架構(gòu)（一種近年來被認為很有潛力的新型序列模型，是一個相對年輕的架構(gòu)譜系）提供了一個有些微妙的測試案例?？傮w來看，Mamba的中性改動比例（0.16）低于數(shù)據(jù)集平均水平（0.19），似乎說明它"已經(jīng)很成熟"。但細分來看，Mamba的主要消融實驗（拆除核心組件）100%都是有害的——說明其核心結(jié)構(gòu)極為緊湊，不能隨意刪減；而次要消融實驗（調(diào)整超參數(shù)）的中性比例高達0.60，遠高于平均水平的0.32，說明其參數(shù)空間還有大量未被探索的余地。這個"核心高度約束、外圍高度靈活"的組合，正是一個年輕架構(gòu)該有的樣子：核心設(shè)計已經(jīng)非常精煉，但還沒有被充分調(diào)參。研究者據(jù)此判斷，這與"年輕譜系應(yīng)保留更多中性空間"的預(yù)測部分吻合，但需要更多數(shù)據(jù)來做最終驗證。

六、這不只是巧合，而是更深層規(guī)律的體現(xiàn)

既然模式如此吻合，一個自然的問題是：這究竟說明什么？研究者提出了兩種可能的解釋，并對它們做了區(qū)分。

第一種解釋是"模塊化系統(tǒng)的普遍性質(zhì)"：任何復(fù)雜的模塊化系統(tǒng)，不論是神經(jīng)網(wǎng)絡(luò)、飛機、還是軟件代碼，只要你去系統(tǒng)地測試"拆掉各個模塊會怎樣"，得到的分布都應(yīng)該是負偏斜、厚尾巴的，這只是復(fù)雜系統(tǒng)的一般統(tǒng)計屬性，和進化沒有特別關(guān)系。研究者承認，軟件工程領(lǐng)域的"突變測試"研究確實發(fā)現(xiàn)軟件代碼也有類似的分布形態(tài)，這為這種解釋提供了部分支持。

第二種解釋是"適應(yīng)度景觀的拓撲結(jié)構(gòu)決定論"：生物和AI架構(gòu)之所以展現(xiàn)相同的統(tǒng)計模式，是因為它們面臨的功能挑戰(zhàn)有著相似的數(shù)學(xué)結(jié)構(gòu)——"解決復(fù)雜信息處理問題"的可行解空間，有著固有的幾何形狀，這個形狀體現(xiàn)為特定形式的DFE、特定節(jié)奏的多樣性增長、特定程度的趨同發(fā)現(xiàn)，無論搜索者是隨機突變還是有意設(shè)計的工程師。

研究者認為，僅憑DFE形狀一條證據(jù)，無法區(qū)分這兩種解釋。但當(dāng)DFE形狀、多樣性增長動態(tài)、趨同進化頻率這三條證據(jù)同時成立，并且三者的參數(shù)都落在生物學(xué)的范圍之內(nèi)時，"只是模塊化系統(tǒng)的巧合"這個解釋就變得不夠有說服力。三條獨立預(yù)測同時被驗證，更指向"這些系統(tǒng)共享同一種景觀幾何結(jié)構(gòu)"的更深層解釋。

研究者還提出了一個關(guān)于熱力學(xué)的聯(lián)系，盡管這部分更偏向理論推測。他指出，有一些物理學(xué)家發(fā)展了一種把進化視為"在結(jié)構(gòu)化能量景觀上優(yōu)化耗散"的理論框架，根據(jù)這個框架，任何處理信息的系統(tǒng)——無論是生物細胞還是神經(jīng)網(wǎng)絡(luò)——都必須在"性能最大化"（低能量）和"魯棒性最大化"（高熵）之間取得平衡，這個權(quán)衡會在數(shù)學(xué)上產(chǎn)生厚尾DFE、邏輯斯諦增長和趨同進化。如果這個方向的理論是正確的，那么我們觀察到的統(tǒng)計普適性，最終可能是熱力學(xué)的必然結(jié)果。

研究者還在討論部分提到了一個延伸視角，關(guān)于人類和AI之間的"協(xié)同進化"。他在另一項配套研究中發(fā)現(xiàn)，GPT-4o、Claude和Gemini三個大語言模型在預(yù)測問題時，錯誤之間的相關(guān)性高達0.77——這意味著這些名義上獨立的AI系統(tǒng)，實際上共享著大量相同的盲點，很可能源自它們都從人類生成的文本中學(xué)習(xí)了相同的認知偏見。在這個意義上，人類既是AI架構(gòu)的"選擇環(huán)境"（決定哪些架構(gòu)存活和傳播），也是AI的"遺傳物質(zhì)來源"（通過訓(xùn)練數(shù)據(jù)把人類偏見傳遞給AI）。隨著AI工具越來越多地參與AI研究本身，這個反饋回路可能越來越緊密，出現(xiàn)某種類似于"紅皇后效應(yīng)"的動態(tài)——人類設(shè)計AI，AI改變了人類研究方式，進而影響下一代AI的設(shè)計。研究者預(yù)測，隨著這種共同進化循環(huán)加速，AI實驗中有益改動的比例可能會繼續(xù)上升（因為AI輔助的研究會更精準地命中有益修改），目前的13%只是起點。

這項研究提出了四個具體可測試的預(yù)測。首先，AI架構(gòu)多樣性的年增長數(shù)量將持續(xù)下降，未來若再出現(xiàn)爆發(fā)，規(guī)模應(yīng)小于2017年和2021年的兩次高峰。其次，隨著AI擴展進入機器人、生物AI和材料科學(xué)等新領(lǐng)域，注意力機制和歸一化技術(shù)將在這些新領(lǐng)域被再度獨立發(fā)明。第三，無論未來哪種架構(gòu)占據(jù)主流，描述DFE形狀的參數(shù)β將始終保持在0.4到0.7之間。第四，隨著AI輔助研究工具的普及，AI實驗中有益改動的比例將隨時間升高。

說到底，這項研究做的事情是把兩個看似毫不相關(guān)的領(lǐng)域——分子進化生物學(xué)和機器學(xué)習(xí)工程——用同一把統(tǒng)計尺子量了一遍，然后發(fā)現(xiàn)兩邊的數(shù)字驚人地吻合。這不代表AI"有生命"，也不代表工程師等同于自然選擇，而是說，在"復(fù)雜信息處理系統(tǒng)"這個更宏觀的類別下，可能存在某些超越具體基底的普遍規(guī)律，就像無論用什么材料造的橋，最終都要服從同樣的力學(xué)定律。

這對普通人意味著什么？如果這個發(fā)現(xiàn)是可靠的，那么幾十年積累的進化生物學(xué)知識——關(guān)于什么樣的改動是安全的，什么樣的改動是危險的，進化在什么情況下會"卡住"——可能直接被用來指導(dǎo)AI架構(gòu)設(shè)計，幫助工程師更好地預(yù)判哪些改動值得嘗試、哪些幾乎注定失敗。反過來，AI架構(gòu)進化因為保存了完整的"化石記錄"（所有論文、代碼和實驗數(shù)據(jù)都可以被追溯），也可以成為一個測試進化理論的精確實驗室，彌補古生物學(xué)記錄不完整、實驗無法重復(fù)的天然缺陷。

這項研究本身也有一些未解決的局限性值得記在心里。935個實驗樣本雖然是目前最大的同類數(shù)據(jù)集，但能否代表整個AI架構(gòu)進化的全貌仍有疑問。論文編號arXiv:2604.10571中包含了補充材料，其中有更詳細的方法描述和額外的魯棒性檢驗，對方法細節(jié)感興趣的讀者可以在那里找到更全面的信息。

Q&A

Q1：AI架構(gòu)消融實驗和生物基因突變實驗有什么本質(zhì)區(qū)別？

A：消融實驗是工程師主動拆除神經(jīng)網(wǎng)絡(luò)某個組件來觀察性能變化，而生物基因突變實驗是隨機或人工修改某個基因后觀察生物體的健康變化。兩者最大的區(qū)別在于"意圖"：工程師測試的是他們認為可能有價值的改動，而自然界的突變是隨機發(fā)生的。這也正是AI實驗里有益改動比例（13%）遠高于生物突變（1%~6%）的原因。但兩者的改動效果分布在形狀上高度相似，說明底層的適應(yīng)度景觀具有共同結(jié)構(gòu)。

Q2：AI架構(gòu)進化的"飽和"意味著以后不會再有新架構(gòu)出現(xiàn)了嗎？

A：不是這個意思。模型預(yù)測的是在現(xiàn)有任務(wù)類型和評價框架下，主要架構(gòu)種類的多樣性趨近于一個上限（約142種）。就像生物界的物種數(shù)量在某一時期趨于穩(wěn)定，但這不妨礙新物種出現(xiàn)，也不妨礙某些"大滅絕"事件（比如一個顛覆性新范式）清空空間再引發(fā)新一輪爆發(fā)。研究者預(yù)測未來若出現(xiàn)新爆發(fā)，規(guī)模應(yīng)小于2017年和2021年的兩次高峰，但新范式的出現(xiàn)本身是無法被排除的。

Q3：這項研究如何定義AI架構(gòu)中的"中性改動"？

A：研究者將"中性改動"定義為性能變化幅度非常小、落在統(tǒng)計噪聲范圍之內(nèi)的改動，與生物學(xué)里"對適應(yīng)度幾乎沒有影響"的中性突變概念類比。在數(shù)據(jù)處理中，具體閾值的設(shè)定參考了生物DFE研究中的慣例，將相對性能變化絕對值低于某一閾值的改動歸入中性類別。這個類別在次要消融（如超參數(shù)調(diào)整）中比例更高，達到32%，而主要消融（核心組件拆除）中只有19%，這與生物學(xué)里小改動比大改動更容易是中性的規(guī)律完全一致。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.