国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Nature子刊:大模型進(jìn)入“密度時(shí)代”

0
分享至


導(dǎo)語

大語言模型已成為人工智能發(fā)展的重要里程碑。既有的規(guī)模法則表明,隨著模型規(guī)模的擴(kuò)大,LLM的性能會(huì)持續(xù)提升,但這也對(duì)訓(xùn)練與部署帶來顯著挑戰(zhàn)。盡管業(yè)界不斷嘗試提升模型效率,卻仍缺乏關(guān)于不同規(guī)模LLM的效率發(fā)展趨勢(shì)與評(píng)價(jià)體系的統(tǒng)一共識(shí)。為解決性能與效率之間的張力,本文提出“能力密度”這一概念,用以衡量模型在單位參數(shù)上所體現(xiàn)的有效能力,從而在性能與效率兩個(gè)維度上提供統(tǒng)一的評(píng)價(jià)框架。我們進(jìn)一步給出一項(xiàng)經(jīng)驗(yàn)性發(fā)現(xiàn),即“密度定律”:LLM的能力密度隨時(shí)間呈指數(shù)增長(zhǎng)。基于多個(gè)主流基準(zhǔn)的評(píng)估結(jié)果顯示,開源LLM的最大能力密度大約每3.5個(gè)月翻倍。這意味著,實(shí)現(xiàn)同等性能所需的參數(shù)規(guī)模與推理成本均在指數(shù)下降,為高效LLM的開發(fā)策略提供了新的啟示。

關(guān)鍵詞:大語言模型(LLMs)、規(guī)模法則(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率評(píng)估(Efficiency Evaluation)

鄭鴻盛丨作者

趙思怡丨審校


論文題目:Densing law of LLMs 論文鏈接:https://www.nature.com/articles/s42256-025-01137-0 發(fā)表時(shí)間:2025年11月6日 論文來源:Nature Machine Intelligence

能力密度的指數(shù)躍遷,

正在悄悄改變 AI 的未來

近兩年,大模型的突飛猛進(jìn)讓人切身感受到“技術(shù)狂飆”,然而一個(gè)更耐人尋味的現(xiàn)象也隨之浮現(xiàn):模型能力不斷提高,推理成本卻在飛速下降;小模型越來越頻繁地逼近甚至超越大模型;而“繼續(xù)堆參數(shù)”似乎不再是性能提升的唯一途徑。2025年11月6日發(fā)表于Nature Machine Intelligence 的論文《Densing Law of LLMs》給出了一種顛覆性的解釋——大模型正在從拼“規(guī)?!鞭D(zhuǎn)向拼“密度”。研究發(fā)現(xiàn),LLM的“能力密度”(capability density)正以指數(shù)速度增長(zhǎng),約每3.5個(gè)月翻一倍,這意味著達(dá)到同等性能所需的參數(shù)量大幅減少,推理成本呈指數(shù)級(jí)下降,端側(cè)智能(在手機(jī)、PC等本地設(shè)備運(yùn)行大模型)將比預(yù)期更早成熟。這不是簡(jiǎn)單的性能提升,而是一場(chǎng)關(guān)于效率的革命。讓我們從這篇可能深刻影響未來五年的論文開始,重新理解大模型的進(jìn)化方向。

過去衡量模型能力,業(yè)界普遍遵循“參數(shù)越大,性能越強(qiáng)”的直覺,但隨著大量開源模型的涌現(xiàn),這一直覺邏輯開始失靈,出現(xiàn)7B模型逼近甚至匹敵70B模型,4B模型在部分任務(wù)上超過13B模型,手機(jī)端模型也逐漸具備ChatGPT3.5的水平,而訓(xùn)練數(shù)據(jù)質(zhì)量與訓(xùn)練策略的重要性日益凸顯。這些現(xiàn)象共同指向一個(gè)事實(shí)——參數(shù)量已無法充分解釋模型能力的差異,規(guī)模不再等同于質(zhì)量。因此,真正需要關(guān)注的已不再是“模型有多大”,而是“模型的效率有多高”。

什么是“能力密度”?簡(jiǎn)單來說,它衡量的是模型“每個(gè)參數(shù)的含金量”。其定義為:能力密度 = 模型的有效能力 ÷ 實(shí)際參數(shù)量。這里的“有效能力”并非模型自身的參數(shù)規(guī)模,而是一個(gè)反推值:如果某模型達(dá)到特定性能,那么一套參考模型需要多少參數(shù)才能取得相同表現(xiàn),這個(gè)等效參數(shù)量記為 N?(此處的參考模型為研究者自建的一系列不同參數(shù)規(guī)模、結(jié)構(gòu)一致、訓(xùn)練流程一致的小參數(shù)規(guī)模模型)。于是能力密度可寫為 ρ = N? / N,用來刻畫模型訓(xùn)練得是否“緊實(shí)”。例如,一個(gè)3B模型若達(dá)到參考模型6B的能力,則密度 ρ = 6 / 3 = 2,代表其單位參數(shù)效率極高;反之,若一個(gè)7B模型只能達(dá)到參考模型3B的水平,則 ρ < 1,說明其參數(shù)利用率偏低。本質(zhì)上,能力密度回答的就是那一句:模型的每個(gè)參數(shù)到底“值不值錢”?

密度定律:能力密度正以指數(shù)方式增長(zhǎng)

本研究中最重要的發(fā)現(xiàn)之一,是大模型的能力密度隨時(shí)間呈現(xiàn)穩(wěn)定的指數(shù)增長(zhǎng)趨勢(shì)。研究者選取五十余個(gè)近年來發(fā)布的開源基礎(chǔ)模型,覆蓋多個(gè)系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多個(gè)主流基準(zhǔn)(MMLU、BBH、MATH、HumanEval、MBPP)上進(jìn)行統(tǒng)一評(píng)估。結(jié)果顯示,模型的最大能力密度大約每 3.5 個(gè)月翻一倍,這一趨勢(shì)在不同任務(wù)和不同模型之間都十分一致。


圖 1|近年來開源大模型的能力密度趨勢(shì)。每個(gè)點(diǎn)代表一個(gè)模型,圓點(diǎn)越大參數(shù)量越大。從圖中可以看到,隨著時(shí)間推移,能力密度的上界呈現(xiàn)清晰的指數(shù)增長(zhǎng)。

這一指數(shù)增長(zhǎng)趨勢(shì)意味著:未來達(dá)到相同性能所需的參數(shù)量將持續(xù)減少。換言之,人們慣常認(rèn)為的“大模型能力強(qiáng)、但成本高”的認(rèn)知,將在未來不斷被弱化。更令人興奮的是,這種指數(shù)增長(zhǎng)在新模型中體現(xiàn)得更為突出,特別是數(shù)據(jù)質(zhì)量、訓(xùn)練策略更為精細(xì)的小模型,往往展現(xiàn)出遠(yuǎn)超其規(guī)模的能力密度。

能力密度提升的一個(gè)自然結(jié)果,是實(shí)現(xiàn)相同性能所需的實(shí)際參數(shù)量不斷減少。與此同時(shí),推理成本也正在以類似的指數(shù)速度下降。文章對(duì)多個(gè)高性能模型的API調(diào)用價(jià)格進(jìn)行了整理,并展示了一個(gè)同樣令人驚訝的趨勢(shì):模型的推理價(jià)格大約每2.6個(gè)月減半。2022 年 GPT-3.5 的價(jià)格約為每百萬token需要20美元,而到了 2024 年,Gemini Flash的推理價(jià)格僅為0.075美元,相當(dāng)于下降了超過260倍。


圖 2|近年來幾個(gè)主流語言模型的推理價(jià)格變化。性能優(yōu)于 GPT-3.5 的大語言模型(LLMs)的應(yīng)用程序接口(API)定價(jià)。線條連接各時(shí)間點(diǎn)定價(jià)最低的模型,最便宜模型的API定價(jià)呈指數(shù)下降。

推理成本的下降不僅來自模型能力密度的提升,也來自底層推理技術(shù)的優(yōu)化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架構(gòu)等。隨著模型本身越來越“緊實(shí)”,推理成本的下降幅度也將持續(xù)擴(kuò)大。

當(dāng)密度定律遇上 Moore 定律:

端側(cè)智能將提前爆發(fā)

當(dāng)能力密度的指數(shù)增長(zhǎng)與硬件性能的指數(shù)增長(zhǎng)疊加時(shí),一個(gè)更加激進(jìn)的趨勢(shì)會(huì)出現(xiàn)。過去數(shù)十年里,硬件晶體管密度大約每?jī)赡攴槐?;如今,大模型的能力密度?.5個(gè)月翻一倍。兩者的乘積效果意味著:在固定價(jià)格的硬件上,能夠運(yùn)行的“有效模型規(guī)?!奔s每88天翻一倍。

這預(yù)示著什么?預(yù)示著過去需要云端大模型才能實(shí)現(xiàn)的能力,未來將能在手機(jī)、電腦、平板等設(shè)備上高效運(yùn)行。端側(cè) AI 的普及速度可能遠(yuǎn)超過我們目前的想象,隱私計(jì)算、低成本部署、離線大模型應(yīng)用將因此迎來爆發(fā)式發(fā)展。


圖 3|大模型的高性能正向小規(guī)模模型遷移,同時(shí)端側(cè)可運(yùn)行模型的能力快速提升(圖片源于網(wǎng)絡(luò))。紅色虛線區(qū)域代表接近GPT-4V水平的模型帶寬,隨著時(shí)間推移,越來越小的模型逐漸逼近這一性能區(qū)間;下方藍(lán)色虛線趨勢(shì)線展示了能夠在端側(cè)設(shè)備運(yùn)行的模型能力不斷上升。

高密度模型不是“壓”出來的,而是“練”出來的

在參數(shù)規(guī)??焖俦恢匦略u(píng)估的背景下,一個(gè)看似合理的猜想是:既然參數(shù)越少越高效,那么剪枝、蒸餾、量化等模型壓縮技術(shù)應(yīng)該更容易得到高能力密度的小模型。但論文的實(shí)驗(yàn)結(jié)果卻指向相反方向——壓縮后的模型能力密度整體上并不比原模型高,甚至往往更低。其根本原因在于,壓縮過程雖然減少了模型的實(shí)際參數(shù)量,卻沒有讓模型獲得足夠的再訓(xùn)練,從而無法讓這些“更輕”的參數(shù)真正承擔(dān)起更高的能力負(fù)載。尤其是量化,雖然降低了內(nèi)存和推理成本,但不可避免地帶來一定的性能損失。因此,真正高密度的小模型,并不是“從大模型壓縮而來”,而是“從一開始就為高密度而訓(xùn)練”的結(jié)果。

能力密度之所以能夠持續(xù)提升,主要源于三方面的共同推動(dòng)。首先,訓(xùn)練數(shù)據(jù)的規(guī)模與質(zhì)量顯著提高。以Llama系列為例,Llama-3 所使用的15萬億token數(shù)據(jù)不僅規(guī)模遠(yuǎn)超Llama-1的1.4萬億token,且在清洗與篩選流程上更加精細(xì),這使模型能夠在同樣結(jié)構(gòu)下學(xué)習(xí)到更豐富、更可靠的知識(shí)。其次,模型結(jié)構(gòu)日益高效。以稀疏專家模型(MoE)為代表的新架構(gòu),使模型在推理時(shí)僅激活部分專家,從而以更低的計(jì)算量獲得更強(qiáng)的表達(dá)能力,大幅提高“參數(shù)的利用率”。最后,訓(xùn)練算法不斷演進(jìn)。無論是將強(qiáng)化學(xué)習(xí)前移到預(yù)訓(xùn)練階段,還是利用高質(zhì)量的合成數(shù)據(jù)和“弱到強(qiáng)”(weak-to-strong)訓(xùn)練策略,這些方法都讓模型能夠在固定參數(shù)量下挖掘出更高的能力上限。這些因素共同作用,使得模型在“單位參數(shù)上可以學(xué)習(xí)到更多能力”,從而推動(dòng)能力密度不斷攀升。

當(dāng)然,謹(jǐn)慎來說能力密度的增長(zhǎng)不可能無限持續(xù)。信息論告訴我們,每個(gè)參數(shù)能夠存儲(chǔ)的信息量是有限的,模型參數(shù)的表達(dá)能力也有理論上界。隨著模型的訓(xùn)練方式、數(shù)據(jù)質(zhì)量和結(jié)構(gòu)不斷提升,能力密度的增長(zhǎng)最終將遇到瓶頸。屆時(shí),如果要繼續(xù)突破當(dāng)前框架的限制,可能需要依賴全新的技術(shù)范式,例如量子計(jì)算、類腦計(jì)算或其他尚未成熟的計(jì)算架構(gòu)。盡管如此,在可預(yù)見的未來幾年中,能力密度仍會(huì)保持高速增長(zhǎng),模型變“密”的趨勢(shì)不會(huì)減弱。

密度定律不僅是一個(gè)科學(xué)觀察,更是一個(gè)具有產(chǎn)業(yè)指導(dǎo)意義的趨勢(shì)。對(duì)于模型研發(fā)而言,它提示我們,未來的競(jìng)爭(zhēng)不再是單純擴(kuò)大參數(shù)規(guī)模,而是追求“更高密度”的訓(xùn)練方法與更高質(zhì)量的數(shù)據(jù);對(duì)于企業(yè)而言,可以據(jù)此預(yù)測(cè)未來模型成本的下降趨勢(shì),從而更合理安排AI投入;對(duì)于硬件和應(yīng)用產(chǎn)業(yè),則意味著端側(cè)智能將迎來快速擴(kuò)張,本地運(yùn)行大模型將從技術(shù)挑戰(zhàn)變成新常態(tài)。

從“大”到“密”,AI 的進(jìn)化正在加速重寫

《Densing Law of LLMs》揭示的,是一種隱藏在大模型演化背后的“效率革命”。在這個(gè)新的發(fā)展階段,模型不再依賴“堆大”,而是通過更智能的訓(xùn)練、更優(yōu)的數(shù)據(jù)、更精細(xì)的結(jié)構(gòu)獲得更高的效率。能力密度的指數(shù)提升讓我們看到:未來的大模型既可能更強(qiáng),也可能更輕、更快、更便宜,甚至隨時(shí)運(yùn)行在每個(gè)人的口袋里。

我們正在見證語言模型從“規(guī)模時(shí)代”邁向“密度時(shí)代”,而這一轉(zhuǎn)變,或許將深刻改變未來五年乃至整個(gè)AI產(chǎn)業(yè)的面貌。

大模型2.0讀書會(huì)

o1模型代表大語言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會(huì)將關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑,幫助我們更好的理解機(jī)器推理和人工智能的本質(zhì)。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官方揭秘美軍三角洲突擊隊(duì)抓捕馬杜羅全過程:一場(chǎng)外科手術(shù)式的精準(zhǔn)行動(dòng)

官方揭秘美軍三角洲突擊隊(duì)抓捕馬杜羅全過程:一場(chǎng)外科手術(shù)式的精準(zhǔn)行動(dòng)

回旋鏢
2026-01-06 22:20:50
美國官員稱:主宰這個(gè)世界的是實(shí)力 武力與權(quán)力

美國官員稱:主宰這個(gè)世界的是實(shí)力 武力與權(quán)力

看看新聞Knews
2026-01-08 11:01:03
中國養(yǎng)老負(fù)擔(dān)將越來越重:從4.7個(gè)勞動(dòng)力養(yǎng)一個(gè)老人到1.9個(gè)勞動(dòng)力供養(yǎng)1個(gè)老人

中國養(yǎng)老負(fù)擔(dān)將越來越重:從4.7個(gè)勞動(dòng)力養(yǎng)一個(gè)老人到1.9個(gè)勞動(dòng)力供養(yǎng)1個(gè)老人

西虹市閑話
2026-01-08 13:51:18
女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

鋭娛之樂
2026-01-08 08:34:40
黃仁勛的“物理AI”,對(duì)中國制造來說真不是好消息

黃仁勛的“物理AI”,對(duì)中國制造來說真不是好消息

星海情報(bào)局
2026-01-07 18:34:49
有反轉(zhuǎn)?閆學(xué)晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

有反轉(zhuǎn)?閆學(xué)晶再迎接噩耗,恩師也被牽連,兒子首發(fā)聲為娘抱不平

奇思妙想草葉君
2026-01-08 01:03:26
昆山一外企電子大廠突發(fā)解散:300多名員工獲N+1補(bǔ)償金和購物卡

昆山一外企電子大廠突發(fā)解散:300多名員工獲N+1補(bǔ)償金和購物卡

六子吃涼粉
2026-01-08 12:34:04
針對(duì)中國的統(tǒng)一大業(yè),臺(tái)軍收到了秘密指示,賴清德已經(jīng)攤牌了

針對(duì)中國的統(tǒng)一大業(yè),臺(tái)軍收到了秘密指示,賴清德已經(jīng)攤牌了

博覽歷史
2026-01-07 14:56:25
一條新聞消失了

一條新聞消失了

深藍(lán)財(cái)經(jīng)
2026-01-07 14:22:05
AAAI 2026 新加坡在嗎?中國電信 TeleAI 邀你晚宴

AAAI 2026 新加坡在嗎?中國電信 TeleAI 邀你晚宴

機(jī)器之心Pro
2026-01-07 16:48:19
阿里:加大投入淘寶閃購以達(dá)到市場(chǎng)絕對(duì)第一

阿里:加大投入淘寶閃購以達(dá)到市場(chǎng)絕對(duì)第一

第一財(cái)經(jīng)資訊
2026-01-08 13:44:51
中到大雪局部暴雪!山東迎強(qiáng)冷空氣,最低溫-10℃,9級(jí)大風(fēng)+降溫組團(tuán)來襲

中到大雪局部暴雪!山東迎強(qiáng)冷空氣,最低溫-10℃,9級(jí)大風(fēng)+降溫組團(tuán)來襲

齊魯壹點(diǎn)
2026-01-08 16:23:17
讓農(nóng)民挨凍的環(huán)保,是壞保

讓農(nóng)民挨凍的環(huán)保,是壞保

不主流講話
2026-01-08 09:32:40
重磅:烏克蘭正式與英法簽署駐軍意向書!歐洲派兵大勢(shì)所趨

重磅:烏克蘭正式與英法簽署駐軍意向書!歐洲派兵大勢(shì)所趨

項(xiàng)鵬飛
2026-01-07 17:08:45
吹楊被交易至奇才!掏出手機(jī)起身離場(chǎng) 落寞背影預(yù)示老鷹時(shí)代落幕

吹楊被交易至奇才!掏出手機(jī)起身離場(chǎng) 落寞背影預(yù)示老鷹時(shí)代落幕

顏小白的籃球夢(mèng)
2026-01-08 10:44:54
黎明前的驚雷:一個(gè)時(shí)代的落幕與中東秩序的重塑

黎明前的驚雷:一個(gè)時(shí)代的落幕與中東秩序的重塑

高博新視野
2026-01-05 18:13:59
72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場(chǎng)根基正在爛根

72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場(chǎng)根基正在爛根

老特有話說
2026-01-07 00:40:03
萬萬沒想到!美國對(duì)華最大的失算,是讓中國90后、00后徹底清醒了

萬萬沒想到!美國對(duì)華最大的失算,是讓中國90后、00后徹底清醒了

遠(yuǎn)方風(fēng)林
2026-01-07 11:40:08
現(xiàn)階段,我最認(rèn)同的政治制度

現(xiàn)階段,我最認(rèn)同的政治制度

力哥說
2026-01-08 00:38:37
創(chuàng)NBA生涯紀(jì)錄!楊瀚森連7戰(zhàn)登場(chǎng)入輪轉(zhuǎn) 被抓出兩道血痕引爭(zhēng)議

創(chuàng)NBA生涯紀(jì)錄!楊瀚森連7戰(zhàn)登場(chǎng)入輪轉(zhuǎn) 被抓出兩道血痕引爭(zhēng)議

醉臥浮生
2026-01-08 13:55:19
2026-01-08 17:12:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5593文章數(shù) 4661關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

教育
游戲
房產(chǎn)
家居
公開課

教育要聞

中考數(shù)學(xué),求陰影面積?

這款畫風(fēng)清奇的新游,竟成了外媒最期待的海盜游戲?

房產(chǎn)要聞

三亞新房,又全國第一了!

家居要聞

理性主義 冷調(diào)自由居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版