国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“密度法則”登上Nature子刊封面,揭示高效大模型發(fā)展路徑

0
分享至

近日,清華大學(xué)聯(lián)合 OpenBMB 研究成果《Densing Law of LLMs》(大模型密度法則)正式在《自然 · 機器智能》(Nature Machine Intelligence)上 作為封面文章正式發(fā)表。


文章題目: Densing law of LLMs 文章鏈接: https://www.nature.com/articles/s42256-025-01137-0

密度法則指出,大語言模型的最大能力密度隨時間呈指數(shù)級增長,2023 年 2 月至 2025 年 4 月,大模型最大能力密度約每 3.5 個月翻一倍。這意味著每隔 3.5 個月,即可用一半?yún)?shù)量的模型實現(xiàn)當(dāng)前最優(yōu)性能。這一發(fā)現(xiàn)為理解大模型發(fā)展規(guī)律提供了新的視角,揭示了大模型高效化發(fā)展的內(nèi)在趨勢。

大模型的快速發(fā)展給通用人工智能的研究帶來了曙光。自 2020 年以來,大模型在尺度定律(Scaling Law)的指導(dǎo)下,不斷增加訓(xùn)練數(shù)據(jù)和模型參數(shù)的規(guī)模,在自然語言理解、生成和推理任務(wù)上的取得了顯著的能力提升。這推動了一系列參數(shù)量超過千億的超大規(guī)模模型的涌現(xiàn)。然而,隨著訓(xùn)練規(guī)模的膨脹,大模型的訓(xùn)練和推理成本急劇上升:一方面,公開可用數(shù)據(jù)的增長難以匹配模型需求的指數(shù)級擴張;另一方面,計算資源和能源消耗成為大模型訓(xùn)練與部署的瓶頸。為應(yīng)對這些挑戰(zhàn),研究者亟需探索大模型的可持續(xù)發(fā)展路徑。

信息技術(shù)發(fā)展史提供了重要借鑒。摩爾法則通過優(yōu)化芯片制造工藝、提升晶體管密度,持續(xù)提升芯片計算能力,推動了計算設(shè)備的普及化進程。受此啟發(fā),研究團隊思考:大模型是否也存在類似的“密度提升”規(guī)律?研究團隊提出了大模型“能力密度”(Capability Density)概念,用于評估大模型單位參數(shù)內(nèi)蘊含的智能水平。該概念基于一個核心假設(shè):采用相同制造工藝、經(jīng)過充分訓(xùn)練的不同尺寸模型,其能力密度應(yīng)當(dāng)相同。

為了量化能力密度,研究團隊設(shè)計了相對能力密度的評估框架。首先選取一系列基準(zhǔn)模型,通過擬合這些模型在不同參數(shù)規(guī)模下的性能表現(xiàn),建立參數(shù)量與性能之間的映射關(guān)系。在此基礎(chǔ)上,研究團隊設(shè)定基準(zhǔn)模型的能力密度為 1,作為衡量其他模型能力密度的基線。給定目標(biāo)模型的能力密度被定義為:目標(biāo)模型的參數(shù)量與達到相同效果的基準(zhǔn)模型參數(shù)量的比值。


能力密度計算方法示意圖

團隊對 51 個近年來發(fā)布的開源大模型進行了密度分析。結(jié)果顯示,這些模型的最大能力密度隨時間呈指數(shù)增長趨勢,大約每過 3.5 個月,就能用參數(shù)量減半的模型達到當(dāng)前最先進模型的性能水平。這一規(guī)律揭示了大模型技術(shù)的飛速進展,以及在算力和算法的協(xié)同作用下,模型能力的持續(xù)提升。


image.png 開源大模型能力密度的變化趨勢圖

根據(jù)密度法則,研究團隊得出了若干重要推論:

推論1:同能力模型的推理開銷隨時間指數(shù)級下降

一方面,密度法則指出同能力的大模型參數(shù)每 3.5 個月減半。同時在推理系統(tǒng)優(yōu)化方面,摩爾定律驅(qū)動芯片算力持續(xù)增強,而模型量化、投機采樣、顯存優(yōu)化等算法技術(shù)也在不斷突破,相同推理成本下,能夠運行的模型大小不斷提升。實證數(shù)據(jù)顯示,GPT-3.5 級模型 API 價格在 20 個月內(nèi)下降 266.7 倍,約每 2.5 個月下降一倍。


GPT-3.5 級模型 API 價格

推論2:大模型能力密度正在加速增強

以 MMLU 為評測基準(zhǔn)的統(tǒng)計顯示,ChatGPT 發(fā)布前能力密度每 4.8 個月翻倍,而 ChatGPT 發(fā)布后能力密度每 3.2 個月翻倍,密度增強速度提升了 50%。這表明,隨著大模型技術(shù)的成熟和開源生態(tài)的繁榮,能力密度提升正在加速。


以 MMLU 為基準(zhǔn)測量的能力密度變化情況

推論3:模型壓縮算法并不總能增強模型能力密度

研究團隊對比了多個模型與其壓縮版本的能力密度,發(fā)現(xiàn)除了 Gemma-2-9B 以外,如 Llama-3.2-3B/1B、Llama-3.1-minitron-4B 等其他壓縮模型的密度都低于原始模型。量化技術(shù)同樣會降低模型性能和能力密度。這一發(fā)現(xiàn)揭示了當(dāng)前模型壓縮技術(shù)的局限性:壓縮過程中較小模型的訓(xùn)練往往不夠充分,無法達到最優(yōu)密度。


模型壓縮對能力密度的影響

推論4:模型小型化揭示端側(cè)智能巨大潛力

芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線的交匯,意味著端側(cè)設(shè)備將能夠運行更高性能的大模型,邊緣計算和終端智能將迎來爆發(fā)式增長,算力普惠將從云端走向終端。


發(fā)表在《Nature Communications》上的論文(Efficient GPT-4V level multimodal large language model for deployment on edge devices)刻畫了這一變化趨勢

基于密度法則的理論指導(dǎo),清華大學(xué)、OpenBMB 及面壁智能團隊圍繞模型架構(gòu)、算法、數(shù)據(jù)等方面持續(xù)創(chuàng)新,加速推進高密度模型研發(fā)。自 2024 年以來,陸續(xù)發(fā)布了面壁小鋼炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端側(cè)「高密度」模型,憑借高效低成本的特性享譽全球,被評為 2024 年 Hugging Face 最多下載、最受歡迎的中國大模型。截至 2025 年 10 月,模型下載量接近 1500 萬次, GitHub 星標(biāo)接近 3 萬次。

該研究成果由計算機系孫茂松、劉知遠、韓旭老師團隊與大模型開源社區(qū) OpenBMB 合作完成。計算機系博士后肖朝軍為第一作者,助理研究員韓旭、長聘副教授劉知遠、教授孫茂松為通訊作者。該研究獲國家自然科學(xué)基金、北京市科技計劃項目、博士后創(chuàng)新人才支持計劃及清華大學(xué)水木學(xué)者計劃支持。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
4-2輕取石洵瑤!17歲張本美和零消耗晉級 四強出爐中日各兩席

4-2輕取石洵瑤!17歲張本美和零消耗晉級 四強出爐中日各兩席

顏小白的籃球夢
2026-03-14 21:48:24
中國女籃10分險勝!產(chǎn)生2個意想不到,最新形勢:基本晉級世界杯

中國女籃10分險勝!產(chǎn)生2個意想不到,最新形勢:基本晉級世界杯

侃球熊弟
2026-03-14 20:18:44
山東泰山2:1力克北京國安,徐亮賽后點評,句句在理,客觀中肯!

山東泰山2:1力克北京國安,徐亮賽后點評,句句在理,客觀中肯!

田先生籃球
2026-03-14 22:02:01
中國女足主帥米利西奇:半決賽王霜缺席是損失,全隊要一起向前看

中國女足主帥米利西奇:半決賽王霜缺席是損失,全隊要一起向前看

極目新聞
2026-03-14 21:07:31
深圳寶馬4S店“銷冠店”停擺,店內(nèi)財產(chǎn)已被法院查封

深圳寶馬4S店“銷冠店”停擺,店內(nèi)財產(chǎn)已被法院查封

南方都市報
2026-03-14 16:52:20
中建五局掀桌子,一口氣舉報了14家央企!

中建五局掀桌子,一口氣舉報了14家央企!

巢客HOME
2026-03-13 17:51:43
真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

人民日報健康客戶端
2026-02-25 07:34:27
丟人丟到國外!中國男子在肯尼亞機場被攔,行李中發(fā)現(xiàn)2238只蟻后

丟人丟到國外!中國男子在肯尼亞機場被攔,行李中發(fā)現(xiàn)2238只蟻后

萬象硬核本尊
2026-03-14 20:02:47
低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
TVB前女星退圈29年罕現(xiàn)身,古天樂請客掀回憶殺,自曝曾兩度流產(chǎn)

TVB前女星退圈29年罕現(xiàn)身,古天樂請客掀回憶殺,自曝曾兩度流產(chǎn)

蒂蒂茱家
2026-03-14 18:45:28
廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

云鵬敘事
2026-03-14 16:48:43
巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

巴黎現(xiàn)場太真實!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

一娛三分地
2026-03-12 19:11:45
股民要坐穩(wěn)扶好了,下周周一周二兩天,或?qū)⒅匮?8年歷史行情!

股民要坐穩(wěn)扶好了,下周周一周二兩天,或?qū)⒅匮?8年歷史行情!

風(fēng)風(fēng)順
2026-03-15 01:00:08
砍27分+7記三分!國手后衛(wèi)打法堪比CBA小外援,率隊掀翻衛(wèi)冕冠軍

砍27分+7記三分!國手后衛(wèi)打法堪比CBA小外援,率隊掀翻衛(wèi)冕冠軍

老葉評球
2026-03-14 23:08:04
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
評論 | 誰是南亞軍購?fù)??最新武器貿(mào)易數(shù)據(jù)全解讀

評論 | 誰是南亞軍購?fù)??最新武器貿(mào)易數(shù)據(jù)全解讀

南亞研究通訊
2026-03-13 23:06:50
女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當(dāng)事人發(fā)聲

女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當(dāng)事人發(fā)聲

環(huán)球網(wǎng)資訊
2026-03-14 18:28:08
Meta大裁員:1.58萬人面臨失業(yè)!

Meta大裁員:1.58萬人面臨失業(yè)!

芯智訊
2026-03-14 23:17:42
張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

觀魚聽雨
2026-03-12 22:44:11
你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

史政先鋒
2026-03-13 17:17:54
2026-03-15 02:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號航母 美軍連開數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

親子
教育
房產(chǎn)
時尚
手機

親子要聞

從"疲憊帶娃"到"從容陪娃":每位家長都能掌握的魔法轉(zhuǎn)變

教育要聞

去英國留學(xué)的核心意義,其實80%以上國內(nèi)家庭是不知道的!

房產(chǎn)要聞

不容易?。『?诮K于又要賣地了!

伊姐周六熱推:電視劇《逐玉》;電視劇《江湖夜雨十年燈》......

手機要聞

折痕沒了!OPPO Find N6登陸線下門店 網(wǎng)友:這才叫無印良品

無障礙瀏覽 進入關(guān)懷版