国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華TsinghuaNLP團(tuán)隊(duì),登上Nature子刊封面:“模型的能力密度,每3.5個(gè)月翻倍”

0
分享至


Nature Machine Intelligence 封面

《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面

這篇論文,提出了一個(gè)很有趣的點(diǎn)

Densing Law 模型的能力密度,每 3.5 個(gè)月翻倍

通過分析了 51 個(gè)開源模型,量化了一個(gè)現(xiàn)象:

  • ? 模型能力密度,呈指數(shù)級增長, 倍增周期約 3.5 個(gè)月

  • ? 這意味著達(dá)到同等性能水平,所需的參數(shù)量 每 3.5 個(gè)月減少一半

  • ? 伴隨參數(shù)效率的提升,同等性能下的 推理成本每 2.6 個(gè)月腰斬

本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠(yuǎn)、孫茂松,來自清華TsinghuaNLP團(tuán)隊(duì)

論文回顧

讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個(gè)月翻倍,這里的能力密度是什么?

能力密度 = 等效參數(shù)量 ÷ 實(shí)際參數(shù)量


「能力密度」是怎么得來的

換句話說:
2B 模型跑出 4B 的成績,密度就是 2

Llama-1 發(fā)布時(shí),密度不到 0.1

兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2


模型能力密度趨勢圖

兩年,能力密度提高 20 倍
和體感是不是很接近?模型咔咔在變聰明

那么...怎么漲的?
你可能聽說過小模型變強(qiáng)的兩種做法:

  • ? 剪枝 :把大模型參數(shù)砍掉一部分

  • ? 量化 :把參數(shù)精度從 32 位降到 8 位

但論文發(fā)現(xiàn),這兩種方法都會讓密度下降

  • ? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低

  • ? Llama-3.1-minitron-4B 也是,密度也低

  • ? GPTQ 量化后,密度同樣下降

剪枝/量化都沒啥用,圖自論文 Fig.3b

論文解釋:
壓縮過程中訓(xùn)練不充分,能力沒塞回去

密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的
那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會怎樣?
論文給了幾個(gè)推論

密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的

那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會怎樣?

論文給了幾個(gè)推論

推論一:推理成本指數(shù)下降

密度翻倍,同等性能所需參數(shù)量減半,算力顯存跟著減半

論文算了一下:同等性能的推理成本,每 2.6 個(gè)月腰斬


各種模型的調(diào)用價(jià)格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長

ChatGPT 發(fā)布前,密度增長斜率是 0.0048,發(fā)布后變成了 0.0073


ChatGPT 發(fā)布后,斜率明顯上升,圖自論文 Fig.3c

增速提升 50%

這說明... AI 大火之后,人、錢、資源都涌了進(jìn)來,增速實(shí)打?qū)嵦岣吡?/p>

推論三:端側(cè)設(shè)備會越來越能打

在過去幾年里,相同價(jià)格芯片的計(jì)算能力大約每 2.1 年翻一番

而根據(jù)上面的結(jié)論,模型密度每 3.5 個(gè)月翻倍

疊加一下:固定價(jià)格端側(cè)設(shè)備,能跑的有效參數(shù)量每 88 天翻番

emmmmnm...未來可期


又不是不可能... 歷史回顧

這部分和論文無關(guān),是我自己整理的行業(yè)數(shù)據(jù),我們來看看實(shí)際價(jià)格


先說量販?zhǔn)?/p>

2022 年底,ChatGPT 發(fā)布的時(shí)候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價(jià)是 20 美元/百萬 token

2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%

2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token

text-davinci-003Gemini Flash,20 個(gè)月,降了 266 倍

旗艦?zāi)P湍兀?/p>

最開始的 GPT-4,是 23年6月13日發(fā)布的,輸入是 60 美元/百萬 token。還有個(gè)更貴的 GPT-4-32k,輸入是 60美金/百萬 token

而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token


OpenAI 的模型價(jià)格

順便說一下,國產(chǎn)平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車


GLM 的模型價(jià)格

不僅僅是價(jià)格巨幅降低,性能也是節(jié)節(jié)攀升,曾經(jīng)的模型能力,從現(xiàn)在的角度,完全不夠看


模型能力進(jìn)化史 再看小模型

2024 年 2 月,MiniCPM-2.4B 發(fā)布,參數(shù)量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數(shù)學(xué)、代碼還更強(qiáng),整體超過 Llama2-13B、MPT-30B、Falcon-40B


還是看這個(gè)圖,圈子大小表示參數(shù)量

考慮到 Mistral-7B 是 2023 年 9 月發(fā)布的,那么...

4 個(gè)月,參數(shù)量砍到 35%,性能不降

這樣的例子還很多,大致都可以和論文的 Densing Law 對得上,未來大模型的發(fā)展都可以參照這個(gè)來評判

穿插個(gè)題外話:Dense vs MoE

上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...

一些朋友可能會好奇,為啥都是大模型,有的賊大,有的賊小...

這其實(shí)是個(gè)架構(gòu)問題,有些是 MoE 架構(gòu),體積大,適合服務(wù)器部署(訓(xùn)練/規(guī)模化推理成本有優(yōu)勢);有些是 Dense 架構(gòu),體積小,適合本地部署(尺寸上有優(yōu)勢),詳細(xì)的解釋可以看這里:

總結(jié)

一句話展望
按這個(gè)發(fā)展速度,在小天才手表上,跑 Nano Banana,指日可待


圖是ai畫的,但我是認(rèn)真的...現(xiàn)在的小天才,已經(jīng)比安尼亞克(ENIAC)強(qiáng)太多了

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
憋屈30年,中國終于掀桌子!一紙退貨令甩出,澳洲巨頭徹底慌神

憋屈30年,中國終于掀桌子!一紙退貨令甩出,澳洲巨頭徹底慌神

近史博覽
2025-12-31 17:04:43
今夜,白銀又暴漲,金價(jià)拉升!周生生一款項(xiàng)鏈一夜?jié)q了15200元

今夜,白銀又暴漲,金價(jià)拉升!周生生一款項(xiàng)鏈一夜?jié)q了15200元

每日經(jīng)濟(jì)新聞
2026-01-10 00:55:27
我國為什么要取消2元的人民幣?原因很簡單,看完您就知道了

我國為什么要取消2元的人民幣?原因很簡單,看完您就知道了

千秋文化
2026-01-09 14:20:00
1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

史海孤雁
2026-01-08 19:35:10
回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

回國了我才敢說:委內(nèi)瑞拉,是我去過的所有國家中,最被低估的!

另子維愛讀史
2026-01-09 21:09:05
李在明送中方5件國禮,深夜回國收到噩耗,美駐韓一把手突然撤離

李在明送中方5件國禮,深夜回國收到噩耗,美駐韓一把手突然撤離

博覽歷史
2026-01-09 18:08:29
英偉達(dá)一夜蒸發(fā)989億,逼中方全款買單!特朗普:世界秩序已消亡

英偉達(dá)一夜蒸發(fā)989億,逼中方全款買單!特朗普:世界秩序已消亡

影孖看世界
2026-01-09 16:47:54
深圳的2億“幽靈城堡”倒了!一度被譽(yù)為“成年人的迪士尼”

深圳的2億“幽靈城堡”倒了!一度被譽(yù)為“成年人的迪士尼”

GA環(huán)球建筑
2026-01-09 14:02:31
最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

華人生活網(wǎng)
2026-01-10 06:05:22
神仙姐姐的野生圖,太美了。

神仙姐姐的野生圖,太美了。

微微熱評
2026-01-09 12:20:53
中方:沉痛哀悼丹羽宇一郎

中方:沉痛哀悼丹羽宇一郎

新京報(bào)政事兒
2026-01-09 15:31:25
閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

社會日日鮮
2026-01-08 10:43:19
《尋秦記》票房破2億,男演員演技排名:古天樂第4,第1難超越

《尋秦記》票房破2億,男演員演技排名:古天樂第4,第1難超越

飄逸語人
2026-01-10 06:07:54
網(wǎng)友希望召回雀巢奶粉,京東客服回應(yīng):小孩喝了后有問題再聯(lián)系

網(wǎng)友希望召回雀巢奶粉,京東客服回應(yīng):小孩喝了后有問題再聯(lián)系

PChome電腦之家
2026-01-09 10:52:52
郭晶晶沒想到,被國家隊(duì)開除的田亮,如今以這種方式讓人刮目相看

郭晶晶沒想到,被國家隊(duì)開除的田亮,如今以這種方式讓人刮目相看

無心小姐姐
2026-01-09 17:46:24
不敗就出線?U23國足迎來生死戰(zhàn),第二場價(jià)值千金,伊拉克隊(duì)拼了

不敗就出線?U23國足迎來生死戰(zhàn),第二場價(jià)值千金,伊拉克隊(duì)拼了

祥談體育
2026-01-09 12:49:54
前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個(gè)產(chǎn)業(yè)鏈全干光

前中興副總:中國采用窮舉法跟美國打科技戰(zhàn),把整個(gè)產(chǎn)業(yè)鏈全干光

顧史
2026-01-03 17:17:39
編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

字母榜
2026-01-10 08:15:21
“山姆”跨年必買好物TOP6,真的太太太適合跨年啦!!

“山姆”跨年必買好物TOP6,真的太太太適合跨年啦!

白色得季節(jié)
2026-01-09 22:38:37
特朗普:“無論難易”都要得到格陵蘭島

特朗普:“無論難易”都要得到格陵蘭島

環(huán)球網(wǎng)資訊
2026-01-10 06:25:09
2026-01-10 10:31:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
246文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國

體育要聞

楊瀚森:上場時(shí)間要去爭取 而不是要求

娛樂要聞

火速認(rèn)錯(cuò)!孫怡駕駛法拉利跑車違規(guī)

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

房產(chǎn)
親子
家居
教育
健康

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

親子要聞

“國學(xué)馴化”從娃娃抓起?

家居要聞

木色留白 演繹現(xiàn)代自由

教育要聞

好校長的“長、寬、高”

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版