国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

0
分享至

2026 年的前兩個月,開源大模型的發(fā)布節(jié)奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數(shù)量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

然而,如此快的更新速度,對于普通開發(fā)者而言,莫說深入研究,僅僅是分辨區(qū)別就已經(jīng)耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


(來源:X)

這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。


(來源:Sebastian Raschka.com)

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統(tǒng)一的視覺語言重新呈現(xiàn),集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規(guī)格表”,列出模型的參數(shù)量、發(fā)布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節(jié)。


(來源:LLM Architecture Gallery)

項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創(chuàng)意池?!彼罱l(fā)布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創(chuàng)意來源。

Raschka 也很快作出回復,并提供了 YAML 格式的元數(shù)據(jù) GitHub 鏈接。Karpathy 隨后表示他已經(jīng)用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


(來源;X)

就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構?!币灿腥死^續(xù)幫忙優(yōu)化細節(jié):“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數(shù)量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續(xù)會持續(xù)完善。

回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制:配色、圖例、字體統(tǒng)一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

這類信息原本散落在幾十頁技術報告的不同角落,現(xiàn)在被壓縮成一張對比圖。

MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統(tǒng)的“稠密”Transformer 會在每次生成 token 時激活全部參數(shù),參數(shù)越多,算力成本越高。而 MoE 把參數(shù)分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數(shù),但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數(shù),激活的只有 170 億。

Raschka 在圖集中把各模型的專家數(shù)量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創(chuàng)新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來?!?/p>

這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優(yōu)化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

最后總結一下,這個大模型架構的圖集的實際用法很簡單。

首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區(qū)別?打開頁面,找到兩張圖,直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

其次,每張架構圖都鏈接到 Raschka 原文中的對應章節(jié),如果你想深入了解某個技術細節(jié):比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩(wěn)定訓練,點進去就能讀到解釋。

第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數(shù)據(jù),包含每個模型的參數(shù)量、發(fā)布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數(shù)據(jù)是現(xiàn)成的起點。

Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說,這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術報告去找一個數(shù)字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區(qū)別”的研究者來說,統(tǒng)一的視覺語言讓跨模型對比成為可能。

1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁:https://x.com/rasbt/status/2033167146302210058

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
油價調整消息:今天3月26日,全國加油站調整后92、95汽油新售價

油價調整消息:今天3月26日,全國加油站調整后92、95汽油新售價

沙雕小琳琳
2026-03-26 10:31:28
1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

明月清風閣
2026-03-25 16:30:09
伊朗伊斯蘭革命衛(wèi)隊稱擊落一架美軍F-18戰(zhàn)機

伊朗伊斯蘭革命衛(wèi)隊稱擊落一架美軍F-18戰(zhàn)機

環(huán)球網(wǎng)資訊
2026-03-26 06:37:05
四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

紅星新聞
2026-03-25 20:09:43
美國最大的失誤就是一上來就把宋江給干掉了

美國最大的失誤就是一上來就把宋江給干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
“科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

“科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

妍妍教育日記
2026-03-20 21:33:36
宋美齡書法對比:鋼筆字似小學生,英文手稿如中學生!

宋美齡書法對比:鋼筆字似小學生,英文手稿如中學生!

書畫相約
2026-03-26 07:49:18
公積金新調整!4月1日起,職工可自愿提高繳存比例

公積金新調整!4月1日起,職工可自愿提高繳存比例

另子維愛讀史
2026-03-25 22:28:47
多年努力還是白費,黃渤兩個女兒近照被曝光,大女兒身高成焦點

多年努力還是白費,黃渤兩個女兒近照被曝光,大女兒身高成焦點

往史過眼云煙
2026-03-25 22:23:20
5種“奪命花”不要養(yǎng),家里要有趕快扔,誰不聽勸誰吃虧

5種“奪命花”不要養(yǎng),家里要有趕快扔,誰不聽勸誰吃虧

三農(nóng)老歷
2026-03-26 09:42:30
姆巴佩:說我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

姆巴佩:說我在皇馬遭誤診是假的,也怪我留下了可解讀的空間

懂球帝
2026-03-26 04:09:06
冒充“中國船”闖過伊朗封鎖線!日本貨輪全速突圍,安全抵達澳洲

冒充“中國船”闖過伊朗封鎖線!日本貨輪全速突圍,安全抵達澳洲

澳洲紅領巾
2026-03-26 12:22:58
男子參加跑步比賽摔倒后死亡 保險公司認為不屬“意外”拒賠 法院判賠88萬余元

男子參加跑步比賽摔倒后死亡 保險公司認為不屬“意外”拒賠 法院判賠88萬余元

紅星新聞
2026-03-26 12:02:03
不止過億資產(chǎn),張雪峰還為女兒留下三條后路,最后一個受用一生

不止過億資產(chǎn),張雪峰還為女兒留下三條后路,最后一個受用一生

慢歌輕步謠
2026-03-25 15:12:12
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
張柏芝機場接大兒子回家!穿著卡通好俏皮,和18歲Lucas相擁好甜

張柏芝機場接大兒子回家!穿著卡通好俏皮,和18歲Lucas相擁好甜

樂悠悠娛樂
2026-03-26 10:53:10
法媒:“伊朗戰(zhàn)爭的首個受害者是真相”

法媒:“伊朗戰(zhàn)爭的首個受害者是真相”

參考消息
2026-03-26 13:30:07
朝鮮權力格局再洗牌!金正恩連任背后

朝鮮權力格局再洗牌!金正恩連任背后

新浪財經(jīng)
2026-03-26 00:04:55
“貞潔是女孩最高貴的嫁妝”,公交廣告別變公害廣告|新京報快評

“貞潔是女孩最高貴的嫁妝”,公交廣告別變公害廣告|新京報快評

新京報
2026-03-25 13:18:07
都看出張雪峰不對勁,卻沒人攔得住,最終還是走了

都看出張雪峰不對勁,卻沒人攔得住,最終還是走了

笑熬漿糊111
2026-03-25 12:21:46
2026-03-26 14:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16487文章數(shù) 514796關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
時尚
藝術
公開課
軍事航空

本地新聞

春日吃花第三站——廣東

2026年了,最好看的還是“這件針織”!

藝術要聞

哪一座橋不是風景?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版