大模型解剖圖火了，30多個開源模型架構(gòu)差異一目了然，還可接入AI

2026-03-16 17:33:15　來源: DeepTech深科技

北京舉報

分享至

2026 年的前兩個月，開源大模型的發(fā)布節(jié)奏已快至令人應(yīng)接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至，參數(shù)量從 3B 至 1T 不等，每一款都宣稱是“SOTA”或者“最強開源”。

然而，如此快的更新速度，對于普通開發(fā)者而言，莫說深入研究，僅僅是分辨區(qū)別就已經(jīng)耗費大量精力。更不用提許多技術(shù)報告的表述含糊，架構(gòu)圖繪制風(fēng)格各異，想要進(jìn)行橫向?qū)Ρ仁掷щy。

為了解決這些問題，一個名為“LLM Architecture Gallery”(大語言模型架構(gòu)畫廊)的項目上線了。顧名思義，就是讓你像逛“畫廊”一樣，瀏覽不同模型的架構(gòu)圖。

（來源：X）

這個項目的作者是 Sebastian Raschka，是機器學(xué)習(xí)領(lǐng)域的知名研究者，寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。

（來源：Sebastian Raschka.com）

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構(gòu)圖抽取出來，用統(tǒng)一的視覺語言重新呈現(xiàn)，集中放在一個頁面上。點擊任意一張圖可以放大，每張圖下方附帶一份“規(guī)格表”，列出模型的參數(shù)量、發(fā)布時間、注意力機制類型等關(guān)鍵信息。想深入某個模型，可以點開“view in article”頁面會直接跳轉(zhuǎn)到原文對應(yīng)章節(jié)。

（來源：LLM Architecture Gallery）

項目上線幾小時后，Andrej Karpathy 在 X 上回復(fù)了 Raschka 的推文：“太好了！我的自動研究功能很需要這個內(nèi)容的 Markdown 版本——一個創(chuàng)意池?！彼罱l(fā)布的 autoresearch 項目：一個讓 AI 自主跑實驗的開源工具，正需要這類結(jié)構(gòu)化的架構(gòu)信息作為創(chuàng)意來源。

Raschka 也很快作出回復(fù)，并提供了 YAML 格式的元數(shù)據(jù) GitHub 鏈接。Karpathy 隨后表示他已經(jīng)用 Obsidian 把博客文章導(dǎo)出成 markdown，并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構(gòu)圖集，就這樣被接入了 AI 自動化研究的工作流。

（來源；X）

就在今天，這個項目也沖上了 Hacker News 首頁。一位用戶評論說：“這讓我想起了當(dāng)年的 Neural Network Zoo，也是用可視化的方式展示不同架構(gòu)?！币灿腥死^續(xù)幫忙優(yōu)化細(xì)節(jié)：“能不能按時間排序，畫出架構(gòu)演化的家譜樹？能不能加一個比例視圖，讓參數(shù)量的差異在視覺上直觀可感？”對于這些建議，Sebastian 表示他后續(xù)會持續(xù)完善。

回到項目本身，目前，這份圖集收錄了三十多個模型架構(gòu)，從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制：配色、圖例、字體統(tǒng)一，DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時，你一眼就能看出前者用了 MLA（Multi-Head Latent Attention，多頭潛在注意力），后者用的是 GQA（Grouped-Query Attention，分組查詢注意力）；DeepSeek V3 有一個“共享專家”模塊，Qwen3 沒有。

這類信息原本散落在幾十頁技術(shù)報告的不同角落，現(xiàn)在被壓縮成一張對比圖。

MoE（Mixture-of-Experts，混合專家模型）是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權(quán)重模型都采用了這種架構(gòu)。傳統(tǒng)的“稠密”Transformer 會在每次生成 token 時激活全部參數(shù)，參數(shù)越多，算力成本越高。而 MoE 把參數(shù)分成若干“專家”，每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數(shù)，但實際運行時只激活 370 億；Llama 4 Maverick 號稱 4,000 億參數(shù)，激活的只有 170 億。

Raschka 在圖集中把各模型的專家數(shù)量、激活比例、專家隱藏層尺寸都標(biāo)注出來，讓稀疏程度一目了然。Hacker News 上有人感慨：“我很驚訝這些模型在結(jié)構(gòu)上有多相似，主要差異就是層的大小?！?/p>

另一位用戶則看出了一些端倪，辣評“過去七年，LLM 架構(gòu)有很多改進(jìn)，但沒有根本性的創(chuàng)新。今天最好的開放權(quán)重模型，如果你縮遠(yuǎn)了看，仍然很像 GPT-2，就是一堆注意力層和前饋層堆起來?！?/p>

這可以說是一個重要的觀察。LLM 能力的驚人提升，更多來自訓(xùn)練方法的革新。比如 RLVR（Reinforcement Learning with Verifiable Rewards，可驗證獎勵的強化學(xué)習(xí)），而不是架構(gòu)本身的突破。架構(gòu)層面的優(yōu)化，更多是為了讓訓(xùn)練和推理更高效、成本更低，而不是讓模型根本上更聰明。理解這一點，對選型和預(yù)期管理都有幫助。

最后總結(jié)一下，這個大模型架構(gòu)的圖集的實際用法很簡單。

首先，你可以把它當(dāng)作速查手冊：想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區(qū)別？打開頁面，找到兩張圖，直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA，DeepSeek V3 用 MLA；前者沒有共享專家，后者有。

其次，每張架構(gòu)圖都鏈接到 Raschka 原文中的對應(yīng)章節(jié)，如果你想深入了解某個技術(shù)細(xì)節(jié)：比如 QK-Norm（一種應(yīng)用于查詢和鍵向量的歸一化技術(shù)）是什么、為什么能穩(wěn)定訓(xùn)練，點進(jìn)去就能讀到解釋。

第三，圖集附帶一份“概念速查”，解釋 GQA、MLA、SWA（Sliding Window Attention，滑動窗口注意力）、NoPE（No Positional Encoding，無位置編碼）、Gated DeltaNet 等術(shù)語，適合快速補課。

并且，正如 Karpathy 的用法所示，這份圖集的價值不僅在于人類可讀，還在于它的結(jié)構(gòu)化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數(shù)據(jù)，包含每個模型的參數(shù)量、發(fā)布日期、技術(shù)報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異，或者像 Karpathy 那樣把它們喂給 AI 做自動化研究，這份元數(shù)據(jù)是現(xiàn)成的起點。

Raschka 還把整套架構(gòu)圖打包成一個超高分辨率的 PNG 文件（56M，182 百萬像素，上傳到 Zazzle，可以直接下單打印成實體海報。他自己也訂了一張，但“還沒收到貨，暫時不能保證印刷質(zhì)量”。頁面底部留了一個 Issue Tracker 鏈接，歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說，這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術(shù)報告去找一個數(shù)字，也不用自己畫對比表格。對于想搞懂“這些模型到底在結(jié)構(gòu)上有什么區(qū)別”的研究者來說，統(tǒng)一的視覺語言讓跨模型對比成為可能。

1.項目地址：https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁：https://x.com/rasbt/status/2033167146302210058

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.