国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克說(shuō)漏嘴了!Claude Opus參數(shù)5T,Sonnet 1T

0
分享至

西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

哦豁,馬斯克一個(gè)“不小心”,把Claude參數(shù)抖出來(lái)了???

長(zhǎng)話(huà)短說(shuō):Sonnet 1T、Opus 5T。



起因是老馬發(fā)帖表示,xAI的Colossus 2超算正在訓(xùn)練7個(gè)模型,其中最大的一款,參數(shù)量直接沖到了10萬(wàn)億

完整清單:

Imagine V2
2個(gè)1萬(wàn)億(1T)參數(shù)的變體模型
2個(gè)1.5 萬(wàn)億(1.5T)參數(shù)的變體模型
6萬(wàn)億(6T)參數(shù)模型
10萬(wàn)億(10T)參數(shù)模型

P.S. Colossus 2,就是老馬巨硬計(jì)劃(Macrohard)的一部分。據(jù)2025年8月披露的信息,Colossus 2已經(jīng)安裝了119臺(tái)風(fēng)冷式冷水機(jī)組,提供約200MW的冷卻能力,足以支持約11萬(wàn)個(gè)GB200 NVL72 GPU。

按照當(dāng)時(shí)規(guī)劃,Colossus 2第一階段部署11萬(wàn)個(gè)英偉達(dá)GB200 GPU,最終目標(biāo)是超過(guò)55萬(wàn)個(gè)GPU,峰值功率需求預(yù)計(jì)超過(guò)1.1GW。

這次發(fā)推文,也是馬斯克為數(shù)不多地對(duì)外公開(kāi)Colossus超算的具體訓(xùn)練計(jì)劃。



消息一出,網(wǎng)友開(kāi)啟好奇寶寶模式,馬斯克也是心情不錯(cuò)的樣子,看到提問(wèn)也回復(fù)了不少。

比如有人問(wèn)“訓(xùn)練一個(gè)10T模型,大概要花多久?”,馬斯克說(shuō)預(yù)訓(xùn)練階段大約需要2個(gè)月



哎,就有這么一段對(duì)話(huà)出現(xiàn)了。

Grok 4.2的參數(shù)量,僅為xAI目前在訓(xùn)最大模型的5%。也就是5000億(500B)對(duì)比10萬(wàn)億(10T),后者是前者20倍。
Grok 4.2真的是總參數(shù)量500B嗎?還是說(shuō)只是在一個(gè)更大的MoE里,激活的參數(shù)量是500B億?

面對(duì)疑問(wèn),老馬又親自回應(yīng)了:

總參數(shù)量就是0.5T(5000億)。現(xiàn)在的Grok,參數(shù)量是Sonnet的一半、Opus的十分之一。以它的規(guī)模來(lái)說(shuō),是非常強(qiáng)的模型。



網(wǎng)友一眼瞄到顯眼信息,這不就是說(shuō)Sonnet是1T,Opus是5T。

于是有人追問(wèn):

純好奇,你(馬斯克)怎么知道Sonnet、Opus大?



對(duì)此老馬閉麥了,網(wǎng)友提出的點(diǎn)倒不無(wú)道理,“頂尖人才在這么幾家公司間流動(dòng),似乎也沒(méi)什么秘密能藏太久”。



Claude各版本參數(shù),來(lái)自網(wǎng)友推測(cè)

自打Claude系列模型問(wèn)世,Anthropic就一直嚴(yán)格保密參數(shù)規(guī)模,不管是Opus還是Sonnet,愣是一點(diǎn)沒(méi)披露。

越不說(shuō),網(wǎng)友討論得越起勁。

我們用AI總結(jié)了一下網(wǎng)友們分析討論的不同版本的Claude參數(shù)規(guī)模。

你還別說(shuō),你還真別說(shuō)。最新模型Claude 4.6 Sonnet ~1-2T、Claude 4.6 Opus ~1.5-2.5T/2-5T,還真和老馬手滑泄露的“Sonnet1T、Opus5T”對(duì)上了。



具體來(lái)看網(wǎng)友都討論出來(lái)了啥。

目前主流推測(cè)方法有四類(lèi):

  • 推理成本與吞吐量反推法:模型推理成本與激活參數(shù)量呈近似線(xiàn)性關(guān)系,而總參數(shù)量則可通過(guò)架構(gòu)類(lèi)型和行業(yè)經(jīng)驗(yàn)系數(shù)推算。
  • 性能基準(zhǔn)對(duì)標(biāo)法:通過(guò)與已知參數(shù)的開(kāi)源模型在標(biāo)準(zhǔn)化基準(zhǔn)上的表現(xiàn)對(duì)比,推斷閉源模型的參數(shù)規(guī)模。
  • 內(nèi)部文件泄露與傳聞分析法:官方意外暴露的信息&一些小道消息。
  • 架構(gòu)特性分析法:通過(guò)對(duì)模型行為特性的觀察,推斷其采用的架構(gòu)類(lèi)型,進(jìn)而縮小參數(shù)估計(jì)范圍。

首先來(lái)看Claude 3系列,2024年3月發(fā)布,這是首個(gè)形成清晰產(chǎn)品矩陣的Claude系列,包含三個(gè)定位不同的版本。



小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次遞增。



對(duì)于它們的參數(shù)規(guī)模,LifeArchitect.ai創(chuàng)始人Alan D. Thompson曾給出估算:

Claude 3 Haiku (~20B)、Claude 3 Sonnet (~70B)、Claude 3 Opus (~2T)。



對(duì)于Claude 3 Sonnet,Reddit社區(qū)后續(xù)也展開(kāi)了持續(xù)討論,也有網(wǎng)友基于性能等推測(cè)Claude 3 Sonnet參數(shù)量在150-250B之間。



再來(lái)看Claude 3.5,這是Claude的一次重大升級(jí),多個(gè)關(guān)鍵指標(biāo)吊打GPT-4o。

不過(guò),Anthropic最初只發(fā)布了獨(dú)苗Claude 3.5 Sonnet。



其速度是Claude 3 Opus的兩倍,成本卻僅為后者的1/5。



關(guān)于模型參數(shù)量,微軟等曾發(fā)布了一篇論文。



其中指出據(jù)行業(yè)估算,Claude 3.5 Sonnet參數(shù)約175B。

順帶附上其它模型估算參數(shù):ChatGPT約175B、GPT-4約1.76T、GPT-4o約200B、o1-mini約100B、o1-preview約300B。



之后,Anthropic跳過(guò)了3.5命名,未發(fā)布3.5 Opus,在Claude Sonnet 3.7后直接進(jìn)入4系列,發(fā)布了兩個(gè)模型:

Claude Opus 4和Claude Sonnet 4。



圈內(nèi)對(duì)于Claude 4的參數(shù)估計(jì),存在較大分歧。

行業(yè)估算Claude Opus 4參數(shù)約在300–500B之間,Claude Sonnet 4約在50B-100B之間。

接下來(lái)Claude Opus 4.1發(fā)布。

其編程性能再次突破,超越Claude Opus 4,在Agent任務(wù)和推理方面也進(jìn)一步升級(jí)。



不過(guò)發(fā)布時(shí),官方表示計(jì)劃在未來(lái)幾周對(duì)模型進(jìn)行更大規(guī)模升級(jí)與改進(jìn),看來(lái)4.1真就只是一次小更新,替代Opus 4。

甚至網(wǎng)友討論,Anthropic可能本來(lái)不想發(fā)模型,但是奈何GPT-5/Gemini-3的消息太多,為了保持市場(chǎng)競(jìng)爭(zhēng)力所以先更新一波。

這可能也是關(guān)于其參數(shù)討論并不多的原因之一。

Hacker News有網(wǎng)友認(rèn)為,其可能是Anthropic嘗試超大參數(shù)規(guī)模的實(shí)驗(yàn)性產(chǎn)品,后續(xù)4.5版本反而縮小了參數(shù)規(guī)模以?xún)?yōu)化效率。

Anthropic對(duì)Opus 4/4.1進(jìn)行了蒸餾,得到了Opus 4.5。這也是該模型的運(yùn)行速度比Opus 4快約3倍,同時(shí)API調(diào)用成本僅為后者的三分之一的核心原因。
整個(gè)AI行業(yè)的發(fā)展方向,正在摒棄萬(wàn)億參數(shù)規(guī)模的超大模型。當(dāng)下的核心命題是提升現(xiàn)有參數(shù)規(guī)模的利用效率。
Opus 4.5參數(shù)量撐死也就在2T左右。Opus 4/4.1的參數(shù)量或許能達(dá)到約6T(MoE架構(gòu))。



再往下就是4.5系列了。

Claude Sonnet 4.5先發(fā)布,計(jì)算機(jī)操作方面,在OSWorld測(cè)試中取得了60.2分的SOTA成績(jī),比Sonnet 4提升了近一半。

Claude Opus 4.5后腳跟上,前端開(kāi)發(fā)、視覺(jué)能力顯著提升,更擅長(zhǎng)使用電腦;在深度研究、PPT制作與電子表格處理等日常任務(wù)方面的表現(xiàn)也全面升級(jí)。



今年2月剛發(fā)布的最新4.6系列,各項(xiàng)能力再上一個(gè)臺(tái)階。

Anthropic表示,對(duì)填寫(xiě)復(fù)雜Excel、網(wǎng)頁(yè)清單等計(jì)算機(jī)操作任務(wù),Sonnet 4.6已經(jīng)接近人類(lèi)水平。



而Opus 4.6,在GDPval-AA(一項(xiàng)評(píng)估金融、法律和其他領(lǐng)域經(jīng)濟(jì)價(jià)值知識(shí)工作任務(wù)的性能指標(biāo))上,比GPT-5.2高出144Elo;編程依舊獨(dú)領(lǐng)風(fēng)騷,在Agent編程評(píng)估Terminal-Bench 2.0中取得了最高分,并在“人類(lèi)最后考試”中領(lǐng)先所有其它前沿模型。

越往后,技術(shù)迭代步入深水區(qū),底層技術(shù)和模型架構(gòu)還一個(gè)勁地搞創(chuàng)新,想估算模型參數(shù)量,越來(lái)越難了。

最近,一篇發(fā)表在Substack的技術(shù)逆向工程分析,通過(guò)OpenRouter在Google Vertex和Amazon Bedrock上的Token吞吐數(shù)據(jù),估算了Claude Opus 4.5和4.6的激活參數(shù)量。



作者署名unexcitedneurons,他以3個(gè)開(kāi)源MoE模型為校準(zhǔn)基準(zhǔn),推算出Vertex平臺(tái)的有效內(nèi)存帶寬約為4.0–4.5TB/s,進(jìn)而得出:

Opus 4.6在FP8精度下的激活參數(shù)量為93–105B。

若假設(shè)模型采用FP8精度稠密層+FP4精度混合專(zhuān)家層的配置,Opus 4.6的激活參數(shù)量約為127–154B。

結(jié)合不同專(zhuān)家稀疏度方案,最終他認(rèn)為,Opus 4.5絕非網(wǎng)傳的10T+規(guī)模,它是一款體量小得多的模型,由Claude Opus 4/4.1蒸餾而來(lái),參數(shù)量規(guī)模應(yīng)落在1.5T-2T之間。

這一點(diǎn)也能從API定價(jià)中得到印證,Claude Opus 4.1的輸入/輸出定價(jià)為每百萬(wàn)Token 15美元/75美元,而Claude Opus 4.5/4.6目前的定價(jià)僅為每百萬(wàn)Token 5美元/25美元,價(jià)格直接降至原先的三分之一。

作者也提到,Claude Opus 4/4.1參數(shù)量大概率在5T-6T左右。

除了已發(fā)布模型的模型外,前幾天Anthropic團(tuán)隊(duì)因權(quán)限配置失誤,把自家未發(fā)布模型泄露了。

模型Claude Mythos(內(nèi)部代號(hào)Capybara)。

泄露文件中,曾多次使用質(zhì)的飛躍這種說(shuō)法來(lái)形容Mythos,在具體能力上,相較于Claude Opus 4.6,Mythos在軟件編碼、學(xué)術(shù)推理和網(wǎng)絡(luò)安全等測(cè)試中的得分顯著更高。

Claude Mythos,被稱(chēng)為是迄今為止公司開(kāi)發(fā)過(guò)的最強(qiáng)大的AI模型。



傳言稱(chēng)模型參數(shù)達(dá)10T。

參考鏈接:
[1]https://x.com/lifetimization/status/2042285703162397167
[2]https://www.reddit.com/r/ClaudeAI/comments/1ixuxln/estimate_of_model_size_for_claude_37/
[3]https://lifearchitect.substack.com/p/the-memo-special-edition-claude-3
[4]https://arxiv.org/pdf/2412.19260v1
[5]https://medium.com/@bob.mashouf/claude-4-vs-llama-4-benchmarking-55b99c17d3f7
[6]https://news.ycombinator.com/item?id=47319205
[7]https://unexcitedneurons.substack.com/p/estimating-the-size-of-claude-opus

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

中國(guó)的“性蕭條”時(shí)代,正式到來(lái)了

律法刑道
2025-12-15 08:28:58
相親才發(fā)現(xiàn),有人一直單身都是有原因的!網(wǎng)友:精神受到了傷害

相親才發(fā)現(xiàn),有人一直單身都是有原因的!網(wǎng)友:精神受到了傷害

另子維愛(ài)讀史
2026-04-08 17:00:44
2009年杭州70碼事件:富二代撞死浙大畢業(yè)生,最后賠了多少錢(qián)?

2009年杭州70碼事件:富二代撞死浙大畢業(yè)生,最后賠了多少錢(qián)?

一口娛樂(lè)
2026-04-10 17:15:50
2026年3月-4月,烏克蘭正在從“不輸”走向“能贏”

2026年3月-4月,烏克蘭正在從“不輸”走向“能贏”

高博新視野
2026-04-10 06:30:09
恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

溫讀史
2026-04-08 17:38:05
豪取18連勝!隨著上海119-116力克福建,這4人堪稱(chēng)贏球絕對(duì)功臣!

豪取18連勝!隨著上海119-116力克福建,這4人堪稱(chēng)贏球絕對(duì)功臣!

田先生籃球
2026-04-10 22:22:13
雷霆狂休10人送溫暖,約基奇為MVP硬撐上場(chǎng)

雷霆狂休10人送溫暖,約基奇為MVP硬撐上場(chǎng)

體育硬核說(shuō)
2026-04-10 17:23:58
俄寡頭:普京將在一月內(nèi)對(duì)烏發(fā)動(dòng)核打擊,發(fā)射一枚2萬(wàn)噸當(dāng)量核彈

俄寡頭:普京將在一月內(nèi)對(duì)烏發(fā)動(dòng)核打擊,發(fā)射一枚2萬(wàn)噸當(dāng)量核彈

安珈使者啊
2026-04-10 11:51:43
戴森,造了個(gè)丑東西...

戴森,造了個(gè)丑東西...

放毒
2026-04-09 14:01:34
陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

獵云網(wǎng)
2026-03-19 15:28:10
張雪峰去世15天后,雙豐園餃子鋪臨時(shí)閉店,老板透露已經(jīng)身心俱疲

張雪峰去世15天后,雙豐園餃子鋪臨時(shí)閉店,老板透露已經(jīng)身心俱疲

手工制作阿殲
2026-04-10 18:01:18
美國(guó)安插在中國(guó)多年的間諜頭子,居然是人人都想送錦旗的大善人。

美國(guó)安插在中國(guó)多年的間諜頭子,居然是人人都想送錦旗的大善人。

阿七說(shuō)史
2026-03-26 15:52:30
巴黎FC 4-1摩納哥,伊科內(nèi)雙響,因莫比萊建功

巴黎FC 4-1摩納哥,伊科內(nèi)雙響,因莫比萊建功

懂球帝
2026-04-11 03:12:08
2026年五一放假通知:1個(gè)壞消息,2個(gè)好消息,3點(diǎn)要注意

2026年五一放假通知:1個(gè)壞消息,2個(gè)好消息,3點(diǎn)要注意

小談食刻美食
2026-04-10 20:50:28
陰霾散盡!4月中旬好運(yùn)悄然降臨的3生肖,吉星高照偏門(mén)來(lái)財(cái)

陰霾散盡!4月中旬好運(yùn)悄然降臨的3生肖,吉星高照偏門(mén)來(lái)財(cái)

毅談生肖
2026-04-10 11:21:51
俄烏戰(zhàn)場(chǎng)傳來(lái)血的教訓(xùn),我們最先進(jìn)的殲20,不能再抱著火箭彈不放

俄烏戰(zhàn)場(chǎng)傳來(lái)血的教訓(xùn),我們最先進(jìn)的殲20,不能再抱著火箭彈不放

安安說(shuō)
2026-03-28 11:54:14
馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

馬伊琍公布喜訊不到24小時(shí),文章高調(diào)求"復(fù)合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
特朗普連線(xiàn)繞月飛船:講話(huà)后冷場(chǎng)1分鐘,宇航員問(wèn)NASA局長(zhǎng)“通話(huà)是否中斷”

特朗普連線(xiàn)繞月飛船:講話(huà)后冷場(chǎng)1分鐘,宇航員問(wèn)NASA局長(zhǎng)“通話(huà)是否中斷”

紅星新聞
2026-04-09 12:44:22
6月1日交強(qiáng)險(xiǎn)新政落地!950元一刀切取消,老司機(jī)保費(fèi)直降一半

6月1日交強(qiáng)險(xiǎn)新政落地!950元一刀切取消,老司機(jī)保費(fèi)直降一半

劉哥談體育
2026-04-11 02:05:47
悲催!網(wǎng)傳有女生舉報(bào)送桶裝水的大爺進(jìn)出女宿舍,現(xiàn)抱怨搬水太累

悲催!網(wǎng)傳有女生舉報(bào)送桶裝水的大爺進(jìn)出女宿舍,現(xiàn)抱怨搬水太累

火山詩(shī)話(huà)
2026-04-10 11:12:20
2026-04-11 03:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12455文章數(shù) 176448關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

特朗普:美軍艦已裝最先進(jìn)武器 未來(lái)24小時(shí)成關(guān)鍵窗口

頭條要聞

特朗普:美軍艦已裝最先進(jìn)武器 未來(lái)24小時(shí)成關(guān)鍵窗口

體育要聞

17歲賺了一百萬(wàn)美元,25歲被CBA裁員

娛樂(lè)要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開(kāi)經(jīng)濟(jì)形勢(shì)專(zhuān)家和企業(yè)家座談會(huì)

汽車(chē)要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

態(tài)度原創(chuàng)

游戲
親子
藝術(shù)
家居
軍事航空

《霍格沃茨之遺2》傳聞2027年發(fā)售!今年有望首曝

親子要聞

孩子近視怎么防、不愛(ài)刷牙怎么辦?專(zhuān)家現(xiàn)場(chǎng)拆解4大防護(hù)舉措

藝術(shù)要聞

深圳頂級(jí)海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

軍事要聞

特朗普:對(duì)美國(guó)與伊朗達(dá)成和平協(xié)議“非常樂(lè)觀”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版