国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Mythos核心架構(gòu)開源!22歲天才一人破解,融合DeepSeek思路

0
分享至


新智元報道

編輯:桃子

【新智元導(dǎo)讀】Claude Mythos核心架構(gòu),竟被一個22歲天才扒了個精光!OpenMythos現(xiàn)已全開源,不靠堆參數(shù),原地「循環(huán)思考」16次就能推理。閉源實驗室的護城河,真的還在嗎?

簡直太瘋狂了!

Anthropic捂得最嚴實的Claude Mythos,竟被一個22歲的年輕人扒開了。


不是泄露,不是內(nèi)部員工跳槽帶出來的。

是一個叫Kye Gomez的初創(chuàng)CEO,以第一性原理,硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來。

更炸裂的是,他把這一項目——OpenMythos全開源了。



復(fù)現(xiàn)帖引近100萬人圍觀

一時間,全網(wǎng)都坐不住了,網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計。




不堆參數(shù),原地「循環(huán)思考」16次

先說結(jié)論,Kye Gomez認為——

Claude Mythos的核心不是一個更大的Transformer,而是一種叫做「循環(huán)深度Transformer」(Recurrent-Depth Transformer, RDT)的架構(gòu)。

說白了就是,同一套權(quán)重,在一次前向傳播里循環(huán)跑最多16次。


傳統(tǒng)大模型像蓋高樓,一層一層往上堆參數(shù)。100層不夠就200層,200層不夠就500層。

參數(shù)越多,模型越大,顯存吃得越猛,訓(xùn)練成本越恐怖。

但RDT完全換了一個思路:不蓋高樓,原地跑圈。

模型只有一個核心計算塊,但這個塊會被反復(fù)執(zhí)行。每循環(huán)一次,隱藏狀態(tài)就更新一次,就相當(dāng)于「多想了一步」。

而且所有的思考都在連續(xù)潛空間里默默進行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。

這不是重復(fù)計算,是迭代推理。


架構(gòu)全拆解:三段式設(shè)計

整個OpenMythos的架構(gòu)分三段:

Prelude(序曲)→ Recurrent Block(循環(huán)核心)→ Coda(終章)

Prelude和Coda是標準的Transformer層,各跑一次。

真正的計算核心是中間的「循環(huán)塊」,它最多循環(huán)16次,每次循環(huán)的更新規(guī)則是:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude編碼后的原始輸入,每一步都會被重新注入,防止模型在循環(huán)中「跑偏」。


MoE給廣度,循環(huán)給深度

光靠循環(huán)能解釋Mythos推理的「深度」,但解釋不了廣度。

OpenMythos在循環(huán)核心的每個FFN層,都替換成了MoE層,設(shè)計參考了DeepSeek-MoE:

  • 大量細粒度的路由專家;

  • 每個token只激活其中一小部分;

  • 少量「共享專家」始終激活,負責(zé)吸收跨領(lǐng)域的通用知識。

最精妙的一點,隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化,路由器在每一層循環(huán)深度會選擇不同的專家子集。

也就是說,雖然權(quán)重共享,但每次循環(huán)的計算路徑完全不同:

MoE提供廣度,循環(huán)提供深度。


項目地址:https://github.com/kyegomez/OpenMythos

注意力機制默認使用「多潛變量注意力」(Multi-Latent Attention),來自DeepSeek-V2,把KV緩存壓縮成低秩潛變量,在生產(chǎn)規(guī)模下能實現(xiàn)10-20倍的KV顯存節(jié)省。

三個額外機制保證循環(huán)穩(wěn)定性:LTI約束注入(譜半徑強制小于1)、自適應(yīng)計算時間(ACT)逐位置停機、以及深度級LoRA適配器讓每次迭代都有獨立的行為調(diào)整能力。

細思極恐,這套設(shè)計精密得像一臺瑞士鐘表。

770M打平1.3B,參數(shù)效率直接翻倍

這不是嘴上說說。

此前,來自Parcae團隊的實驗數(shù)據(jù):一個770M參數(shù)的循環(huán)模型,在同等訓(xùn)練數(shù)據(jù)下,能達到1.3B標準Transformer的下游任務(wù)質(zhì)量。

換句話說——用一半的參數(shù),干了同樣的活。


這對整個行業(yè)意味著什么?

對消費級硬件來說,這是天大的利好。以前跑個像樣的模型,沒有A100你連門都進不了。

現(xiàn)在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。

更重磅的是,這徹底改寫了AI的Scaling法則。以前拼的是誰的參數(shù)多、誰的GPU多、誰的電費賬單厚。

現(xiàn)在的規(guī)則變了:未來最強的模型,不是參數(shù)最多的,而是想得最多次的。

不過,作者也表示,這目前只是理論上的說法,還需要保留一些意見。


高中畢業(yè),就當(dāng)上了CEO

這位扒開22歲Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的創(chuàng)始人,之前還領(lǐng)導(dǎo)過Agora Labs。

他的研究重點是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。


個人主頁顯示,Kye Gomez高中畢業(yè)之后,就開始投身于創(chuàng)業(yè)。


在2021年-2024年間,他同時擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO,創(chuàng)建立了一個以「APAC」為品牌的生態(tài)體系。

其覆蓋了AI深科技、媒體、食品科技等多個領(lǐng)域。


22歲小哥,開源了Anthropic神級模型

這件事最讓人震撼的,不是架構(gòu)本身有多厲害。

是一個22歲的創(chuàng)業(yè)者,只用公開論文和第一性原理,就把Anthropic藏了一年的黑箱直接復(fù)現(xiàn)了出來。

還全開源了,而且只要幾行代碼就能跑。

這意味著什么?

閉源實驗室的架構(gòu)優(yōu)勢,正在以肉眼可見的速度消失。

FT最新報道中,Dario Amodei重磅預(yù)測,中國將在12個月內(nèi),完全復(fù)刻出具備Claude Mythos級別能力的大模型。


針對外界對LLM性能是否觸及天花板的質(zhì)疑,Amode用一句富有詩意的話給出了回應(yīng)——

彩虹沒有盡頭,只有彩虹本身。

他強調(diào),目前完全看不到技術(shù)放緩的跡象。

當(dāng)一個人用公開信息就能重建最核心的技術(shù),護城河就不再是架構(gòu)了。

參考資料:

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我給侄子轉(zhuǎn)了3萬塊后忘記掛電話,聽到侄子罵我摳門,我正要發(fā)火,卻意外聽到侄女說了這樣的話

我給侄子轉(zhuǎn)了3萬塊后忘記掛電話,聽到侄子罵我摳門,我正要發(fā)火,卻意外聽到侄女說了這樣的話

不二大叔
2026-04-14 14:33:06
中國六代機雙雄問世!殲36續(xù)航碾壓,殲50三倍音速

中國六代機雙雄問世!殲36續(xù)航碾壓,殲50三倍音速

說宇宙
2026-04-20 17:51:50
現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

現(xiàn)今人倫之亂,令人揪心!多少家庭,毀在沒有邊界感

風(fēng)起見你
2026-03-04 13:50:50
40票反對,內(nèi)塔尼亞胡無可奈何,美議員:不能向以色列提供軍武

40票反對,內(nèi)塔尼亞胡無可奈何,美議員:不能向以色列提供軍武

健身狂人
2026-04-18 19:54:53
五種蛋白質(zhì),特別牛!雞蛋牛奶都比不了,常吃增強抵抗力

五種蛋白質(zhì),特別牛!雞蛋牛奶都比不了,常吃增強抵抗力

椰青美食分享
2026-04-20 06:28:43
美國華裔科學(xué)家李飛飛:若奪下諾貝爾獎,我定以中國人身份領(lǐng)獎!

美國華裔科學(xué)家李飛飛:若奪下諾貝爾獎,我定以中國人身份領(lǐng)獎!

南宗歷史
2026-04-07 17:55:41
巴托梅烏:我無法理解梅西離開巴薩,俱樂部本該更早完成續(xù)約

巴托梅烏:我無法理解梅西離開巴薩,俱樂部本該更早完成續(xù)約

懂球帝
2026-04-20 17:01:03
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

阿芒娛樂說
2026-04-20 17:28:30
陽光襯托我的美:它照亮的不只是我的臉,還有我不再躲閃的心

陽光襯托我的美:它照亮的不只是我的臉,還有我不再躲閃的心

疾跑的小蝸牛
2026-04-20 21:52:27
內(nèi)幕曝光!伊朗通報,談判團差點被“團滅”,全程連電話都不敢用

內(nèi)幕曝光!伊朗通報,談判團差點被“團滅”,全程連電話都不敢用

杰絲聊古今
2026-04-20 23:02:48
經(jīng)營不善、資金困難!贛州一樓盤停工

經(jīng)營不善、資金困難!贛州一樓盤停工

贛州曬房網(wǎng)
2026-04-20 15:44:52
千萬網(wǎng)紅劉雨鑫帶火莫氏雞煲,曬出自己的支出,90天吃掉37萬

千萬網(wǎng)紅劉雨鑫帶火莫氏雞煲,曬出自己的支出,90天吃掉37萬

科學(xué)發(fā)掘
2026-04-19 11:56:00
78歲帶400萬住養(yǎng)老院,兒子12年不聞不問,他升局長律師宣讀遺囑

78歲帶400萬住養(yǎng)老院,兒子12年不聞不問,他升局長律師宣讀遺囑

真實檔案
2026-03-24 06:56:03
英媒:中國最令人佩服的,就是美歐聯(lián)手絞殺中國光伏,竟還能翻身

英媒:中國最令人佩服的,就是美歐聯(lián)手絞殺中國光伏,竟還能翻身

杰絲聊古今
2026-04-19 01:18:49
你有沒有發(fā)現(xiàn):同學(xué)那么多,真正常聯(lián)系的,只有初中和高中同學(xué)

你有沒有發(fā)現(xiàn):同學(xué)那么多,真正常聯(lián)系的,只有初中和高中同學(xué)

夢醉為紅顏一笑
2026-03-26 13:59:08
從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

阿胡
2026-03-30 12:52:29
41歲文章徹底退圈? 上海開陜西小店躬身遞菜單,面相都變了!

41歲文章徹底退圈? 上海開陜西小店躬身遞菜單,面相都變了!

LULU生活家
2026-04-18 17:58:42
iPhone 18 Pro 多款新配色被泄露,確實好看!

iPhone 18 Pro 多款新配色被泄露,確實好看!

花果科技
2026-04-18 22:52:32
廣東內(nèi)線又被虐了!3將毫無護框能力,拉科攻強守弱,季后賽更難

廣東內(nèi)線又被虐了!3將毫無護框能力,拉科攻強守弱,季后賽更難

籃球資訊達人
2026-04-21 00:15:01
才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

小影的娛樂
2026-04-17 04:47:49
2026-04-21 02:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15021文章數(shù) 66790關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

游戲
房產(chǎn)
旅游
數(shù)碼
公開課

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

房產(chǎn)要聞

大規(guī)模商改??!??谖骱0?,這波項目要贏麻了!

旅游要聞

以“Fun”為名,深圳布吉將發(fā)布全域旅游品牌IP

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版