国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Arcee AI發(fā)布Trinity Large:400B超稀疏模型定義AI效率新邊界

0
分享至


這項(xiàng)由Arcee AI聯(lián)合Prime Intellect和DatologyAI共同完成的研究發(fā)表于2026年2月,是目前業(yè)界最大規(guī)模的開源混合專家語(yǔ)言模型之一。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2602.17004v1查詢完整論文。

在人工智能的發(fā)展歷程中,我們總是面臨一個(gè)兩難困境:要么擁有強(qiáng)大但笨重的模型,要么選擇輕便但能力有限的版本。就像汽車工業(yè)一樣,人們既想要跑車的性能,又希望有小轎車的油耗。Arcee AI團(tuán)隊(duì)帶來(lái)的Trinity Large模型系列,正試圖打破這個(gè)看似不可調(diào)和的矛盾。

Trinity家族包含三個(gè)成員:最小的Trinity Nano擁有6B總參數(shù)但每次只激活1B,中等的Trinity Mini有26B總參數(shù)激活3B,而旗艦版Trinity Large則擁有驚人的400B總參數(shù)但每次僅激活13B。這種設(shè)計(jì)理念就像一座巨大的圖書館,雖然藏書豐富,但讀者每次只需要查閱相關(guān)的幾個(gè)書架,既保證了知識(shí)的廣度,又確保了查找的效率。

模型的核心創(chuàng)新在于極端稀疏的混合專家架構(gòu)。傳統(tǒng)的AI模型就像一個(gè)全能工人,每項(xiàng)任務(wù)都要?jiǎng)佑萌考寄堋6鳷rinity采用的混合專家系統(tǒng)更像一個(gè)專業(yè)團(tuán)隊(duì):有編程專家、數(shù)學(xué)專家、語(yǔ)言專家等等,每當(dāng)遇到具體問(wèn)題時(shí),只調(diào)用最相關(guān)的幾位專家來(lái)解決,其他專家則保持待機(jī)狀態(tài)。這種方式不僅提高了效率,還讓每個(gè)專家能夠更專注于自己擅長(zhǎng)的領(lǐng)域。

Trinity模型的架構(gòu)設(shè)計(jì)體現(xiàn)了多項(xiàng)技術(shù)突破。研究團(tuán)隊(duì)采用了交錯(cuò)的局部和全局注意力機(jī)制,這就像人類閱讀時(shí)的視覺(jué)模式:既有聚焦細(xì)節(jié)的局部視野,又有把握全局的宏觀視角。局部注意力負(fù)責(zé)處理相鄰信息之間的關(guān)系,而全局注意力則確保模型能夠理解長(zhǎng)距離的依賴關(guān)系。這種設(shè)計(jì)讓模型在處理長(zhǎng)文本時(shí)既保持了精確性,又大大提高了處理效率。

在專家負(fù)載均衡方面,Trinity Large引入了一種名為SMEBU(軟鉗制動(dòng)量專家偏置更新)的新方法。傳統(tǒng)的負(fù)載均衡就像交通信號(hào)燈,只能簡(jiǎn)單地紅綠切換。而SMEBU更像智能交通管制系統(tǒng),能夠根據(jù)實(shí)時(shí)交通流量動(dòng)態(tài)調(diào)整,確保各個(gè)專家的工作負(fù)載保持相對(duì)均衡,避免某些專家過(guò)度工作而其他專家閑置的情況。

模型訓(xùn)練使用了創(chuàng)新的Muon優(yōu)化器,這個(gè)優(yōu)化器的特點(diǎn)是能夠支持更大的批次大小并提高樣本效率。如果把傳統(tǒng)的AdamW優(yōu)化器比作小火慢燉,那么Muon就像是高壓鍋烹飪,能夠在保持食物營(yíng)養(yǎng)的同時(shí)大大縮短烹飪時(shí)間。Trinity Nano和Trinity Mini各使用了10萬(wàn)億個(gè)訓(xùn)練標(biāo)記,而Trinity Large則使用了17萬(wàn)億個(gè)標(biāo)記進(jìn)行訓(xùn)練。

在數(shù)據(jù)處理方面,研究團(tuán)隊(duì)開發(fā)了一套完整的數(shù)據(jù)策劃管道。DatologyAI團(tuán)隊(duì)生成了超過(guò)8萬(wàn)億個(gè)合成數(shù)據(jù)標(biāo)記,這相當(dāng)于重新創(chuàng)造了互聯(lián)網(wǎng)文本內(nèi)容的很大一部分。這些合成數(shù)據(jù)不是簡(jiǎn)單的復(fù)制,而是通過(guò)改寫、格式轉(zhuǎn)換、風(fēng)格修飾等多種方法,從高質(zhì)量種子文檔生成的多樣化內(nèi)容。就像一位經(jīng)驗(yàn)豐富的編輯,能夠?qū)⑼粋€(gè)故事用不同的風(fēng)格和角度重新敘述,每個(gè)版本都保持原有的價(jià)值同時(shí)增加新的視角。

Trinity模型在訓(xùn)練過(guò)程中展現(xiàn)出了令人印象深刻的穩(wěn)定性。從訓(xùn)練損失圖可以看到,整個(gè)17萬(wàn)億標(biāo)記的訓(xùn)練過(guò)程中沒(méi)有出現(xiàn)任何損失尖峰,這在大規(guī)模語(yǔ)言模型訓(xùn)練中是相當(dāng)罕見的成就。研究團(tuán)隊(duì)將這歸功于多個(gè)設(shè)計(jì)決策的協(xié)同作用:包括新的負(fù)載均衡策略、深度縮放的夾心歸一化、QK歸一化、門控注意力機(jī)制等。

在上下文擴(kuò)展能力方面,Trinity展現(xiàn)出了杰出的表現(xiàn)。Trinity Nano能夠處理256K長(zhǎng)度的上下文,Trinity Mini支持128K,而Trinity Large則能夠處理高達(dá)512K的上下文長(zhǎng)度。更令人驚喜的是,Trinity Large在未經(jīng)過(guò)1M長(zhǎng)度訓(xùn)練的情況下,仍能在百萬(wàn)token的上下文中取得不錯(cuò)的表現(xiàn)。這就像一個(gè)習(xí)慣了閱讀短篇小說(shuō)的人,突然發(fā)現(xiàn)自己也能夠理解長(zhǎng)篇巨著的復(fù)雜情節(jié)。

模型的評(píng)估結(jié)果顯示了其在各個(gè)維度上的優(yōu)秀表現(xiàn)。在編程任務(wù)MBPP+上,Trinity Large Base達(dá)到了88.62%的準(zhǔn)確率,在數(shù)學(xué)推理Minerva MATH500上取得了65.20%的成績(jī)。在常識(shí)推理任務(wù)HellaSwag上達(dá)到90.11%,在知識(shí)問(wèn)答MMLU上獲得82.58%的分?jǐn)?shù)。這些分?jǐn)?shù)表明Trinity Large不僅在單一任務(wù)上表現(xiàn)出色,而且具備了全面的綜合能力。

特別值得關(guān)注的是Trinity的推理效率。在相同硬件配置下,Trinity Large的推理速度顯著優(yōu)于同等規(guī)模的密集模型。這種效率提升主要來(lái)源于其稀疏激活的設(shè)計(jì)理念。每次推理時(shí),模型只需要激活13B參數(shù)而不是全部400B參數(shù),這大大減少了計(jì)算需求和內(nèi)存占用。

在實(shí)際應(yīng)用場(chǎng)景中,Trinity模型展現(xiàn)出了強(qiáng)大的實(shí)用價(jià)值。模型支持多種部署配置,從單GPU到多GPU集群都能夠有效運(yùn)行。研究團(tuán)隊(duì)使用了專門優(yōu)化的訓(xùn)練框架TorchTitan,并采用了混合分片數(shù)據(jù)并行和專家并行的策略,確保了訓(xùn)練和推理的高效性。

Trinity模型的tokenizer設(shè)計(jì)也體現(xiàn)了細(xì)致的工程考量。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)包含20萬(wàn)詞匯的BPE tokenizer,特別優(yōu)化了數(shù)字和多語(yǔ)言文本的處理。對(duì)于數(shù)字,他們采用了位對(duì)齊的分塊策略,確保每個(gè)三位數(shù)token代表固定的位置值,這大大提高了模型的數(shù)學(xué)運(yùn)算能力。

訓(xùn)練數(shù)據(jù)的多階段設(shè)計(jì)體現(xiàn)了現(xiàn)代AI訓(xùn)練的最佳實(shí)踐。整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段,每個(gè)階段都調(diào)整了數(shù)據(jù)混合比例,逐漸增加代碼、數(shù)學(xué)和科學(xué)內(nèi)容的占比。這種漸進(jìn)式的訓(xùn)練方式就像學(xué)生的學(xué)習(xí)過(guò)程,先打好基礎(chǔ),再逐步深入專業(yè)領(lǐng)域。

研究團(tuán)隊(duì)在訓(xùn)練過(guò)程中遇到了一些挑戰(zhàn),特別是在模型穩(wěn)定性方面。初期的訓(xùn)練嘗試中出現(xiàn)了專家負(fù)載不均和路由行為漂移的問(wèn)題。通過(guò)引入SMEBU負(fù)載均衡、采用Z損失穩(wěn)定訓(xùn)練、增加密集層數(shù)量、使用文檔內(nèi)注意力掩碼等多重措施,最終實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練過(guò)程。

Trinity模型的開源發(fā)布對(duì)AI社區(qū)具有重要意義。作為目前最大規(guī)模的開源混合專家模型之一,它為研究人員和開發(fā)者提供了寶貴的資源。模型的完整技術(shù)細(xì)節(jié)和訓(xùn)練經(jīng)驗(yàn)的分享,將有助于推動(dòng)整個(gè)領(lǐng)域的發(fā)展。

從技術(shù)發(fā)展趨勢(shì)來(lái)看,Trinity代表了大語(yǔ)言模型發(fā)展的一個(gè)重要方向:通過(guò)稀疏激活實(shí)現(xiàn)規(guī)模和效率的平衡。這種設(shè)計(jì)理念可能會(huì)影響未來(lái)AI模型的架構(gòu)選擇,特別是在資源受限的部署環(huán)境中。

Trinity模型的成功也證明了開放協(xié)作的價(jià)值。Arcee AI、Prime Intellect和DatologyAI三個(gè)團(tuán)隊(duì)的協(xié)作,結(jié)合了各自在模型架構(gòu)、基礎(chǔ)設(shè)施和數(shù)據(jù)處理方面的專長(zhǎng),最終實(shí)現(xiàn)了技術(shù)突破。這種跨組織的合作模式可能成為未來(lái)大規(guī)模AI項(xiàng)目的典型范例。

展望未來(lái),Trinity模型的技術(shù)路線圖指向了兩個(gè)重要方向:更高的稀疏度和更大的批次訓(xùn)練。研究團(tuán)隊(duì)認(rèn)為,通過(guò)改進(jìn)負(fù)載均衡和路由算法,可以實(shí)現(xiàn)更極端的稀疏化,同時(shí)通過(guò)算法創(chuàng)新推高關(guān)鍵批次大小,從而實(shí)現(xiàn)更高效的訓(xùn)練和更好的硬件利用率。

說(shuō)到底,Trinity Large的發(fā)布不僅僅是一個(gè)技術(shù)里程碑,更代表了AI發(fā)展理念的轉(zhuǎn)變。它告訴我們,在追求模型能力的同時(shí),效率和可訪問(wèn)性同樣重要。通過(guò)巧妙的架構(gòu)設(shè)計(jì)和工程優(yōu)化,我們可以讓強(qiáng)大的AI能力變得更加經(jīng)濟(jì)和實(shí)用。這種平衡性的追求,可能正是未來(lái)AI技術(shù)走向成熟和普及的關(guān)鍵所在。

Q&A

Q1:Trinity Large模型相比傳統(tǒng)大語(yǔ)言模型有什么優(yōu)勢(shì)?

A:Trinity Large的最大優(yōu)勢(shì)是稀疏激活設(shè)計(jì),雖然總參數(shù)達(dá)400B,但每次推理只激活13B參數(shù),就像一個(gè)大圖書館中只查閱相關(guān)書架。這種設(shè)計(jì)既保證了模型的強(qiáng)大能力,又大幅提高了推理效率,相比同等規(guī)模的密集模型速度更快、資源消耗更少。

Q2:什么是混合專家系統(tǒng),為什么Trinity要使用這種架構(gòu)?

A:混合專家系統(tǒng)就像一個(gè)專業(yè)團(tuán)隊(duì),包含編程、數(shù)學(xué)、語(yǔ)言等各種專家。當(dāng)處理具體任務(wù)時(shí),只調(diào)用最相關(guān)的幾位專家,其他專家保持待機(jī)。Trinity使用這種架構(gòu)是因?yàn)樗茏屆總€(gè)專家更專注于擅長(zhǎng)領(lǐng)域,提高整體效率的同時(shí)保持強(qiáng)大的綜合能力。

Q3:Trinity模型支持多長(zhǎng)的上下文處理能力?

A:Trinity家族的上下文處理能力各不相同:Trinity Nano支持256K token,Trinity Mini支持128K token,Trinity Large支持512K token。更令人驚喜的是,Trinity Large在未經(jīng)過(guò)百萬(wàn)token訓(xùn)練的情況下,仍能在1M長(zhǎng)度的上下文中取得不錯(cuò)表現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)、以色列和伊朗,咋又打起來(lái)了?

美國(guó)、以色列和伊朗,咋又打起來(lái)了?

混知
2026-02-28 17:14:20
說(shuō)5%,就5%

說(shuō)5%,就5%

凱利經(jīng)濟(jì)觀察
2026-02-28 12:32:00
中雨大雨暴雨!廣州最高8級(jí)大風(fēng)

中雨大雨暴雨!廣州最高8級(jí)大風(fēng)

廣州生活美食圈
2026-02-28 11:40:39
《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

小丸子的娛樂(lè)圈
2026-02-27 17:57:58
再吹捧這種國(guó)產(chǎn)爛片,內(nèi)娛真沒(méi)救了

再吹捧這種國(guó)產(chǎn)爛片,內(nèi)娛真沒(méi)救了

娛樂(lè)圈十三太保
2026-02-28 17:22:44
1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

南權(quán)先生
2026-02-26 15:38:59
2026兩會(huì)即將召開,霍啟剛遭央媒點(diǎn)名,信息量大,郭晶晶放心了

2026兩會(huì)即將召開,霍啟剛遭央媒點(diǎn)名,信息量大,郭晶晶放心了

動(dòng)物奇奇怪怪
2026-02-28 09:29:30
2月24號(hào),據(jù)路透社報(bào)道的消息,伊朗已經(jīng)接近與中方達(dá)成一項(xiàng)協(xié)議

2月24號(hào),據(jù)路透社報(bào)道的消息,伊朗已經(jīng)接近與中方達(dá)成一項(xiàng)協(xié)議

百態(tài)人間
2026-02-26 15:31:05
懸念不大!本賽季具備奪冠資格球隊(duì),滿打滿算有4支,4大豪門出局

懸念不大!本賽季具備奪冠資格球隊(duì),滿打滿算有4支,4大豪門出局

毒舌NBA
2026-02-28 16:46:39
勝利和你無(wú)關(guān),與2.5億頂薪說(shuō)再見!火箭皮蓬,離交易不遠(yuǎn)了

勝利和你無(wú)關(guān),與2.5億頂薪說(shuō)再見!火箭皮蓬,離交易不遠(yuǎn)了

毒舌NBA
2026-02-28 06:02:24
伊朗發(fā)布最新1號(hào)公告!將啟動(dòng)大規(guī)模報(bào)復(fù)行動(dòng),以色列總理發(fā)聲

伊朗發(fā)布最新1號(hào)公告!將啟動(dòng)大規(guī)模報(bào)復(fù)行動(dòng),以色列總理發(fā)聲

Ck的蜜糖
2026-02-28 19:39:16
南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

穿透
2026-02-27 11:40:39
中俄朝3國(guó)都明白了,打美軍航母不重要了:必須先打日本導(dǎo)彈基地

中俄朝3國(guó)都明白了,打美軍航母不重要了:必須先打日本導(dǎo)彈基地

人生就是要簡(jiǎn)單
2026-01-30 08:22:46
表演型“甩鍋”?高市早苗當(dāng)眾施壓下屬“別讓我丟人”引爭(zhēng)議,被批“典型的職場(chǎng)霸凌”

表演型“甩鍋”?高市早苗當(dāng)眾施壓下屬“別讓我丟人”引爭(zhēng)議,被批“典型的職場(chǎng)霸凌”

環(huán)球網(wǎng)資訊
2026-02-28 09:55:20
從全球第一到業(yè)績(jī)腰斬!公牛集團(tuán)被房地產(chǎn)拖垮,十幾億準(zhǔn)備跑路

從全球第一到業(yè)績(jī)腰斬!公牛集團(tuán)被房地產(chǎn)拖垮,十幾億準(zhǔn)備跑路

小熊侃史
2026-01-08 07:55:06
確認(rèn)了!胡明軒二次落選!中國(guó)男籃公布12人名單

確認(rèn)了!胡明軒二次落選!中國(guó)男籃公布12人名單

籃球?qū)崙?zhàn)寶典
2026-02-28 19:05:07
特朗普呼吁伊朗人在美國(guó)軍事行動(dòng)結(jié)束后“接管政府”

特朗普呼吁伊朗人在美國(guó)軍事行動(dòng)結(jié)束后“接管政府”

澎湃新聞
2026-02-28 17:13:04
劉濤腹部的贅肉十分常見,生過(guò)孩子的都應(yīng)該有的吧?明星也不例外

劉濤腹部的贅肉十分常見,生過(guò)孩子的都應(yīng)該有的吧?明星也不例外

手工制作阿殲
2026-02-28 14:57:21
小托馬斯:當(dāng)一切結(jié)束時(shí),杜蘭特會(huì)是歷史得分榜第二

小托馬斯:當(dāng)一切結(jié)束時(shí),杜蘭特會(huì)是歷史得分榜第二

林子說(shuō)事
2026-02-28 15:27:13
中國(guó)隊(duì)逆轉(zhuǎn)次日,“日本主場(chǎng)哨”登熱搜,外國(guó)球迷質(zhì)疑裁判

中國(guó)隊(duì)逆轉(zhuǎn)次日,“日本主場(chǎng)哨”登熱搜,外國(guó)球迷質(zhì)疑裁判

小徐講八卦
2026-02-28 04:59:15
2026-02-28 20:24:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

疑將燃料當(dāng)白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

頭條要聞

疑將燃料當(dāng)白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
游戲
親子
時(shí)尚
數(shù)碼

旅游要聞

1.2萬(wàn)平方米!世紀(jì)公園寵物樂(lè)園今啟用,“毛孩子”撒歡有了新去處

粉絲出錢逼官方下場(chǎng):我不信你們能打通最高難度!

親子要聞

波速球半圓平衡球

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

數(shù)碼要聞

“冠軍嚴(yán)選”:Pulsar派世預(yù)告第二代《CS》選手ZywOo聯(lián)名鼠標(biāo)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版