国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI又開(kāi)源了!僅0.4B,給模型大瘦身

0
分享至


智東西
作者 王涵
編輯 心緣

智東西12月15日?qǐng)?bào)道,昨天,OpenAI開(kāi)源新模型Circuit-Sparsity,模型參數(shù)量?jī)H0.4B,99.9%的權(quán)重為零。


▲Circuit-Sparsity開(kāi)源(來(lái)源:Hugging Face)

這個(gè)技術(shù)試圖解決模型的可解釋性問(wèn)題,簡(jiǎn)單來(lái)說(shuō)就是回答“模型為什么做出這個(gè)決策?”以及“它是如何得出這個(gè)結(jié)果的?”這兩個(gè)問(wèn)題。

在AI飛速發(fā)展的今天,大語(yǔ)言模型(LLM)雖然表現(xiàn)出了驚人的能力,但其內(nèi)部運(yùn)作機(jī)制始終像一個(gè)神秘的“黑箱”。

我們不知道它為何做出某個(gè)回答,也不清楚它是如何從海量數(shù)據(jù)中提取知識(shí)的。這種不可解釋性,成為了AI在醫(yī)療、金融、法律等高風(fēng)險(xiǎn)領(lǐng)域落地的重大障礙。

對(duì)此,OpenAI研究團(tuán)隊(duì)訓(xùn)練出了一個(gè)權(quán)重稀疏的Transformer模型,強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零,僅保留0.1%非零權(quán)重。

在這項(xiàng)研究中,研究團(tuán)隊(duì)在模型內(nèi)部形成了緊湊且可讀的“電路”(Circuits),每個(gè)電路都僅保留了保證模型性能的關(guān)鍵節(jié)點(diǎn),神經(jīng)元的激活變得具有明確的語(yǔ)義。

有外網(wǎng)網(wǎng)友稱這一技術(shù)讓當(dāng)下的MoE(混合專家模型)走到了盡頭,并說(shuō)“我們一直以來(lái)都將權(quán)重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求?!?/p>


▲外網(wǎng)評(píng)價(jià)(圖源:X)

更有網(wǎng)友將這項(xiàng)研究形容為將模型“減肥到只剩骨架”,還說(shuō)這項(xiàng)研究就好像打開(kāi)了黑匣子,不試圖解開(kāi)稠密模型而是直接構(gòu)建稀疏模型,正是這項(xiàng)研究有趣的地方。


▲外網(wǎng)評(píng)價(jià)(圖源:X)

但有些網(wǎng)友卻不這么認(rèn)為,稱其沒(méi)有看出MoE模型為何會(huì)因此走到盡頭,并進(jìn)一步解釋說(shuō)這一技術(shù)是針對(duì)XAI(可解釋AI)的,它的訓(xùn)練成本要高100-1000倍,回到“研究時(shí)代”并不意味著讓事情變得更復(fù)雜。


▲外網(wǎng)評(píng)價(jià)(圖源:X)

該模型目前受限于計(jì)算效率瓶頸,其運(yùn)算速度較密集模型慢100至1000倍,將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型,現(xiàn)階段尚不具備可行性。

開(kāi)源地址:

Github:
https://github.com/openai/circuit_sparsity

Hugging Face:

https://huggingface.co/openai/circuit-sparsity

一、訓(xùn)練稀疏Transformer,OpenAI理清模型內(nèi)部計(jì)算

要理解這項(xiàng)研究的突破,首先需要明白傳統(tǒng)大模型為何難以解釋。

在標(biāo)準(zhǔn)的密集模型(Dense Models)中,神經(jīng)網(wǎng)絡(luò)存在一種被稱為“超級(jí)位置”(Superposition)的現(xiàn)象。簡(jiǎn)單來(lái)說(shuō),為了存儲(chǔ)海量的信息,模型被迫讓單個(gè)神經(jīng)元或權(quán)重矩陣同時(shí)編碼多個(gè)完全不同的概念。

這種特征糾纏導(dǎo)致了嚴(yán)重的后果,例如模型的決策不可追溯和邏輯混亂,當(dāng)模型輸出一個(gè)結(jié)果時(shí),我們無(wú)法確定是哪個(gè)具體的“概念”在起作用。

針對(duì)以上問(wèn)題,以前的研究通常從試圖拆解密集、糾結(jié)的網(wǎng)絡(luò)開(kāi)始。但OpenAI團(tuán)隊(duì)采取了一種“反直覺(jué)”的策略,即訓(xùn)練權(quán)重稀疏的Transformer模型,強(qiáng)制模型權(quán)重矩陣中99.9%權(quán)重為零,僅保留0.1%非零權(quán)重。

強(qiáng)制模型限制了模型只能使用其神經(jīng)元之間極少的可能連接,而這一簡(jiǎn)單的更改,幾乎從根本上理清了模型的內(nèi)部計(jì)算。


▲每個(gè)神經(jīng)元只與下一個(gè)層的幾個(gè)神經(jīng)元相連(圖源:OpenAI技術(shù)博客)

具體的技術(shù)手段包括:

1、動(dòng)態(tài)剪枝與稀疏約束:在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)動(dòng)態(tài)執(zhí)行“剪枝”操作,每一步優(yōu)化后僅保留絕對(duì)值最大的權(quán)重(Top-K稀疏化)。

2、激活稀疏化:在殘差流、注意力鍵/值矩陣等關(guān)鍵位置,研究團(tuán)隊(duì)引入了AbsTopK激活函數(shù),強(qiáng)制僅保留前25%的激活值。

3、架構(gòu)微調(diào):為了配合稀疏化,研究團(tuán)隊(duì)用RMSNorm替代了傳統(tǒng)的LayerNorm,避免歸一化操作破壞稀疏性,同時(shí)引入了“Bigram表”來(lái)處理簡(jiǎn)單的模式匹配,從而釋放模型的主干容量去處理復(fù)雜的邏輯推理。

二、模型內(nèi)部形成緊湊可讀的“電路”,規(guī)??s減16倍

這項(xiàng)技術(shù)的最大成果,是模型內(nèi)部形成了緊湊且可讀的“電路”(Circuits)。

在傳統(tǒng)密集模型中,完成一個(gè)任務(wù)可能需要成千上萬(wàn)個(gè)節(jié)點(diǎn)協(xié)同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團(tuán)隊(duì)觀察到了極簡(jiǎn)的計(jì)算路徑:

1、極簡(jiǎn)的邏輯單元:例如在處理“字符串閉合”任務(wù)時(shí),模型僅用12個(gè)節(jié)點(diǎn)就構(gòu)建了一個(gè)完美的電路,清晰地展示了它是如何檢測(cè)單引號(hào)或雙引號(hào)是否閉合的。

2、可讀的特征:神經(jīng)元的激活變得具有明確的語(yǔ)義。研究人員發(fā)現(xiàn)了一些神經(jīng)元專門負(fù)責(zé)檢測(cè)“單引號(hào)”,另一些則像“計(jì)數(shù)器”一樣精確地追蹤列表的嵌套深度。

3、規(guī)??s減16倍:對(duì)比實(shí)驗(yàn)顯示,在相同的任務(wù)損失下,稀疏模型的電路規(guī)模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個(gè)數(shù)量級(jí)。


▲稀疏模型的電路規(guī)模比密集模型小了16倍(圖源:OpenAI技術(shù)論文)

為了驗(yàn)證這些電路的真實(shí)性,團(tuán)隊(duì)進(jìn)行了“均值消融”實(shí)驗(yàn)。結(jié)果證明,移除非電路節(jié)點(diǎn)對(duì)任務(wù)幾乎沒(méi)有影響,而一旦移除電路中的關(guān)鍵節(jié)點(diǎn),模型性能就會(huì)瞬間崩塌。這證實(shí)了這些電路確實(shí)是模型執(zhí)行任務(wù)的“必經(jīng)之路”。


▲“均值消融”實(shí)驗(yàn)(圖源:OpenAI技術(shù)論文)

三、稀疏模型解讀力強(qiáng)但速度慢千倍,OpenAI提出“橋梁網(wǎng)絡(luò)”

為了測(cè)量稀疏模型計(jì)算的解耦程度。研究團(tuán)隊(duì)設(shè)計(jì)了一套簡(jiǎn)單的算法任務(wù)。對(duì)于每個(gè)模型,他們都將其剪裁成了仍能執(zhí)行該任務(wù)的最小電路,并檢查了該電路的簡(jiǎn)潔程度。

研究團(tuán)隊(duì)發(fā)現(xiàn),用規(guī)模更大、稀疏度更高的模型進(jìn)行訓(xùn)練后,就能夠依托結(jié)構(gòu)更簡(jiǎn)潔的電路,構(gòu)建出性能更強(qiáng)的模型。


▲模型的可解釋性與能力的對(duì)比圖(圖源:OpenAI技術(shù)博客)

從模型可解釋性與性能的對(duì)比圖可見(jiàn),在稀疏模型規(guī)模固定的前提下,提升稀疏性,也就是將更多權(quán)重置零,雖會(huì)導(dǎo)致模型性能有所下降,但能顯著增強(qiáng)其可解釋性。

盡管稀疏模型在可解釋性方面優(yōu)勢(shì)突出,但其應(yīng)用目前受限于計(jì)算效率瓶頸:稀疏矩陣運(yùn)算無(wú)法借助Tensor Cores實(shí)現(xiàn)加速,運(yùn)算速度較密集模型慢100至1000倍。這意味著,將該技術(shù)直接應(yīng)用于千億參數(shù)級(jí)別的前沿大模型,現(xiàn)階段尚不具備可行性。

為此,研究團(tuán)隊(duì)提出了“橋梁網(wǎng)絡(luò)”(Bridges)方案:

1、編碼-解碼映射:在稀疏模型與預(yù)訓(xùn)練的密集模型之間插入一個(gè)編碼器-解碼器對(duì)。

2、跨模型干預(yù):編碼器將密集模型的激活映射到稀疏空間,解碼器則反向轉(zhuǎn)換。

“橋梁網(wǎng)絡(luò)”(Bridges)方案可以在“透明”的稀疏模型上修改某個(gè)特征,然后通過(guò)橋梁將這種擾動(dòng)映射回“黑箱”的密集模型,從而實(shí)現(xiàn)對(duì)現(xiàn)有大模型的可解釋性行為編輯。

結(jié)語(yǔ):OpenAI提出稀疏化新路徑,讓大模型從“黑箱”走向“可解釋”

OpenAI研究團(tuán)隊(duì)的這項(xiàng)研究,標(biāo)志著AI可解釋性領(lǐng)域的一項(xiàng)重要突破,也印證了理解AI并非遙不可及的目標(biāo)。

研究團(tuán)隊(duì)在論文博客中稱,這項(xiàng)工作是邁向更宏大目標(biāo)的早期探索。接下來(lái),他們計(jì)劃將相關(guān)技術(shù)擴(kuò)展至更大規(guī)模的模型,同時(shí)進(jìn)一步解釋更多模型的行為邏輯。

為解決稀疏模型訓(xùn)練效率低下的問(wèn)題,團(tuán)隊(duì)提出了兩個(gè)后續(xù)研究方向:一是從現(xiàn)有密集模型中提取稀疏電路,替代“從頭訓(xùn)練稀疏模型”的傳統(tǒng)方式;二是研發(fā)更高效的可解釋性模型訓(xùn)練技術(shù),推動(dòng)相關(guān)技術(shù)更易落地生產(chǎn)。

“我們的目標(biāo)是逐步擴(kuò)大可可靠解釋的模型范圍,同時(shí)打造相關(guān)工具,讓未來(lái)的AI系統(tǒng)更易于分析、調(diào)試與評(píng)估?!毖芯繄F(tuán)隊(duì)在論文博客中寫道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

軍迷戰(zhàn)情室
2025-12-17 21:26:46
不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

觀察者網(wǎng)
2025-12-18 13:55:08
網(wǎng)傳宋丹丹年輕時(shí)曾追求過(guò)許亞軍,端著飯盒追,卻還是被對(duì)方拒絕

網(wǎng)傳宋丹丹年輕時(shí)曾追求過(guò)許亞軍,端著飯盒追,卻還是被對(duì)方拒絕

小徐講八卦
2025-12-19 12:08:43
社會(huì)主義中國(guó)不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足球大腕
2025-12-18 20:30:12
奔馳搭載吉利發(fā)動(dòng)機(jī) 中國(guó)動(dòng)力首次搭上德系車

奔馳搭載吉利發(fā)動(dòng)機(jī) 中國(guó)動(dòng)力首次搭上德系車

中車網(wǎng)評(píng)
2025-12-18 08:42:48
日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

我真的服
2025-12-19 15:16:10
出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

千言?shī)蕵?lè)記
2025-12-13 18:34:13
雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動(dòng)

雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動(dòng)

極目新聞
2025-12-19 12:40:19
照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個(gè)月曾遲到10次

照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個(gè)月曾遲到10次

極目新聞
2025-12-19 10:33:43
印度首富300斤兒子款待梅西,邀球星去動(dòng)物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動(dòng)物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個(gè)面包貴不貴?

黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個(gè)面包貴不貴?

揚(yáng)子晚報(bào)
2025-12-19 15:20:32
2026年慢病新規(guī)!對(duì)60/80歲以上老人開(kāi)藥有精準(zhǔn)傾斜

2026年慢病新規(guī)!對(duì)60/80歲以上老人開(kāi)藥有精準(zhǔn)傾斜

慧眼看世界哈哈
2025-12-17 05:55:37
僅26歲帥哥睡夢(mèng)中離世,開(kāi)奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒(méi)了

僅26歲帥哥睡夢(mèng)中離世,開(kāi)奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒(méi)了

鋭娛之樂(lè)
2025-12-19 08:16:38
搶手!中國(guó)男足4大悍將轉(zhuǎn)會(huì),1人曾打服日本球隊(duì),如今成自由球員

搶手!中國(guó)男足4大悍將轉(zhuǎn)會(huì),1人曾打服日本球隊(duì),如今成自由球員

國(guó)足風(fēng)云
2025-12-19 16:00:14
全家移民真相大白2年,享正師級(jí)待遇的潘長(zhǎng)江,已走上另一條大道

全家移民真相大白2年,享正師級(jí)待遇的潘長(zhǎng)江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
米體:國(guó)米已前往沙特,小因扎吉希望與國(guó)米球員及管理層會(huì)面

米體:國(guó)米已前往沙特,小因扎吉希望與國(guó)米球員及管理層會(huì)面

懂球帝
2025-12-18 20:11:26
真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過(guò)往

真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過(guò)往

真實(shí)人物采訪
2025-12-17 21:00:03
21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

阿天愛(ài)旅行
2025-12-17 00:16:32
6位鑒定專家均過(guò)世,南博事件陷入死結(jié)

6位鑒定專家均過(guò)世,南博事件陷入死結(jié)

梳子姐
2025-12-19 13:01:25
2025-12-19 17:28:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10941文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
親子
教育
公開(kāi)課

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

手機(jī)要聞

30年果粉兌換禮品卡后被封號(hào):用了25年的Apple ID被永久停用

親子要聞

金寶貝獲“2025年度綜合實(shí)力兒童教育品牌”引領(lǐng)科學(xué)早教創(chuàng)新實(shí)踐

教育要聞

中考數(shù)學(xué)壓軸題,不少人交白卷,很難嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版