国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南大等提出OrthoReg:極簡(jiǎn)正交正則化,揭開任務(wù)算術(shù)的底層機(jī)制

0
分享至



南京大學(xué)碩士生劉尚格為本文第一作者;澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學(xué)高陽(yáng)教授等,為本文合作者;南京大學(xué)副教授李文斌,為本文通訊作者。

在大模型時(shí)代,微調(diào)是我們讓基礎(chǔ)模型適配下游任務(wù)的常規(guī)操作。但如果我們手頭有多個(gè)微調(diào)好的專家模型,想要把它們的能力合并到一個(gè)模型中,傳統(tǒng)的聯(lián)合訓(xùn)練不僅需要收集所有歷史數(shù)據(jù),還會(huì)帶來(lái)極其高昂的算力成本。

在不重新訓(xùn)練的情況下,如何讓一個(gè)模型同時(shí)掌握多種新技能?

近年來(lái),「任務(wù)算術(shù)」(Task Arithmetic)作為一種高效的模型合并范式異軍突起。它在無(wú)需昂貴的聯(lián)合訓(xùn)練的情況下,僅通過(guò)對(duì)模型權(quán)重進(jìn)行簡(jiǎn)單的代數(shù)加減,就能實(shí)現(xiàn)多任務(wù)能力的組合與特定知識(shí)的消除。

然而,任務(wù)算術(shù)在經(jīng)驗(yàn)上的巨大成功,卻一直伴隨著底層理論解釋的缺失。此前該領(lǐng)域的一項(xiàng)重要工作提出了「權(quán)重解耦」(Weight Disentanglement)的概念,認(rèn)為當(dāng)不同任務(wù)的權(quán)重更新在功能上互不干擾時(shí),任務(wù)算術(shù)就能成功。但這更多是對(duì)理想結(jié)果的一種現(xiàn)象學(xué)描述:究竟是預(yù)訓(xùn)練模型的什么內(nèi)在屬性,或者任務(wù)向量的什么特征,促成了這種解耦?

為了回答這一根本問(wèn)題,來(lái)自南京大學(xué)、伍倫貢大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì),試圖為任務(wù)算術(shù)建立一個(gè)更為底層的理論框架。他們提出了一種名為「任務(wù)特征特化」(Task-Feature Specialization, TFS)的理想屬性,并基于此推導(dǎo)出了現(xiàn)實(shí)中可操作的幾何約束方法 ——OrthoReg。只需在微調(diào)時(shí)引入一個(gè)極簡(jiǎn)的正交正則化項(xiàng),就能顯著提升多種基線方法的模型合并性能。

目前,該論文已被計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 2026 接收,并被評(píng)為 Oral。相關(guān)代碼、模型權(quán)重和數(shù)據(jù)集已全面開源。



  • 論文鏈接:https://arxiv.org/abs/2604.17078
  • 代碼鏈接:https://github.com/RL-MIND/OrthoReg
  • 權(quán)重鏈接:https://huggingface.co/RL-MIND/OrthoReg_checkpoints
  • Huggingface Paper: https://huggingface.co/papers/2604.17078

背景介紹:任務(wù)算術(shù)與權(quán)重解耦

為了更好地理解這項(xiàng)工作,我們先來(lái)回顧一下什么是「任務(wù)算術(shù)」。





此前,NeurIPS 2023 的一項(xiàng)重要工作(Tangent Task Arithmetic, TTA)提出了「權(quán)重解耦」(Weight Disentanglement)的概念來(lái)解釋這一現(xiàn)象。該理論認(rèn)為,如果不同任務(wù)的權(quán)重更新在功能上互不干擾(即解耦),任務(wù)算術(shù)就不會(huì)發(fā)生災(zāi)難性干擾或性能沖突。

但這引出了一個(gè)更深層的問(wèn)題:權(quán)重解耦只是對(duì)理想結(jié)果的描述,到底是什么內(nèi)在屬性導(dǎo)致了權(quán)重解耦?我們又該如何主動(dòng)構(gòu)建出能夠完美解耦的任務(wù)向量?

理論分析:從「特征特化」假設(shè)到「權(quán)重正交」推論

為了探究權(quán)重解耦的本質(zhì),本文首先構(gòu)建了一個(gè)理想化的理論模型,并提出了一個(gè)核心假設(shè):任務(wù)特征特化(Task-Feature Specialization, TFS)。

直觀地講,TFS 假設(shè)一個(gè)理想的預(yù)訓(xùn)練模型在處理不同任務(wù)時(shí),能夠智能地將不同的內(nèi)部特征(由權(quán)重矩陣的列向量表示)分配給特定的任務(wù)。例如,識(shí)別汽車的特征和識(shí)別手寫數(shù)字的特征在模型內(nèi)部是相互獨(dú)立的。

文章在神經(jīng)正切核(NTK)線性化假設(shè)下證明:

  1. TFS 是實(shí)現(xiàn)權(quán)重解耦的充分條件(見論文 Theorem 1)。這意味著,如果模型在理想狀態(tài)下能夠做到特征特化,則權(quán)重解耦自然成立,從而在底層機(jī)制上保證了不同任務(wù)向量的合并不會(huì)產(chǎn)生破壞性干擾。
  2. TFS 會(huì)自然推導(dǎo)出一個(gè)可觀測(cè)的幾何推論:權(quán)重向量正交性(WVO)(見論文 Corollary 1)。文章指出,正交性(Orthogonality)可以被視作底層特征分離(TFS)在幾何上的一種外在表現(xiàn)或觀測(cè)線索。具體而言,具備 TFS 屬性的模型,其權(quán)重矩陣在統(tǒng)計(jì)上會(huì)呈現(xiàn)出塊正交甚至列正交的結(jié)構(gòu)。

如下圖所示,文章將 TFS 視作連接功能屬性(權(quán)重解耦)與幾何屬性(權(quán)重正交)的共同根源。這一核心洞見為后續(xù)的方法設(shè)計(jì)指明了方向。



圖 - 核?論點(diǎn)概念圖

不僅是理論推導(dǎo),在預(yù)訓(xùn)練的 CLIP(ViT-B/16、ViT-B/32、ViT-L/14)模型中也真實(shí)觀察到了這一現(xiàn)象:其核心計(jì)算層(如 Transformer Block 中的投影層)的權(quán)重向量夾角,極其尖銳地集中在 90 度(如下圖所示),這為理論提供了強(qiáng)有力的經(jīng)驗(yàn)支撐。



圖 - CLIP 模型權(quán)重正交性經(jīng)驗(yàn)證據(jù)圖

現(xiàn)實(shí)挑戰(zhàn)與方法:OrthoReg 極簡(jiǎn)正交正則化





在模型合并領(lǐng)域,現(xiàn)有的解決方案大致可分為合并中(During-merging)和合并前(Pre-merging)兩類。前者試圖在合并階段設(shè)計(jì)復(fù)雜的算法來(lái)消除沖突,而本文的思路則屬于Pre-merging 方法:既然無(wú)法直接保證功能的絕對(duì)特化(TFS),我們不妨退而求其次,在微調(diào)階段主動(dòng)去約束它的幾何推論 —— 正交性,從而從源頭上打造出「天生適合合并」的模型。









圖 - OrthoReg ?法概覽圖



與現(xiàn)有方法的聯(lián)系:

此前 TTA (Tangent Task Arithmetic) 方法通過(guò)在切空間微調(diào),隱式地利用了模型的 NTK 局部性來(lái)促進(jìn)任務(wù)向量的正交。然而,TTA 依賴于極其昂貴的雅可比矩陣計(jì)算,導(dǎo)致顯存和時(shí)間開銷大幅增加。相比之下,OrthoReg 通過(guò)正則化顯式約束正交性,不僅在理論機(jī)制上與 TTA 殊途同歸,而且計(jì)算成本極低,幾乎不增加額外的訓(xùn)練負(fù)擔(dān)。

實(shí)驗(yàn)驗(yàn)證:更正交的向量,更優(yōu)的合并

文章在 8 個(gè)多領(lǐng)域的圖像分類數(shù)據(jù)集上,對(duì)多種視覺(jué) Transformer(ViT-B-32、ViT-B-16、ViT-L-14)進(jìn)行了廣泛的評(píng)估。

任務(wù)加法(Task Addition)

在將 8 個(gè)任務(wù)的模型合并為一個(gè)單一模型的測(cè)試中,OrthoReg 展現(xiàn)出了極強(qiáng)的通用性。無(wú)論是應(yīng)用于全參數(shù)微調(diào)(Non-lin. FT)、切空間微調(diào)(TTA),還是參數(shù)高效微調(diào)(ATT-FT, LoRA),OrthoReg 均能帶來(lái)一致且顯著的性能提升。



圖 - Task Addition 實(shí)驗(yàn)結(jié)果

例如,在 ViT-L-14 模型上,OrthoReg 將標(biāo)準(zhǔn)全參數(shù)微調(diào)的平均絕對(duì)準(zhǔn)確率大幅提升了 4.16 個(gè)百分點(diǎn)(從 84.07% 提升至 88.23%);而 ATT-FT 結(jié)合 OrthoReg 更是達(dá)到了 90.41% 的準(zhǔn)確率,創(chuàng)下了該基準(zhǔn)下的新高。

特別地,在衡量任務(wù)干擾程度的歸一化準(zhǔn)確率(Norm.Acc.)指標(biāo)上,ATT-FT 結(jié)合 OrthoReg 達(dá)到了 100.05%。這意味著合并后的多任務(wù)模型,其平均性能已經(jīng)完全媲美甚至微超 8 個(gè)獨(dú)立微調(diào)的專家模型,在功能層面上無(wú)限逼近了「零干擾」的理想解耦狀態(tài)。

任務(wù)消除(Task Negation)





圖 - Task Negation 實(shí)驗(yàn)結(jié)果

可視化:揭示任務(wù)向量的幾何關(guān)系

為了直觀驗(yàn)證理論,文章也計(jì)算了不同任務(wù)向量之間的余弦相似度。如下圖所示,基線方法(上排)生成的任務(wù)向量之間存在明顯的非對(duì)角線相關(guān)性(亮色色塊),說(shuō)明常規(guī)微調(diào)容易導(dǎo)致任務(wù)間特征耦合。而引入 OrthoReg 后(下排),熱力圖的非對(duì)角線區(qū)域明顯變暗。這提供了直接的經(jīng)驗(yàn)證據(jù):OrthoReg 確實(shí)通過(guò)幾何約束,促使模型學(xué)習(xí)到了更加正交、解耦的任務(wù)向量。



圖 - 任務(wù)向量余弦相似度熱?圖對(duì)?(ViT-B-16)

總結(jié)和展望

總而言之,這篇論文為「任務(wù)算術(shù)」這一模型合并技術(shù)提供了另一個(gè)視角的理論分析。

本文從一個(gè)根本性問(wèn)題出發(fā):任務(wù)算術(shù)為什么能有效?最終給出了一條清晰的因果鏈:任務(wù)特征特化(TFS)是權(quán)重解耦的充分條件,而權(quán)重向量正交性(WVO)則是 TFS 在幾何層面可觀測(cè)的外在印記。

更重要的是,這一理論洞見直接轉(zhuǎn)化為了實(shí)踐價(jià)值。由于 TFS 本身是一個(gè)抽象且難以直接約束的功能屬性,研究團(tuán)隊(duì)另辟蹊徑,轉(zhuǎn)而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量:一行公式,一個(gè)超參,即插即用,無(wú)需修改任何模型結(jié)構(gòu)或合并算法,卻能跨模型規(guī)模、跨微調(diào)范式地帶來(lái)一致的性能增益。

未來(lái),研究團(tuán)隊(duì)計(jì)劃探索更多樣化、更細(xì)粒度的正交性約束形式,以期在更復(fù)雜的多任務(wù)場(chǎng)景下實(shí)現(xiàn)更精準(zhǔn)的權(quán)重解耦。同時(shí),這種基于幾何視角的解耦思想,也有望在未來(lái)推廣至更大規(guī)模的語(yǔ)言模型和多模態(tài)大模型的知識(shí)編輯與持續(xù)學(xué)習(xí)任務(wù)中,激發(fā)更多極具潛力的研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中方宣布無(wú)視美國(guó)制裁,美媒稱史無(wú)前例,魯比奧:或追加二次制裁

中方宣布無(wú)視美國(guó)制裁,美媒稱史無(wú)前例,魯比奧:或追加二次制裁

書紀(jì)文譚
2026-05-07 15:11:53
今天,年輕人為什么喜歡馬克思

今天,年輕人為什么喜歡馬克思

中央編譯出版社
2026-05-06 17:01:49
黑龍江2名失蹤女孩已遇難,家人哭得死去活來(lái),知情人透露更多

黑龍江2名失蹤女孩已遇難,家人哭得死去活來(lái),知情人透露更多

魔都姐姐雜談
2026-05-07 13:33:32
重磅:烏克蘭再摧毀俄羅斯第二大的基里希煉油廠!

重磅:烏克蘭再摧毀俄羅斯第二大的基里希煉油廠!

項(xiàng)鵬飛
2026-05-06 16:55:21
“臺(tái)獨(dú)”頑固分子劉世芳親屬已被在大陸臺(tái)企解職

“臺(tái)獨(dú)”頑固分子劉世芳親屬已被在大陸臺(tái)企解職

界面新聞
2026-05-06 21:01:54
中國(guó)海警艦艇編隊(duì)5月7日在我釣魚島領(lǐng)海巡航

中國(guó)海警艦艇編隊(duì)5月7日在我釣魚島領(lǐng)海巡航

界面新聞
2026-05-07 17:51:05
隨著巴黎、阿森納會(huì)師歐冠決賽,金球獎(jiǎng)?wù)Q生3大熱門!領(lǐng)先姆巴佩

隨著巴黎、阿森納會(huì)師歐冠決賽,金球獎(jiǎng)?wù)Q生3大熱門!領(lǐng)先姆巴佩

球場(chǎng)沒(méi)跑道
2026-05-07 09:02:57
日本一男孩凌晨報(bào)警稱“被母親施暴”,警察叫門無(wú)回應(yīng)硬等5小時(shí),聯(lián)系上男主人后才破門,發(fā)現(xiàn)3人早已死在屋內(nèi)

日本一男孩凌晨報(bào)警稱“被母親施暴”,警察叫門無(wú)回應(yīng)硬等5小時(shí),聯(lián)系上男主人后才破門,發(fā)現(xiàn)3人早已死在屋內(nèi)

大象新聞
2026-05-07 16:46:23
英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

英媒:吳宜澤吞云吐霧照片讓老球迷更喜歡,他風(fēng)格很像颶風(fēng)希金斯

楊華評(píng)論
2026-05-06 15:14:00
魏鳳和案、李尚福案一審宣判

魏鳳和案、李尚福案一審宣判

新京報(bào)
2026-05-07 18:08:25
充電6分鐘續(xù)航2000公里!國(guó)產(chǎn)固態(tài)電池大突破,寧德時(shí)代或?qū)⒘慨a(chǎn)

充電6分鐘續(xù)航2000公里!國(guó)產(chǎn)固態(tài)電池大突破,寧德時(shí)代或?qū)⒘慨a(chǎn)

胖福的小木屋
2026-05-06 18:47:23
法國(guó)突然宣布:“戴高樂(lè)”號(hào)航母正駛向紅海,準(zhǔn)備為霍爾木茲海峽護(hù)航!美軍:“林肯”號(hào)航母起飛戰(zhàn)機(jī),炸毀伊朗油輪船舵

法國(guó)突然宣布:“戴高樂(lè)”號(hào)航母正駛向紅海,準(zhǔn)備為霍爾木茲海峽護(hù)航!美軍:“林肯”號(hào)航母起飛戰(zhàn)機(jī),炸毀伊朗油輪船舵

每日經(jīng)濟(jì)新聞
2026-05-07 08:05:02
吹風(fēng)機(jī)是大補(bǔ),醫(yī)生提醒:一個(gè)吹風(fēng)機(jī)等于半個(gè)老中醫(yī)!不要嫌棄

吹風(fēng)機(jī)是大補(bǔ),醫(yī)生提醒:一個(gè)吹風(fēng)機(jī)等于半個(gè)老中醫(yī)!不要嫌棄

健康之光
2026-05-06 16:55:06
穆帥與佛爺通話30分鐘 提5回歸要求:你別插手更衣室 有1人必須走

穆帥與佛爺通話30分鐘 提5回歸要求:你別插手更衣室 有1人必須走

風(fēng)過(guò)鄉(xiāng)
2026-05-07 12:48:50
媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

洪觀新聞
2026-05-06 11:24:50
哈佛提醒:防肌肉流失別只補(bǔ)蛋白!這6種營(yíng)養(yǎng)才是關(guān)鍵

哈佛提醒:防肌肉流失別只補(bǔ)蛋白!這6種營(yíng)養(yǎng)才是關(guān)鍵

橘子約定
2026-05-05 20:49:53
吳宜澤姐姐曝光!反差感拉滿:顏值出眾+愛(ài)掐弟弟臉蛋 喜歡騎機(jī)車

吳宜澤姐姐曝光!反差感拉滿:顏值出眾+愛(ài)掐弟弟臉蛋 喜歡騎機(jī)車

念洲
2026-05-07 11:06:01
ST洲際:未到退市紅線

ST洲際:未到退市紅線

每日經(jīng)濟(jì)新聞
2026-05-07 15:57:06
成都演唱會(huì)這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

成都演唱會(huì)這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

夢(mèng)在深巷qw
2026-05-07 07:46:01
上海申花斯盧茨基下課,換一個(gè)主教練也一樣,球隊(duì)還是沒(méi)有配合

上海申花斯盧茨基下課,換一個(gè)主教練也一樣,球隊(duì)還是沒(méi)有配合

足球分析員
2026-05-07 11:00:08
2026-05-07 18:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12939文章數(shù) 142644關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

周喜安被判死緩:在兩省共受賄過(guò)億 被指學(xué)術(shù)成就豐富

頭條要聞

周喜安被判死緩:在兩省共受賄過(guò)億 被指學(xué)術(shù)成就豐富

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂(lè)要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財(cái)經(jīng)要聞

金融“風(fēng)暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

態(tài)度原創(chuàng)

游戲
本地
家居
健康
公開課

索尼PS5獨(dú)占新作銷量太爛了!前十都進(jìn)不去 回本堪憂

本地新聞

用青花瓷的方式,打開西溪濕地

家居要聞

破繭成蝶 土味精裝房爆改

干細(xì)胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版