国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | ReFTA:打破張量化PEFT的「權(quán)重重建」瓶頸

0
分享至



隨著大模型在自然語言處理、計算機視覺以及多模態(tài)任務中的快速發(fā)展,全參數(shù)微調(diào)(Full Fine-tuning, FF)所帶來的顯存占用、訓練時間和存儲成本也越來越高。為了解決這一問題,參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning, PEFT)逐漸成為主流路線:通過凍結(jié)大部分預訓練參數(shù),僅更新少量可訓練參數(shù),使模型能夠快速適配下游任務。

當前最常見的一類 PEFT 方法是基于矩陣低秩分解的方法,例如 LoRA 。其基本思想是將每一層的權(quán)重更新表示為一個低秩矩陣分解,從而用少量參數(shù)近似表示權(quán)重變化。這類方法結(jié)構(gòu)簡單、效果穩(wěn)定,在大模型微調(diào)中得到了廣泛應用。然而,當模型規(guī)模不斷增大、層數(shù)持續(xù)增加時,這類方法仍然存在一些局限:

  • 每一層都需要獨立的低秩適配模塊,可訓練參數(shù)仍隨層數(shù)線性增長;
  • 低秩分解只利用了單層內(nèi)部的矩陣結(jié)構(gòu),難以顯式刻畫不同層之間的相關(guān)性。

為進一步提升參數(shù)效率,近期研究開始探索張量化 PEFT(Tensorized PEFT)。這類方法將同類型層(例如各注意力層的 Q/K/V 投影矩陣)沿層維度進行堆疊,從而形成一個高階張量結(jié)構(gòu)。相比逐層的矩陣低秩分解,這種表示方式能夠同時建模層內(nèi)結(jié)構(gòu)與跨層相關(guān)性,從而在理論上實現(xiàn)更緊湊的參數(shù)表示。



圖 1:左—DCT(離散余弦變換)域下的張量奇異值分布 ;右—基于 LSM-3(權(quán)重張量經(jīng) mode-3 展開后的左奇異矩陣)的奇異值分布??梢杂^察到,大部分能量集中在少數(shù)主成分上。

盡管張量化 PEFT 在參數(shù)效率上具有明顯優(yōu)勢,但在實際工程實現(xiàn)中仍然存在一個關(guān)鍵問題:權(quán)重張量重建(weight tensor reconstruction)

許多張量分解方法在每次前向或反向傳播時,都需要將張量因子重新組合為完整的權(quán)重張量。這一過程會帶來額外的工程開銷:

  • 額外計算開銷:重復的張量–矩陣乘法增加訓練時間
  • 顯存占用增加:顯式構(gòu)造的大型權(quán)重張量會放大計算圖規(guī)模

因此,一個關(guān)鍵問題是:

能否在保持張量化 PEFT 參數(shù)高效性的同時,避免訓練過程中反復進行權(quán)重重建?

本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一種針對這一問題設計的張量化 PEFT 方法。



  • 論文標題:ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
  • 論文鏈接:https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf

ReFTA 的核心:互換 mode-1 與 mode-3 的乘積以避免顯式權(quán)重重建

ReFTA 的首要設計目標,是消除張量方法在訓練時反復重建權(quán)重張量所帶來的額外開銷。具體而言,ReFTA 將 mode-1 與 mode-3 的乘積順序?qū)φ{(diào),把原本「先重建權(quán)重、再與輸入相乘」的計算過程,改寫為「先生成中間特征、再進行特征融合」。由此,在前向與反向傳播中就不再需要顯式構(gòu)造完整的大尺寸權(quán)重張量,也無需將其納入梯度圖。

更重要的是,這一改寫并不僅僅是實現(xiàn)層面的優(yōu)化,而是改變了訓練過程中的計算范式:模型不再圍繞大規(guī)模權(quán)重張量展開計算,而是轉(zhuǎn)向處理與 batch 規(guī)模相關(guān)的中間特征。對于張量化 PEFT 而言,這種從「權(quán)重空間」到「特征空間」的轉(zhuǎn)變,正是 ReFTA 區(qū)別于已有方法的關(guān)鍵所在。

張量化表示與主成分低秩適配

考慮將 Transformer 中同類型層的權(quán)重矩陣沿層維度堆疊:



在此基礎上,ReFTA 進一步使用張量主成分分析(Tensor PCA)得到一個主成分近似:







圖 2:NF4 量化誤差隨張量秩變化的趨勢,實證支持 ReFTA 在量化下更魯棒。

然后在變換域里,每個張量切片都可以寫成 LoRA 類似的低秩形式:



mode-1 與 mode-3 乘積交換



ReFTA 的實現(xiàn)要點在于以下兩步的順序交換:



交換后可等價地被改寫為:





整體示意如下:



圖 3:ReFTA 的結(jié)構(gòu)(基于切片的低秩適配器 + 特征融合)

這一步改寫帶來兩項直接收益:







表 1:ReFTA 與其兩種權(quán)重合并變體在前向與反向計算的時間復雜度對比。



除了工程實現(xiàn)上的優(yōu)勢,ReFTA 還給出了一個針對張量化低秩 PEFT 的泛化上界。核心結(jié)論可以概括為:



其中:

  • R 是張量秩
  • K 是堆疊的層數(shù) / 注意力頭數(shù)
  • n 是輸出維度
  • m 是樣本數(shù)

這意味著:

  • 復雜度上界與張量秩 R 直接相關(guān)
  • 讓「極小參數(shù)預算下仍能保持良好的泛化能力」更有可解釋性

理論與實證的呼應



  • 在不同 backbone(ViT、RoBERTa、LLaMA-family)上,使用較小的 R 時 ReFTA 能在大幅減少可訓練參數(shù)的同時接近甚至超過主流 PEFT 的性能,從實證角度印證了低秩設置下的良好泛化能力;
  • ReFTA 避免顯式權(quán)重重建的實現(xiàn)方式直接帶來了較小的訓練顯存占用,這對應著理論中對有效參數(shù)和計算復雜度的控制。



表 2:該表展示了在常見 ViT 基線上的方法對比,ReFTA 在較低參數(shù)預算下仍能超越 LoRA / PiSSA



表 3:該表展示了基于 RoBERTa 模型在 GLUE 六個數(shù)據(jù)集上的微調(diào)結(jié)果;其中全參數(shù)微調(diào)(FF)和參數(shù)量最小的方法分別以灰色和淺藍色高亮。整體上看,ReFTA 在較低參數(shù)預算下依然能夠保持有競爭力的性能,體現(xiàn)出較好的參數(shù)效率。



圖 4:左 — Car 數(shù)據(jù)集下不同可逆變換 U_0(DCT / LSM-3 等)對張量秩下性能的影響;右 — FGVC 數(shù)據(jù)集下相同對比。兩圖表明不同可逆變換選擇會影響低秩近似的實際效用。

總結(jié)與展望

ReFTA 所針對的問題十分明確:張量化 PEFT 雖然能夠減少可訓練參數(shù),但訓練時反復進行權(quán)重重建會帶來額外的計算、顯存與實現(xiàn)成本。

ReFTA 的關(guān)鍵貢獻可以概括為四點:



從更宏觀的角度看,ReFTA 的最大貢獻不僅在于提供了一種更高效的 PEFT 方法,更在于其提出的核心思想:利用張量代數(shù)策略避免顯式張量權(quán)重重建。這一思想不僅能夠被應用于 PEFT 任務還有望應用于基于張量方法的模型壓縮與高效模型結(jié)構(gòu)設計等方向,從而為構(gòu)建更加輕量而高效的模型提供新的思路??傮w而言,這一方向仍具有非常廣闊的拓展空間。

參考文獻:

[1] Edward Hu, Yelong Shen, and Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen. LoRA: Low-rank adaptation of large language models. In ICLR, 2022.

[2] Canyi Lu, Xi Peng, Yunchao Wei. Low-Rank Tensor Completion With a New Tensor Nuclear Norm Induced by Invertible Linear Transforms. In CVPR, 2019.

[3] Hao Kong, Canyi Lu, and Zhouchen Lin. Tensor Q-rank: newdata dependent definition of tensor rank. Machine Learning, 2019.

[4] Fanxu Meng, Zhaohui Wang, Muha Zhang. PiSSA: Principal singular values and singular vectors adaptation of large language models. In NeurIPS, 2024.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰去世后,第一個被罵的明星出現(xiàn)了!網(wǎng)友強烈呼吁封殺

張雪峰去世后,第一個被罵的明星出現(xiàn)了!網(wǎng)友強烈呼吁封殺

星星沒有你亮
2026-03-26 18:26:16
張雪峰遺容黑眼圈遮不住,曝前妻已再婚生子,沈南憶10年好友淚崩

張雪峰遺容黑眼圈遮不住,曝前妻已再婚生子,沈南憶10年好友淚崩

壹月情感
2026-03-29 16:17:43
焦泊喬離隊赴京,交易有望開啟,下家3選1,杜鋒或拿他換豪門中鋒

焦泊喬離隊赴京,交易有望開啟,下家3選1,杜鋒或拿他換豪門中鋒

萌蘭聊個球
2026-03-29 13:25:25
蘇州追悼會:那輛落灰的電驢,看哭無數(shù)中年人

蘇州追悼會:那輛落灰的電驢,看哭無數(shù)中年人

小鹿姐姐情感說
2026-03-29 12:29:13
17戰(zhàn)15勝,新鷹王26+5+10起飛!三方交易又撿漏19分13板火箭棄將

17戰(zhàn)15勝,新鷹王26+5+10起飛!三方交易又撿漏19分13板火箭棄將

鍋子籃球
2026-03-29 13:26:09
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
新款比亞迪海豹06GT到店,二代刀片電池+閃充技術(shù),配激光雷達

新款比亞迪海豹06GT到店,二代刀片電池+閃充技術(shù),配激光雷達

紅濤說車
2026-03-28 20:18:11
厲害了我的國!終于開始戰(zhàn)略反攻了!

厲害了我的國!終于開始戰(zhàn)略反攻了!

達文西看世界
2026-03-28 12:01:24
中國拒絕出席G7峰會,法國表示將采取措施應對

中國拒絕出席G7峰會,法國表示將采取措施應對

二大爺觀世界
2026-03-28 22:45:28
張雪峰離世才3天,52歲吳京就出現(xiàn)身體警報,網(wǎng)友急勸他去醫(yī)院

張雪峰離世才3天,52歲吳京就出現(xiàn)身體警報,網(wǎng)友急勸他去醫(yī)院

樂天閑聊
2026-03-28 19:37:35
電影《功夫》時隔多年演員今昔對比,有的變化不小,你知道他們嗎

電影《功夫》時隔多年演員今昔對比,有的變化不小,你知道他們嗎

老吳教育課堂
2026-03-29 11:53:26
晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

晚清首富盛宣懷:家有兩女傭,一個生了宋美齡,另一個生了趙一荻

鶴羽說個事
2026-03-24 22:01:27
張雪峰生前談父親淚流滿面!父子倆的命運都很悲情

張雪峰生前談父親淚流滿面!父子倆的命運都很悲情

細品名人
2026-03-29 07:53:24
論花錢,中國人比不上3億美國人?這背后藏有多少水分

論花錢,中國人比不上3億美國人?這背后藏有多少水分

Hi科普啦
2026-03-28 17:10:07
好消息!老年公交卡2026年調(diào)整,告別一刀切,老人出行更順心

好消息!老年公交卡2026年調(diào)整,告別一刀切,老人出行更順心

米果說識
2026-03-28 14:33:38
洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

觀察者海風
2026-03-26 23:12:53
廣州鐵路:緊急搶修

廣州鐵路:緊急搶修

南方都市報
2026-03-29 18:23:10
研究發(fā)現(xiàn)自慰或性行為有助于改善睡眠

研究發(fā)現(xiàn)自慰或性行為有助于改善睡眠

映射生活的身影
2026-03-27 19:44:25
中國石油,最新業(yè)績公布!受原油價格拖累,凈利潤5年來首現(xiàn)負增長,仍豪擲458億元分紅

中國石油,最新業(yè)績公布!受原油價格拖累,凈利潤5年來首現(xiàn)負增長,仍豪擲458億元分紅

每日經(jīng)濟新聞
2026-03-29 19:45:04
網(wǎng)約車司機花1200元把車改成“頭等艙”,收到6000元打賞

網(wǎng)約車司機花1200元把車改成“頭等艙”,收到6000元打賞

用車指南
2026-03-29 10:01:32
2026-03-29 21:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

教育
時尚
游戲
親子
家居

教育要聞

1分鐘學會不規(guī)則圖形的面積計算方法!

伊姐周日熱推:電視劇《冬去春來》;電視劇《你是遲來的歡喜》......

PS6硬件成本曝光!比PS5貴50%以上:你會買嗎?

親子要聞

寶藍和爸爸叔叔挑戰(zhàn)盲選三種顏色做彩泥,看看誰做的彩泥更漂亮!

家居要聞

曲線華爾茲 現(xiàn)代簡約

無障礙瀏覽 進入關(guān)懷版