国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大林宙辰團隊論文:從數(shù)據(jù)中自適應學習時序預測損失丨ICLR 2026

0
分享至

在多步時間序列預測任務中,預測性能隨時間步長迅速退化幾乎成為一種共識。例如:在氣象預測中,短期的溫度變化能夠較為準確地刻畫,但當預測跨度擴展至數(shù)日甚至一周時,預測誤差就會逐漸放大,周期與趨勢結構逐漸偏離真實軌跡。類似的問題在金融價格走勢和電力負荷預測等場景中也廣泛存在。

無論模型結構如何變化,當預測范圍從短期擴展至中長期時,誤差積累、趨勢漂移和結構失真往往不可避免地出現(xiàn)。這類現(xiàn)象在實踐中被頻繁觀察,卻通常被視為模型表達能力或依賴建模不足的直接結果。

然而,與模型結構持續(xù)演進形成鮮明對比的是,多步預測在訓練階段所使用的損失函數(shù)卻長期保持固定。大多數(shù)方法仍以逐時間點的均方誤差(MSE)作為優(yōu)化目標,默認將未來不同預測步視為相互獨立且重要性一致的預測對象。

但是,多步預測并非一組彼此獨立的回歸任務,未來不同時間點之間往往呈現(xiàn)顯著的相關性;此外,不同預測步在優(yōu)化階段的重要性也并不相同。若損失函數(shù)無法顯式刻畫這些結構特征,模型在長期預測中出現(xiàn)系統(tǒng)性偏差便并非偶然,而是訓練階段錯誤假設的自然結果。

正是在這一背景下,林宙辰團隊提出了題為《Quadratic Direct Forecast for Training Multi-step Time-Series Forecast Models》的研究工作。通過重構訓練目標的加權結構,引入對預測步相關性與不確定性差異的顯式建模。研究團隊展示了在不改變模型架構的前提下,僅通過調(diào)整訓練目標即可顯著改善多步預測性能的可能性,從而為時間序列預測提供了一種從訓練機制層面理解長期預測失效的新視角。


論文鏈接:https://arxiv.org/pdf/2511.00053v1

問題根源:均方誤差的兩個先驗

在當下的時序預測領域,絕大多數(shù)文獻仍以逐時間點的均方誤差(MSE)作為損失函數(shù):

$$mathcal{L}_{text{MSE}} = |mathbf{y} - g_theta(mathbf{x})|^2=sum_{t=1}^mathrm{T}left(y_t-g_{theta,t}(mathbf{x})right)$$

這個損失函數(shù)隱含了兩個先驗:1. 未來不同時間點的預測是相互獨立的;2. 所有預測步的重要性是相同的。

然而,現(xiàn)實并非如此:明天的天氣與后天的天氣存在相關性,預測未來1小時和1周的難度也完全不同。因此,多步預測并非一組獨立的回歸任務;不同預測步在優(yōu)化階段的重要性也并不相同。如損失函數(shù)無法正確刻畫這些結構特征,模型在長期預測中出現(xiàn)系統(tǒng)性偏差,就并非偶然,而是訓練階段錯誤假設的必然結果。


研究人員上述兩點先驗進行了實驗檢驗,發(fā)現(xiàn)它們在多步預測場景中均不成立。

首先,對標簽序列的條件協(xié)方差進行了偏相關分析,以刻畫在控制歷史輸入的影響之后,標簽序列不同時間點 $Y_t$ 與 $Y_{t'}$ 之間的直接關系。實驗結果顯示,未來時間點之間存在大量非零偏相關系數(shù),否定了均方誤差所隱含的條件獨立假設。雷峰網(wǎng)

進一步,對標簽序列的條件方差進行了分析。實驗結果顯示,不同時間點的誤差方差存在顯著差異,且隨著預測步整體增大,說明將所有預測步視為難度一致的任務并不符合數(shù)據(jù)特性,否定了均方誤差隱含重要性一致假設。

QDF:從數(shù)據(jù)中自適應學習預測損失

針對MSE存在的兩個不合理先驗,林宙辰教授團隊提出了QDF(Quadratic Direct Forecast)方法,核心創(chuàng)新在于:不再將損失函數(shù)視為固定不變的優(yōu)化目標,而是將其本身作為可學習的對象,從而自動“發(fā)現(xiàn)”最適合特定任務數(shù)據(jù)結構的損失表述。

從概率建模的視角出發(fā),理想的損失函數(shù)應來源于負對數(shù)似然。在高斯誤差假設下。在高斯誤差假設下,給定歷史序列 $mathbf{x}$,標簽序列 $$mathbf{y}inmathbb{R}^mathrm{Ttimes 1}$$ 的條件分布為多元高斯分布,其負對數(shù)似然(忽略常數(shù)項)可表示為:

$$mathcal{L}_{boldsymbol{Sigma}}(mathbf{x},mathbf{y};g_theta) = (mathbf{y} - g_theta(mathbf{x}))^top boldsymbol{bar{Sigma}} (mathbf{y} - g_theta(mathbf{x}))$$

其中,$boldsymbol{Sigma} in mathbb{R}^{T times T}$是標簽序列的條件協(xié)方差矩陣,$T$ 為預測步長,$boldsymbol{bar{Sigma}} = boldsymbol{Sigma}^{-1}$為該二次型的權重矩陣。在該二次型中:權重矩陣的非對角元素刻畫了未來不同時間點之間的條件相關性,從而能夠顯式建模標簽自相關效應,打破了MSE所隱含的條件獨立假設;權重矩陣的對角元素反映了不同預測步的不確定性差異,使得模型能夠為不同難度的預測任務分配異構權重,打破了MSE所隱含的重要性一致假設。雷峰網(wǎng)

因此,該二次型損失函數(shù)在理論上能夠同時解決傳統(tǒng)MSE損失在多步預測場景下的兩個結構性偏差問題。

然而,在實際預測任務中,權重矩陣$boldsymbol{bar{Sigma}}$難以估計。為解決這一問題,研究團隊受到元學習啟發(fā),將$boldsymbol{bar{Sigma}}$作為可學習的對象,通過一個雙層優(yōu)化機制將$boldsymbol{bar{Sigma}}$從數(shù)據(jù)中“學”出來:

$$min_{boldsymbol{Sigma} succeq 0} mathcal{L}_{boldsymbol{Sigma}}(mathbf{x}_{text{out}}, mathbf{y}_{text{out}};g_{theta^*}) quad text{s.t.} quad theta^* = argmin_{theta} mathcal{L}_{boldsymbol{Sigma}}(mathbf{x}_{text{in}}, mathbf{y}_{text{in}};g_theta)$$

該雙層優(yōu)化問題的求解過程包括兩個階段。首先,在給定$boldsymbol{Sigma}$ 的條件下,通過在元訓練集$(mathbf{x}_{text{in}}, mathbf{y}_{text{in}})$上最小化損失函數(shù)$mathcal{L}_{boldsymbol{Sigma}}$來更新模型參數(shù)$theta$。接著,依據(jù)模型在元驗證集$(mathbf{x}_{text{out}}, mathbf{y}_{text{out}})$上的預測誤差,反向傳播更新$boldsymbol{Sigma}$。其中,元訓練集和元驗證集來自對訓練集的不同切片。

這種雙層設計的核心優(yōu)勢在于:訓練目標的優(yōu)劣不再由擬合優(yōu)度決定,而是由元驗證集上的泛化性能來刻畫。通過多次數(shù)據(jù)拆分與迭代更新,算法得以學習到在不同時間區(qū)間內(nèi)一致的誤差相關模式,從而形成穩(wěn)定且可泛化的訓練目標。

在大量實驗中,一致驗證優(yōu)勢

論文首先將 QDF 與現(xiàn)有損失函數(shù)進行了比較,包括通過標簽變換削弱標簽相關性的 FreDF 和 Time-o1。這些方法相較于均方誤差均能帶來一定的性能提升,但在穩(wěn)定性和性能上限方面仍不及 QDF。原因在于這些方法僅部分處理標簽之間的相關性,仍隱含地假設剩余誤差可通過均勻加權方式進行優(yōu)化,而 QDF 同時建模了標簽間的相關性以及不同預測步的不確定性,并通過元學習得到最優(yōu)加權權重,徹底解決了損失函數(shù)中可能存在的偏差。


其次,研究人員通過消融實驗對上述兩個關鍵因素進行了驗證。實驗分別考察僅建模不同預測步權重、僅建模時間相關性以及同時建模二者的情形。結果顯示,兩種因素單獨引入時均能帶來性能提升,而二者同時作用時效果最為顯著。


研究人員也對模型輸出的預測序列進行了可視化分析。結果表明,基于均方誤差訓練的模型在周期性時間序列中普遍存在振幅壓縮、峰值被抹平以及拐點響應滯后的現(xiàn)象。引入QDF后,模型在峰值位置、周期相位以及長期趨勢穩(wěn)定性方面均表現(xiàn)出更高一致性,時間結構得到了更完整的保留,說明QDF有效訓練模型尊重未來不同時間點之間的整體關系。


一次針對均方誤差的系統(tǒng)性審判

從研究意義的角度來看,這項研究首先推翻了一個在時間序列領域長期被默認接受的假設:多步預測可以被視為多個相互獨立且等權重的回歸任務。這一假設在實踐中被廣泛采用,卻缺乏系統(tǒng)性的經(jīng)驗驗證。研究通過嚴格的概率建模分析與全面的實證檢驗表明,**這一前提假設在多步預測場景中并不成立**。

在此基礎上,研究進一步提出了一種新穎的研究方法:將損失函數(shù)本身視為可以被學習的對象。不同于傳統(tǒng)通過超參數(shù)調(diào)節(jié)或啟發(fā)式設計的方式,該研究通過引入結構化的權重參數(shù)來顯式建模標簽間的關聯(lián)性和不同預測步的重要性差異,并通過雙層優(yōu)化機制,直接利用未見數(shù)據(jù)上的泛化誤差學習權重參數(shù)。這種設計使得損失函數(shù)的形式能夠根據(jù)數(shù)據(jù)特性自適應地調(diào)整,從而形成既符合統(tǒng)計建模原理又具有良好泛化能力的訓練目標。

對于后續(xù)研究而言,該工作所提供的啟示并不局限于具體方法本身,而體現(xiàn)在更一般的研究范式上。其一,研究強調(diào)了對領域內(nèi)默認假設保持持續(xù)審視的重要性;其二,展示了如何從統(tǒng)計建模出發(fā)反推優(yōu)化目標的合理形式;其三,為元學習思想在時間序列預測領域的應用和發(fā)展提供了理論和實踐參考,展示了如何將元學習的思想與領域特定的統(tǒng)計方法有機結合。

作者信息

論文第一作者王浩,現(xiàn)為浙江大學控制學院博士研究生,研究方向聚焦于因果推斷、多任務學習技術及其在大語言模型中的應用。2022 年- 2023 年,他曾在螞蟻金服、微軟亞洲研究院科研實習,從事推薦系統(tǒng)理論研究。2025 年起,他在小紅書參加 RedStar 實習項目,進行大語言模型、可信獎勵模型領域的研究工作。


論文通訊作者林宙辰,現(xiàn)任北京大學智能學院、通用人工智能全國重點實驗室教授。他的研究領域包括機器學習和數(shù)值優(yōu)化。他已發(fā)表論文360余篇,谷歌學術引用超過42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會士,多次擔任CVPR、NeurIPS、ICML等會議的Senior Area Chair,現(xiàn)任ICML Board Member。


參考鏈接:https://zhouchenlin.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
在哈梅內(nèi)伊死亡后,澳大利亞清真寺舉行了“虔誠純潔”的追悼會

在哈梅內(nèi)伊死亡后,澳大利亞清真寺舉行了“虔誠純潔”的追悼會

老王說正義
2026-03-02 14:21:40
阿里的復仇:一場遲到了十年的清算

阿里的復仇:一場遲到了十年的清算

快消經(jīng)緯
2026-02-28 18:58:05
48小時送走哈梅內(nèi)伊:令人恐怖的技術代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

48小時送走哈梅內(nèi)伊:令人恐怖的技術代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
公牛27-0史詩級逆轉(zhuǎn),終結11連敗拒被橫掃,吉迪三雙創(chuàng)歷史

公牛27-0史詩級逆轉(zhuǎn),終結11連敗拒被橫掃,吉迪三雙創(chuàng)歷史

籃球看比賽
2026-03-02 15:05:57
莫迪想賭一把大的,為了把中國企業(yè)釣到印度,畫7500億大餅做魚餌

莫迪想賭一把大的,為了把中國企業(yè)釣到印度,畫7500億大餅做魚餌

議紀史
2026-03-01 13:35:03
我國小學在校生仍保持1億多人

我國小學在校生仍保持1億多人

21世紀經(jīng)濟報道
2026-03-01 19:44:35
2026年陜西廳級第二虎:西安市委常委、統(tǒng)戰(zhàn)部部長贠笑冬被查

2026年陜西廳級第二虎:西安市委常委、統(tǒng)戰(zhàn)部部長贠笑冬被查

汲古知新
2026-03-02 12:05:05
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

妍妍教育日記
2026-02-28 17:41:50
被兒子當眾吐槽后,張?zhí)m徹底蔫了!前幾天笑盈盈 如今滿眼都是委屈

被兒子當眾吐槽后,張?zhí)m徹底蔫了!前幾天笑盈盈 如今滿眼都是委屈

阿廢冷眼觀察所
2026-03-02 01:14:08
逆轉(zhuǎn)臺北隱形功臣!末節(jié)2分鐘鎖死雙核 這就是他擠掉徐杰的答案?

逆轉(zhuǎn)臺北隱形功臣!末節(jié)2分鐘鎖死雙核 這就是他擠掉徐杰的答案?

你看球呢
2026-03-02 14:38:12
若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

貓叔東山再起
2026-03-01 12:40:03
學費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

學費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
重慶奉節(jié)發(fā)布情況通報

重慶奉節(jié)發(fā)布情況通報

極目新聞
2026-03-02 10:20:51
美“福特”號航母駛離希臘克里特島

美“福特”號航母駛離希臘克里特島

財聯(lián)社
2026-02-26 16:57:07
航母無損成焦點!特朗普改口,伊朗擊中法塔赫-2了嗎?

航母無損成焦點!特朗普改口,伊朗擊中法塔赫-2了嗎?

起喜電影
2026-03-02 12:09:40
天津王頂?shù)蹋績r從2015年19800漲至43500,如今價格回到真實價位

天津王頂?shù)蹋績r從2015年19800漲至43500,如今價格回到真實價位

童童聊娛樂啊
2026-03-02 12:09:40
莎朗斯通為谷愛凌發(fā)聲:財長貝森特給谷愛凌扣上了出賣的帽子

莎朗斯通為谷愛凌發(fā)聲:財長貝森特給谷愛凌扣上了出賣的帽子

小陸搞笑日常
2026-03-02 05:13:56
特朗普沒想到,中國已做最壞打算,解放軍:對于那一天我們不怕

特朗普沒想到,中國已做最壞打算,解放軍:對于那一天我們不怕

無情有思ss
2026-03-02 14:12:26
氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

沒有偏旁的常慶
2026-03-01 07:00:11
電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

社會醬
2026-03-01 20:43:29
2026-03-02 15:20:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關注智能與未來!
68617文章數(shù) 656082關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預售11.28萬起 狐全新阿爾法S5標配寧德時代

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
公開課
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

voice38回應攻破D加密游戲順序 工具齊備就會攻破!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關懷版