国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型排名并不可靠,三萬分之一的數(shù)據(jù)變動即可左右結(jié)果

0
分享至


(來源:麻省理工科技評論)

企業(yè)若想使用大語言模型整理銷售報告或分類處理客戶咨詢,可從數(shù)百款獨立大語言模型中進行選擇,每款模型的性能都存在細(xì)微差異。

為縮小選擇范圍,企業(yè)通常會參考大語言模型排名平臺。這類平臺會收集用戶與模型交互的反饋,依據(jù)模型在特定任務(wù)中的表現(xiàn),對最新的大語言模型進行排名。

但麻省理工學(xué)院的研究人員發(fā)現(xiàn),少量用戶交互數(shù)據(jù)就會導(dǎo)致結(jié)果出現(xiàn)偏差,讓人們誤判某款大語言模型是特定應(yīng)用場景的理想選擇。該研究表明,剔除極少一部分眾包數(shù)據(jù),就會改變模型的排名位次。

研究人員研發(fā)出一種快速檢測方法,可測試排名平臺是否容易受到這類問題影響。該評估方法能定位到對結(jié)果偏差影響最大的單條投票,方便用戶核查這些高影響力投票。

研究人員表示,這項研究凸顯了制定更嚴(yán)謹(jǐn)策略評估模型排名的必要性。他們在本次研究中并未重點研究解決方案,但提出了可提升平臺穩(wěn)定性的建議,例如收集更詳細(xì)的反饋數(shù)據(jù)來生成排名。

該研究同時向依賴排名選擇大語言模型的用戶發(fā)出警示。這類決策可能會對企業(yè)或機構(gòu)產(chǎn)生深遠(yuǎn)且高昂的代價。

麻省理工學(xué)院電氣工程與計算機科學(xué)系副教授、信息與決策系統(tǒng)實驗室及數(shù)據(jù)系統(tǒng)與社會研究所成員、計算機科學(xué)與人工智能實驗室附屬研究員、該研究資深作者塔瑪拉?布羅德里克(Tamara Broderick)表示:“我們驚訝地發(fā)現(xiàn),這類排名平臺對該問題的敏感度極高。如果數(shù)萬條用戶反饋中,僅兩三條就決定了排名第一的大語言模型,那么人們就不能認(rèn)定,這款模型投入使用后會持續(xù)優(yōu)于其他所有模型?!?/p>

該論文的第一作者為電氣工程與計算機科學(xué)系研究生黃珍妮(Jenny Huang)、申云逸(Yunyi Shen),還有 IBM 研究院高級研究科學(xué)家丹尼斯?魏(Dennis Wei),他們與布羅德里克共同完成了這項研究。該研究成果將在國際學(xué)習(xí)表征大會上發(fā)布。

大語言模型排名平臺的類型眾多,最主流的模式是讓用戶向兩款模型提交同一查詢,再選擇輸出效果更好的模型。

平臺會匯總這類對比結(jié)果生成排名,展示各款大語言模型在編程、視覺理解等特定任務(wù)中的最優(yōu)表現(xiàn)。

用戶選擇排名靠前的大語言模型時,通常會認(rèn)為該模型的優(yōu)異排名具備泛化性。這意味著在全新數(shù)據(jù)集、相似但不完全相同的應(yīng)用場景中,這款模型依舊能優(yōu)于其他模型。

麻省理工學(xué)院的研究人員此前曾研究統(tǒng)計學(xué)、經(jīng)濟學(xué)等領(lǐng)域的泛化性問題。相關(guān)研究發(fā)現(xiàn),部分場景中剔除小部分?jǐn)?shù)據(jù)就會改變模型結(jié)果,這說明這類研究的結(jié)論可能無法適用于更廣泛的場景。

研究人員希望驗證,這類分析方法能否應(yīng)用于大語言模型排名平臺。

布羅德里克表示:“用戶最終想知道的,是自己是否選到了最優(yōu)的大語言模型。如果僅有少量提示詞決定了排名,就說明這份排名并非絕對權(quán)威?!?/p>

但人工測試剔除數(shù)據(jù)的影響并不現(xiàn)實。例如,他們評估的一個排名平臺擁有超 5.7 萬條投票。測試剔除 0.1% 數(shù)據(jù),需要從 5.7 萬條投票中逐一剔除 57 條投票的子集,子集數(shù)量超 10 的 194 次方,再重新計算排名。

研究人員基于此前的研究成果,研發(fā)出一種高效的近似計算方法,并將其適配應(yīng)用于大語言模型排名系統(tǒng)。

布羅德里克表示:“我們雖有理論證明該近似方法在特定假設(shè)下有效,但用戶無需僅憑理論判斷。我們的方法最終會為用戶標(biāo)注出問題數(shù)據(jù)點,用戶只需剔除這些數(shù)據(jù),重新運行分析,就能查看排名是否發(fā)生變化?!?/p>

研究人員將該方法應(yīng)用于主流排名平臺后,驚訝地發(fā)現(xiàn),僅需剔除極少數(shù)據(jù)點,就會讓頭部大語言模型的排名發(fā)生顯著變化。有案例顯示,從 5.7 萬余條投票中僅剔除 2 條,占比 0.0035%,就改變了排名第一的模型。

另一家使用專業(yè)標(biāo)注人員、高質(zhì)量提示詞的排名平臺,穩(wěn)定性則更強。該平臺需剔除 2575 條評估中的 83 條,占比約 3%,才會改變頭部模型的排名。

布羅德里克表示,核查結(jié)果顯示,許多高影響力投票可能源于用戶操作失誤。部分案例中,明明有明確的最優(yōu)模型答案,用戶卻選擇了另一款模型。

她補充道:“我們無法知曉用戶當(dāng)時的想法,可能是誤點、注意力不集中,也可能是確實無法判斷優(yōu)劣。核心結(jié)論是,排名第一的大語言模型,不應(yīng)由噪聲數(shù)據(jù)、用戶失誤或異常值決定?!?/p>

研究人員建議,平臺可收集用戶的額外反饋,例如每條投票的信心程度,以此獲取更豐富的信息,緩解該問題。排名平臺也可安排人工審核人員,評估眾包反饋的有效性。

研究人員計劃繼續(xù)探索其他場景下的泛化性問題,同時研發(fā)更優(yōu)質(zhì)的近似計算方法,捕捉更多不穩(wěn)定性案例。

未參與此項研究的西北大學(xué)計算機科學(xué)系講席教授杰西卡?赫爾曼(Jessica Hullman)表示:“布羅德里克及其學(xué)生的研究,解決了現(xiàn)代機器學(xué)習(xí)模型與數(shù)據(jù)集規(guī)模過大、無法窮盡計算的難題,展示了如何有效估算特定數(shù)據(jù)對下游流程的影響。”

赫爾曼補充道:“這項最新研究讓我們看到,日常使用的人類偏好匯總與模型更新方法雖普遍應(yīng)用,卻十分脆弱,且高度依賴數(shù)據(jù)。極少的偏好數(shù)據(jù)就能改變微調(diào)模型的表現(xiàn),這一發(fā)現(xiàn)有望推動更嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)收集方法誕生。”

https://news.mit.edu/2026/study-platforms-rank-latest-llms-can-be-unreliable-0209

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
突然昏倒在地!嚴(yán)重的黑眼圈!龍王活著已經(jīng)是幸運!

突然昏倒在地!嚴(yán)重的黑眼圈!龍王活著已經(jīng)是幸運!

德譯洋洋
2026-02-26 11:58:07
45歲吉賽爾·邦辰素顏遛娃,狀態(tài)依舊能打!

45歲吉賽爾·邦辰素顏遛娃,狀態(tài)依舊能打!

述家娛記
2026-02-26 13:11:46
馬斯克要在太空建數(shù)據(jù)中心 黃仁勛:沒有空氣流動 唯一辦法是建造巨大的散熱板

馬斯克要在太空建數(shù)據(jù)中心 黃仁勛:沒有空氣流動 唯一辦法是建造巨大的散熱板

快科技
2026-02-26 11:09:06
春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

春節(jié)后,這4種蔬菜不要隨便買!菜販子:我從來不吃,顧客搶著買

阿龍美食記
2026-02-26 10:37:19
日本主場是真惡心!趙睿犯滿就算了,末節(jié)最后時刻連出黑哨!

日本主場是真惡心!趙睿犯滿就算了,末節(jié)最后時刻連出黑哨!

籃球資訊達(dá)人
2026-02-26 20:39:00
男子春節(jié)前將牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其長出15厘米“黑色叢林”!

男子春節(jié)前將牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其長出15厘米“黑色叢林”!

上觀新聞
2026-02-26 17:19:08
補貼一減,電車在中端車市場歸零,燃油車大獲全勝!外資車贏麻了

補貼一減,電車在中端車市場歸零,燃油車大獲全勝!外資車贏麻了

柏銘銳談
2026-02-24 08:42:53
這次荷蘭沒話說了!中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

這次荷蘭沒話說了!中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

曉劗就是我
2026-02-26 15:50:07
這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

墨蘭史書
2026-02-26 19:00:06
登場8分鐘只收獲1次犯規(guī),正負(fù)值全隊最低,球迷:下半場表現(xiàn)不錯

登場8分鐘只收獲1次犯規(guī),正負(fù)值全隊最低,球迷:下半場表現(xiàn)不錯

弄月公子
2026-02-26 20:47:06
對比《供應(yīng)商行為準(zhǔn)則》:蘋果165頁涵蓋方方面面,華為僅7頁全是官話

對比《供應(yīng)商行為準(zhǔn)則》:蘋果165頁涵蓋方方面面,華為僅7頁全是官話

爆角追蹤
2026-02-26 13:51:08
日本2025年新生兒數(shù)量再創(chuàng)新低

日本2025年新生兒數(shù)量再創(chuàng)新低

上觀新聞
2026-02-26 16:34:30
楊毅:放眼國際籃聯(lián)歷史,這場比賽判罰也是無法無天的

楊毅:放眼國際籃聯(lián)歷史,這場比賽判罰也是無法無天的

懂球帝
2026-02-26 20:54:03
“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

“我老公家要絕后了,我娘家也要絕后了”,一廣西網(wǎng)友發(fā)帖引共鳴

火山詩話
2026-02-26 09:41:57
張?zhí)m直播曝暖心近況!霖霖玥玥探望小弟弟,親自接送上學(xué)

張?zhí)m直播曝暖心近況!霖霖玥玥探望小弟弟,親自接送上學(xué)

情感大頭說說
2026-02-26 18:22:40
歐冠16強出爐,阿森納喜提大禮包!巴黎下下簽,頭號奪冠熱門誕生

歐冠16強出爐,阿森納喜提大禮包!巴黎下下簽,頭號奪冠熱門誕生

球場沒跑道
2026-02-26 12:07:39
影視圈為什么越來越爛?看看陳凱歌父子,就知道馮小剛罵的有多對

影視圈為什么越來越爛?看看陳凱歌父子,就知道馮小剛罵的有多對

以茶帶書
2026-02-25 19:36:09
湖北一國企董事長,主動投案

湖北一國企董事長,主動投案

越喬
2026-02-26 17:59:25
網(wǎng)約車司機行駛中突發(fā)疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關(guān)懷工作

網(wǎng)約車司機行駛中突發(fā)疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關(guān)懷工作

紅星新聞
2026-02-26 19:49:31
美軍“福特”號航母駛離希臘前往中東

美軍“福特”號航母駛離希臘前往中東

新華社
2026-02-26 20:43:04
2026-02-26 21:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16325文章數(shù) 514659關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯誤"欠款1000萬億":工廠可能會被拍賣

頭條要聞

男子因銀行系統(tǒng)錯誤"欠款1000萬億":工廠可能會被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

財經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

房產(chǎn)
家居
旅游
藝術(shù)
教育

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

家居要聞

歸隱于都市 慢享自由

旅游要聞

看花別跑空 成都交子百業(yè)園、白鷺灣油菜花?!拜喰荨?/a>

藝術(shù)要聞

2025第三屆全國水粉畫大展 | 入選作品選刊

教育要聞

“小命不保了還在炫耀”,無知家長曬00后毛娘女兒:收入比她爸高

無障礙瀏覽 進入關(guān)懷版