国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT研究:AI對人類區(qū)別對待,英語水平和學(xué)歷影響AI的回答質(zhì)量

0
分享至


(來源:麻省理工科技評論)

大語言模型(LLM)一直被譽為可推動全球信息獲取民主化的工具,能夠以用戶友好的界面向任何背景和地域的人提供知識。然而,MIT 建設(shè)性傳播中心(CCC)的最新研究表明,這些 AI 系統(tǒng)實際上可能對那些最能從中受益的用戶表現(xiàn)更差。

CCC 基于 MIT 媒體實驗室,其研究人員開展的這項研究發(fā)現(xiàn),包括 OpenAI 的 GPT-4、Anthropic 的 Claude 3 Opus 和 Meta 的 Llama 3 在內(nèi)的頂尖 AI 聊天機器人,有時會對英語水平較低、受教育程度較低或非美國背景的用戶提供準確性和真實性更低的回答。這些模型對上述用戶拒絕回答問題的比例也更高,在某些情況下,還會使用帶有居高臨下或說教意味的語言。

“我們的研究動機源于 LLM 有望幫助解決全球信息獲取不平等問題的前景,”論文第一作者、MIT 斯隆管理學(xué)院技術(shù)研究員埃利諾·普爾-達揚(Elinor Poole-Dayan)表示。她以 CCC 研究員和媒體藝術(shù)與科學(xué)專業(yè)碩士生的身份主導(dǎo)了這項研究。“但如果不能確保對所有用戶——無論其語言、國籍或其他人口背景——安全地消除模型偏見和有害傾向,這一愿景就無從實現(xiàn)。”

描述上述研究的論文《LLM 定向表現(xiàn)不佳對弱勢用戶的不成比例影響》已于今年 1 月在 AAAI 人工智能會議上發(fā)表。

研究團隊測試了三款 LLM 對來自兩個數(shù)據(jù)集問題的回答方式,分別是 TruthfulQA 和 SciQ。TruthfulQA 旨在衡量模型的真實性(通過考察常見誤解和現(xiàn)實世界的字面真相),SciQ 則包含測試事實準確性的科學(xué)考試題目。研究人員在每個問題前附加了簡短的用戶個人簡介,并對三項特征進行了變量設(shè)置:教育水平、英語水平和原籍國。

在三款模型和兩個數(shù)據(jù)集的所有測試中,研究人員發(fā)現(xiàn),當(dāng)問題來自被描述為受正規(guī)教育程度較低或非英語母語者的用戶時,模型的準確性出現(xiàn)顯著下滑。這一影響在同時具備這兩類特征的用戶群體中最為突出:受教育程度較低且為非英語母語者的用戶,回答質(zhì)量下降幅度最大。

研究還考察了原籍國對模型表現(xiàn)的影響。在對具有同等教育背景的美國、伊朗和中國用戶進行測試后,研究人員發(fā)現(xiàn),Claude 3 Opus 對伊朗用戶在兩個數(shù)據(jù)集上的表現(xiàn)均明顯更差。

“我們觀察到,準確性下降幅度最大的,是同時具備非英語母語者和受教育程度較低這兩項特征的用戶,”CCC 研究科學(xué)家、論文共同作者賈德·卡巴拉(Jad Kabbara)說,“這些結(jié)果表明,模型在上述用戶特征方面的負面行為效應(yīng)存在疊加,令人擔(dān)憂。這意味著,大規(guī)模部署此類模型,可能將有害行為或錯誤信息傳播給那些最難以識別它們的群體?!?/p>

最引人關(guān)注的或許是模型拒絕回答問題的頻率差異。例如,Claude 3 Opus 對受教育程度較低的非英語母語用戶的拒答率接近 11%,而在沒有用戶簡介的對照條件下,這一比例僅為 3.6%。

研究人員對這些拒答案例進行人工分析后發(fā)現(xiàn),Claude 對受教育程度較低的用戶,有 43.7% 的時間使用了帶有居高臨下、說教或嘲諷意味的語言,而對高學(xué)歷用戶,這一比例不足 1%。在某些情況下,模型甚至?xí)7虏涣骼挠⒄Z或夸張的方言。

該模型還對來自伊朗或俄羅斯的低學(xué)歷用戶,拒絕提供某些特定主題的信息,包括核能、解剖學(xué)和歷史事件等方面的問題,盡管它能夠正確回答其他用戶提出的相同問題。

“這是另一個跡象,表明對齊過程可能會激勵模型對特定用戶隱瞞信息,以避免潛在的誤導(dǎo),盡管模型顯然知道正確答案,并會將其提供給其他用戶,”卡巴拉說。

上述發(fā)現(xiàn)與人類社會認知偏見的已記錄規(guī)律相吻合。社會科學(xué)研究表明,英語母語者往往認為非母語者受教育程度較低、智力和能力較差,無論其實際專業(yè)水平如何。類似的偏見認知在教師評價非英語母語學(xué)生時也有記錄。

“大語言模型的價值體現(xiàn)在其被個人大量采用以及流入該技術(shù)的巨額投資上,”媒體藝術(shù)與科學(xué)教授、CCC 主任、論文共同作者德布·羅伊(Deb Roy)表示,“這項研究提醒我們,持續(xù)評估可能悄然滲入這些系統(tǒng)的系統(tǒng)性偏見至關(guān)重要,因為這些偏見會在我們毫無察覺的情況下,對特定群體造成不公平的傷害。”

個性化功能日益普及,使得上述問題的影響尤為值得關(guān)注,例如 ChatGPT 的記憶功能可跨對話追蹤用戶信息。這類功能存在對已處于邊緣化地位的群體實施差異化對待的風(fēng)險。

“LLM 一直被定位為促進信息獲取平等、革新個性化學(xué)習(xí)的工具,”普爾-達揚說,“但我們的研究結(jié)果表明,它們實際上可能通過系統(tǒng)性地向特定用戶提供錯誤信息或拒絕回答其問題,進一步加劇現(xiàn)有的不平等。那些最有可能依賴這些工具的人,卻可能獲得質(zhì)量欠佳、失實甚至有害的信息?!?/p>

https://news.mit.edu/2026/study-ai-chatbots-provide-less-accurate-information-vulnerable-users-0219

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“i茅臺”試水60天,茅臺決定“渠道、營銷、供應(yīng)鏈”一路向“C”

“i茅臺”試水60天,茅臺決定“渠道、營銷、供應(yīng)鏈”一路向“C”

說故事的阿襲
2026-02-28 11:28:48
250架戰(zhàn)機集結(jié)中國大西北!美媒驚呼:中國最大規(guī)??諔?zhàn)演習(xí)來了

250架戰(zhàn)機集結(jié)中國大西北!美媒驚呼:中國最大規(guī)??諔?zhàn)演習(xí)來了

壹知眠羊
2026-02-28 09:37:22
震驚:楊瀚森紀念杯上中國地圖居然缺少臺灣海南,開拓者意欲何為

震驚:楊瀚森紀念杯上中國地圖居然缺少臺灣海南,開拓者意欲何為

姜大叔侃球
2026-02-27 11:11:14
國家統(tǒng)計局:2025年GDP增長5%!全國人均可支配收入43377元,同比增長5%

國家統(tǒng)計局:2025年GDP增長5%!全國人均可支配收入43377元,同比增長5%

每日經(jīng)濟新聞
2026-02-28 10:59:40
陳凱歌在三亞豪宅過年,穿5萬皮鞋戴大金表 老年斑難掩藝術(shù)家氣場

陳凱歌在三亞豪宅過年,穿5萬皮鞋戴大金表 老年斑難掩藝術(shù)家氣場

林雁飛
2026-02-25 20:00:33
特朗普:不排除“友好接管古巴” 他們現(xiàn)在一無所有

特朗普:不排除“友好接管古巴” 他們現(xiàn)在一無所有

看看新聞Knews
2026-02-28 12:52:10
美國記者問周總理:中國人為什么喜歡低頭走路?總理如何機智回復(fù)

美國記者問周總理:中國人為什么喜歡低頭走路?總理如何機智回復(fù)

棠棣分享
2026-02-26 16:21:44
炸鍋!阿森納沖冠關(guān)鍵期,核心大將突然逼宮離隊,兩大豪門已就位

炸鍋!阿森納沖冠關(guān)鍵期,核心大將突然逼宮離隊,兩大豪門已就位

奶蓋熊本熊
2026-02-28 05:53:23
電視上看著一般般,真人巨帥氣!不得不說五十歲保養(yǎng)得跟25歲一樣

電視上看著一般般,真人巨帥氣!不得不說五十歲保養(yǎng)得跟25歲一樣

鄉(xiāng)野小珥
2026-02-27 19:50:38
豪取11連勝,打破NBA塵封79年神紀錄!3大細節(jié)證明圣城馬刺回來了

豪取11連勝,打破NBA塵封79年神紀錄!3大細節(jié)證明圣城馬刺回來了

鍋子籃球
2026-02-27 14:55:39
美軍航母“炸”了,史詩級災(zāi)難,把臉都丟光了

美軍航母“炸”了,史詩級災(zāi)難,把臉都丟光了

毛豆論道
2026-02-26 19:32:00
日本真覺得中國會服軟

日本真覺得中國會服軟

智先生
2026-02-27 21:07:30
天助阿森納:0-2大冷門,英超第3遭倒數(shù)第一掀翻,落后榜首10分

天助阿森納:0-2大冷門,英超第3遭倒數(shù)第一掀翻,落后榜首10分

側(cè)身凌空斬
2026-02-28 05:57:46
緊急提醒:千萬別幫這個忙!知名主持人:目睹同伴差點被騙了!

緊急提醒:千萬別幫這個忙!知名主持人:目睹同伴差點被騙了!

佛山電視臺小強熱線
2026-02-27 18:56:20
頂風(fēng)作案!上海警方:大學(xué)生湯某,刑拘!已干了50多次……

頂風(fēng)作案!上海警方:大學(xué)生湯某,刑拘!已干了50多次……

環(huán)球網(wǎng)資訊
2026-02-27 07:24:21
85歲老人被女婿趕出家門,臨走時外孫偷塞紙條,七字讓他轉(zhuǎn)身返回

85歲老人被女婿趕出家門,臨走時外孫偷塞紙條,七字讓他轉(zhuǎn)身返回

卡西莫多的故事
2025-05-12 17:40:50
小米回應(yīng)汽車火災(zāi)事故調(diào)查過程:沒有許可,原則上不能自行披露

小米回應(yīng)汽車火災(zāi)事故調(diào)查過程:沒有許可,原則上不能自行披露

IT之家
2026-02-27 20:21:20
轟31+9+3!重返西部第三,史密斯再超神下去,火箭能讓聯(lián)盟大結(jié)局

轟31+9+3!重返西部第三,史密斯再超神下去,火箭能讓聯(lián)盟大結(jié)局

巴叔GO聊體育
2026-02-28 10:01:05
錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

錢楓近照曝光,肥頭大耳認不出,天天兄弟物是人非:還好退圈了

娛說瑜悅
2026-02-27 17:37:41
特斯拉在歐洲上市 7 座版 Model Y,用戶不買賬:我們想要 Model Y L

特斯拉在歐洲上市 7 座版 Model Y,用戶不買賬:我們想要 Model Y L

新浪財經(jīng)
2026-02-27 22:31:19
2026-02-28 13:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16333文章數(shù) 514670關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時尚
游戲
旅游
本地
公開課

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

《寶可夢》卡牌將推30周年紀念卡包 收藏價值突出

旅游要聞

數(shù)字平臺成入境游關(guān)鍵動能,攜程帶動消費240億美元

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版