国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

生成式人工智能的用戶難以準(zhǔn)確評(píng)估自身的能力

0
分享至

作者: 埃里克·W·多蘭

2025年12月29日

最新研究表明,利用人工智能完成任務(wù)可以提高個(gè)人的表現(xiàn),但同時(shí)也會(huì)扭曲他們對(duì)自身表現(xiàn)的準(zhǔn)確評(píng)估能力。研究結(jié)果顯示,雖然使用 ChatGPT 等人工智能工具的用戶在邏輯推理測(cè)試中比獨(dú)自完成任務(wù)的用戶得分更高,但他們往往會(huì)顯著高估自己的表現(xiàn)。

這種模式表明,人工智能輔助可能會(huì)使用戶對(duì)自身能力的感知與其實(shí)際結(jié)果脫節(jié),從而導(dǎo)致用戶產(chǎn)生過(guò)高的自信。該研究發(fā)表在科學(xué)期刊《人機(jī)交互》(Computers in Human Behavior)上。

科學(xué)家和心理學(xué)家越來(lái)越關(guān)注技術(shù)增強(qiáng)對(duì)人類認(rèn)知的影響。隨著生成式人工智能系統(tǒng)在專業(yè)和教育領(lǐng)域日益普及,了解這些工具如何影響元認(rèn)知至關(guān)重要。元認(rèn)知是指?jìng)€(gè)體監(jiān)控和調(diào)節(jié)自身思維過(guò)程的能力。它使人們能夠判斷自己何時(shí)可能正確,何時(shí)可能犯錯(cuò)。

以往的心理學(xué)研究表明,人類普遍存在自我評(píng)估困難。一種被稱為鄧寧-克魯格效應(yīng)的著名現(xiàn)象描述了技能較低的人往往高估自己的能力,而技能較高的人則往往低估自己的能力。本文作者試圖探究當(dāng)人類與人工智能協(xié)作時(shí),這種模式是否依然存在。他們的目標(biāo)是了解人工智能是否能夠起到平衡作用,消除這些偏見(jiàn),還是會(huì)給人們?cè)u(píng)估自身工作的方式帶來(lái)新的復(fù)雜性。

為了探究這些問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了兩項(xiàng)以邏輯推理任務(wù)為中心的獨(dú)立研究。在第一項(xiàng)研究中,他們招募了246名美國(guó)參與者。這些參與者被要求完成20道選自法學(xué)院入學(xué)考試(LSAT)的邏輯推理題。研究人員為參與者提供了一個(gè)專門(mén)的網(wǎng)頁(yè)界面。該界面一側(cè)顯示題目,另一側(cè)顯示ChatGPT交互窗口。

參與者需要就每個(gè)問(wèn)題至少與人工智能互動(dòng)一次。他們可以要求人工智能解決問(wèn)題或解釋其邏輯。提交答案后,參與者需要估計(jì)他們認(rèn)為自己答對(duì)了20個(gè)問(wèn)題中的多少個(gè)。他們還需要根據(jù)特定量表對(duì)每個(gè)決定的信心程度進(jìn)行評(píng)分。

這項(xiàng)初步研究的結(jié)果顯示,客觀表現(xiàn)有了顯著提升。平均而言,使用 ChatGPT 的參與者比未使用人工智能輔助進(jìn)行相同測(cè)試的歷史對(duì)照組高出約 3 分。人工智能幫助用戶解決了他們獨(dú)自答題時(shí)很可能錯(cuò)過(guò)的問(wèn)題。

盡管分?jǐn)?shù)有所提高,但參與者普遍高估了自己的能力。平均而言,他們估計(jì)自己答對(duì)了20道題中的17道左右。而實(shí)際上,他們的平均得分接近13分。這代表著感知與現(xiàn)實(shí)之間存在4分的差距。數(shù)據(jù)表明,人工智能提供的無(wú)縫輔助造成了一種能力超群的錯(cuò)覺(jué)。

該研究還分析了參與者對(duì)人工智能的了解程度與其自我評(píng)估之間的關(guān)系。研究人員使用名為“非專家人工智能素養(yǎng)評(píng)估量表”的工具來(lái)衡量“人工智能素養(yǎng)”。人們可能會(huì)認(rèn)為,了解人工智能的工作原理會(huì)使用戶在判斷時(shí)更加謹(jǐn)慎或準(zhǔn)確。但研究結(jié)果卻恰恰相反。對(duì)人工智能技術(shù)理解程度更高的參與者往往對(duì)自己的答案更加自信,但在評(píng)估自身實(shí)際表現(xiàn)方面卻不太準(zhǔn)確。

這項(xiàng)研究的一個(gè)重要理論貢獻(xiàn)在于鄧寧-克魯格效應(yīng)。在沒(méi)有人工智能的典型情境下,數(shù)據(jù)會(huì)呈現(xiàn)出一條陡峭的斜率:低績(jī)效者會(huì)大幅高估自己,而高績(jī)效者則不會(huì)。當(dāng)參與者使用人工智能后,這種效應(yīng)消失了。這項(xiàng)技術(shù)的“均衡化”效應(yīng)意味著高估現(xiàn)象在所有參與者中變得普遍。低績(jī)效者和高績(jī)效者都以相似的幅度夸大了自己的分?jǐn)?shù)。

研究人員觀察到,人類與人工智能的協(xié)同作用并未超過(guò)人工智能單獨(dú)運(yùn)行時(shí)的表現(xiàn)。人工智能系統(tǒng)單獨(dú)運(yùn)行測(cè)試時(shí),其平均得分高于人類使用人工智能的情況。這表明協(xié)同作用未能實(shí)現(xiàn)。人類有時(shí)會(huì)接受人工智能的錯(cuò)誤建議,或者否決正確的建議,從而拉低了整體性能,使其低于機(jī)器的最大潛力。

為了確保研究結(jié)果的可靠性,研究人員進(jìn)行了第二項(xiàng)研究。這項(xiàng)重復(fù)研究納入了452名參與者。研究人員將樣本分為兩個(gè)不同的組。一組在人工智能輔助下完成任務(wù),而另一組則在沒(méi)有任何技術(shù)輔助的情況下完成任務(wù)。

在第二個(gè)實(shí)驗(yàn)中,研究人員引入了金錢(qián)獎(jiǎng)勵(lì)來(lái)鼓勵(lì)參與者提高準(zhǔn)確性。參與者被告知,如果他們對(duì)自己得分的估計(jì)與實(shí)際得分相符,他們將獲得一筆獎(jiǎng)金。此舉旨在排除參與者可能因?yàn)椴粔蚺Χ狈ψ晕乙庾R(shí)的可能性。

第二項(xiàng)研究的結(jié)果與第一項(xiàng)研究的結(jié)果一致。金錢(qián)激勵(lì)并未糾正高估偏差。使用人工智能的組的表現(xiàn)仍然優(yōu)于未使用人工智能的組,但他們?nèi)匀桓吖懒俗约旱姆謹(jǐn)?shù)。未使用人工智能的組表現(xiàn)出經(jīng)典的鄧寧-克魯格效應(yīng),即技能最差的參與者表現(xiàn)出最大的偏差。人工智能組再次表現(xiàn)出一致的偏差,這證實(shí)了該技術(shù)從根本上改變了用戶對(duì)自身能力的認(rèn)知。

該研究還采用了一種名為“曲線下面積”(AUC)的指標(biāo)來(lái)評(píng)估元認(rèn)知敏感度。該指標(biāo)衡量的是一個(gè)人在回答正確時(shí)是否比回答錯(cuò)誤時(shí)更有自信。理想情況下,一個(gè)人在犯錯(cuò)時(shí)應(yīng)該感到不確定。數(shù)據(jù)顯示,參與者的元認(rèn)知敏感度較低。無(wú)論他們對(duì)特定問(wèn)題的回答正確與否,他們的自信程度都很高。

從聊天記錄中收集的定性數(shù)據(jù)提供了更多背景信息。研究人員注意到,大多數(shù)參與者只是被動(dòng)地接收信息。他們經(jīng)常將問(wèn)題復(fù)制粘貼到聊天記錄中,并接受人工智能的輸出結(jié)果,而沒(méi)有進(jìn)行任何實(shí)質(zhì)性的質(zhì)疑或驗(yàn)證。只有極少數(shù)用戶將人工智能視為合作伙伴或用于復(fù)核自身邏輯的工具。

研究人員探討了造成這些結(jié)果的幾個(gè)潛在原因。其中一種可能性是“解釋深度錯(cuò)覺(jué)”。當(dāng)人工智能提供流暢、清晰且即時(shí)的解釋時(shí),它會(huì)欺騙大腦,使其誤以為信息已被處理和理解得比實(shí)際情況更深入。答案的易得性降低了解決邏輯難題通常所需的認(rèn)知努力,進(jìn)而削弱了人們可能出錯(cuò)的內(nèi)部信號(hào)。

所有研究都存在一些局限性,這一點(diǎn)需要考慮。第一項(xiàng)研究使用的是歷史比較組而非同期對(duì)照組,不過(guò)第二項(xiàng)研究對(duì)此進(jìn)行了修正。此外,該研究的任務(wù)僅限于LSAT邏輯推理題。不同類型的任務(wù),例如創(chuàng)意寫(xiě)作或編程,可能會(huì)產(chǎn)生不同的元認(rèn)知模式。

該研究還使用了特定版本的ChatGPT。隨著這些模型不斷發(fā)展并變得更加精準(zhǔn),人機(jī)互動(dòng)關(guān)系可能會(huì)發(fā)生變化。研究人員還指出,參與者必須使用人工智能,這可能與用戶在現(xiàn)實(shí)生活中自主選擇何時(shí)使用該工具的情況有所不同。

針對(duì)這些研究空白,研究人員提出了未來(lái)的研究方向。他們建議探索能夠促使用戶進(jìn)行更批判性思考的設(shè)計(jì)改進(jìn)。例如,界面可以要求用戶在接受答案之前向系統(tǒng)解釋人工智能的邏輯。此外,還需要進(jìn)行長(zhǎng)期研究,以觀察隨著用戶對(duì)大型語(yǔ)言模型局限性的了解加深,這種過(guò)度自信是否會(huì)逐漸消失。

這項(xiàng)名為“人工智能讓你更聰明,但并不讓你更明智:表現(xiàn)與元認(rèn)知之間的脫節(jié)”的研究由 Daniela Fernandes、Steeven Villa、Salla Nicholls、Otso Haavisto、Daniel Buschek、Albrecht Schmidt、Thomas Kosch、Chenxinran Shen 和 Robin Welsch 撰寫(xiě)。

AI makes you smarter but none the wiser: The disconnect between performance and metacognition

Author links open overlay panelDaniela Fernandes a , Steeven Villa b, Salla Nicholls a, Otso Haavisto a, Daniel Buschek c, Albrecht Schmidt b, Thomas Kosch d, Chenxinran Shen e, Robin Welsch a

Show more

Outline

Share

Cite

https://doi.org/10.1016/j.chb.2025.108779


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)賈德死亡真相

內(nèi)賈德死亡真相

哲空空
2026-03-02 07:50:14
上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

南方都市報(bào)
2026-03-02 09:25:52
全國(guó)政協(xié)委員劉永好:建議全民發(fā)放500元通用消費(fèi)券,可拉動(dòng)消費(fèi)近2萬(wàn)億元

全國(guó)政協(xié)委員劉永好:建議全民發(fā)放500元通用消費(fèi)券,可拉動(dòng)消費(fèi)近2萬(wàn)億元

第一財(cái)經(jīng)資訊
2026-03-02 10:53:10
椰樹(shù)女員工胸這么大!椰樹(shù)集團(tuán)的“野風(fēng)”究竟要刮到什么時(shí)候?

椰樹(shù)女員工胸這么大!椰樹(shù)集團(tuán)的“野風(fēng)”究竟要刮到什么時(shí)候?

評(píng)底郭
2026-03-01 15:11:06
伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

伊朗為什么不學(xué)澤連斯基給民眾發(fā)槍?

昊軒看世界
2026-03-01 11:02:14
平頂山劉某飛四大惡劣情節(jié),量刑將加重?牽連舅舅或被重新調(diào)查?

平頂山劉某飛四大惡劣情節(jié),量刑將加重?牽連舅舅或被重新調(diào)查?

社會(huì)日日鮮
2026-03-02 03:04:59
特朗普同意對(duì)話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

特朗普同意對(duì)話,以色列卻再撂狠話,美以聯(lián)合行動(dòng)能持續(xù)多久?

新民晚報(bào)
2026-03-02 10:32:41
特朗普,可能失算了!

特朗普,可能失算了!

新動(dòng)察
2026-03-02 09:18:39
兩個(gè)人的律所干翻千人大所!靠Claude在兩小時(shí)拆穿對(duì)方三處漏洞

兩個(gè)人的律所干翻千人大所!靠Claude在兩小時(shí)拆穿對(duì)方三處漏洞

三言四拍
2026-03-01 20:58:56
浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級(jí)地震

浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級(jí)地震

閃電新聞
2026-03-02 11:03:08
突發(fā),美國(guó)國(guó)防部出手了!

突發(fā),美國(guó)國(guó)防部出手了!

君臨財(cái)富
2026-03-02 11:40:17
美媒都看不下去:先開(kāi)戰(zhàn)再編理由,誰(shuí)像你這樣?

美媒都看不下去:先開(kāi)戰(zhàn)再編理由,誰(shuí)像你這樣?

觀察者網(wǎng)
2026-03-02 10:29:03
伊朗最高國(guó)家安全委員會(huì)秘書(shū):不會(huì)與美國(guó)進(jìn)行談判

伊朗最高國(guó)家安全委員會(huì)秘書(shū):不會(huì)與美國(guó)進(jìn)行談判

界面新聞
2026-03-02 12:28:46
美軍F-15戰(zhàn)機(jī)據(jù)稱在科威特被擊中

美軍F-15戰(zhàn)機(jī)據(jù)稱在科威特被擊中

界面新聞
2026-03-02 13:32:41
近期,一名中國(guó)男子去泰國(guó)玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國(guó)男子去泰國(guó)玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長(zhǎng)
2026-03-01 14:38:25
一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開(kāi)發(fā)特朗普的定位

一邊是內(nèi)奸害死了哈梅內(nèi)伊,一邊是美國(guó)人公開(kāi)發(fā)特朗普的定位

林中木白
2026-03-02 11:06:13
紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

紀(jì)實(shí):浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長(zhǎng)很后怕

談史論天地
2026-03-01 09:49:38
演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報(bào),作為中國(guó)人真的很感恩現(xiàn)在和平的每一天

演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報(bào),作為中國(guó)人真的很感恩現(xiàn)在和平的每一天

極目新聞
2026-03-02 12:35:35
伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國(guó)和以色列

中國(guó)網(wǎng)
2026-03-01 16:43:10
超20000名旅客滯留!“迪拜機(jī)場(chǎng)已經(jīng)沒(méi)有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

超20000名旅客滯留!“迪拜機(jī)場(chǎng)已經(jīng)沒(méi)有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費(fèi)用

江西工人報(bào)
2026-03-01 22:27:25
2026-03-02 14:03:00
科學(xué)的歷程 incentive-icons
科學(xué)的歷程
吳國(guó)盛、田松主編
3135文章數(shù) 15005關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
游戲
公開(kāi)課

藝術(shù)要聞

2025北京青年美術(shù)作品展 | 油畫(huà)作品選刊

本地新聞

津南好·四時(shí)總相宜

從每天只睡4小時(shí)到8小時(shí):一個(gè)失眠者的自救指南

曝戰(zhàn)神新作風(fēng)格將大變!比起戰(zhàn)神可能更像鬼泣

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版