国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型在心理學(xué)應(yīng)用中的前沿探索:一項綜合性綜述(上)

0
分享至


Ke, L., Tong, S., Cheng, P., & Peng, K. (2025). Exploring the frontiers of llms in psychological applications: A comprehensive review. Artificial Intelligence Review, 58(10), 305.https://doi.org/10.1007/s10462-025-11297-5

摘要

本綜述旨在探討大語言模型(LLMs)在心理學(xué)應(yīng)用領(lǐng)域的前沿進(jìn)展。心理學(xué)的發(fā)展經(jīng)歷了多次理論變革,而當(dāng)前人工智能(AI)與機(jī)器學(xué)習(xí),尤其是大語言模型的應(yīng)用,有望開啟新的研究方向。本文旨在深入分析 LLMs 如何正在改變心理學(xué)研究。我們討論了 LLMs 在心理學(xué)各主要分支領(lǐng)域——包括認(rèn)知與行為、臨床與咨詢、教育與發(fā)展,以及社會與文化心理學(xué)——的影響,重點強(qiáng)調(diào)其在模擬與人類相似的模式、認(rèn)知與行為方面的能力。此外,我們還探討了此類模型生成連貫且具備語境相關(guān)性的文本的能力,為心理學(xué)中的文獻(xiàn)綜述、假設(shè)生成、實驗設(shè)計、實驗被試以及數(shù)據(jù)分析等提供了創(chuàng)新工具。我們特別強(qiáng)調(diào),研究人員需要關(guān)注技術(shù)與倫理挑戰(zhàn),包括數(shù)據(jù)隱私、在心理學(xué)研究中使用 LLMs 的倫理問題,以及深入理解這些模型局限性的必要性。研究人員在心理學(xué)研究中應(yīng)負(fù)責(zé)任地使用 LLMs,遵守倫理規(guī)范,并審慎考慮將這些技術(shù)部署于敏感領(lǐng)域可能帶來的影響??傮w而言,本綜述全面呈現(xiàn)了 LLMs 在心理學(xué)領(lǐng)域的現(xiàn)狀,探討了其潛在優(yōu)勢與挑戰(zhàn)。我們希望本文能為研究者發(fā)出行動呼吁,在積極利用 LLMs 優(yōu)勢的同時,切實應(yīng)對相關(guān)風(fēng)險。

關(guān)鍵詞:大語言模型(LLMs);機(jī)器學(xué)習(xí);人工智能(AI);心理學(xué);研究方法

1

引言

人工智能(AI)已有近七十年的發(fā)展歷史,其起點可追溯至 1956 年的達(dá)特茅斯會議。近年來,隨著大語言模型(LLMs)的出現(xiàn),如 ChatGPT、Google 的 Bard 和 Meta 的 LLaMA,該領(lǐng)域迎來了革命性進(jìn)展。其中,GPT-4 尤其可能代表著一次范式轉(zhuǎn)變,憑借其在數(shù)學(xué)、編程、視覺、醫(yī)學(xué)、法律和心理學(xué)等領(lǐng)域解決復(fù)雜任務(wù)的卓越能力(Bubeck 等,2023),生動詮釋了“AI賦能科學(xué)”(AI for science)的理念(Wang 等,2023)。LLMs 在機(jī)器學(xué)習(xí)與人工智能的發(fā)展中標(biāo)志著一個關(guān)鍵節(jié)點,這得益于其龐大的規(guī)模和采用注意力機(jī)制的復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu)(Vaswani 等,2017)。這些模型融入了認(rèn)知原理(Binz & Schulz, 2023a),并展現(xiàn)出可與復(fù)雜物理系統(tǒng)相媲美的涌現(xiàn)特性(Wei 等,2022)。這種特性不僅提升了它們處理與表征概念及高層語義的能力(J. Li 等,2022),也加深了我們對人類認(rèn)知過程的理解(Sejnowski, 2022)。在心理學(xué)應(yīng)用中,這些進(jìn)展正重塑數(shù)據(jù)、語言與環(huán)境之間的交互關(guān)系(De Bot 等,2007;Demszky 等,2023),并在包括臨床心理學(xué)(Thirunavukarasu 等,2023)、發(fā)展心理學(xué)(Frank, 2023;Hagendorff, 2023)以及社會心理學(xué)(Hardy 等,2023;J. Zhang 等,2023)等多個領(lǐng)域發(fā)揮著重要作用。此外,LLMs 還對心理學(xué)研究方法產(chǎn)生了深遠(yuǎn)影響,提供了全新的探索與分析途徑與工具。

1.1 大語言模型概念:從機(jī)器學(xué)習(xí)到能力涌現(xiàn)

生成式人工智能(Generative AI)源于模式識別能力的進(jìn)步。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在識別物體和概念方面表現(xiàn)優(yōu)異,但隨之而來的下一個挑戰(zhàn)是如何將這種識別能力用于生成任務(wù)。例如,如果 CNN 能夠識別肖像中的“年齡”特征,那么我們就可以利用這種理解去修改任何肖像中的“年齡”。這種生成式方法首先在計算機(jī)視覺領(lǐng)域取得成功,通過生成對抗網(wǎng)絡(luò)(GANs)(Goodfellow 等,2020)和反卷積技術(shù)(Zeiler,2014)等模型,能夠基于已學(xué)習(xí)的模式生成逼真的圖像。隨后,這些生成原理被應(yīng)用于語言領(lǐng)域,催生了能夠生成語境相關(guān)文本的大語言模型(LLMs)。LLMs 在生成式人工智能的能力上實現(xiàn)了重大飛躍,這類模型專為處理自然語言文本并生成上下文相關(guān)的文本而設(shè)計。GPT-4、LLaMA、Claude 和 Gemini 等 LLMs 都基于 Transformer 架構(gòu)(Vaswani 等,2017),利用復(fù)雜的神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制,革新了自然語言處理。每個模型都在性能優(yōu)化方向上各有側(cè)重,例如 LLaMA 注重高效的訓(xùn)練過程(Touvron 等,2023),Claude 強(qiáng)調(diào)安全與對齊(Li 等,2024),而 Gemini 則融合了更強(qiáng)的推理能力(Rane 等,2024)。

盡管這些模型展現(xiàn)了 LLMs 的多樣化能力,但我們必須區(qū)分為特定交互設(shè)計的具體產(chǎn)品(如面向?qū)υ拺?yīng)用的 ChatGPT)與 LLMs 的更廣泛能力——后者不僅包括聊天,還涵蓋文本生成、摘要、翻譯和嵌入提取等任務(wù)。這些廣泛應(yīng)用表明,LLMs 的能力具有“涌現(xiàn)性”,隨著模型規(guī)模的增大會出現(xiàn)新的能力。在對數(shù)—對數(shù)性能曲線上,有時會出現(xiàn)“跳躍”,即模型內(nèi)部復(fù)雜交互催生出意想不到的能力(Wei 等,2022)。

LLMs 的核心是 Transformer 架構(gòu),這是一種帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),能夠并行高效地處理序列數(shù)據(jù)(Vaswani 等,2017),其工作方式在某種程度上類似于人腦功能。該架構(gòu)徹底改變了自然語言處理領(lǐng)域。Transformer 的自注意力機(jī)制可以捕捉文本數(shù)據(jù)中的上下文關(guān)系,從而實現(xiàn)更為精細(xì)的語言理解。值得注意的是,LLMs 中的“Large”指的是巨量的參數(shù)和海量的訓(xùn)練數(shù)據(jù)——通常包含數(shù)十億個參數(shù)和以 TB 計的文本數(shù)據(jù)(Binz & Schulz,2023b),以實現(xiàn)“掌握世界”的知識儲備(Yildirim & Paul,2023)。

大語言建模的過程,從機(jī)器學(xué)習(xí)到能力涌現(xiàn),可以分為幾個關(guān)鍵階段。(1)預(yù)訓(xùn)練:LLMs 在海量文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)復(fù)雜的語言、句法和文本結(jié)構(gòu),模型通過無監(jiān)督學(xué)習(xí)預(yù)測下一個 token,從而獲得能夠捕捉語言統(tǒng)計模式的基礎(chǔ)模型(P. Liu 等,2023)。(2)對齊:通過有監(jiān)督學(xué)習(xí),使基礎(chǔ)模型更好地按預(yù)期方式與用戶交互,這通常包括指令微調(diào)(instruction tuning)和基于人類反饋的強(qiáng)化學(xué)習(xí)。在此基礎(chǔ)上,還可進(jìn)行領(lǐng)域特定的微調(diào),使模型適配特定應(yīng)用(Liu 等,2022)。這一過程確保模型能夠生成上下文相關(guān)的響應(yīng),并參與有意義的對話或任務(wù)。通過這些階段的發(fā)展,LLMs 展現(xiàn)出越來越精細(xì)的文本生成能力,包括響應(yīng)生成、內(nèi)容摘要、翻譯以及組合性文本生成(Bubeck 等,2023)。有效處理與表征上下文的能力,是這些模型高級能力涌現(xiàn)的重要基礎(chǔ)。最終,LLMs 在被集成到各種應(yīng)用與系統(tǒng)中時,會表現(xiàn)出“可觀測的能力涌現(xiàn)”,能夠完成需要深度語言與上下文理解的任務(wù),并在特定實驗任務(wù)中達(dá)到類人甚至超越人類的表現(xiàn),如類比推理(Webb 等,2023)、創(chuàng)造力(Stevenson 等,2022)以及情緒識別(Patel & Fan,2023)。

因此,LLMs 能夠為我們理解這類技術(shù)如何模擬或增強(qiáng)傳統(tǒng)上與人類認(rèn)知相關(guān)的過程提供有價值的洞見。具體而言,LLMs 在邏輯處理與認(rèn)知捷徑(啟發(fā)式)之間保持平衡,并能夠調(diào)整推理策略,在準(zhǔn)確性與認(rèn)知投入之間進(jìn)行優(yōu)化。這與雙過程理論(dual-process theory)所討論的資源理性(resource-rational)人類認(rèn)知原則相契合(Mukherjee & Chang,2024)。例如,LLMs 在生成與處理自然語言時,在結(jié)構(gòu)與功能上與人類語言和認(rèn)知機(jī)制的某些方面存在相似之處(Goertzel,2023)。這種相似性使得探索其在認(rèn)知心理學(xué)(Sartori & Orrù,2023)、語言習(xí)得(Jungherr,2023)甚至心理健康(Lamichhane,2023)等領(lǐng)域的應(yīng)用成為可能。此外,對 LLMs 的研究也有助于深化我們對人類心智的理解,從計算視角探討語言處理、決策(Sha 等,2023)與學(xué)習(xí)機(jī)制(Hendel 等,2023)。這種跨學(xué)科的融合可能推動人工智能的發(fā)展,并為研究與人類認(rèn)知相關(guān)的過程提供計算框架。

1.2 心理學(xué)與人工智能

心理學(xué)作為一門探索人類心智與行為的科學(xué),自 19 世紀(jì)末以來經(jīng)歷了重大的理論變革,從精神分析學(xué)與行為主義發(fā)展到認(rèn)知心理學(xué)(Hothersall & Lovett, 2022)。這一歷史進(jìn)程標(biāo)志著心理學(xué)研究重心的轉(zhuǎn)變,即從關(guān)注行為表現(xiàn)轉(zhuǎn)向深入探討心理內(nèi)涵,反映了學(xué)術(shù)界從外顯行為觀察到內(nèi)隱心理機(jī)制探索的趨勢。每一階段都推動了人類對心理—認(rèn)知過程理解的不斷深化。

理解人類的心理—認(rèn)知過程因此成為心理學(xué)的核心任務(wù)。在臨床與咨詢心理學(xué)中,認(rèn)知心理學(xué)的研究為心理障礙的診斷與治療提供了理論支持,深化了我們對情緒、壓力及人類行為背后心理機(jī)制的理解。認(rèn)知行為療法(Hofmann 等,2012)和心理動力學(xué)療法等心理治療方法已成為促進(jìn)心理健康與情緒調(diào)節(jié)的重要工具。在教育與發(fā)展心理學(xué)中,認(rèn)知心理學(xué)的發(fā)展加深了人們對知覺與情感因素在學(xué)習(xí)過程中的作用的理解(Glaser, 1984),推動了教學(xué)方法和學(xué)習(xí)策略的創(chuàng)新。在社會與文化心理學(xué)中,認(rèn)知心理學(xué)研究有助于解釋個體在不同社會與文化背景下的行為與心理過程,探索文化差異如何影響認(rèn)知模式、價值觀與行為規(guī)范,尤其是在全球化背景下的互動與融合過程中。在社會心理學(xué)領(lǐng)域,認(rèn)知心理學(xué)對群體行為、社會影響、偏見與歧視的研究,為促進(jìn)社會和諧與相互理解具有重要價值(Park & Judd, 2005)。

人工智能正日益成為心理—認(rèn)知研究中具有影響力的工具。Simon(1979)是最早意識到計算模型在模擬人類認(rèn)知過程方面潛力的學(xué)者之一。目前,大語言模型(LLMs)已經(jīng)能夠處理與生成類人文本,并在某些任務(wù)中以類似人類認(rèn)知的方式完成工作(Bubeck 等,2023)。LLMs 還為人類認(rèn)知研究提供了獨特的計算視角。例如,GPT-3 能夠解決情境任務(wù)(vignette-based tasks),表現(xiàn)與人類相當(dāng)甚至更優(yōu),并能基于描述進(jìn)行理性決策,在多臂老虎機(jī)任務(wù)中超越人類(Binz & Schulz, 2023b)。此外,大規(guī)模測試表明,GPT-3 在解決復(fù)雜類比問題時可達(dá)到與人類相當(dāng)?shù)乃?,而類比推理是人類智慧的重要?biāo)志(Webb 等,2023)。更重要的是,通過多任務(wù)微調(diào),LLMs 能夠預(yù)測此前從未見過任務(wù)中的人類行為——換言之,LLMs 可以被適配為通用認(rèn)知模型(Binz & Schulz, 2023a),有潛力開辟新的研究方向,從而改變認(rèn)知心理學(xué)與行為科學(xué)的整體格局。

Newell(1990)提出了一個分析人類行為的結(jié)構(gòu)化框架,將認(rèn)知與行為過程按照時間尺度劃分為四個層次(圖 1a)。在生物學(xué)層面,研究關(guān)注的是以毫秒到一秒的極短時間尺度發(fā)生的生理與神經(jīng)過程,例如神經(jīng)反應(yīng)與感官加工,這些過程構(gòu)成了人類認(rèn)知的基礎(chǔ)。認(rèn)知層面涉及注意、知覺與短時記憶等機(jī)制,其運行時間通常為一秒到一分鐘,是基本認(rèn)知功能的支撐。理性層面涵蓋了問題解決、計劃與決策等更復(fù)雜的認(rèn)知活動,這些過程通常在幾分鐘到數(shù)小時的時間尺度上發(fā)生,需要持續(xù)的認(rèn)知投入。最后,社會層面關(guān)注由社會互動與文化影響所塑造的行為,其時間尺度最長,從數(shù)小時到數(shù)天甚至更久,涉及社會交流、群體行為與文化對認(rèn)知的影響。該框架凸顯了人類行為的多維特性,強(qiáng)調(diào)了快速的生理過程與更持久的社會影響在認(rèn)知中的相互關(guān)系。

因此,通過在這四個層面(圖 1a)分析 LLMs 的應(yīng)用,可以進(jìn)一步探索它們在建模與研究人類認(rèn)知和行為方面的潛力(圖 1b),以及它們在心理—認(rèn)知過程中的獨特作用。最新研究揭示了 LLMs 在執(zhí)行復(fù)雜的類人認(rèn)知與社會任務(wù)方面的顯著進(jìn)展(Grossmann 等,2023;Marjieh 等,2023;Orru 等,2023;Pal 等,2023;Stevenson 等,2022;Webb 等,2023)。例如,Grossmann 等(2023)與 Marjieh 等(2023)分別展示了 LLMs 在模擬人類社會互動與知覺加工方面的能力;Orru 等(2023)與 Webb 等(2023)強(qiáng)調(diào)了它們在復(fù)雜問題解決與推理方面的表現(xiàn);Hagendorff 等(2023)關(guān)注其決策過程;Stevenson 等(2022)記錄了其在創(chuàng)造力方面的潛力;而 Patel 與 Fan(2023)則展示了它們的情緒識別能力。總體而言,這些研究結(jié)果凸顯了 LLMs 在表征與增強(qiáng)人類認(rèn)知和社會功能方面不斷擴(kuò)展的角色,標(biāo)志著人工智能研究的重要進(jìn)展。

作為通用認(rèn)知模型(Binz & Schulz, 2023a),LLMs 在認(rèn)知與行為心理學(xué)、臨床與咨詢心理學(xué)、教育與發(fā)展心理學(xué)以及社會與文化心理學(xué)等領(lǐng)域,不同時間尺度的人類行為研究中提供了新的視角與方法(圖 1a)。

LLMs 還可作為研究輔助工具(圖 1c),幫助心理學(xué)家完成從文獻(xiàn)綜述(Ayd?n & Karaarslan, 2022;Qureshi 等,2023)、實驗被試(Dillion 等,2023;Hutson, 2023)、數(shù)據(jù)分析(Patel & Fan, 2023;Peters & Matz, 2023;Rathje 等,2023),到促進(jìn)學(xué)術(shù)交流(如學(xué)術(shù)寫作 [Dergaa 等,2023;Stokel-Walker, 2022] 或同行評審 [Chiang & Lee, 2023;Van Dis 等,2023])等多種任務(wù)。因此,LLMs 有望成為心理學(xué)家的科研助手,幫助他們提升研究效率。


圖1.大語言模型在跨時間尺度心理學(xué)研究中的應(yīng)用

(a) 將研究領(lǐng)域(如認(rèn)知與行為、社會與文化)映射到相應(yīng)的行為時間尺度;(b) 涌現(xiàn)特性(如認(rèn)知仿真)可支持特定領(lǐng)域的建模;(c) 大語言模型作為研究工具(如刺激材料生成)。雙向箭頭表示這些新興特性在領(lǐng)域與工具之間形成橋梁,既支持具體應(yīng)用(如記憶提?。?,又在使用過程中不斷完善其特性。

1.3 本綜述的目的與意義

本綜述旨在對大語言模型(LLMs)在心理學(xué)研究中的應(yīng)用與影響進(jìn)行全面分析。為確保綜述的系統(tǒng)性與嚴(yán)謹(jǐn)性,我們制定了明確的納入與排除標(biāo)準(zhǔn)。本文聚焦于 2020 年至 2024 年間發(fā)表的相關(guān)文獻(xiàn),數(shù)據(jù)來源包括 Google Scholar、arXiv 和 Web of Science 等學(xué)術(shù)數(shù)據(jù)庫。我們使用 “GPT-3”“ChatGPT”“GPT-4”“l(fā)arge language models” 和 “psychology” 等關(guān)鍵詞檢索相關(guān)研究。為提高數(shù)據(jù)提取過程的可靠性,兩位分別具有信息科學(xué)與心理學(xué)背景的跨學(xué)科研究人員(男性,33 歲與 41 歲)共同進(jìn)行了編碼與篩選。

納入標(biāo)準(zhǔn)要求所選研究必須:(1)探討 LLMs 在心理學(xué)情境中的應(yīng)用或分析;(2)為同行評審期刊文章或高影響力會議論文;(3)呈現(xiàn)實證數(shù)據(jù)、理論探討或方法學(xué)進(jìn)展。對于能夠反映新興趨勢或填補(bǔ)重要文獻(xiàn)空白的預(yù)印本論文,我們也予以有選擇地納入。不具備心理學(xué)研究焦點或僅涉及非 LLM 類 AI 系統(tǒng)的文章則被排除。最終,我們在初步篩選的 191 篇研究中,深入分析了 100 篇全文,并最終納入了 46 篇研究,這些研究按心理學(xué)不同子領(lǐng)域進(jìn)行分類。所有入選研究均符合嚴(yán)格的納入標(biāo)準(zhǔn),確保其對我們理解 LLMs 在心理學(xué)研究中的作用具有實質(zhì)性貢獻(xiàn)。

在本綜述中,我們通過不同行為時間尺度的視角系統(tǒng)分析 LLMs 在各個心理學(xué)領(lǐng)域的應(yīng)用。文章結(jié)構(gòu)安排如下:第 2 節(jié)探討 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用;第 3 節(jié)討論 LLMs 在臨床與咨詢心理學(xué)中的作用;第 4 節(jié)分析其在教育與發(fā)展心理學(xué)中的應(yīng)用;第 5 節(jié)聚焦社會與文化心理學(xué),概述 LLMs 在各領(lǐng)域的貢獻(xiàn)。盡管心理學(xué)技術(shù)有時被用于評估 LLMs 的能力,但這一方法主要用于加深對其作為心理學(xué)研究工具的適用性與潛力的理解。本綜述的核心重點是探討 LLMs 如何在上述領(lǐng)域促進(jìn)并推動心理學(xué)研究的發(fā)展。

為更深入理解 LLMs 對心理學(xué)研究的影響,第 6 節(jié)將概述 LLMs 作為科學(xué)研究工具的潛力;第 7 節(jié)則提出 LLMs 應(yīng)用于心理學(xué)情境中所面臨的挑戰(zhàn)與未來研究方向;最后,第 8 節(jié)給出結(jié)論,總結(jié) LLMs 在心理學(xué)中的應(yīng)用并提出未來研究建議。值得注意的是,我們還提出了將 LLMs 融入心理學(xué)研究的策略,并提供了從心理學(xué)視角解讀此類模型的見解,以提升其安全性與可解釋性。

2

大語言模型在認(rèn)知與行為心理學(xué)

在人類行為的多層次時間尺度中(Newell, 1990),認(rèn)知與行為心理學(xué)主要聚焦于亞小時(sub-hourly)時間尺度上的認(rèn)知過程研究,這些過程包括人類在知覺、記憶、思維、決策、問題解決以及有意識計劃中的參與。認(rèn)知與行為心理學(xué)通常采用實驗方法研究這些認(rèn)知過程,通過在特定條件下控制并觀察行為與反應(yīng)來揭示規(guī)律。近年來,大語言模型(LLMs)的出現(xiàn)重新激發(fā)了關(guān)于此類模型是否可能表現(xiàn)出類似人類認(rèn)知過程模式的討論;如果這種相似性成立,那么研究 LLMs 的“認(rèn)知過程”或許可以為人類認(rèn)知現(xiàn)象提供新的洞見,并成為現(xiàn)有認(rèn)知心理學(xué)研究方法的有益補(bǔ)充。

支撐大語言模型(LLMs)的核心技術(shù)是生成式預(yù)訓(xùn)練 Transformer(GPT)架構(gòu),它利用深度神經(jīng)網(wǎng)絡(luò)來處理并生成類人文本。GPT 模型通過注意力機(jī)制(attention mechanisms)與 token 預(yù)測等機(jī)制運行,從而能夠捕捉復(fù)雜的語言模式并生成上下文連貫的輸出。這一基礎(chǔ)技術(shù)極大地推動了自然語言處理(NLP)的發(fā)展,顯著提升了文本理解與生成的能力,并拓展至廣泛應(yīng)用領(lǐng)域,從對話代理到內(nèi)容創(chuàng)作(Brown 等,2020;Vaswani 等,2017)。這類架構(gòu)被引入心理學(xué)研究后,引發(fā)了關(guān)于其模擬認(rèn)知現(xiàn)象潛力的討論。

Binz 與 Schulz(2023a)發(fā)現(xiàn),通過多任務(wù)微調(diào),可以讓 LLM 在此前從未見過的任務(wù)中預(yù)測人類行為,這表明 LLMs 可以被改造為通用認(rèn)知模型。在另一項研究中,同一作者使用認(rèn)知心理學(xué)的工具測試 GPT-3,結(jié)果顯示其在決策質(zhì)量上優(yōu)于人類,并在多臂老虎機(jī)任務(wù)中表現(xiàn)更佳(Binz & Schulz, 2023b)。其他研究則表明,LLMs 可能具備感知判斷(Marjieh 等,2023)、推理(Webb 等,2023)、決策能力(Hagendorff 等,2023)、創(chuàng)造力(Stevenson 等,2022)以及問題解決能力(Orru 等,2023)。一項研究甚至發(fā)現(xiàn),基于錯誤信念任務(wù)(false-belief task——在人類中被視為心智理論測試的金標(biāo)準(zhǔn)),某 LLM 的心理能力相當(dāng)于七歲兒童(Kosinski, 2024)。

在探索 LLMs 的推理能力與決策過程時,Hagendorff 等(2023)設(shè)計了一系列語義錯覺(semantic illusion)與認(rèn)知反思(cognitive reflection)測試,這些測試旨在引發(fā)直覺但錯誤的反應(yīng)(傳統(tǒng)上用于研究人類推理與決策),并將其應(yīng)用于 LLMs。他們分析了模型在認(rèn)知反思測試(CRT)任務(wù)和語義錯覺任務(wù)上的表現(xiàn),以揭示其認(rèn)知過程,并借鑒了 Daniel Kahneman 在其經(jīng)典著作《思考,快與慢》(Thinking, Fast, and Slow)(Kahneman, 2011)中提出的系統(tǒng) 1 與系統(tǒng) 2 思維框架,該框架是理解人類認(rèn)知過程的基礎(chǔ)理論。系統(tǒng) 1 指直覺且自動化的思維,而系統(tǒng) 2 則涉及理性且深思熟慮的決策過程。該理論框架為解釋 LLMs 在這些任務(wù)中模擬類人認(rèn)知行為提供了理論依據(jù)。研究人員觀察了模型在這些任務(wù)中如何給出正確反應(yīng)并避免錯誤。在 CRT 任務(wù)中,他們進(jìn)一步通過限制模型進(jìn)行鏈?zhǔn)酵评恚╟hain-thinking)來評估其表現(xiàn)。結(jié)果表明,隨著模型規(guī)模和語言能力的提升,LLMs 越來越多地展現(xiàn)出類人的直覺思維(系統(tǒng) 1)以及伴隨的認(rèn)知偏誤。表 1 總結(jié)了 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用情況。

表 1 大語言模型(LLMs)在認(rèn)知與行為心理學(xué)研究中的應(yīng)用



Note:AUT是一項衡量創(chuàng)造力的心理測試,要求參與者盡可能多地想出一個常見物體的用途;DALL-E 2是由OpenAI開發(fā)的,可以從文本描述中生成詳細(xì)逼真的圖像,以探索AI在創(chuàng)意領(lǐng)域的潛力。

除了理論層面的評估之外,大語言模型(LLMs)在實驗心理學(xué)中也展現(xiàn)了實際價值,尤其是在刺激生成與實驗設(shè)計方面(Zhuang 等,2023)。例如,Dubey 等(2024)使用 DALL-E 2 創(chuàng)建了逼真的無車城市環(huán)境視覺刺激,這些刺激影響了參與者對可持續(xù)政策的態(tài)度。此類工具通過提供可控性、多樣性和可擴(kuò)展性,簡化了刺激設(shè)計過程。類似地,LLMs 也被應(yīng)用于硬件測試中,用于生成定制化的刺激,并在特定情境下優(yōu)于傳統(tǒng)方法(Z. Zhang 等,2023)。Charness 等(2023)進(jìn)一步展示了 LLMs 在優(yōu)化實驗流程中的應(yīng)用,包括改進(jìn)任務(wù)指令、確保一致性以及監(jiān)測參與者參與度。憑借其靈活性與可擴(kuò)展性,LLMs 能夠為推動實驗心理學(xué)提供新的方法。這些應(yīng)用不僅有助于探索復(fù)雜的認(rèn)知現(xiàn)象和開發(fā)創(chuàng)新的研究設(shè)計,同時也能補(bǔ)充傳統(tǒng)的心理學(xué)研究框架(Srinivasan 等,2023)。然而,對 LLM 輸出結(jié)果的解讀需要謹(jǐn)慎情境化處理,以避免高估其能力或?qū)⑵渑c人類認(rèn)知過程直接等同。

(未完待續(xù))


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
臺三批人馬先后抵滬,蔣萬安單獨行動缺席晚宴,大陸仍高規(guī)格接待

臺三批人馬先后抵滬,蔣萬安單獨行動缺席晚宴,大陸仍高規(guī)格接待

南宗歷史
2025-12-28 05:37:06
“請的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

“請的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

另子維愛讀史
2025-12-26 16:05:01
拉夫羅夫警告日本:做任何草率決定前都應(yīng)“慎重考慮”,反對任何形式的臺獨分裂行徑

拉夫羅夫警告日本:做任何草率決定前都應(yīng)“慎重考慮”,反對任何形式的臺獨分裂行徑

極目新聞
2025-12-28 12:45:49
大清這艘“破船”為啥能撐到1895年?就靠這兩場滅國之戰(zhàn)嚇住歐洲

大清這艘“破船”為啥能撐到1895年?就靠這兩場滅國之戰(zhàn)嚇住歐洲

歷史按察使司
2025-12-23 08:43:28
8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

8個動作堅持半年,肝膽不堵、臉蛋又白又亮!

瑜伽解剖學(xué)
2025-12-17 08:27:13
上海一位短線高手,用最簡單的方法操作,股市資產(chǎn)竟達(dá)到了八位數(shù)

上海一位短線高手,用最簡單的方法操作,股市資產(chǎn)竟達(dá)到了八位數(shù)

一方聊市
2025-12-16 13:31:22
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

觀察鑒娛
2025-12-28 10:26:06
男子愛奇藝會員被家人充值到2043年!“會員25年,我都50多歲了,有必要嗎?”

男子愛奇藝會員被家人充值到2043年!“會員25年,我都50多歲了,有必要嗎?”

都市快報橙柿互動
2025-12-27 22:50:29
零跑汽車發(fā)布首款MPV D99,公司明年挑戰(zhàn)100萬銷量目標(biāo)

零跑汽車發(fā)布首款MPV D99,公司明年挑戰(zhàn)100萬銷量目標(biāo)

界面新聞
2025-12-28 20:42:24
醫(yī)學(xué)生真得很硬核,竟然有人因業(yè)務(wù)不精扎醒植物人!

醫(yī)學(xué)生真得很硬核,竟然有人因業(yè)務(wù)不精扎醒植物人!

另子維愛讀史
2025-12-26 23:32:52
孩子以球童身份出場,若塔遺孀感謝利物浦:感謝大家的愛

孩子以球童身份出場,若塔遺孀感謝利物浦:感謝大家的愛

懂球帝
2025-12-28 20:59:23
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
歐盟雙標(biāo)現(xiàn)場:芬蘭教授靈魂拷問馮德萊恩,全場啞口無言!

歐盟雙標(biāo)現(xiàn)場:芬蘭教授靈魂拷問馮德萊恩,全場啞口無言!

達(dá)文西看世界
2025-12-28 17:48:26
全國人大常委會批準(zhǔn)任命張升民為中國人民解放軍選舉委員會副主任

全國人大常委會批準(zhǔn)任命張升民為中國人民解放軍選舉委員會副主任

澎湃新聞
2025-12-27 18:40:05
賈躍亭把高山拆了再運到美國組裝,“忽悠”了1萬名美國消費者

賈躍亭把高山拆了再運到美國組裝,“忽悠”了1萬名美國消費者

劉哥談體育
2025-12-28 04:43:46
斯洛特賭贏了?廢棄薩拉赫后利物浦7場不敗+4連勝!4大新援全激活

斯洛特賭贏了?廢棄薩拉赫后利物浦7場不敗+4連勝!4大新援全激活

我愛英超
2025-12-28 02:29:19
特大省級建工集團(tuán)崩了!

特大省級建工集團(tuán)崩了!

黯泉
2025-12-27 17:24:51
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
周末信息如何影響市場?明天是紅色星期一?還是黑色星期?

周末信息如何影響市場?明天是紅色星期一?還是黑色星期?

春江財富
2025-12-28 09:26:11
蒙古國大膽想法:拿400平方公里和中國換通道?想將稀土運往美國

蒙古國大膽想法:拿400平方公里和中國換通道?想將稀土運往美國

游者走天下
2025-12-26 16:20:18
2025-12-28 21:15:00
彭凱平 incentive-icons
彭凱平
個人積極心理方面的心得感悟
408文章數(shù) 4470關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
藝術(shù)
本地
旅游
公開課

教育要聞

雅思3個月提2分,因為我們做對了這幾件事!

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

旅游要聞

大理的櫻花之美一如杭州的桂花之香,滿城皆是,隨處可聞

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版