大語言模型在心理學(xué)應(yīng)用中的前沿探索：一項綜合性綜述（上）

2025-08-19 21:30:05　來源: 彭凱平

北京舉報

分享至

摘要

本綜述旨在探討大語言模型（LLMs）在心理學(xué)應(yīng)用領(lǐng)域的前沿進(jìn)展。心理學(xué)的發(fā)展經(jīng)歷了多次理論變革，而當(dāng)前人工智能（AI）與機器學(xué)習(xí)，尤其是大語言模型的應(yīng)用，有望開啟新的研究方向。本文旨在深入分析 LLMs 如何正在改變心理學(xué)研究。我們討論了 LLMs 在心理學(xué)各主要分支領(lǐng)域——包括認(rèn)知與行為、臨床與咨詢、教育與發(fā)展，以及社會與文化心理學(xué)——的影響，重點強調(diào)其在模擬與人類相似的模式、認(rèn)知與行為方面的能力。此外，我們還探討了此類模型生成連貫且具備語境相關(guān)性的文本的能力，為心理學(xué)中的文獻(xiàn)綜述、假設(shè)生成、實驗設(shè)計、實驗被試以及數(shù)據(jù)分析等提供了創(chuàng)新工具。我們特別強調(diào)，研究人員需要關(guān)注技術(shù)與倫理挑戰(zhàn)，包括數(shù)據(jù)隱私、在心理學(xué)研究中使用 LLMs 的倫理問題，以及深入理解這些模型局限性的必要性。研究人員在心理學(xué)研究中應(yīng)負(fù)責(zé)任地使用 LLMs，遵守倫理規(guī)范，并審慎考慮將這些技術(shù)部署于敏感領(lǐng)域可能帶來的影響。總體而言，本綜述全面呈現(xiàn)了 LLMs 在心理學(xué)領(lǐng)域的現(xiàn)狀，探討了其潛在優(yōu)勢與挑戰(zhàn)。我們希望本文能為研究者發(fā)出行動呼吁，在積極利用 LLMs 優(yōu)勢的同時，切實應(yīng)對相關(guān)風(fēng)險。

關(guān)鍵詞：大語言模型（LLMs）；機器學(xué)習(xí)；人工智能（AI）；心理學(xué)；研究方法

引言

人工智能（AI）已有近七十年的發(fā)展歷史，其起點可追溯至 1956 年的達(dá)特茅斯會議。近年來，隨著大語言模型（LLMs）的出現(xiàn)，如 ChatGPT、Google 的 Bard 和 Meta 的 LLaMA，該領(lǐng)域迎來了革命性進(jìn)展。其中，GPT-4 尤其可能代表著一次范式轉(zhuǎn)變，憑借其在數(shù)學(xué)、編程、視覺、醫(yī)學(xué)、法律和心理學(xué)等領(lǐng)域解決復(fù)雜任務(wù)的卓越能力（Bubeck 等，2023），生動詮釋了“AI賦能科學(xué)”（AI for science）的理念（Wang 等，2023）。LLMs 在機器學(xué)習(xí)與人工智能的發(fā)展中標(biāo)志著一個關(guān)鍵節(jié)點，這得益于其龐大的規(guī)模和采用注意力機制的復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu)（Vaswani 等，2017）。這些模型融入了認(rèn)知原理（Binz & Schulz, 2023a），并展現(xiàn)出可與復(fù)雜物理系統(tǒng)相媲美的涌現(xiàn)特性（Wei 等，2022）。這種特性不僅提升了它們處理與表征概念及高層語義的能力（J. Li 等，2022），也加深了我們對人類認(rèn)知過程的理解（Sejnowski, 2022）。在心理學(xué)應(yīng)用中，這些進(jìn)展正重塑數(shù)據(jù)、語言與環(huán)境之間的交互關(guān)系（De Bot 等，2007；Demszky 等，2023），并在包括臨床心理學(xué)（Thirunavukarasu 等，2023）、發(fā)展心理學(xué)（Frank, 2023；Hagendorff, 2023）以及社會心理學(xué)（Hardy 等，2023；J. Zhang 等，2023）等多個領(lǐng)域發(fā)揮著重要作用。此外，LLMs 還對心理學(xué)研究方法產(chǎn)生了深遠(yuǎn)影響，提供了全新的探索與分析途徑與工具。

1.1 大語言模型概念：從機器學(xué)習(xí)到能力涌現(xiàn)

生成式人工智能（Generative AI）源于模式識別能力的進(jìn)步。卷積神經(jīng)網(wǎng)絡(luò)（CNNs）在識別物體和概念方面表現(xiàn)優(yōu)異，但隨之而來的下一個挑戰(zhàn)是如何將這種識別能力用于生成任務(wù)。例如，如果 CNN 能夠識別肖像中的“年齡”特征，那么我們就可以利用這種理解去修改任何肖像中的“年齡”。這種生成式方法首先在計算機視覺領(lǐng)域取得成功，通過生成對抗網(wǎng)絡(luò)（GANs）（Goodfellow 等，2020）和反卷積技術(shù)（Zeiler，2014）等模型，能夠基于已學(xué)習(xí)的模式生成逼真的圖像。隨后，這些生成原理被應(yīng)用于語言領(lǐng)域，催生了能夠生成語境相關(guān)文本的大語言模型（LLMs）。LLMs 在生成式人工智能的能力上實現(xiàn)了重大飛躍，這類模型專為處理自然語言文本并生成上下文相關(guān)的文本而設(shè)計。GPT-4、LLaMA、Claude 和 Gemini 等 LLMs 都基于 Transformer 架構(gòu)（Vaswani 等，2017），利用復(fù)雜的神經(jīng)網(wǎng)絡(luò)與注意力機制，革新了自然語言處理。每個模型都在性能優(yōu)化方向上各有側(cè)重，例如 LLaMA 注重高效的訓(xùn)練過程（Touvron 等，2023），Claude 強調(diào)安全與對齊（Li 等，2024），而 Gemini 則融合了更強的推理能力（Rane 等，2024）。

盡管這些模型展現(xiàn)了 LLMs 的多樣化能力，但我們必須區(qū)分為特定交互設(shè)計的具體產(chǎn)品（如面向?qū)υ拺?yīng)用的 ChatGPT）與 LLMs 的更廣泛能力——后者不僅包括聊天，還涵蓋文本生成、摘要、翻譯和嵌入提取等任務(wù)。這些廣泛應(yīng)用表明，LLMs 的能力具有“涌現(xiàn)性”，隨著模型規(guī)模的增大會出現(xiàn)新的能力。在對數(shù)—對數(shù)性能曲線上，有時會出現(xiàn)“跳躍”，即模型內(nèi)部復(fù)雜交互催生出意想不到的能力（Wei 等，2022）。

LLMs 的核心是 Transformer 架構(gòu)，這是一種帶有注意力機制的深度神經(jīng)網(wǎng)絡(luò)，能夠并行高效地處理序列數(shù)據(jù)（Vaswani 等，2017），其工作方式在某種程度上類似于人腦功能。該架構(gòu)徹底改變了自然語言處理領(lǐng)域。Transformer 的自注意力機制可以捕捉文本數(shù)據(jù)中的上下文關(guān)系，從而實現(xiàn)更為精細(xì)的語言理解。值得注意的是，LLMs 中的“Large”指的是巨量的參數(shù)和海量的訓(xùn)練數(shù)據(jù)——通常包含數(shù)十億個參數(shù)和以 TB 計的文本數(shù)據(jù)（Binz & Schulz，2023b），以實現(xiàn)“掌握世界”的知識儲備（Yildirim & Paul，2023）。

大語言建模的過程，從機器學(xué)習(xí)到能力涌現(xiàn)，可以分為幾個關(guān)鍵階段。（1）預(yù)訓(xùn)練：LLMs 在海量文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)復(fù)雜的語言、句法和文本結(jié)構(gòu)，模型通過無監(jiān)督學(xué)習(xí)預(yù)測下一個 token，從而獲得能夠捕捉語言統(tǒng)計模式的基礎(chǔ)模型（P. Liu 等，2023）。（2）對齊：通過有監(jiān)督學(xué)習(xí)，使基礎(chǔ)模型更好地按預(yù)期方式與用戶交互，這通常包括指令微調(diào)（instruction tuning）和基于人類反饋的強化學(xué)習(xí)。在此基礎(chǔ)上，還可進(jìn)行領(lǐng)域特定的微調(diào)，使模型適配特定應(yīng)用（Liu 等，2022）。這一過程確保模型能夠生成上下文相關(guān)的響應(yīng)，并參與有意義的對話或任務(wù)。通過這些階段的發(fā)展，LLMs 展現(xiàn)出越來越精細(xì)的文本生成能力，包括響應(yīng)生成、內(nèi)容摘要、翻譯以及組合性文本生成（Bubeck 等，2023）。有效處理與表征上下文的能力，是這些模型高級能力涌現(xiàn)的重要基礎(chǔ)。最終，LLMs 在被集成到各種應(yīng)用與系統(tǒng)中時，會表現(xiàn)出“可觀測的能力涌現(xiàn)”，能夠完成需要深度語言與上下文理解的任務(wù)，并在特定實驗任務(wù)中達(dá)到類人甚至超越人類的表現(xiàn)，如類比推理（Webb 等，2023）、創(chuàng)造力（Stevenson 等，2022）以及情緒識別（Patel & Fan，2023）。

因此，LLMs 能夠為我們理解這類技術(shù)如何模擬或增強傳統(tǒng)上與人類認(rèn)知相關(guān)的過程提供有價值的洞見。具體而言，LLMs 在邏輯處理與認(rèn)知捷徑（啟發(fā)式）之間保持平衡，并能夠調(diào)整推理策略，在準(zhǔn)確性與認(rèn)知投入之間進(jìn)行優(yōu)化。這與雙過程理論（dual-process theory）所討論的資源理性（resource-rational）人類認(rèn)知原則相契合（Mukherjee & Chang，2024）。例如，LLMs 在生成與處理自然語言時，在結(jié)構(gòu)與功能上與人類語言和認(rèn)知機制的某些方面存在相似之處（Goertzel，2023）。這種相似性使得探索其在認(rèn)知心理學(xué)（Sartori & Orrù，2023）、語言習(xí)得（Jungherr，2023）甚至心理健康（Lamichhane，2023）等領(lǐng)域的應(yīng)用成為可能。此外，對 LLMs 的研究也有助于深化我們對人類心智的理解，從計算視角探討語言處理、決策（Sha 等，2023）與學(xué)習(xí)機制（Hendel 等，2023）。這種跨學(xué)科的融合可能推動人工智能的發(fā)展，并為研究與人類認(rèn)知相關(guān)的過程提供計算框架。

1.2 心理學(xué)與人工智能

心理學(xué)作為一門探索人類心智與行為的科學(xué)，自 19 世紀(jì)末以來經(jīng)歷了重大的理論變革，從精神分析學(xué)與行為主義發(fā)展到認(rèn)知心理學(xué)（Hothersall & Lovett, 2022）。這一歷史進(jìn)程標(biāo)志著心理學(xué)研究重心的轉(zhuǎn)變，即從關(guān)注行為表現(xiàn)轉(zhuǎn)向深入探討心理內(nèi)涵，反映了學(xué)術(shù)界從外顯行為觀察到內(nèi)隱心理機制探索的趨勢。每一階段都推動了人類對心理—認(rèn)知過程理解的不斷深化。

理解人類的心理—認(rèn)知過程因此成為心理學(xué)的核心任務(wù)。在臨床與咨詢心理學(xué)中，認(rèn)知心理學(xué)的研究為心理障礙的診斷與治療提供了理論支持，深化了我們對情緒、壓力及人類行為背后心理機制的理解。認(rèn)知行為療法（Hofmann 等，2012）和心理動力學(xué)療法等心理治療方法已成為促進(jìn)心理健康與情緒調(diào)節(jié)的重要工具。在教育與發(fā)展心理學(xué)中，認(rèn)知心理學(xué)的發(fā)展加深了人們對知覺與情感因素在學(xué)習(xí)過程中的作用的理解（Glaser, 1984），推動了教學(xué)方法和學(xué)習(xí)策略的創(chuàng)新。在社會與文化心理學(xué)中，認(rèn)知心理學(xué)研究有助于解釋個體在不同社會與文化背景下的行為與心理過程，探索文化差異如何影響認(rèn)知模式、價值觀與行為規(guī)范，尤其是在全球化背景下的互動與融合過程中。在社會心理學(xué)領(lǐng)域，認(rèn)知心理學(xué)對群體行為、社會影響、偏見與歧視的研究，為促進(jìn)社會和諧與相互理解具有重要價值（Park & Judd, 2005）。

人工智能正日益成為心理—認(rèn)知研究中具有影響力的工具。Simon（1979）是最早意識到計算模型在模擬人類認(rèn)知過程方面潛力的學(xué)者之一。目前，大語言模型（LLMs）已經(jīng)能夠處理與生成類人文本，并在某些任務(wù)中以類似人類認(rèn)知的方式完成工作（Bubeck 等，2023）。LLMs 還為人類認(rèn)知研究提供了獨特的計算視角。例如，GPT-3 能夠解決情境任務(wù)（vignette-based tasks），表現(xiàn)與人類相當(dāng)甚至更優(yōu)，并能基于描述進(jìn)行理性決策，在多臂老虎機任務(wù)中超越人類（Binz & Schulz, 2023b）。此外，大規(guī)模測試表明，GPT-3 在解決復(fù)雜類比問題時可達(dá)到與人類相當(dāng)?shù)乃?，而類比推理是人類智慧的重要?biāo)志（Webb 等，2023）。更重要的是，通過多任務(wù)微調(diào)，LLMs 能夠預(yù)測此前從未見過任務(wù)中的人類行為——換言之，LLMs 可以被適配為通用認(rèn)知模型（Binz & Schulz, 2023a），有潛力開辟新的研究方向，從而改變認(rèn)知心理學(xué)與行為科學(xué)的整體格局。

Newell（1990）提出了一個分析人類行為的結(jié)構(gòu)化框架，將認(rèn)知與行為過程按照時間尺度劃分為四個層次（圖 1a）。在生物學(xué)層面，研究關(guān)注的是以毫秒到一秒的極短時間尺度發(fā)生的生理與神經(jīng)過程，例如神經(jīng)反應(yīng)與感官加工，這些過程構(gòu)成了人類認(rèn)知的基礎(chǔ)。認(rèn)知層面涉及注意、知覺與短時記憶等機制，其運行時間通常為一秒到一分鐘，是基本認(rèn)知功能的支撐。理性層面涵蓋了問題解決、計劃與決策等更復(fù)雜的認(rèn)知活動，這些過程通常在幾分鐘到數(shù)小時的時間尺度上發(fā)生，需要持續(xù)的認(rèn)知投入。最后，社會層面關(guān)注由社會互動與文化影響所塑造的行為，其時間尺度最長，從數(shù)小時到數(shù)天甚至更久，涉及社會交流、群體行為與文化對認(rèn)知的影響。該框架凸顯了人類行為的多維特性，強調(diào)了快速的生理過程與更持久的社會影響在認(rèn)知中的相互關(guān)系。

因此，通過在這四個層面（圖 1a）分析 LLMs 的應(yīng)用，可以進(jìn)一步探索它們在建模與研究人類認(rèn)知和行為方面的潛力（圖 1b），以及它們在心理—認(rèn)知過程中的獨特作用。最新研究揭示了 LLMs 在執(zhí)行復(fù)雜的類人認(rèn)知與社會任務(wù)方面的顯著進(jìn)展（Grossmann 等，2023；Marjieh 等，2023；Orru 等，2023；Pal 等，2023；Stevenson 等，2022；Webb 等，2023）。例如，Grossmann 等（2023）與 Marjieh 等（2023）分別展示了 LLMs 在模擬人類社會互動與知覺加工方面的能力；Orru 等（2023）與 Webb 等（2023）強調(diào)了它們在復(fù)雜問題解決與推理方面的表現(xiàn)；Hagendorff 等（2023）關(guān)注其決策過程；Stevenson 等（2022）記錄了其在創(chuàng)造力方面的潛力；而 Patel 與 Fan（2023）則展示了它們的情緒識別能力?？傮w而言，這些研究結(jié)果凸顯了 LLMs 在表征與增強人類認(rèn)知和社會功能方面不斷擴展的角色，標(biāo)志著人工智能研究的重要進(jìn)展。

作為通用認(rèn)知模型（Binz & Schulz, 2023a），LLMs 在認(rèn)知與行為心理學(xué)、臨床與咨詢心理學(xué)、教育與發(fā)展心理學(xué)以及社會與文化心理學(xué)等領(lǐng)域，不同時間尺度的人類行為研究中提供了新的視角與方法（圖 1a）。

LLMs 還可作為研究輔助工具（圖 1c），幫助心理學(xué)家完成從文獻(xiàn)綜述（Ayd?n & Karaarslan, 2022；Qureshi 等，2023）、實驗被試（Dillion 等，2023；Hutson, 2023）、數(shù)據(jù)分析（Patel & Fan, 2023；Peters & Matz, 2023；Rathje 等，2023），到促進(jìn)學(xué)術(shù)交流（如學(xué)術(shù)寫作 [Dergaa 等，2023；Stokel-Walker, 2022] 或同行評審 [Chiang & Lee, 2023；Van Dis 等，2023]）等多種任務(wù)。因此，LLMs 有望成為心理學(xué)家的科研助手，幫助他們提升研究效率。

圖1.大語言模型在跨時間尺度心理學(xué)研究中的應(yīng)用

(a) 將研究領(lǐng)域（如認(rèn)知與行為、社會與文化）映射到相應(yīng)的行為時間尺度；(b) 涌現(xiàn)特性（如認(rèn)知仿真）可支持特定領(lǐng)域的建模；(c) 大語言模型作為研究工具（如刺激材料生成）。雙向箭頭表示這些新興特性在領(lǐng)域與工具之間形成橋梁，既支持具體應(yīng)用（如記憶提?。?，又在使用過程中不斷完善其特性。

1.3 本綜述的目的與意義

本綜述旨在對大語言模型（LLMs）在心理學(xué)研究中的應(yīng)用與影響進(jìn)行全面分析。為確保綜述的系統(tǒng)性與嚴(yán)謹(jǐn)性，我們制定了明確的納入與排除標(biāo)準(zhǔn)。本文聚焦于 2020 年至 2024 年間發(fā)表的相關(guān)文獻(xiàn)，數(shù)據(jù)來源包括 Google Scholar、arXiv 和 Web of Science 等學(xué)術(shù)數(shù)據(jù)庫。我們使用 “GPT-3”“ChatGPT”“GPT-4”“l(fā)arge language models” 和 “psychology” 等關(guān)鍵詞檢索相關(guān)研究。為提高數(shù)據(jù)提取過程的可靠性，兩位分別具有信息科學(xué)與心理學(xué)背景的跨學(xué)科研究人員（男性，33 歲與 41 歲）共同進(jìn)行了編碼與篩選。

納入標(biāo)準(zhǔn)要求所選研究必須：（1）探討 LLMs 在心理學(xué)情境中的應(yīng)用或分析；（2）為同行評審期刊文章或高影響力會議論文；（3）呈現(xiàn)實證數(shù)據(jù)、理論探討或方法學(xué)進(jìn)展。對于能夠反映新興趨勢或填補重要文獻(xiàn)空白的預(yù)印本論文，我們也予以有選擇地納入。不具備心理學(xué)研究焦點或僅涉及非 LLM 類 AI 系統(tǒng)的文章則被排除。最終，我們在初步篩選的 191 篇研究中，深入分析了 100 篇全文，并最終納入了 46 篇研究，這些研究按心理學(xué)不同子領(lǐng)域進(jìn)行分類。所有入選研究均符合嚴(yán)格的納入標(biāo)準(zhǔn)，確保其對我們理解 LLMs 在心理學(xué)研究中的作用具有實質(zhì)性貢獻(xiàn)。

在本綜述中，我們通過不同行為時間尺度的視角系統(tǒng)分析 LLMs 在各個心理學(xué)領(lǐng)域的應(yīng)用。文章結(jié)構(gòu)安排如下：第 2 節(jié)探討 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用；第 3 節(jié)討論 LLMs 在臨床與咨詢心理學(xué)中的作用；第 4 節(jié)分析其在教育與發(fā)展心理學(xué)中的應(yīng)用；第 5 節(jié)聚焦社會與文化心理學(xué)，概述 LLMs 在各領(lǐng)域的貢獻(xiàn)。盡管心理學(xué)技術(shù)有時被用于評估 LLMs 的能力，但這一方法主要用于加深對其作為心理學(xué)研究工具的適用性與潛力的理解。本綜述的核心重點是探討 LLMs 如何在上述領(lǐng)域促進(jìn)并推動心理學(xué)研究的發(fā)展。

為更深入理解 LLMs 對心理學(xué)研究的影響，第 6 節(jié)將概述 LLMs 作為科學(xué)研究工具的潛力；第 7 節(jié)則提出 LLMs 應(yīng)用于心理學(xué)情境中所面臨的挑戰(zhàn)與未來研究方向；最后，第 8 節(jié)給出結(jié)論，總結(jié) LLMs 在心理學(xué)中的應(yīng)用并提出未來研究建議。值得注意的是，我們還提出了將 LLMs 融入心理學(xué)研究的策略，并提供了從心理學(xué)視角解讀此類模型的見解，以提升其安全性與可解釋性。

大語言模型在認(rèn)知與行為心理學(xué)

在人類行為的多層次時間尺度中（Newell, 1990），認(rèn)知與行為心理學(xué)主要聚焦于亞小時（sub-hourly）時間尺度上的認(rèn)知過程研究，這些過程包括人類在知覺、記憶、思維、決策、問題解決以及有意識計劃中的參與。認(rèn)知與行為心理學(xué)通常采用實驗方法研究這些認(rèn)知過程，通過在特定條件下控制并觀察行為與反應(yīng)來揭示規(guī)律。近年來，大語言模型（LLMs）的出現(xiàn)重新激發(fā)了關(guān)于此類模型是否可能表現(xiàn)出類似人類認(rèn)知過程模式的討論；如果這種相似性成立，那么研究 LLMs 的“認(rèn)知過程”或許可以為人類認(rèn)知現(xiàn)象提供新的洞見，并成為現(xiàn)有認(rèn)知心理學(xué)研究方法的有益補充。

支撐大語言模型（LLMs）的核心技術(shù)是生成式預(yù)訓(xùn)練 Transformer（GPT）架構(gòu)，它利用深度神經(jīng)網(wǎng)絡(luò)來處理并生成類人文本。GPT 模型通過注意力機制（attention mechanisms）與 token 預(yù)測等機制運行，從而能夠捕捉復(fù)雜的語言模式并生成上下文連貫的輸出。這一基礎(chǔ)技術(shù)極大地推動了自然語言處理（NLP）的發(fā)展，顯著提升了文本理解與生成的能力，并拓展至廣泛應(yīng)用領(lǐng)域，從對話代理到內(nèi)容創(chuàng)作（Brown 等，2020；Vaswani 等，2017）。這類架構(gòu)被引入心理學(xué)研究后，引發(fā)了關(guān)于其模擬認(rèn)知現(xiàn)象潛力的討論。

Binz 與 Schulz（2023a）發(fā)現(xiàn)，通過多任務(wù)微調(diào)，可以讓 LLM 在此前從未見過的任務(wù)中預(yù)測人類行為，這表明 LLMs 可以被改造為通用認(rèn)知模型。在另一項研究中，同一作者使用認(rèn)知心理學(xué)的工具測試 GPT-3，結(jié)果顯示其在決策質(zhì)量上優(yōu)于人類，并在多臂老虎機任務(wù)中表現(xiàn)更佳（Binz & Schulz, 2023b）。其他研究則表明，LLMs 可能具備感知判斷（Marjieh 等，2023）、推理（Webb 等，2023）、決策能力（Hagendorff 等，2023）、創(chuàng)造力（Stevenson 等，2022）以及問題解決能力（Orru 等，2023）。一項研究甚至發(fā)現(xiàn)，基于錯誤信念任務(wù)（false-belief task——在人類中被視為心智理論測試的金標(biāo)準(zhǔn)），某 LLM 的心理能力相當(dāng)于七歲兒童（Kosinski, 2024）。

在探索 LLMs 的推理能力與決策過程時，Hagendorff 等（2023）設(shè)計了一系列語義錯覺（semantic illusion）與認(rèn)知反思（cognitive reflection）測試，這些測試旨在引發(fā)直覺但錯誤的反應(yīng)（傳統(tǒng)上用于研究人類推理與決策），并將其應(yīng)用于 LLMs。他們分析了模型在認(rèn)知反思測試（CRT）任務(wù)和語義錯覺任務(wù)上的表現(xiàn)，以揭示其認(rèn)知過程，并借鑒了 Daniel Kahneman 在其經(jīng)典著作《思考，快與慢》（Thinking, Fast, and Slow）（Kahneman, 2011）中提出的系統(tǒng) 1 與系統(tǒng) 2 思維框架，該框架是理解人類認(rèn)知過程的基礎(chǔ)理論。系統(tǒng) 1 指直覺且自動化的思維，而系統(tǒng) 2 則涉及理性且深思熟慮的決策過程。該理論框架為解釋 LLMs 在這些任務(wù)中模擬類人認(rèn)知行為提供了理論依據(jù)。研究人員觀察了模型在這些任務(wù)中如何給出正確反應(yīng)并避免錯誤。在 CRT 任務(wù)中，他們進(jìn)一步通過限制模型進(jìn)行鏈?zhǔn)酵评恚╟hain-thinking）來評估其表現(xiàn)。結(jié)果表明，隨著模型規(guī)模和語言能力的提升，LLMs 越來越多地展現(xiàn)出類人的直覺思維（系統(tǒng) 1）以及伴隨的認(rèn)知偏誤。表 1 總結(jié)了 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用情況。

表 1 大語言模型（LLMs）在認(rèn)知與行為心理學(xué)研究中的應(yīng)用

Note:AUT是一項衡量創(chuàng)造力的心理測試，要求參與者盡可能多地想出一個常見物體的用途；DALL-E 2是由OpenAI開發(fā)的，可以從文本描述中生成詳細(xì)逼真的圖像，以探索AI在創(chuàng)意領(lǐng)域的潛力。

除了理論層面的評估之外，大語言模型（LLMs）在實驗心理學(xué)中也展現(xiàn)了實際價值，尤其是在刺激生成與實驗設(shè)計方面（Zhuang 等，2023）。例如，Dubey 等（2024）使用 DALL-E 2 創(chuàng)建了逼真的無車城市環(huán)境視覺刺激，這些刺激影響了參與者對可持續(xù)政策的態(tài)度。此類工具通過提供可控性、多樣性和可擴展性，簡化了刺激設(shè)計過程。類似地，LLMs 也被應(yīng)用于硬件測試中，用于生成定制化的刺激，并在特定情境下優(yōu)于傳統(tǒng)方法（Z. Zhang 等，2023）。Charness 等（2023）進(jìn)一步展示了 LLMs 在優(yōu)化實驗流程中的應(yīng)用，包括改進(jìn)任務(wù)指令、確保一致性以及監(jiān)測參與者參與度。憑借其靈活性與可擴展性，LLMs 能夠為推動實驗心理學(xué)提供新的方法。這些應(yīng)用不僅有助于探索復(fù)雜的認(rèn)知現(xiàn)象和開發(fā)創(chuàng)新的研究設(shè)計，同時也能補充傳統(tǒng)的心理學(xué)研究框架（Srinivasan 等，2023）。然而，對 LLM 輸出結(jié)果的解讀需要謹(jǐn)慎情境化處理，以避免高估其能力或?qū)⑵渑c人類認(rèn)知過程直接等同。

（未完待續(xù)）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.