網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

貝葉斯智能體：通過(guò)語(yǔ)言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理

2026-02-22 00:05:53　來(lái)源: CreateAMind

上海舉報(bào)

分享至

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

https://www.alphaxiv.org/zh/overview/2406.05516v4

摘要

人類認(rèn)知的卓越之處在于能夠超越感官輸入，形成構(gòu)建我們對(duì)世界理解結(jié)構(gòu)的潛在表征。雖然大型語(yǔ)言模型（LLM）智能體展現(xiàn)出 emergent 的推理和決策能力，但它們?nèi)狈σ粋€(gè)原則性的框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。在這項(xiàng)工作中，我們首次探索如何將 LLM 智能體與概率圖模型（PGM）相結(jié)合，以解決不確定性下的智能體推理問題。為此，我們引入了語(yǔ)言化概率圖建模（vPGM），這是一個(gè)貝葉斯智能體框架，它能夠（i）通過(guò)自然語(yǔ)言引導(dǎo) LLM 智能體遵循 PGM 的關(guān)鍵原則，以及（ii）通過(guò)數(shù)值貝葉斯推理優(yōu)化得到的后驗(yàn)分布。與許多需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)概率方法不同，vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì)，使其特別適用于假設(shè)條件有限的場(chǎng)景。我們?cè)趲讉€(gè)封閉式和開放式的智能體推理任務(wù)上評(píng)估了我們的模型。結(jié)果表明，該模型有效地增強(qiáng)了置信度校準(zhǔn)和文本生成質(zhì)量。代碼與附錄 —— https://github.com/xingbpshen/agentic-reasoning-vpgm

引言

在處理復(fù)雜的推理問題（例如解決具有挑戰(zhàn)性的科學(xué)問題）時(shí)，人類大腦被認(rèn)為有能力超越單純的感官輸入，可能形成對(duì)世界潛在模式的洞察。這種能力表明，人類可能擁有解釋潛在結(jié)構(gòu)和不確定性的復(fù)雜技能（Tenenbaum et al. 2011），盡管其確切機(jī)制仍是 ongoing 研究和爭(zhēng)論的主題。截至目前，人類所展現(xiàn)出的這種理解深度尚未在人工智能系統(tǒng)中完全實(shí)現(xiàn)（Lake et al. 2017; Bender and Koller 2020; Zheng et al. 2021; Sumers et al. 2023）。

雖然大型語(yǔ)言模型在處理和生成人類語(yǔ)言方面展現(xiàn)了令人印象深刻的能力（Devlin et al. 2018; Brown et al. 2020; Achiam et al. 2023），但其性能常常受限于其訓(xùn)練數(shù)據(jù)的范圍。這些模型主要基于海量文本語(yǔ)料庫(kù)構(gòu)建，擅長(zhǎng)生成句法連貫且上下文相關(guān)的響應(yīng)。最近的進(jìn)展，如思維鏈（CoT）提示（Wei et al. 2022）和智能體范式的出現(xiàn)（Yao et al. 2023; Schick et al. 2023），已將其能力擴(kuò)展到交互式和組合式的智能體推理。然而，當(dāng)在不確定或部分可觀測(cè)的環(huán)境中作為自主智能體運(yùn)行時(shí)，尤其是在那些需要隱性知識(shí)以及整合和推理來(lái)自多個(gè)來(lái)源的未公開信息的能力（這些是 humans 在復(fù)雜推理中通常運(yùn)用的技能）的場(chǎng)景下，LLM 智能體常常會(huì)遇到困難。這種局限性不僅源于它們對(duì)表層語(yǔ)言相關(guān)性的依賴，還源于缺乏一個(gè)原則性的貝葉斯框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。

在這項(xiàng)工作中，我們首次探索如何將 LLM 智能體與概率圖模型（PGM）相結(jié)合，以解決不確定性下的智能體推理問題。為此，我們引入了語(yǔ)言化概率圖建模（vPGM），這是一個(gè)貝葉斯智能體框架，它將 LLM 智能體推理的優(yōu)勢(shì)與顯式的數(shù)值貝葉斯推理相結(jié)合。與通常需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)貝葉斯推理框架（Griffiths, Kemp, and Tenenbaum 2008; Bielza and Larra?aga 2014; Wang and Yeung 2020; Abdullah, Hassan, and Mustafa 2022）不同，vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì)，使其特別適用于假設(shè)條件有限的場(chǎng)景。具體來(lái)說(shuō)，貝葉斯結(jié)構(gòu)學(xué)習(xí)方法（Kitson et al. 2023）有助于發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)，但它們通常需要專家領(lǐng)域知識(shí)來(lái)手動(dòng)驗(yàn)證統(tǒng)計(jì)依賴性，或者依賴計(jì)算成本高昂的評(píng)分函數(shù)來(lái)評(píng)估圖模型對(duì)數(shù)據(jù)的擬合優(yōu)度。我們的方法通過(guò)引導(dǎo) LLMs 模擬貝葉斯推理原則，同時(shí)通過(guò)一個(gè)可學(xué)習(xí)的貝葉斯代理模型增強(qiáng)不確定性量化，從而利用 LLMs 的知識(shí)和推理能力，顯著減少了對(duì)專家輸入的依賴。

具體而言，我們的方法包含三個(gè)初始階段：（1）圖結(jié)構(gòu)發(fā)現(xiàn)，在此階段，提示 LLM 識(shí)別潛在變量及其概率依賴性；（2）基于提示的推理，引導(dǎo) LLMs 在給定新輸入數(shù)據(jù)的情況下推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布；（3）不確定性下的預(yù)測(cè)，通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值，來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。此外，為了充分利用 vPGM 框架內(nèi) LLMs 生成的多個(gè)響應(yīng)樣本并增強(qiáng)不確定性量化，我們使用數(shù)值貝葉斯推理技術(shù)擴(kuò)展了 vPGM，這些技術(shù)可以推斷預(yù)測(cè)的后驗(yàn)分布，并通過(guò)一個(gè)理論上有保證的可微校準(zhǔn)損失函數(shù)來(lái)增強(qiáng)置信度校準(zhǔn)。

我們?cè)趲讉€(gè)智能體推理任務(wù)上評(píng)估了我們的方法，這些任務(wù)設(shè)計(jì)為封閉式和開放式回答格式。實(shí)驗(yàn)證明，該方法在置信度校準(zhǔn)和生成響應(yīng)的質(zhì)量方面均有改進(jìn)，突顯了 vPGM 在增強(qiáng) LLM 智能體概率推理能力方面的有效性。

相關(guān)工作

大型語(yǔ)言模型的研究近期已從靜態(tài)提示轉(zhuǎn)向能夠進(jìn)行智能體推理、工具使用和交互式?jīng)Q策的 LLM 智能體或智能體系統(tǒng)。我們分別討論這兩個(gè)方向，強(qiáng)調(diào)它們的局限性以及我們提出的 vPGM 如何解決一個(gè)關(guān)鍵缺失的組成部分：針對(duì)智能體推理任務(wù)的概率潛在變量推理和不確定性校準(zhǔn)。

LLM 提示
LLM 中的提示方法構(gòu)成了一個(gè)長(zhǎng)期的研究方向，其核心是無(wú)訓(xùn)練地引導(dǎo)模型響應(yīng)。早期方法包括上下文學(xué)習(xí)，即模型根據(jù)特定任務(wù)的演示進(jìn)行條件生成；以及指令提示，它將明確的任務(wù)指令直接嵌入到自然語(yǔ)言提示中。一個(gè)重大的發(fā)展是思維鏈提示，它引出中間推理步驟以增強(qiáng)復(fù)雜推理。后續(xù)的變體將 CoT 擴(kuò)展到更靈活或自動(dòng)化的設(shè)置：零樣本 CoT、自動(dòng) rationale 生成、自洽性解碼，以及連續(xù)思維鏈，它將推理軌跡嵌入潛在空間。此外，(Xiong et al. 2023) 在基于一致性的方法基礎(chǔ)上進(jìn)行了擴(kuò)展，并對(duì) LLM 的置信度 elicitation 進(jìn)行了實(shí)證研究。相比之下，我們提出的 vPGM 從貝葉斯推理的角度解決置信度 elicitation 問題，該方法遵循理論上更扎實(shí)的貝葉斯推理框架——概率圖模型的原則。

LLM 智能體與智能體系統(tǒng)
在這些提示方法進(jìn)步的基礎(chǔ)上，LLM 提示已演變?yōu)?LLM 智能體，它將推理與行動(dòng)、工具使用以及對(duì)外部環(huán)境的交互交織在一起。ReAct 結(jié)合了自然語(yǔ)言推理與工具調(diào)用和環(huán)境反饋；Toolformer 使用自監(jiān)督信號(hào)教導(dǎo) LLM 何時(shí)以及如何調(diào)用工具；ADAS 則自動(dòng)化了智能體系統(tǒng)架構(gòu)的設(shè)計(jì)。這些系統(tǒng)標(biāo)志著從被動(dòng)文本生成向交互式、工具增強(qiáng)行為的轉(zhuǎn)變。然而，現(xiàn)有的智能體方法通常缺乏一個(gè)原則性的概率框架：它們不顯式地建模潛在變量、量化不確定性或執(zhí)行貝葉斯信念更新，這限制了它們?cè)谛枰淮_定性下進(jìn)行校準(zhǔn)的智能體推理的場(chǎng)景中的適用性。

同期工作
一些同期的工作探索了使用 LLM 進(jìn)行概率或因果建模，但它們?cè)诤艽蟪潭壬吓c我們的貢獻(xiàn)是正交的。最近的因果發(fā)現(xiàn)研究專注于學(xué)習(xí)因果關(guān)系和反事實(shí)，而 vPGM 的目標(biāo)是針對(duì)多源智能體任務(wù)的非因果概率潛在變量推理和不確定性校準(zhǔn)。BIRD 引入了一個(gè)用于 LLM 的貝葉斯推理包裝器，但它僅限于二元決策制定，因此不直接適用于我們的多類別和開放式輸出。相比之下，vPGM 為 LLM 智能體內(nèi)的潛在變量推理和校準(zhǔn)的不確定性提供了一個(gè)統(tǒng)一的貝葉斯框架。

我們的方法：語(yǔ)言化概率圖建模（vPGM）

語(yǔ)言化概率圖建模（vPGM）是一種貝葉斯智能體推理方法，它利用大型語(yǔ)言模型智能體以自然語(yǔ)言模擬概率圖模型的關(guān)鍵原則。與許多需要廣泛領(lǐng)域知識(shí)和專門訓(xùn)練的現(xiàn)有概率方法不同，vPGM 繞過(guò)了基于專家的模型設(shè)計(jì)需求，使其適用于處理領(lǐng)域假設(shè)有限或數(shù)據(jù)稀缺的復(fù)雜推理任務(wù)。

vPGM 概述

從應(yīng)用角度來(lái)看，vPGM 可以嵌入到一系列復(fù)雜的推理系統(tǒng)中，例如智能體推理任務(wù)（見圖1）。我們的方法將整個(gè)推理過(guò)程分解為三個(gè)核心步驟：（1）圖結(jié)構(gòu)發(fā)現(xiàn)，在此階段，通過(guò)提示 LLM 來(lái)識(shí)別潛在變量及其概率依賴關(guān)系（見圖2）；（2）基于提示的推理，引導(dǎo) LLMs 根據(jù)新的輸入數(shù)據(jù)推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布；（3）不確定性下的預(yù)測(cè)，通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值，來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。

圖結(jié)構(gòu)發(fā)現(xiàn)

我們的方法首先通過(guò)設(shè)計(jì)專門的提示（見附錄）來(lái)揭示組合推理中的潛在變量。該提示包含幾個(gè)關(guān)鍵要素：（1）通用任務(wù)描述，簡(jiǎn)潔陳述推理目標(biāo)；（2）輸入-輸出數(shù)據(jù)對(duì)，展示具有代表性的數(shù)據(jù)樣本；（3）上下文信息，提供必要的背景知識(shí)或領(lǐng)域洞見；（4）先驗(yàn)知識(shí)與約束，指定約束條件，例如潛在變量的最大數(shù)量及其預(yù)定義的依賴關(guān)系。

在識(shí)別出一組潛在變量 Z = {Z?, Z?, ..., Z?}（潛在變量的示例見附錄）之后，我們進(jìn)一步提示大語(yǔ)言模型（LLMs）來(lái)確定每個(gè)潛在變量如何依賴于其他變量。從 LLM 獲得的一組依賴關(guān)系示例如下：{ X → Z?, X → Z?, X → Z?, X → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Y }，其中每個(gè)關(guān)系 a → b 表示 b 條件依賴于 a。與傳統(tǒng)的概率圖模型（PGMs）類似，我們的語(yǔ)言化 PGM（vPGM）將這些依賴關(guān)系編碼為條件概率分布 P(Z? | Pa(Z?))。然而，vPGM 不依賴于顯式的分布形式，而是使用自然語(yǔ)言描述（詳細(xì)示例見附錄）來(lái)指定每個(gè)條件關(guān)系，從而減少了對(duì)大量領(lǐng)域?qū)I(yè)知識(shí)或參數(shù)估計(jì)的需求。

基于提示的貝葉斯推斷

傳統(tǒng)上，貝葉斯推斷側(cè)重于在給定概率模型和新觀測(cè)值的情況下推斷模型參數(shù)的后驗(yàn)分布。然而，在 LLM 的語(yǔ)境下，它被重新表述為生成提示，以在 vPGM 框架下利用其發(fā)現(xiàn)的結(jié)構(gòu)和新觀測(cè)值來(lái)模擬后驗(yàn)推斷。這種方法利用 LLM 的高級(jí)推理能力來(lái)生成指令，使其能夠模擬貝葉斯推斷原理。一個(gè)示例提示是："生成一個(gè)提示，引導(dǎo) LLM 根據(jù)提供的任務(wù)描述、發(fā)現(xiàn)的 PGM 和測(cè)試數(shù)據(jù)，逐步進(jìn)行概率推理……"

不確定性下的預(yù)測(cè)

智能體推理任務(wù)通常涉及顯著的不確定性。例如，LLM 智能體（如圖像描述器）可能產(chǎn)生有噪聲的輸出，引入偶然不確定性。在 vPGM 框架下，這種可變性通過(guò)潛在變量的語(yǔ)言化后驗(yàn)分布來(lái)捕捉。在通過(guò)基于提示的貝葉斯推斷構(gòu)建語(yǔ)言化后驗(yàn) P(Z | X) 之后，我們通過(guò)對(duì) Z 取 P(Y | Z) 的期望值來(lái)量化對(duì)最終預(yù)測(cè)的置信度：

其中 X 表示觀測(cè)輸入，Z 是通過(guò)使用 vPGM 的貝葉斯推斷提示查詢 LLM 來(lái)采樣的。在實(shí)踐中，P(Z | X) 和 P(Y | Z) 都在單個(gè)提示中模擬（詳見附錄中的示例）。因此，期望后驗(yàn)概率可以通過(guò)對(duì) LLM 在這些推斷步驟中生成的 P(Y | Z) 的數(shù)值取平均來(lái)近似。

貝葉斯增強(qiáng)的 vPGM：BayesVPGM

當(dāng)在 vPGM 框架下反復(fù)查詢大語(yǔ)言模型（LLM）時(shí)，我們會(huì)獲得多個(gè)響應(yīng)樣本，即類別預(yù)測(cè)及其數(shù)值概率。一個(gè)自然的問題是：如何利用這些數(shù)據(jù)來(lái)更好地捕捉 LLM 預(yù)測(cè)中潛在的不確定性。為此，我們提出推斷這樣一個(gè)后驗(yàn)分布，記為 q(y | x?)，其中 x? 表示類別預(yù)測(cè)。

通過(guò)可微分校準(zhǔn)損失優(yōu)化 λ

該后驗(yàn)分布的一個(gè)關(guān)鍵局限性在于它依賴于手動(dòng)調(diào)優(yōu)的 λ，該參數(shù)控制著 vPGM 的數(shù)值概率對(duì)最終結(jié)果的影響程度。為了實(shí)現(xiàn)這一過(guò)程的自動(dòng)化并改善校準(zhǔn)效果，我們引入了一種可微分的校準(zhǔn)損失，通過(guò)基于梯度的優(yōu)化來(lái)學(xué)習(xí) λ。

具體而言，我們最小化以下關(guān)于 λ 的損失函數(shù)：

證明見附錄。盡管損失函數(shù)公式 (2) 中的交叉熵項(xiàng)將預(yù)測(cè)拉向獨(dú)熱標(biāo)簽，而校準(zhǔn)項(xiàng)強(qiáng)制執(zhí)行逐類別平均對(duì)齊，但定理 1 表明這兩個(gè)目標(biāo)可以同時(shí)達(dá)到最小值。

實(shí)驗(yàn)

我們?cè)谌齻€(gè)智能體推理任務(wù)上評(píng)估了所提出的 vPGM 和 BayesVPGM 在建模不確定性方面的有效性。第一個(gè)是名為 ScienceQA（Lu et al. 2022）的封閉式任務(wù)，第二個(gè)是名為 ChatCoach（Huang et al. 2024）的開放式任務(wù)，這兩個(gè)任務(wù)都需要結(jié)合來(lái)自多個(gè)來(lái)源的未公開信息進(jìn)行推理。然后，我們引入了一個(gè)源自 A-OKVQA（Schwenk et al. 2022）的負(fù)對(duì)照實(shí)驗(yàn)，以研究潛在變量是否可以通過(guò)檢測(cè)錯(cuò)誤信息存在時(shí)的不匹配來(lái)增強(qiáng)置信度校準(zhǔn)。詳細(xì)的實(shí)驗(yàn)配置見附錄。

科學(xué)問答

由（Lu et al. 2022）提出的科學(xué)問答（ScienceQA）基準(zhǔn)是一個(gè)全面的多模態(tài)問答基準(zhǔn)，涵蓋物理學(xué)、數(shù)學(xué)、生物學(xué)和人文學(xué)科等多種科學(xué)學(xué)科。它包含 4,241 個(gè)問答對(duì)，涵蓋各種主題和背景。該任務(wù)需要整合來(lái)自多個(gè)來(lái)源或 LLM 智能體（例如必應(yīng)搜索結(jié)果、圖像描述）的信息，這一過(guò)程可能引入錯(cuò)誤并增加推理的復(fù)雜性。鑒于這些挑戰(zhàn)，ScienceQA 成為評(píng)估 vPGM 識(shí)別潛在結(jié)構(gòu)和模型不確定性效果的理想測(cè)試平臺(tái)。更詳細(xì)的實(shí)驗(yàn)設(shè)置見附錄。

基線方法我們將 vPGM/BayesVPGM 與以下基線方法進(jìn)行比較：

思維鏈（Chain-of-Thought） 這是一種非工具增強(qiáng)的 LLM：配備言語(yǔ)化置信度估計(jì)的思維鏈（CoT）提示（Wei et al. 2022），通過(guò)提示其為所選答案提供數(shù)值置信度來(lái)實(shí)現(xiàn)。
Chameleon 這是一種基于工具增強(qiáng) LLM 的方法：Chameleon（Lu et al. 2023），我們?yōu)槠渑鋫淞搜哉Z(yǔ)化置信度估計(jì)。
Chameleon+ 它通過(guò)結(jié)合言語(yǔ)化置信度估計(jì)和自洽性測(cè)量（Wang et al. 2022a）的最先進(jìn)不確定性量化框架擴(kuò)展了 Chameleon，如（Xiong et al. 2023）所推薦的。

評(píng)估指標(biāo) 根據(jù)（Naeini, Cooper, and Hauskrecht 2015; Guo et al. 2017; Xiong et al. 2023）中先前的置信度校準(zhǔn)評(píng)估設(shè)置，我們采用期望校準(zhǔn)誤差（ECE）來(lái)評(píng)估模型置信度，以數(shù)值概率預(yù)測(cè)的形式表示。ECE 量化了預(yù)測(cè)概率與每個(gè)置信度水平（分箱）上觀測(cè)準(zhǔn)確率之間的差異。在整個(gè)實(shí)驗(yàn)中，我們將置信度分箱數(shù)固定為 10，各分箱的置信度貢獻(xiàn)均勻分布。此外，我們通過(guò)測(cè)量準(zhǔn)確率（Acc.）來(lái)評(píng)估給定方法正確解決問題的能力。

結(jié)果 表 1 詳細(xì)列出了不同方法在 ScienceQA 數(shù)據(jù)集上的性能。結(jié)果顯示，Chameleon 的 ECE（×102）最高（最差），為 9.62，表明即使在借助外部工具的情況下，處理復(fù)雜推理任務(wù)時(shí)仍存在嚴(yán)重的過(guò)度自信問題。相比之下，我們的 vPGM 在準(zhǔn)確率和 ECE 方面均優(yōu)于這些方法，這得益于其捕捉其他基線方法所忽略的潛在結(jié)構(gòu)信息的卓越能力。圖 3 展示了 vPGM 和 BayesVPGM 的可靠性圖，顯示其在所有分箱上與理想校準(zhǔn)曲線幾乎完美對(duì)齊，突出了其在置信度校準(zhǔn)方面的精確性（消融結(jié)果和詞元級(jí)計(jì)算成本見附錄）。

推斷潛在變量的定性研究圖 1 展示了 BayesVPGM 推理能力的案例研究，以定性評(píng)估模型利用潛在結(jié)構(gòu)信息改進(jìn)置信度估計(jì)的能力。在此，vPGM 利用其潛在變量來(lái)批判性評(píng)估檢索信息的相關(guān)性。例如，當(dāng)面對(duì)來(lái)自必應(yīng)搜索等外部工具的不相關(guān)數(shù)據(jù)或圖像描述器提供的不準(zhǔn)確描述時(shí)，基線方法 Chameleon 錯(cuò)誤地對(duì)其預(yù)測(cè)保持高置信度。相比之下，BayesVPGM 會(huì)仔細(xì)調(diào)整其置信度，在缺少關(guān)鍵上下文知識(shí)或知識(shí)不正確時(shí)分配較低的概率，這一過(guò)程通過(guò)潛在變量的推斷尤為有效。這些觀察結(jié)果突顯了推斷潛在結(jié)構(gòu)對(duì)于提高組合推理系統(tǒng)可靠性的重要性。

交際醫(yī)療指導(dǎo)

醫(yī)療指導(dǎo)基準(zhǔn) ChatCoach 由（Huang et al. 2024）提出，建立了一個(gè)復(fù)雜的多智能體對(duì)話場(chǎng)景，涉及醫(yī)生、患者和醫(yī)療教練，跨越 3,500 輪對(duì)話。醫(yī)療教練的任務(wù)是檢測(cè)醫(yī)生使用的醫(yī)學(xué)術(shù)語(yǔ)中的不準(zhǔn)確之處（檢測(cè)任務(wù)）并提出適當(dāng)?shù)男拚ㄗh（修正任務(wù)）。這些任務(wù)需要整合外部醫(yī)學(xué)知識(shí)，這本質(zhì)上會(huì)給回復(fù)生成帶來(lái)不確定性。選擇該基準(zhǔn)是為了測(cè)試 vPGM 在復(fù)雜開放式推理任務(wù)上的泛化能力。BayesVPGM 未在此設(shè)置中應(yīng)用，因?yàn)樵撃Ｐ图僭O(shè)輸出為類別分布。實(shí)驗(yàn)和實(shí)現(xiàn)的更多細(xì)節(jié)見附錄。

基線方法為進(jìn)行比較分析，我們將 vPGM 與以下方法進(jìn)行基準(zhǔn)對(duì)比：

普通指令提示（Vanilla Instruction Prompting）：該方法使用直接指令提示 LLM 生成對(duì)話。
零樣本思維鏈（Zero-shot Chain of Thought, CoT）（Kojima et al. 2022）：一種簡(jiǎn)單的 CoT 方法，提示 LLM 依次闡述推理鏈。
普通思維鏈（Vanilla CoT）（Wei et al. 2022）：該方法在基礎(chǔ) CoT 之上，為 LLM 提供一組包含詳細(xì)推理步驟的示例。
廣義思維鏈（Generalized CoT, GCoT）（Huang et al. 2024）：CoT 的高級(jí)版本，旨在有效改進(jìn)結(jié)構(gòu)化反饋的生成和外部知識(shí)的整合。它代表了 ChatCoach 基準(zhǔn)中的最先進(jìn)方法。

評(píng)估指標(biāo) 我們遵循（Huang et al. 2024），采用傳統(tǒng)的自動(dòng)評(píng)估指標(biāo) BLEU-2、ROUGE-L 和 BERTScore。BLEU-2 用于測(cè)量二元語(yǔ)法重疊的精確度，提供生成文本相對(duì)于參考答案詞匯準(zhǔn)確性的洞察。ROUGE-L 用于評(píng)估句子級(jí)相似性，關(guān)注最長(zhǎng)公共子序列以評(píng)估結(jié)構(gòu)連貫性和順序 n 元語(yǔ)法的一致性。此外，BERTScore 應(yīng)用于語(yǔ)義相似性評(píng)估，利用 BERT 嵌入在更深層次的語(yǔ)義上比較生成輸出和參考文本。如（Huang et al. 2024）所指定，我們使用 GPT-4 從教練智能體的反饋中提取醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤和相應(yīng)的修正。然后基于這些提取的元素與人類標(biāo)注進(jìn)行比較計(jì)算自動(dòng)指標(biāo)。

結(jié)果 我們?cè)诒?2 中展示了各種方法的性能。所有指標(biāo)上機(jī)器生成輸出與人類基準(zhǔn)之間的顯著差異突顯了交際醫(yī)療指導(dǎo)中固有的挑戰(zhàn)。在醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤檢測(cè)方面，vPGM 以優(yōu)異的 BLEU-2（37.2）和 BERTScore（76.3）領(lǐng)先，突顯其在識(shí)別不準(zhǔn)確之處方面的熟練程度。在修正任務(wù)中，雖然 vPGM 取得了突出的 BERTScore 68.3，超越所有基線，但其在 BLEU-2 和 ROUGE-L 上得分較低。這種變化歸因于醫(yī)生輸入中的歧義性，這可能產(chǎn)生多個(gè)有效回復(fù)，影響依賴精確匹配的指標(biāo)。

A-OKVQA 負(fù)對(duì)照：研究錯(cuò)誤信息下的潛在變量

數(shù)據(jù)模擬 A-OKVQA（Schwenk et al. 2022）是一個(gè)視覺問答數(shù)據(jù)集，挑戰(zhàn)模型對(duì)場(chǎng)景進(jìn)行常識(shí)推理，這通常超出了簡(jiǎn)單知識(shí)庫(kù)查詢的范圍。關(guān)鍵的是，它為每個(gè)問題提供了真實(shí)圖像描述和推理依據(jù)。我們利用這些標(biāo)注來(lái)構(gòu)建一個(gè)負(fù)對(duì)照實(shí)驗(yàn)：A-OKVQA-clean（603 個(gè)數(shù)據(jù)點(diǎn)）保留正確的圖像描述和推理依據(jù)（接近單跳推理），而 A-OKVQA-noisy（603 個(gè)數(shù)據(jù)點(diǎn)）隨機(jī)打亂推理依據(jù)，從而引入錯(cuò)誤信息并強(qiáng)制進(jìn)行多跳一致性檢查。在此實(shí)驗(yàn)中，我們采用具有 2 個(gè)潛在變量的 vPGM（推理提示和示例查詢見附錄）。數(shù)據(jù)配置的更多細(xì)節(jié)見附錄。

噪聲條件下的整體性能表 3 顯示了 A-OKVQA-noisy 數(shù)據(jù)集上的整體準(zhǔn)確率（Acc.）和期望校準(zhǔn)誤差（ECE）。vPGM 和 BayesVPGM 在準(zhǔn)確率上均優(yōu)于 Chameleon+（61.03% 對(duì) 59.04%），并產(chǎn)生更低的 ECE，表明潛在變量能夠檢測(cè)不匹配并改進(jìn)置信度校準(zhǔn)。

這表明了一種權(quán)衡：雖然潛在變量在檢測(cè)錯(cuò)誤信息和改進(jìn) Noisy 設(shè)置中的校準(zhǔn)方面表現(xiàn)出色，但在實(shí)際不存在不匹配時(shí)，它們可能會(huì)輕微降低校準(zhǔn)效果。

結(jié)論

我們提出了言語(yǔ)化概率圖模型（vPGM），一種貝葉斯智能體框架，該框架（1）指導(dǎo) LLM 智能體通過(guò)自然語(yǔ)言模擬概率圖模型（PGM）的核心原理，以及（2）通過(guò)數(shù)值貝葉斯推斷細(xì)化所得的后驗(yàn)分布。應(yīng)用于智能體工作流中，vPGM 使 LLM 智能體能夠執(zhí)行具有校準(zhǔn)不確定性的概率潛在變量推理。該方法無(wú)需大量領(lǐng)域?qū)I(yè)知識(shí)即可發(fā)現(xiàn)潛在變量和依賴關(guān)系，使其非常適用于假設(shè)有限的場(chǎng)景。我們?cè)谥悄荏w推理任務(wù)上的實(shí)證結(jié)果顯示，在置信度校準(zhǔn)和文本生成質(zhì)量方面均有顯著提升。這些結(jié)果突顯了將貝葉斯原理與 LLM 智能體相結(jié)合以增強(qiáng) AI 系統(tǒng)建模不確定性和不確定性下推理能力的潛力。

原文鏈接：https://arxiv.org/pdf/2406.05516

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.