国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

貝葉斯智能體:通過(guò)語(yǔ)言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理

0
分享至

貝葉斯智能體:通過(guò)語(yǔ)言化概率圖模型進(jìn)行不確定性下的貝葉斯智能體推理

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

https://www.alphaxiv.org/zh/overview/2406.05516v4


摘要

人類認(rèn)知的卓越之處在于能夠超越感官輸入,形成構(gòu)建我們對(duì)世界理解結(jié)構(gòu)的潛在表征。雖然大型語(yǔ)言模型(LLM)智能體展現(xiàn)出 emergent 的推理和決策能力,但它們?nèi)狈σ粋€(gè)原則性的框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問題。為此,我們引入了語(yǔ)言化概率圖建模(vPGM),這是一個(gè)貝葉斯智能體框架,它能夠(i)通過(guò)自然語(yǔ)言引導(dǎo) LLM 智能體遵循 PGM 的關(guān)鍵原則,以及(ii)通過(guò)數(shù)值貝葉斯推理優(yōu)化得到的后驗(yàn)分布。與許多需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)概率方法不同,vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場(chǎng)景。我們?cè)趲讉€(gè)封閉式和開放式的智能體推理任務(wù)上評(píng)估了我們的模型。結(jié)果表明,該模型有效地增強(qiáng)了置信度校準(zhǔn)和文本生成質(zhì)量。代碼與附錄 —— https://github.com/xingbpshen/agentic-reasoning-vpgm

引言

在處理復(fù)雜的推理問題(例如解決具有挑戰(zhàn)性的科學(xué)問題)時(shí),人類大腦被認(rèn)為有能力超越單純的感官輸入,可能形成對(duì)世界潛在模式的洞察。這種能力表明,人類可能擁有解釋潛在結(jié)構(gòu)和不確定性的復(fù)雜技能(Tenenbaum et al. 2011),盡管其確切機(jī)制仍是 ongoing 研究和爭(zhēng)論的主題。截至目前,人類所展現(xiàn)出的這種理解深度尚未在人工智能系統(tǒng)中完全實(shí)現(xiàn)(Lake et al. 2017; Bender and Koller 2020; Zheng et al. 2021; Sumers et al. 2023)。

雖然大型語(yǔ)言模型在處理和生成人類語(yǔ)言方面展現(xiàn)了令人印象深刻的能力(Devlin et al. 2018; Brown et al. 2020; Achiam et al. 2023),但其性能常常受限于其訓(xùn)練數(shù)據(jù)的范圍。這些模型主要基于海量文本語(yǔ)料庫(kù)構(gòu)建,擅長(zhǎng)生成句法連貫且上下文相關(guān)的響應(yīng)。最近的進(jìn)展,如思維鏈(CoT)提示(Wei et al. 2022)和智能體范式的出現(xiàn)(Yao et al. 2023; Schick et al. 2023),已將其能力擴(kuò)展到交互式和組合式的智能體推理。然而,當(dāng)在不確定或部分可觀測(cè)的環(huán)境中作為自主智能體運(yùn)行時(shí),尤其是在那些需要隱性知識(shí)以及整合和推理來(lái)自多個(gè)來(lái)源的未公開信息的能力(這些是 humans 在復(fù)雜推理中通常運(yùn)用的技能)的場(chǎng)景下,LLM 智能體常常會(huì)遇到困難。這種局限性不僅源于它們對(duì)表層語(yǔ)言相關(guān)性的依賴,還源于缺乏一個(gè)原則性的貝葉斯框架來(lái)捕捉潛在結(jié)構(gòu)并對(duì)不確定性進(jìn)行建模。

在這項(xiàng)工作中,我們首次探索如何將 LLM 智能體與概率圖模型(PGM)相結(jié)合,以解決不確定性下的智能體推理問題。為此,我們引入了語(yǔ)言化概率圖建模(vPGM),這是一個(gè)貝葉斯智能體框架,它將 LLM 智能體推理的優(yōu)勢(shì)與顯式的數(shù)值貝葉斯推理相結(jié)合。與通常需要大量領(lǐng)域?qū)I(yè)知識(shí)的傳統(tǒng)貝葉斯推理框架(Griffiths, Kemp, and Tenenbaum 2008; Bielza and Larra?aga 2014; Wang and Yeung 2020; Abdullah, Hassan, and Mustafa 2022)不同,vPGM 繞過(guò)了專家驅(qū)動(dòng)的模型設(shè)計(jì),使其特別適用于假設(shè)條件有限的場(chǎng)景。具體來(lái)說(shuō),貝葉斯結(jié)構(gòu)學(xué)習(xí)方法(Kitson et al. 2023)有助于發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò),但它們通常需要專家領(lǐng)域知識(shí)來(lái)手動(dòng)驗(yàn)證統(tǒng)計(jì)依賴性,或者依賴計(jì)算成本高昂的評(píng)分函數(shù)來(lái)評(píng)估圖模型對(duì)數(shù)據(jù)的擬合優(yōu)度。我們的方法通過(guò)引導(dǎo) LLMs 模擬貝葉斯推理原則,同時(shí)通過(guò)一個(gè)可學(xué)習(xí)的貝葉斯代理模型增強(qiáng)不確定性量化,從而利用 LLMs 的知識(shí)和推理能力,顯著減少了對(duì)專家輸入的依賴。

具體而言,我們的方法包含三個(gè)初始階段:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,提示 LLM 識(shí)別潛在變量及其概率依賴性;(2)基于提示的推理,引導(dǎo) LLMs 在給定新輸入數(shù)據(jù)的情況下推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布;(3)不確定性下的預(yù)測(cè),通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值,來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。此外,為了充分利用 vPGM 框架內(nèi) LLMs 生成的多個(gè)響應(yīng)樣本并增強(qiáng)不確定性量化,我們使用數(shù)值貝葉斯推理技術(shù)擴(kuò)展了 vPGM,這些技術(shù)可以推斷預(yù)測(cè)的后驗(yàn)分布,并通過(guò)一個(gè)理論上有保證的可微校準(zhǔn)損失函數(shù)來(lái)增強(qiáng)置信度校準(zhǔn)。

我們?cè)趲讉€(gè)智能體推理任務(wù)上評(píng)估了我們的方法,這些任務(wù)設(shè)計(jì)為封閉式和開放式回答格式。實(shí)驗(yàn)證明,該方法在置信度校準(zhǔn)和生成響應(yīng)的質(zhì)量方面均有改進(jìn),突顯了 vPGM 在增強(qiáng) LLM 智能體概率推理能力方面的有效性。

相關(guān)工作

大型語(yǔ)言模型的研究近期已從靜態(tài)提示轉(zhuǎn)向能夠進(jìn)行智能體推理、工具使用和交互式?jīng)Q策的 LLM 智能體或智能體系統(tǒng)。我們分別討論這兩個(gè)方向,強(qiáng)調(diào)它們的局限性以及我們提出的 vPGM 如何解決一個(gè)關(guān)鍵缺失的組成部分:針對(duì)智能體推理任務(wù)的概率潛在變量推理和不確定性校準(zhǔn)。

LLM 提示
LLM 中的提示方法構(gòu)成了一個(gè)長(zhǎng)期的研究方向,其核心是無(wú)訓(xùn)練地引導(dǎo)模型響應(yīng)。早期方法包括上下文學(xué)習(xí),即模型根據(jù)特定任務(wù)的演示進(jìn)行條件生成;以及指令提示,它將明確的任務(wù)指令直接嵌入到自然語(yǔ)言提示中。一個(gè)重大的發(fā)展是思維鏈提示,它引出中間推理步驟以增強(qiáng)復(fù)雜推理。后續(xù)的變體將 CoT 擴(kuò)展到更靈活或自動(dòng)化的設(shè)置:零樣本 CoT、自動(dòng) rationale 生成、自洽性解碼,以及連續(xù)思維鏈,它將推理軌跡嵌入潛在空間。此外,(Xiong et al. 2023) 在基于一致性的方法基礎(chǔ)上進(jìn)行了擴(kuò)展,并對(duì) LLM 的置信度 elicitation 進(jìn)行了實(shí)證研究。相比之下,我們提出的 vPGM 從貝葉斯推理的角度解決置信度 elicitation 問題,該方法遵循理論上更扎實(shí)的貝葉斯推理框架——概率圖模型的原則。

LLM 智能體與智能體系統(tǒng)
在這些提示方法進(jìn)步的基礎(chǔ)上,LLM 提示已演變?yōu)?LLM 智能體,它將推理與行動(dòng)、工具使用以及對(duì)外部環(huán)境的交互交織在一起。ReAct 結(jié)合了自然語(yǔ)言推理與工具調(diào)用和環(huán)境反饋;Toolformer 使用自監(jiān)督信號(hào)教導(dǎo) LLM 何時(shí)以及如何調(diào)用工具;ADAS 則自動(dòng)化了智能體系統(tǒng)架構(gòu)的設(shè)計(jì)。這些系統(tǒng)標(biāo)志著從被動(dòng)文本生成向交互式、工具增強(qiáng)行為的轉(zhuǎn)變。然而,現(xiàn)有的智能體方法通常缺乏一個(gè)原則性的概率框架:它們不顯式地建模潛在變量、量化不確定性或執(zhí)行貝葉斯信念更新,這限制了它們?cè)谛枰淮_定性下進(jìn)行校準(zhǔn)的智能體推理的場(chǎng)景中的適用性。

同期工作
一些同期的工作探索了使用 LLM 進(jìn)行概率或因果建模,但它們?cè)诤艽蟪潭壬吓c我們的貢獻(xiàn)是正交的。最近的因果發(fā)現(xiàn)研究專注于學(xué)習(xí)因果關(guān)系和反事實(shí),而 vPGM 的目標(biāo)是針對(duì)多源智能體任務(wù)的非因果概率潛在變量推理和不確定性校準(zhǔn)。BIRD 引入了一個(gè)用于 LLM 的貝葉斯推理包裝器,但它僅限于二元決策制定,因此不直接適用于我們的多類別和開放式輸出。相比之下,vPGM 為 LLM 智能體內(nèi)的潛在變量推理和校準(zhǔn)的不確定性提供了一個(gè)統(tǒng)一的貝葉斯框架。

我們的方法:語(yǔ)言化概率圖建模(vPGM)

語(yǔ)言化概率圖建模(vPGM)是一種貝葉斯智能體推理方法,它利用大型語(yǔ)言模型智能體以自然語(yǔ)言模擬概率圖模型的關(guān)鍵原則。與許多需要廣泛領(lǐng)域知識(shí)和專門訓(xùn)練的現(xiàn)有概率方法不同,vPGM 繞過(guò)了基于專家的模型設(shè)計(jì)需求,使其適用于處理領(lǐng)域假設(shè)有限或數(shù)據(jù)稀缺的復(fù)雜推理任務(wù)。

vPGM 概述

從應(yīng)用角度來(lái)看,vPGM 可以嵌入到一系列復(fù)雜的推理系統(tǒng)中,例如智能體推理任務(wù)(見圖1)。我們的方法將整個(gè)推理過(guò)程分解為三個(gè)核心步驟:(1)圖結(jié)構(gòu)發(fā)現(xiàn),在此階段,通過(guò)提示 LLM 來(lái)識(shí)別潛在變量及其概率依賴關(guān)系(見圖2);(2)基于提示的推理,引導(dǎo) LLMs 根據(jù)新的輸入數(shù)據(jù)推斷每個(gè)潛在變量的語(yǔ)言化后驗(yàn)分布;(3)不確定性下的預(yù)測(cè),通過(guò)計(jì)算在推斷出的潛在變量上的條件預(yù)測(cè)分布的期望值,來(lái)實(shí)現(xiàn)最終預(yù)測(cè)的置信度。



圖結(jié)構(gòu)發(fā)現(xiàn)

我們的方法首先通過(guò)設(shè)計(jì)專門的提示(見附錄)來(lái)揭示組合推理中的潛在變量。該提示包含幾個(gè)關(guān)鍵要素:(1)通用任務(wù)描述,簡(jiǎn)潔陳述推理目標(biāo);(2)輸入-輸出數(shù)據(jù)對(duì),展示具有代表性的數(shù)據(jù)樣本;(3)上下文信息,提供必要的背景知識(shí)或領(lǐng)域洞見;(4)先驗(yàn)知識(shí)與約束,指定約束條件,例如潛在變量的最大數(shù)量及其預(yù)定義的依賴關(guān)系。

在識(shí)別出一組潛在變量 Z = {Z?, Z?, ..., Z?}(潛在變量的示例見附錄)之后,我們進(jìn)一步提示大語(yǔ)言模型(LLMs)來(lái)確定每個(gè)潛在變量如何依賴于其他變量。從 LLM 獲得的一組依賴關(guān)系示例如下:{ X → Z?, X → Z?, X → Z?, X → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Z?, Z? → Y },其中每個(gè)關(guān)系 a → b 表示 b 條件依賴于 a。與傳統(tǒng)的概率圖模型(PGMs)類似,我們的語(yǔ)言化 PGM(vPGM)將這些依賴關(guān)系編碼為條件概率分布 P(Z? | Pa(Z?))。然而,vPGM 不依賴于顯式的分布形式,而是使用自然語(yǔ)言描述(詳細(xì)示例見附錄)來(lái)指定每個(gè)條件關(guān)系,從而減少了對(duì)大量領(lǐng)域?qū)I(yè)知識(shí)或參數(shù)估計(jì)的需求。

基于提示的貝葉斯推斷

傳統(tǒng)上,貝葉斯推斷側(cè)重于在給定概率模型和新觀測(cè)值的情況下推斷模型參數(shù)的后驗(yàn)分布。然而,在 LLM 的語(yǔ)境下,它被重新表述為生成提示,以在 vPGM 框架下利用其發(fā)現(xiàn)的結(jié)構(gòu)和新觀測(cè)值來(lái)模擬后驗(yàn)推斷。這種方法利用 LLM 的高級(jí)推理能力來(lái)生成指令,使其能夠模擬貝葉斯推斷原理。一個(gè)示例提示是:"生成一個(gè)提示,引導(dǎo) LLM 根據(jù)提供的任務(wù)描述、發(fā)現(xiàn)的 PGM 和測(cè)試數(shù)據(jù),逐步進(jìn)行概率推理……"

不確定性下的預(yù)測(cè)

智能體推理任務(wù)通常涉及顯著的不確定性。例如,LLM 智能體(如圖像描述器)可能產(chǎn)生有噪聲的輸出,引入偶然不確定性。在 vPGM 框架下,這種可變性通過(guò)潛在變量的語(yǔ)言化后驗(yàn)分布來(lái)捕捉。在通過(guò)基于提示的貝葉斯推斷構(gòu)建語(yǔ)言化后驗(yàn) P(Z | X) 之后,我們通過(guò)對(duì) Z 取 P(Y | Z) 的期望值來(lái)量化對(duì)最終預(yù)測(cè)的置信度:


其中 X 表示觀測(cè)輸入,Z 是通過(guò)使用 vPGM 的貝葉斯推斷提示查詢 LLM 來(lái)采樣的。在實(shí)踐中,P(Z | X) 和 P(Y | Z) 都在單個(gè)提示中模擬(詳見附錄中的示例)。因此,期望后驗(yàn)概率可以通過(guò)對(duì) LLM 在這些推斷步驟中生成的 P(Y | Z) 的數(shù)值取平均來(lái)近似。

貝葉斯增強(qiáng)的 vPGM:BayesVPGM

當(dāng)在 vPGM 框架下反復(fù)查詢大語(yǔ)言模型(LLM)時(shí),我們會(huì)獲得多個(gè)響應(yīng)樣本,即類別預(yù)測(cè)及其數(shù)值概率。一個(gè)自然的問題是:如何利用這些數(shù)據(jù)來(lái)更好地捕捉 LLM 預(yù)測(cè)中潛在的不確定性。為此,我們提出推斷這樣一個(gè)后驗(yàn)分布,記為 q(y | x?),其中 x? 表示類別預(yù)測(cè)。




通過(guò)可微分校準(zhǔn)損失優(yōu)化 λ

該后驗(yàn)分布的一個(gè)關(guān)鍵局限性在于它依賴于手動(dòng)調(diào)優(yōu)的 λ,該參數(shù)控制著 vPGM 的數(shù)值概率對(duì)最終結(jié)果的影響程度。為了實(shí)現(xiàn)這一過(guò)程的自動(dòng)化并改善校準(zhǔn)效果,我們引入了一種可微分的校準(zhǔn)損失,通過(guò)基于梯度的優(yōu)化來(lái)學(xué)習(xí) λ。

具體而言,我們最小化以下關(guān)于 λ 的損失函數(shù):







證明見附錄。盡管損失函數(shù)公式 (2) 中的交叉熵項(xiàng)將預(yù)測(cè)拉向獨(dú)熱標(biāo)簽,而校準(zhǔn)項(xiàng)強(qiáng)制執(zhí)行逐類別平均對(duì)齊,但定理 1 表明這兩個(gè)目標(biāo)可以同時(shí)達(dá)到最小值。

實(shí)驗(yàn)

我們?cè)谌齻€(gè)智能體推理任務(wù)上評(píng)估了所提出的 vPGM 和 BayesVPGM 在建模不確定性方面的有效性。第一個(gè)是名為 ScienceQA(Lu et al. 2022)的封閉式任務(wù),第二個(gè)是名為 ChatCoach(Huang et al. 2024)的開放式任務(wù),這兩個(gè)任務(wù)都需要結(jié)合來(lái)自多個(gè)來(lái)源的未公開信息進(jìn)行推理。然后,我們引入了一個(gè)源自 A-OKVQA(Schwenk et al. 2022)的負(fù)對(duì)照實(shí)驗(yàn),以研究潛在變量是否可以通過(guò)檢測(cè)錯(cuò)誤信息存在時(shí)的不匹配來(lái)增強(qiáng)置信度校準(zhǔn)。詳細(xì)的實(shí)驗(yàn)配置見附錄。

科學(xué)問答

由(Lu et al. 2022)提出的科學(xué)問答(ScienceQA)基準(zhǔn)是一個(gè)全面的多模態(tài)問答基準(zhǔn),涵蓋物理學(xué)、數(shù)學(xué)、生物學(xué)和人文學(xué)科等多種科學(xué)學(xué)科。它包含 4,241 個(gè)問答對(duì),涵蓋各種主題和背景。該任務(wù)需要整合來(lái)自多個(gè)來(lái)源或 LLM 智能體(例如必應(yīng)搜索結(jié)果、圖像描述)的信息,這一過(guò)程可能引入錯(cuò)誤并增加推理的復(fù)雜性。鑒于這些挑戰(zhàn),ScienceQA 成為評(píng)估 vPGM 識(shí)別潛在結(jié)構(gòu)和模型不確定性效果的理想測(cè)試平臺(tái)。更詳細(xì)的實(shí)驗(yàn)設(shè)置見附錄。

基線方法 我們將 vPGM/BayesVPGM 與以下基線方法進(jìn)行比較:

  • 思維鏈(Chain-of-Thought) 這是一種非工具增強(qiáng)的 LLM:配備言語(yǔ)化置信度估計(jì)的思維鏈(CoT)提示(Wei et al. 2022),通過(guò)提示其為所選答案提供數(shù)值置信度來(lái)實(shí)現(xiàn)。

  • Chameleon 這是一種基于工具增強(qiáng) LLM 的方法:Chameleon(Lu et al. 2023),我們?yōu)槠渑鋫淞搜哉Z(yǔ)化置信度估計(jì)。

  • Chameleon+ 它通過(guò)結(jié)合言語(yǔ)化置信度估計(jì)和自洽性測(cè)量(Wang et al. 2022a)的最先進(jìn)不確定性量化框架擴(kuò)展了 Chameleon,如(Xiong et al. 2023)所推薦的。

評(píng)估指標(biāo) 根據(jù)(Naeini, Cooper, and Hauskrecht 2015; Guo et al. 2017; Xiong et al. 2023)中先前的置信度校準(zhǔn)評(píng)估設(shè)置,我們采用期望校準(zhǔn)誤差(ECE)來(lái)評(píng)估模型置信度,以數(shù)值概率預(yù)測(cè)的形式表示。ECE 量化了預(yù)測(cè)概率與每個(gè)置信度水平(分箱)上觀測(cè)準(zhǔn)確率之間的差異。在整個(gè)實(shí)驗(yàn)中,我們將置信度分箱數(shù)固定為 10,各分箱的置信度貢獻(xiàn)均勻分布。此外,我們通過(guò)測(cè)量準(zhǔn)確率(Acc.)來(lái)評(píng)估給定方法正確解決問題的能力。

結(jié)果 表 1 詳細(xì)列出了不同方法在 ScienceQA 數(shù)據(jù)集上的性能。結(jié)果顯示,Chameleon 的 ECE(×102)最高(最差),為 9.62,表明即使在借助外部工具的情況下,處理復(fù)雜推理任務(wù)時(shí)仍存在嚴(yán)重的過(guò)度自信問題。相比之下,我們的 vPGM 在準(zhǔn)確率和 ECE 方面均優(yōu)于這些方法,這得益于其捕捉其他基線方法所忽略的潛在結(jié)構(gòu)信息的卓越能力。圖 3 展示了 vPGM 和 BayesVPGM 的可靠性圖,顯示其在所有分箱上與理想校準(zhǔn)曲線幾乎完美對(duì)齊,突出了其在置信度校準(zhǔn)方面的精確性(消融結(jié)果和詞元級(jí)計(jì)算成本見附錄)。



推斷潛在變量的定性研究 圖 1 展示了 BayesVPGM 推理能力的案例研究,以定性評(píng)估模型利用潛在結(jié)構(gòu)信息改進(jìn)置信度估計(jì)的能力。在此,vPGM 利用其潛在變量來(lái)批判性評(píng)估檢索信息的相關(guān)性。例如,當(dāng)面對(duì)來(lái)自必應(yīng)搜索等外部工具的不相關(guān)數(shù)據(jù)或圖像描述器提供的不準(zhǔn)確描述時(shí),基線方法 Chameleon 錯(cuò)誤地對(duì)其預(yù)測(cè)保持高置信度。相比之下,BayesVPGM 會(huì)仔細(xì)調(diào)整其置信度,在缺少關(guān)鍵上下文知識(shí)或知識(shí)不正確時(shí)分配較低的概率,這一過(guò)程通過(guò)潛在變量的推斷尤為有效。這些觀察結(jié)果突顯了推斷潛在結(jié)構(gòu)對(duì)于提高組合推理系統(tǒng)可靠性的重要性。


交際醫(yī)療指導(dǎo)

醫(yī)療指導(dǎo)基準(zhǔn) ChatCoach 由(Huang et al. 2024)提出,建立了一個(gè)復(fù)雜的多智能體對(duì)話場(chǎng)景,涉及醫(yī)生、患者和醫(yī)療教練,跨越 3,500 輪對(duì)話。醫(yī)療教練的任務(wù)是檢測(cè)醫(yī)生使用的醫(yī)學(xué)術(shù)語(yǔ)中的不準(zhǔn)確之處(檢測(cè)任務(wù))并提出適當(dāng)?shù)男拚ㄗh(修正任務(wù))。這些任務(wù)需要整合外部醫(yī)學(xué)知識(shí),這本質(zhì)上會(huì)給回復(fù)生成帶來(lái)不確定性。選擇該基準(zhǔn)是為了測(cè)試 vPGM 在復(fù)雜開放式推理任務(wù)上的泛化能力。BayesVPGM 未在此設(shè)置中應(yīng)用,因?yàn)樵撃P图僭O(shè)輸出為類別分布。實(shí)驗(yàn)和實(shí)現(xiàn)的更多細(xì)節(jié)見附錄。

基線方法 為進(jìn)行比較分析,我們將 vPGM 與以下方法進(jìn)行基準(zhǔn)對(duì)比:

  • 普通指令提示(Vanilla Instruction Prompting):該方法使用直接指令提示 LLM 生成對(duì)話。

  • 零樣本思維鏈(Zero-shot Chain of Thought, CoT)(Kojima et al. 2022):一種簡(jiǎn)單的 CoT 方法,提示 LLM 依次闡述推理鏈。

  • 普通思維鏈(Vanilla CoT)(Wei et al. 2022):該方法在基礎(chǔ) CoT 之上,為 LLM 提供一組包含詳細(xì)推理步驟的示例。

  • 廣義思維鏈(Generalized CoT, GCoT)(Huang et al. 2024):CoT 的高級(jí)版本,旨在有效改進(jìn)結(jié)構(gòu)化反饋的生成和外部知識(shí)的整合。它代表了 ChatCoach 基準(zhǔn)中的最先進(jìn)方法。

評(píng)估指標(biāo) 我們遵循(Huang et al. 2024),采用傳統(tǒng)的自動(dòng)評(píng)估指標(biāo) BLEU-2、ROUGE-L 和 BERTScore。BLEU-2 用于測(cè)量二元語(yǔ)法重疊的精確度,提供生成文本相對(duì)于參考答案詞匯準(zhǔn)確性的洞察。ROUGE-L 用于評(píng)估句子級(jí)相似性,關(guān)注最長(zhǎng)公共子序列以評(píng)估結(jié)構(gòu)連貫性和順序 n 元語(yǔ)法的一致性。此外,BERTScore 應(yīng)用于語(yǔ)義相似性評(píng)估,利用 BERT 嵌入在更深層次的語(yǔ)義上比較生成輸出和參考文本。如(Huang et al. 2024)所指定,我們使用 GPT-4 從教練智能體的反饋中提取醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤和相應(yīng)的修正。然后基于這些提取的元素與人類標(biāo)注進(jìn)行比較計(jì)算自動(dòng)指標(biāo)。

結(jié)果 我們?cè)诒?2 中展示了各種方法的性能。所有指標(biāo)上機(jī)器生成輸出與人類基準(zhǔn)之間的顯著差異突顯了交際醫(yī)療指導(dǎo)中固有的挑戰(zhàn)。在醫(yī)學(xué)術(shù)語(yǔ)錯(cuò)誤檢測(cè)方面,vPGM 以優(yōu)異的 BLEU-2(37.2)和 BERTScore(76.3)領(lǐng)先,突顯其在識(shí)別不準(zhǔn)確之處方面的熟練程度。在修正任務(wù)中,雖然 vPGM 取得了突出的 BERTScore 68.3,超越所有基線,但其在 BLEU-2 和 ROUGE-L 上得分較低。這種變化歸因于醫(yī)生輸入中的歧義性,這可能產(chǎn)生多個(gè)有效回復(fù),影響依賴精確匹配的指標(biāo)。


A-OKVQA 負(fù)對(duì)照:研究錯(cuò)誤信息下的潛在變量

數(shù)據(jù)模擬 A-OKVQA(Schwenk et al. 2022)是一個(gè)視覺問答數(shù)據(jù)集,挑戰(zhàn)模型對(duì)場(chǎng)景進(jìn)行常識(shí)推理,這通常超出了簡(jiǎn)單知識(shí)庫(kù)查詢的范圍。關(guān)鍵的是,它為每個(gè)問題提供了真實(shí)圖像描述和推理依據(jù)。我們利用這些標(biāo)注來(lái)構(gòu)建一個(gè)負(fù)對(duì)照實(shí)驗(yàn):A-OKVQA-clean(603 個(gè)數(shù)據(jù)點(diǎn))保留正確的圖像描述和推理依據(jù)(接近單跳推理),而 A-OKVQA-noisy(603 個(gè)數(shù)據(jù)點(diǎn))隨機(jī)打亂推理依據(jù),從而引入錯(cuò)誤信息并強(qiáng)制進(jìn)行多跳一致性檢查。在此實(shí)驗(yàn)中,我們采用具有 2 個(gè)潛在變量的 vPGM(推理提示和示例查詢見附錄)。數(shù)據(jù)配置的更多細(xì)節(jié)見附錄。

噪聲條件下的整體性能 表 3 顯示了 A-OKVQA-noisy 數(shù)據(jù)集上的整體準(zhǔn)確率(Acc.)和期望校準(zhǔn)誤差(ECE)。vPGM 和 BayesVPGM 在準(zhǔn)確率上均優(yōu)于 Chameleon+(61.03% 對(duì) 59.04%),并產(chǎn)生更低的 ECE,表明潛在變量能夠檢測(cè)不匹配并改進(jìn)置信度校準(zhǔn)。




這表明了一種權(quán)衡:雖然潛在變量在檢測(cè)錯(cuò)誤信息和改進(jìn) Noisy 設(shè)置中的校準(zhǔn)方面表現(xiàn)出色,但在實(shí)際不存在不匹配時(shí),它們可能會(huì)輕微降低校準(zhǔn)效果。

結(jié)論

我們提出了言語(yǔ)化概率圖模型(vPGM),一種貝葉斯智能體框架,該框架(1)指導(dǎo) LLM 智能體通過(guò)自然語(yǔ)言模擬概率圖模型(PGM)的核心原理,以及(2)通過(guò)數(shù)值貝葉斯推斷細(xì)化所得的后驗(yàn)分布。應(yīng)用于智能體工作流中,vPGM 使 LLM 智能體能夠執(zhí)行具有校準(zhǔn)不確定性的概率潛在變量推理。該方法無(wú)需大量領(lǐng)域?qū)I(yè)知識(shí)即可發(fā)現(xiàn)潛在變量和依賴關(guān)系,使其非常適用于假設(shè)有限的場(chǎng)景。我們?cè)谥悄荏w推理任務(wù)上的實(shí)證結(jié)果顯示,在置信度校準(zhǔn)和文本生成質(zhì)量方面均有顯著提升。這些結(jié)果突顯了將貝葉斯原理與 LLM 智能體相結(jié)合以增強(qiáng) AI 系統(tǒng)建模不確定性和不確定性下推理能力的潛力。

原文鏈接:https://arxiv.org/pdf/2406.05516

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
你見過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
健康
手機(jī)
軍事航空

張雪峰曾經(jīng)“5次談猝死”

藝術(shù)要聞

江青的書法秘訣!只練草書真的能提升書法水平嗎?

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

iQOO 15贏、REDMI K90贏,一加是哪個(gè)贏了?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版