網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

最近研究：對 AI 越粗魯，回答越準(zhǔn)確（附報告全文）

2025-10-12 21:34:36　來源: AI先鋒官

北京舉報

分享至

來源｜AI先鋒官

日前，美國賓夕法尼亞州立大學(xué)發(fā)表了一篇名為《注意你的語氣：探究提示語禮貌程度如何影響大語言模型的準(zhǔn)確性》的學(xué)術(shù)研究報告。

報告指出，“與預(yù)期相反，（對AI 大模型）粗魯提示的表現(xiàn)始終優(yōu)于禮貌提示”。

研究小組構(gòu)建了一個包含 50個基礎(chǔ)問題的數(shù)據(jù)集，涵蓋數(shù)學(xué)、科學(xué)、歷史等多個領(lǐng)域。

然后，他們把每一個問題，都精心改寫成了 5種不同的語氣——從“非常禮貌”到“非常粗魯”，總共創(chuàng)造了 250個獨特的提示詞。

據(jù)此，基于ChatGPT-4o對這些提示進(jìn)行評估，并采用配對樣本t檢驗評估統(tǒng)計顯著性。

結(jié)果出乎了所有人的意料！

用“非常有禮貌”的提示詞，得到了 80.8% 的準(zhǔn)確率；而當(dāng)用“非常粗魯”、最直接的命令式語氣時，準(zhǔn)確率飆升到了 84.8%！

這意味著，每向AI提100個問題里，如果你太客氣，它就會把4個本該答對的答案，變成錯誤答案！

以下為研究報告全文：

《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

注意你的語氣：探究提示語禮貌程度如何影響大語言模型的準(zhǔn)確性（短文）

作者：Om Dobariya1，Akhil Kumar1

1賓夕法尼亞州立大學(xué)帕克分校

摘要

已有研究表明，自然語言提示的措辭會影響大語言模型（LLM）的表現(xiàn)，但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準(zhǔn)確性的影響。

我們構(gòu)建了一個包含50道基礎(chǔ)問題的數(shù)據(jù)集，涵蓋數(shù)學(xué)、科學(xué)和歷史領(lǐng)域，每道題被改寫為五種語氣變體：非常禮貌、禮貌、中性、粗魯和非常粗魯，共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進(jìn)行評估，并采用配對樣本t檢驗評估統(tǒng)計顯著性。

與預(yù)期相反，粗魯提示的表現(xiàn)始終優(yōu)于禮貌提示，準(zhǔn)確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。

這些發(fā)現(xiàn)與早期認(rèn)為粗魯會導(dǎo)致表現(xiàn)下降的研究不同，表明新一代LLM對語氣變化的響應(yīng)可能不同。我們的結(jié)果強調(diào)了研究提示語用特征的重要性，并引發(fā)了關(guān)于人機交互社會維度的更廣泛思考。

1. 引言

生成式人工智能和自然語言處理（NLP）的興起為跨領(lǐng)域任務(wù)自動化帶來了新的可能性，極大地提升了生產(chǎn)力。大語言模型（LLM）在許多高難度任務(wù)上的表現(xiàn)常常超越人類。由于其龐大的訓(xùn)練數(shù)據(jù)和復(fù)雜的模型架構(gòu)，LLM無需特定任務(wù)微調(diào)即可展現(xiàn)出類比推理等人類認(rèn)知核心能力。

由于這些強大的LLM通過自然語言接口進(jìn)行交互，輸入提示的微小差異（即“提示語”）會顯著影響輸出質(zhì)量（如準(zhǔn)確性、長度、連貫性等）。因此，一個名為“提示工程”的新研究領(lǐng)域應(yīng)運而生，旨在研究不同提示設(shè)計對模型響應(yīng)的影響，并優(yōu)化提示以獲得最佳結(jié)果。

近年來，提示工程研究已涉及提示結(jié)構(gòu)、風(fēng)格、語言等因素對結(jié)果質(zhì)量的影響。其中一個因素是提示語中的禮貌程度。

已有研究表明，不同禮貌程度的提示會在多語言和多任務(wù)場景中對模型準(zhǔn)確性產(chǎn)生顯著影響。本研究重新審視這一問題，使用50道四選一的多項選擇題作為基礎(chǔ)數(shù)據(jù)集，每道題被改寫為五種禮貌程度變體（非常禮貌、禮貌、中性、粗魯、非常粗魯），共250道題。我們將這些題目輸入ChatGPT-4o，分析不同語氣對模型表現(xiàn)的影響。

2. 背景與相關(guān)工作

自O(shè)penAI于2022年11月發(fā)布ChatGPT-3.5以來，人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本，隨著技術(shù)進(jìn)步，它們也能處理多種數(shù)據(jù)模態(tài)，因此也被稱為多模態(tài)模型。

隨著這一強大工具的出現(xiàn)，人們開始探索如何最大化其輸出效果，這催生了“提示工程”——即研究如何設(shè)計提示以獲得最佳模型響應(yīng)。常見的提示工程方法包括“零樣本”（zero-shot）和“少樣本”（few-shot）提示等。

Yin等人（2024）發(fā)現(xiàn)，“粗魯提示往往導(dǎo)致表現(xiàn)下降，但過度禮貌的語言也不一定能帶來更好的結(jié)果?！彼麄兊难芯炕诙囗椷x擇題，并以答題準(zhǔn)確性為評估標(biāo)準(zhǔn)。本文試圖驗證這一結(jié)論，并構(gòu)建了自己的數(shù)據(jù)集，測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現(xiàn)。

3. 數(shù)據(jù)集構(gòu)建與研究方法

我們使用ChatGPT的“深度研究”功能生成了50道基礎(chǔ)多項選擇題，涵蓋數(shù)學(xué)、歷史和科學(xué)等領(lǐng)域。每道題設(shè)有四個選項，難度中等偏高，常需多步推理。為引入語氣變量，每道題被改寫為五種語氣變體，從“非常禮貌”到“非常粗魯”，共生成250個獨特提示。

我們將這些題目輸入LLM，并使用Python腳本進(jìn)行評估。每道題都附帶如下指令：

“完全忘記之前的對話內(nèi)容，重新開始。請回答以下多項選擇題。僅回答正確選項的字母（A、B、C或D），不要解釋。”

每道題獨立處理，以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標(biāo)準(zhǔn)答案，用于判斷模型回答是否正確。數(shù)據(jù)集可通過匿名GitHub鏈接獲取。

我們定義了五種語氣等級，其中中性提示不包含“請”等禮貌用語，也不包含侮辱性語言。以下是其中一個基礎(chǔ)題的示例及其五種語氣前綴：

基礎(chǔ)題：

杰克把他一半的錢給了弟弟，然后花了5美元，最后剩下10美元。他最初有多少錢？

4. 實驗結(jié)果與分析

我們將程序運行五次，每次使用不同語氣。每道題目通過API發(fā)送給ChatGPT-4o，并解析其返回的答案字母。以下是示例提示：

完全忘記之前的對話內(nèi)容，重新開始。

請回答以下多項選擇題。僅回答正確選項的字母（A、B、C或D），不要解釋。

您能否好心解答以下問題：兩個雜合子（Aa）父母生下一個孩子，孩子是隱性表型（aa）的概率是多少？

A) 0%

B) 25%

C) 50%

D) 75%

為判斷不同語氣是否對準(zhǔn)確性有顯著影響，我們使用配對樣本t檢驗。每種語氣運行10次，記錄準(zhǔn)確率，并進(jìn)行配對比較。零假設(shè)為兩種語氣的平均準(zhǔn)確率無差異。

配對樣本t檢驗結(jié)果（α ≤ 0.05）

五種語氣的平均準(zhǔn)確率（10次運行）

結(jié)果表明，語氣確實對模型準(zhǔn)確性有顯著影響。粗魯語氣（尤其是非常粗魯）顯著優(yōu)于禮貌語氣。

5. 討論與結(jié)論

本文評估了ChatGPT-4o在不同語氣提示下的表現(xiàn)。結(jié)果顯示，語氣對模型準(zhǔn)確性有顯著影響。令人驚訝的是，粗魯語氣反而帶來更好的結(jié)果。

Yin等人（2024）曾指出，粗魯提示往往導(dǎo)致準(zhǔn)確率下降，但我們的實驗結(jié)果與他們的部分結(jié)論不同。例如，他們在ChatGPT-4上的實驗顯示，最粗魯提示的準(zhǔn)確率為76.47%，而最禮貌提示為75.82%，差異不大。

我們也指出，不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”，而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導(dǎo)致結(jié)果差異的原因之一。

我們還初步測試了Claude和ChatGPT-o3，發(fā)現(xiàn)ChatGPT-o3表現(xiàn)更佳，可能更不受語氣影響。

6. 研究局限

本研究存在以下局限：

1. 數(shù)據(jù)集較小（50道題，250個變體），可能影響結(jié)果的普適性；

2. 主要基于ChatGPT-4o，其他模型的響應(yīng)可能不同；

3. 僅評估了準(zhǔn)確性，未考慮流暢性、推理能力等其他維度；

4. 對“禮貌”與“粗魯”的定義基于特定語言提示，可能未涵蓋所有語用或文化差異。

7. 倫理考量

我們發(fā)現(xiàn)粗魯提示可能提升模型準(zhǔn)確性，但我們不提倡在實際應(yīng)用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規(guī)范造成負(fù)面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式，以實現(xiàn)性能與用戶體驗的平衡。

掃碼邀請進(jìn)群，我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.