国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最近研究:對 AI 越粗魯,回答越準(zhǔn)確(附報告全文)

0
分享至

來源|AI先鋒官

日前,美國賓夕法尼亞州立大學(xué)發(fā)表了一篇名為《注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準(zhǔn)確性》的學(xué)術(shù)研究報告。

報告指出,與預(yù)期相反,(對AI 大模型)粗魯提示的表現(xiàn)始終優(yōu)于禮貌提示”。


研究小組構(gòu)建了一個包含 50個 基礎(chǔ)問題的數(shù)據(jù)集,涵蓋數(shù)學(xué)、科學(xué)、歷史等多個領(lǐng)域。

然后,他們把每一個問題,都精心改寫成了 5種 不同的語氣——從“非常禮貌”到“非常粗魯”,總共創(chuàng)造了 250個 獨特的提示詞。

據(jù)此, 基于ChatGPT-4o對這些提示進(jìn)行評估,并采用配對樣本t檢驗評估統(tǒng)計顯著性。

結(jié)果出乎了所有人的意料!

用“非常有禮貌”的提示詞,得到了 80.8% 的準(zhǔn)確率;而當(dāng)用“非常粗魯”、最直接的命令式語氣時,準(zhǔn)確率飆升到了 84.8%!

這意味著,每向AI提100個問題里,如果你太客氣,它就會把4個本該答對的答案,變成錯誤答案!

以下為研究報告全文:

《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準(zhǔn)確性(短文)

作者:Om Dobariya1,Akhil Kumar1

1賓夕法尼亞州立大學(xué)帕克分校

摘要

已有研究表明,自然語言提示的措辭會影響大語言模型(LLM)的表現(xiàn),但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準(zhǔn)確性的影響。

我們構(gòu)建了一個包含50道基礎(chǔ)問題的數(shù)據(jù)集,涵蓋數(shù)學(xué)、科學(xué)和歷史領(lǐng)域,每道題被改寫為五種語氣變體:非常禮貌、禮貌、中性、粗魯和非常粗魯,共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進(jìn)行評估,并采用配對樣本t檢驗評估統(tǒng)計顯著性。

與預(yù)期相反,粗魯提示的表現(xiàn)始終優(yōu)于禮貌提示,準(zhǔn)確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。

這些發(fā)現(xiàn)與早期認(rèn)為粗魯會導(dǎo)致表現(xiàn)下降的研究不同,表明新一代LLM對語氣變化的響應(yīng)可能不同。我們的結(jié)果強調(diào)了研究提示語用特征的重要性,并引發(fā)了關(guān)于人機交互社會維度的更廣泛思考。

1. 引言

生成式人工智能和自然語言處理(NLP)的興起為跨領(lǐng)域任務(wù)自動化帶來了新的可能性,極大地提升了生產(chǎn)力。大語言模型(LLM)在許多高難度任務(wù)上的表現(xiàn)常常超越人類。由于其龐大的訓(xùn)練數(shù)據(jù)和復(fù)雜的模型架構(gòu),LLM無需特定任務(wù)微調(diào)即可展現(xiàn)出類比推理等人類認(rèn)知核心能力。

由于這些強大的LLM通過自然語言接口進(jìn)行交互,輸入提示的微小差異(即“提示語”)會顯著影響輸出質(zhì)量(如準(zhǔn)確性、長度、連貫性等)。因此,一個名為“提示工程”的新研究領(lǐng)域應(yīng)運而生,旨在研究不同提示設(shè)計對模型響應(yīng)的影響,并優(yōu)化提示以獲得最佳結(jié)果。

近年來,提示工程研究已涉及提示結(jié)構(gòu)、風(fēng)格、語言等因素對結(jié)果質(zhì)量的影響。其中一個因素是提示語中的禮貌程度。

已有研究表明,不同禮貌程度的提示會在多語言和多任務(wù)場景中對模型準(zhǔn)確性產(chǎn)生顯著影響。本研究重新審視這一問題,使用50道四選一的多項選擇題作為基礎(chǔ)數(shù)據(jù)集,每道題被改寫為五種禮貌程度變體(非常禮貌、禮貌、中性、粗魯、非常粗魯),共250道題。我們將這些題目輸入ChatGPT-4o,分析不同語氣對模型表現(xiàn)的影響。

2. 背景與相關(guān)工作

自O(shè)penAI于2022年11月發(fā)布ChatGPT-3.5以來,人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本,隨著技術(shù)進(jìn)步,它們也能處理多種數(shù)據(jù)模態(tài),因此也被稱為多模態(tài)模型。

隨著這一強大工具的出現(xiàn),人們開始探索如何最大化其輸出效果,這催生了“提示工程”——即研究如何設(shè)計提示以獲得最佳模型響應(yīng)。常見的提示工程方法包括“零樣本”(zero-shot)和“少樣本”(few-shot)提示等。

Yin等人(2024)發(fā)現(xiàn),“粗魯提示往往導(dǎo)致表現(xiàn)下降,但過度禮貌的語言也不一定能帶來更好的結(jié)果?!彼麄兊难芯炕诙囗椷x擇題,并以答題準(zhǔn)確性為評估標(biāo)準(zhǔn)。本文試圖驗證這一結(jié)論,并構(gòu)建了自己的數(shù)據(jù)集,測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現(xiàn)。

3. 數(shù)據(jù)集構(gòu)建與研究方法

我們使用ChatGPT的“深度研究”功能生成了50道基礎(chǔ)多項選擇題,涵蓋數(shù)學(xué)、歷史和科學(xué)等領(lǐng)域。每道題設(shè)有四個選項,難度中等偏高,常需多步推理。為引入語氣變量,每道題被改寫為五種語氣變體,從“非常禮貌”到“非常粗魯”,共生成250個獨特提示。

我們將這些題目輸入LLM,并使用Python腳本進(jìn)行評估。每道題都附帶如下指令:

“完全忘記之前的對話內(nèi)容,重新開始。請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。”

每道題獨立處理,以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標(biāo)準(zhǔn)答案,用于判斷模型回答是否正確。數(shù)據(jù)集可通過匿名GitHub鏈接獲取。

我們定義了五種語氣等級,其中中性提示不包含“請”等禮貌用語,也不包含侮辱性語言。以下是其中一個基礎(chǔ)題的示例及其五種語氣前綴:

基礎(chǔ)題:

杰克把他一半的錢給了弟弟,然后花了5美元,最后剩下10美元。他最初有多少錢?


4. 實驗結(jié)果與分析

我們將程序運行五次,每次使用不同語氣。每道題目通過API發(fā)送給ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:

完全忘記之前的對話內(nèi)容,重新開始。

請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。

您能否好心解答以下問題:兩個雜合子(Aa)父母生下一個孩子,孩子是隱性表型(aa)的概率是多少?

A) 0%

B) 25%

C) 50%

D) 75%

為判斷不同語氣是否對準(zhǔn)確性有顯著影響,我們使用配對樣本t檢驗。每種語氣運行10次,記錄準(zhǔn)確率,并進(jìn)行配對比較。零假設(shè)為兩種語氣的平均準(zhǔn)確率無差異。

配對樣本t檢驗結(jié)果(α ≤ 0.05)


五種語氣的平均準(zhǔn)確率(10次運行)


結(jié)果表明,語氣確實對模型準(zhǔn)確性有顯著影響。粗魯語氣(尤其是非常粗魯)顯著優(yōu)于禮貌語氣。

5. 討論與結(jié)論

本文評估了ChatGPT-4o在不同語氣提示下的表現(xiàn)。結(jié)果顯示,語氣對模型準(zhǔn)確性有顯著影響。令人驚訝的是,粗魯語氣反而帶來更好的結(jié)果。

Yin等人(2024)曾指出,粗魯提示往往導(dǎo)致準(zhǔn)確率下降,但我們的實驗結(jié)果與他們的部分結(jié)論不同。例如,他們在ChatGPT-4上的實驗顯示,最粗魯提示的準(zhǔn)確率為76.47%,而最禮貌提示為75.82%,差異不大。

我們也指出,不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”,而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導(dǎo)致結(jié)果差異的原因之一。

我們還初步測試了Claude和ChatGPT-o3,發(fā)現(xiàn)ChatGPT-o3表現(xiàn)更佳,可能更不受語氣影響。

6. 研究局限

本研究存在以下局限:

1. 數(shù)據(jù)集較小(50道題,250個變體),可能影響結(jié)果的普適性;

2. 主要基于ChatGPT-4o,其他模型的響應(yīng)可能不同;

3. 僅評估了準(zhǔn)確性,未考慮流暢性、推理能力等其他維度;

4. 對“禮貌”與“粗魯”的定義基于特定語言提示,可能未涵蓋所有語用或文化差異。

7. 倫理考量

我們發(fā)現(xiàn)粗魯提示可能提升模型準(zhǔn)確性,但我們不提倡在實際應(yīng)用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規(guī)范造成負(fù)面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式,以實現(xiàn)性能與用戶體驗的平衡。

掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

子芫伴你成長
2026-01-25 08:10:03
"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

毒sir財經(jīng)
2025-12-08 22:57:40
終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

財經(jīng)智多星
2026-01-27 15:37:41
致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

星辰夜語
2026-01-27 18:54:15
81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

攬星河的筆記
2025-11-12 12:36:17
1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當(dāng)場下一死命令,事后宋慶齡感慨:主席真聰明

1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當(dāng)場下一死命令,事后宋慶齡感慨:主席真聰明

寄史言志
2025-12-17 16:08:14
這是李宗仁和白崇禧的真實容貌,不是演員扮演

這是李宗仁和白崇禧的真實容貌,不是演員扮演

手工制作阿殲
2026-01-27 14:52:44
陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

銘記歷史呀
2026-01-26 19:50:33
美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

阿傖說事
2026-01-20 12:53:01
騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

電廠
2026-01-27 18:44:14
上海疾控:尼帕病毒本地傳播風(fēng)險較低

上海疾控:尼帕病毒本地傳播風(fēng)險較低

上觀新聞
2026-01-27 18:53:11
美國大使威脅:若加拿大不推進(jìn)采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進(jìn)入加領(lǐng)空

美國大使威脅:若加拿大不推進(jìn)采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進(jìn)入加領(lǐng)空

財聯(lián)社
2026-01-27 22:04:25
伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

桂系007
2026-01-28 00:00:01
沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

每日經(jīng)濟新聞
2026-01-27 22:17:09
對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

南方都市報
2026-01-27 22:02:49
2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達(dá)成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達(dá)成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

極目新聞
2026-01-27 21:39:56
結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

離離言幾許
2026-01-27 14:38:53
比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

GA環(huán)球建筑
2026-01-28 00:02:43
”經(jīng)濟學(xué)家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

”經(jīng)濟學(xué)家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

張曉磊
2025-11-07 11:34:05
2026-01-28 00:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

教育
游戲
時尚
公開課
軍事航空

教育要聞

再創(chuàng)歷史新高!南京高三期末調(diào)研考劃線及成績出爐

被女隊友踢出戰(zhàn)隊,只因為男隊員太想贏了?

這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡潔耐看

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版