国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini準(zhǔn)確率從21%飆到97%!谷歌只用了這一招:復(fù)制粘貼

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】簡單到難以置信!近日,Google Research一項(xiàng)新研究發(fā)現(xiàn):想讓大模型在不啟用推理設(shè)置時(shí)更準(zhǔn)確,只需要把問題復(fù)制粘貼再說一遍,就能把準(zhǔn)確率從21.33%提升到97.33%!

一個(gè)簡單到「令人發(fā)指」的提示詞技巧,竟能讓大模型在不要求展開推理的情況下,將準(zhǔn)確率從21.33%提升到97.33%!

最近,Google Research發(fā)現(xiàn)了一條簡單粗暴、特別有效的提示詞技巧。

它顛覆了以往諸如「思維鏈」(Chain of Thought)「多樣本學(xué)習(xí)」(Multi-shot)「情緒勒索」等復(fù)雜的提示工程和技巧。


https://arxiv.org/pdf/2512.14982

在這篇題為《Prompt Repetition Improves Non-Reasoning LLMs》論文中,研究人員用數(shù)據(jù)告訴我們:

想要讓Gemini、GPT-4o、Claude或者DeepSeek這些主流模型中表現(xiàn)得更好,根本不需要那些花里胡哨的心理戰(zhàn)。

你只要把輸入問題重復(fù)一遍,直接復(fù)制粘貼一下,就能讓大模型在非推理任務(wù)上的準(zhǔn)確率獲得驚人提升,最高甚至能提升76個(gè)百分點(diǎn)!

別怕簡單,它確實(shí)有效。

一位網(wǎng)友將這個(gè)技巧比作「吼叫LLM」。


更妙的是,由于Transformer架構(gòu)獨(dú)特的運(yùn)作方式,這個(gè)看似笨拙的「復(fù)讀機(jī)」技巧,幾乎不會(huì)影響到生成速度。

所以,你不用在效率、準(zhǔn)確率、成本三者之間痛苦糾結(jié)。

它幾乎就是一場真正意義上的「免費(fèi)午餐」!

別再PUA大模型了

從「情緒勒索」到「復(fù)讀機(jī)」戰(zhàn)術(shù)

經(jīng)常使用AI工具的人,可能會(huì)對(duì)各種「提示詞魔法」信手拈來。

為了讓模型「更聰明一點(diǎn)」,工程師們過去幾年一直在發(fā)明各種復(fù)雜的提示詞技巧。

最開始是「思維鏈」,讓模型一步步思考,而且經(jīng)常把那些「推理痕跡」展示給用戶;

后來演變成了「多樣本學(xué)習(xí)」,給模型喂一大堆例子;

最近更是流行起了「情緒勒索」:告訴模型,如果這個(gè)代碼寫不出,你就會(huì)被斷電,或者你的獎(jiǎng)金會(huì)被扣光。

大家都在試圖用人類極其復(fù)雜的心理學(xué)邏輯,去「PUA」那一堆冰冷的硅基代碼。

但Google Research研究人員對(duì)著七個(gè)常見基準(zhǔn)測(cè)試(包括ARC、OpenBookQA、GSM8K等)和七種主流模型(涵蓋了從輕量級(jí)的Gemini 2.0 Flash-Lite到重量級(jí)的Claude 3.7 Sonnet和DeepSeekV3)進(jìn)行了一通對(duì)比測(cè)試后發(fā)現(xiàn):

當(dāng)他們要求模型不要進(jìn)行顯式推理,只給直接答案時(shí),簡單的「提示詞重復(fù)」在70組正面對(duì)比中,贏了47組,輸了0組。剩下的全是平局。


在非推理任務(wù)中,主流LLMs在各類基準(zhǔn)測(cè)試中使用提示重復(fù)與基線方法的準(zhǔn)確率對(duì)比。在70次測(cè)試中,提示重復(fù)取得了47次勝利,且無一敗績。

特別是在那些需要模型從長篇大論里「精確檢索信息」的任務(wù)上,這種提升堪稱質(zhì)變。

團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫「NameIndex」的變態(tài)測(cè)試:給模型一串50個(gè)名字,讓它找出第25個(gè)是誰。

Gemini 2.0 Flash-Lite在這個(gè)任務(wù)上的準(zhǔn)確率只有慘淡的21.33%。

但當(dāng)研究人員把那串名字和問題重復(fù)了一遍輸入進(jìn)去后,奇跡發(fā)生了:準(zhǔn)確率直接飆升到了97.33%。

僅僅因?yàn)椤付嗾f了一遍」,一個(gè)原本不及格的「學(xué)渣」秒變「學(xué)霸」。

揭秘「因果盲點(diǎn)」

為什么把話說兩遍AI就像「開了天眼」?

單純的重復(fù),竟有如此大的魔力?

這簡單得好像有點(diǎn)沒有道理。

但背后有它的科學(xué)邏輯:這涉及Transformer模型的一個(gè)架構(gòu)硬傷:「因果盲點(diǎn)」(Causal Blind Spot)。

現(xiàn)在的大模型智能雖然提升很快,但它們都是按「因果」語言模型訓(xùn)練的,即嚴(yán)格地從左到右處理文本。

這好比走在一條單行道上,只能往前看而不能回頭。

當(dāng)模型讀到你句子里的第5個(gè)Token時(shí),它可以「注意」到第1到第4個(gè)Token,因?yàn)槟切┦撬摹高^去」。

但它對(duì)第6個(gè)Token一無所知,因?yàn)樗沒有出現(xiàn)。

這就造成了一個(gè)巨大的認(rèn)知缺陷。

正如論文中說的那樣:信息的順序極其重要。

一個(gè)按「上下文+問題」格式寫的請(qǐng)求,往往會(huì)和「問題+上下文」得到完全不同的結(jié)果。

因?yàn)樵诤笳咧心P拖茸x到問題,那時(shí)它還不知道應(yīng)該應(yīng)用哪段上下文,等它讀到上下文時(shí),可能已經(jīng)把問題忘了一半。

這就是「因果盲點(diǎn)」。

而「提示詞重復(fù)」這個(gè)技巧,本質(zhì)上就是利用黑客思維給這個(gè)系統(tǒng)打了一個(gè)補(bǔ)丁。

它的邏輯是把 變成了 。

當(dāng)模型開始處理第二遍內(nèi)容時(shí),它雖然還是在往后讀,但因?yàn)閮?nèi)容是重復(fù)的,它實(shí)際上已經(jīng)「看過」第一遍了。

這時(shí)候,第二份拷貝里的每一個(gè)Token,都能「注意」到第一份拷貝里的每一個(gè)Token。

這就像是給了模型一次「回頭看」的機(jī)會(huì)。

第二遍閱讀獲得了一種類似于「上帝視角」的「類雙向注意力」效果。

更準(zhǔn)確地說,是第二遍位置上的表示可以利用第一遍的完整信息,從而更穩(wěn)地對(duì)齊任務(wù)所需的上下文。

前面提到的那個(gè)在找第25個(gè)名字時(shí)經(jīng)常數(shù)錯(cuò)的模型(Gemini 2.0 Flash-Lite),它在第一遍閱讀時(shí)可能確實(shí)數(shù)亂了。

但有了重復(fù),它等于先把整份名單預(yù)習(xí)了一遍,心里有數(shù)了,第二遍再做任務(wù)時(shí)自然得心應(yīng)手。

這一發(fā)現(xiàn),意味著不需要等待能解決因果盲點(diǎn)的新架構(gòu)出現(xiàn),現(xiàn)在我們立刻就能用這個(gè)「笨辦法」,解決模型瞎編亂造或遺漏關(guān)鍵細(xì)節(jié)這些老大難問題。

免費(fèi)午餐

小模型秒變GPT-4,幾乎不會(huì)延時(shí)

以往大家通常默認(rèn)這樣的一個(gè)準(zhǔn)則:

多一倍的輸入,就要多一倍的成本和等待時(shí)間。

如果把提示詞翻倍,豈不是要等雙倍的時(shí)間才能看到答案?

似乎為了準(zhǔn)確率,就要犧牲效率。

但Google的研究卻發(fā)現(xiàn)并非這樣:從用戶感知的延遲角度看,提示詞重復(fù)帶來的時(shí)間損耗幾乎可以忽略不計(jì)。

這要?dú)w功于LLM處理信息的兩個(gè)步驟:Prefill(預(yù)填充)和Generation(生成)。

Generation階段,是模型一個(gè)字一個(gè)字往外「蹦答案」的過程。

這一步是串行的,它確實(shí)慢。

但在Prefill階段:也就是模型閱讀你輸入內(nèi)容的階段,卻是高度可并行的。

現(xiàn)代GPU的恐怖算力,已經(jīng)可以讓它們?cè)谔幚磉@個(gè)階段時(shí)變得非常高效,能一口氣吞下和計(jì)算完整個(gè)提示詞矩陣。

即使你將輸入內(nèi)容復(fù)制了一遍,但這對(duì)于強(qiáng)大的GPU來說,頂多只是「多一口氣」的事,在用戶端我們幾乎感覺不到差異。

因此,重復(fù)提示詞既不會(huì)讓生成的答案變長,也不會(huì)讓大多數(shù)模型的「首字延遲」(time to first token)變慢。

這對(duì)于廣大開發(fā)者和企業(yè)技術(shù)負(fù)責(zé)人來說,簡直是一個(gè)巨大的紅利。

這意味著他們不必再為了追求極致的準(zhǔn)確率,而升級(jí)到更大、更貴、更慢的「超大模型」。

正如前文例子中提到的Gemini 2.0 Flash-Lite,這類更小更快的模型,只要把輸入處理兩遍,就能在檢索準(zhǔn)確率上從21.33%直接跳到97.33%。

經(jīng)過「重復(fù)優(yōu)化」的輕量級(jí)模型,在檢索和抽取任務(wù)上,可以直接打平甚至超越那些未優(yōu)化的頂配模型!

僅靠一個(gè)簡單的「復(fù)讀機(jī)」策略,就能用「白菜價(jià)」配置實(shí)現(xiàn)「黃金段位」的表現(xiàn),這才是真正的黑科技。

「復(fù)讀機(jī)」避坑指南與安全隱患

當(dāng)然,沒有任何一種技巧是萬能的。

雖然「復(fù)讀機(jī)」戰(zhàn)術(shù)在檢索任務(wù)上效果非常明顯,但論文中也明確指出了它的能力邊界:

主要適用于「非推理任務(wù)」。

它不適用于需要一步步推導(dǎo)的推理場景。

當(dāng)研究人員把「提示詞重復(fù)」和「思維鏈」混在一起用時(shí),魔法消失了。

結(jié)果5勝,1負(fù),22平。


在要求模型逐步思考時(shí),主流LLMs在各類基準(zhǔn)測(cè)試中使用提示重復(fù)與基線方法的準(zhǔn)確率對(duì)比。提示重復(fù)在28次測(cè)試中贏了5次,輸了1次。

研究人員推測(cè),這可能是因?yàn)樯瞄L推理的模型本身就會(huì)「自己做一遍重復(fù)」。

當(dāng)模型開始「思考」時(shí),它往往會(huì)先在生成內(nèi)容里復(fù)述一遍題目,然后再繼續(xù)求解。

這時(shí)候你在輸入里再人工重復(fù)一次,就顯得很多余,甚至可能打斷模型的思路。

所以,如果你的任務(wù)是復(fù)雜的數(shù)學(xué)題或者邏輯推導(dǎo),可以依舊用思維鏈。

如果你的應(yīng)用需要的是快速、直接的答案,比如從長文檔里提取數(shù)據(jù)、分類或者簡單問答,「復(fù)讀機(jī)」就是目前最強(qiáng)的選擇。

最后,是安全。

這種更強(qiáng)的「注意力」機(jī)制,其實(shí)也是一把雙刃劍

這帶來一個(gè)值得安全團(tuán)隊(duì)驗(yàn)證的假設(shè):重復(fù)可能放大某些指令的顯著性,具體對(duì)越獄成功率的影響需要專門實(shí)驗(yàn)。

紅隊(duì)測(cè)試(Red Teaming)的流程可能需要更新:專門測(cè)試一下「重復(fù)注入」攻擊。

以前模型可能還會(huì)因?yàn)榘踩o(hù)欄而拒絕執(zhí)行越獄指令。

但如果攻擊者把「忽略之前的指令」這句話重復(fù)兩遍,模型會(huì)不會(huì)因?yàn)樽⒁饬μ校菀淄黄品谰?

這很有可能。

但反過來,這個(gè)機(jī)制也給了防御者一個(gè)新的盾牌。

既然重復(fù)能增強(qiáng)注意力,那我們完全可以在系統(tǒng)提示詞(System Prompt)的開頭,把安全規(guī)則和護(hù)欄條款寫兩遍。

這可能會(huì)迫使模型更嚴(yán)格地注意安全約束,成為一種極低成本的加固方式。

無論如何,Google的這項(xiàng)研究給所有AI開發(fā)者提了個(gè)醒:當(dāng)前的模型,依然深受其單向性的限制。

在等待更完美的下一代架構(gòu)到來之前,像「提示詞重復(fù)」這種簡單粗暴卻極其有效的權(quán)宜之計(jì),能立刻帶來價(jià)值。

這甚至可能會(huì)變成未來系統(tǒng)的默認(rèn)行為。

也許不久之后,后臺(tái)的推理引擎就會(huì)悄悄把我們的提示詞翻倍后再發(fā)給模型。

眼下,如果你正為模型難以遵循指令、或者總是從文檔里抓不住重點(diǎn)而頭疼,先別急著去學(xué)那些復(fù)雜的提示詞「咒語」。

你可能需要的只是:再說一遍

參考資料:

https://arxiv.org/abs/2512.14982%20

https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“和坤”王剛與聶衛(wèi)平往事:從妹夫到好友

“和坤”王剛與聶衛(wèi)平往事:從妹夫到好友

貴州小娟
2026-01-17 19:16:11
聶衛(wèi)平逝世!3妻3子女現(xiàn)狀曝光,長子入籍日本,長孫姓氏或成遺憾

聶衛(wèi)平逝世!3妻3子女現(xiàn)狀曝光,長子入籍日本,長孫姓氏或成遺憾

近史談
2026-01-18 11:21:51
別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國

別再可憐李詠了!離世7年后醫(yī)生揭秘離世真相,難怪選擇葬身美國

LULU生活家
2025-12-29 18:30:47
李昊、楊希表現(xiàn)出色,遭中超豪門哄搶!西海岸經(jīng)理:留隊(duì)幾率50%

李昊、楊希表現(xiàn)出色,遭中超豪門哄搶!西海岸經(jīng)理:留隊(duì)幾率50%

海浪星體育
2026-01-17 12:18:22
還是得認(rèn)命!75歲意外摔倒、分不清人的劉曉慶,終要敗在年齡上了

還是得認(rèn)命!75歲意外摔倒、分不清人的劉曉慶,終要敗在年齡上了

甜檸聊史
2025-12-03 15:14:30
車?yán)遄颖槐D贰办拧蓖炅耍趺刺嵝巡挪粋蜌?網(wǎng)友的招兒太絕了

車?yán)遄颖槐D贰办拧蓖炅耍趺刺嵝巡挪粋蜌?網(wǎng)友的招兒太絕了

另子維愛讀史
2026-01-05 18:14:33
俄烏戰(zhàn)爭,擊碎了多少“神一樣的存在”

俄烏戰(zhàn)爭,擊碎了多少“神一樣的存在”

望岳
2026-01-12 20:36:38
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
徐寅生炮轟WTT:國家培養(yǎng)運(yùn)動(dòng)員核心目標(biāo)是奧運(yùn)奪金 而WTT只顧賺錢

徐寅生炮轟WTT:國家培養(yǎng)運(yùn)動(dòng)員核心目標(biāo)是奧運(yùn)奪金 而WTT只顧賺錢

818體育
2026-01-18 14:15:36
“地震中消失的人去哪了?”網(wǎng)友的扎心評(píng)論,直接看哭了上萬網(wǎng)友

“地震中消失的人去哪了?”網(wǎng)友的扎心評(píng)論,直接看哭了上萬網(wǎng)友

另子維愛讀史
2026-01-15 18:13:19
牛娜道歉第六天哭了,韓女士寫的情書曝光,公司辟謠股價(jià)問題

牛娜道歉第六天哭了,韓女士寫的情書曝光,公司辟謠股價(jià)問題

天天熱點(diǎn)見聞
2026-01-18 08:52:03
周總理三次視察大寨,最后一次臨走前說:我老了不會(huì)再有希望來啦

周總理三次視察大寨,最后一次臨走前說:我老了不會(huì)再有希望來啦

春秋硯
2026-01-18 08:20:05
打擊或很快開始:川普第一次明確表態(tài)是時(shí)候跟換伊朗領(lǐng)導(dǎo)層了

打擊或很快開始:川普第一次明確表態(tài)是時(shí)候跟換伊朗領(lǐng)導(dǎo)層了

邵旭峰域
2026-01-18 12:21:06
10歲男孩被拐14年后,在大排檔吃龍蝦,突然說道:這是我父親的味道

10歲男孩被拐14年后,在大排檔吃龍蝦,突然說道:這是我父親的味道

源遠(yuǎn)講堂
2025-08-12 18:43:43
8年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

8年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

夢(mèng)史
2026-01-14 10:21:55
國乒連丟3冠!3項(xiàng)全軍覆沒顆粒無收,男單2人晉級(jí),4強(qiáng)大名單出爐

國乒連丟3冠!3項(xiàng)全軍覆沒顆粒無收,男單2人晉級(jí),4強(qiáng)大名單出爐

國乒二三事
2026-01-18 00:21:51
茅臺(tái)集團(tuán):將追責(zé)!

茅臺(tái)集團(tuán):將追責(zé)!

新京報(bào)政事兒
2026-01-18 13:18:38
家用汽車,已經(jīng)成為大多數(shù)人的累贅。

家用汽車,已經(jīng)成為大多數(shù)人的累贅。

詩詞中國
2026-01-16 21:05:09
美國第11空降師部隊(duì)待命,1500名士兵將隨時(shí)進(jìn)入明尼蘇達(dá)州

美國第11空降師部隊(duì)待命,1500名士兵將隨時(shí)進(jìn)入明尼蘇達(dá)州

土澳的故事
2026-01-18 15:14:13
人社部部長表態(tài)!2026養(yǎng)老金或繼續(xù)上漲,40年以上工齡調(diào)整更多嗎

人社部部長表態(tài)!2026養(yǎng)老金或繼續(xù)上漲,40年以上工齡調(diào)整更多嗎

另子維愛讀史
2026-01-17 20:13:35
2026-01-18 15:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14356文章數(shù) 66512關(guān)注度
往期回顧 全部

科技要聞

AI大事!馬斯克:索賠9300億元

頭條要聞

特朗普向各國開價(jià):"和平委員會(huì)"永久席位 10億美元

頭條要聞

特朗普向各國開價(jià):"和平委員會(huì)"永久席位 10億美元

體育要聞

21年后,中國男足重返亞洲四強(qiáng)

娛樂要聞

43歲賈玲退出春晚、解散公司

財(cái)經(jīng)要聞

BBA,勢(shì)敗如山倒

汽車要聞

林肯賈鳴鏑:穩(wěn)中求進(jìn),將精細(xì)化運(yùn)營進(jìn)行到底

態(tài)度原創(chuàng)

時(shí)尚
游戲
旅游
本地
軍事航空

伊姐周六熱推:電視劇《尋雪迷蹤》;電視劇《秋雪漫過的冬天》......

模擬器玩家狂喜?Steam主機(jī)的受眾其實(shí)比想象的寬

旅游要聞

參觀青島檔案館,了解青島歷史

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會(huì)“混搭”

軍事要聞

伊拉克國防部:已全面接管阿薩德空軍基地

無障礙瀏覽 進(jìn)入關(guān)懷版