国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini準(zhǔn)確率從21%飆到97%!谷歌只用了這一招:復(fù)制粘貼

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】簡單到難以置信!近日,Google Research一項(xiàng)新研究發(fā)現(xiàn):想讓大模型在不啟用推理設(shè)置時(shí)更準(zhǔn)確,只需要把問題復(fù)制粘貼再說一遍,就能把準(zhǔn)確率從21.33%提升到97.33%!

一個(gè)簡單到「令人發(fā)指」的提示詞技巧,竟能讓大模型在不要求展開推理的情況下,將準(zhǔn)確率從21.33%提升到97.33%!

最近,Google Research發(fā)現(xiàn)了一條簡單粗暴、特別有效的提示詞技巧。

它顛覆了以往諸如「思維鏈」(Chain of Thought)「多樣本學(xué)習(xí)」(Multi-shot)「情緒勒索」等復(fù)雜的提示工程和技巧。


https://arxiv.org/pdf/2512.14982

在這篇題為《Prompt Repetition Improves Non-Reasoning LLMs》論文中,研究人員用數(shù)據(jù)告訴我們:

想要讓Gemini、GPT-4o、Claude或者DeepSeek這些主流模型中表現(xiàn)得更好,根本不需要那些花里胡哨的心理戰(zhàn)。

你只要把輸入問題重復(fù)一遍,直接復(fù)制粘貼一下,就能讓大模型在非推理任務(wù)上的準(zhǔn)確率獲得驚人提升,最高甚至能提升76個(gè)百分點(diǎn)!

別怕簡單,它確實(shí)有效。

一位網(wǎng)友將這個(gè)技巧比作「吼叫LLM」。


更妙的是,由于Transformer架構(gòu)獨(dú)特的運(yùn)作方式,這個(gè)看似笨拙的「復(fù)讀機(jī)」技巧,幾乎不會(huì)影響到生成速度。

所以,你不用在效率、準(zhǔn)確率、成本三者之間痛苦糾結(jié)。

它幾乎就是一場(chǎng)真正意義上的「免費(fèi)午餐」!

別再PUA大模型了

從「情緒勒索」到「復(fù)讀機(jī)」戰(zhàn)術(shù)

經(jīng)常使用AI工具的人,可能會(huì)對(duì)各種「提示詞魔法」信手拈來。

為了讓模型「更聰明一點(diǎn)」,工程師們過去幾年一直在發(fā)明各種復(fù)雜的提示詞技巧。

最開始是「思維鏈」,讓模型一步步思考,而且經(jīng)常把那些「推理痕跡」展示給用戶;

后來演變成了「多樣本學(xué)習(xí)」,給模型喂一大堆例子;

最近更是流行起了「情緒勒索」:告訴模型,如果這個(gè)代碼寫不出,你就會(huì)被斷電,或者你的獎(jiǎng)金會(huì)被扣光。

大家都在試圖用人類極其復(fù)雜的心理學(xué)邏輯,去「PUA」那一堆冰冷的硅基代碼。

但Google Research研究人員對(duì)著七個(gè)常見基準(zhǔn)測(cè)試(包括ARC、OpenBookQA、GSM8K等)和七種主流模型(涵蓋了從輕量級(jí)的Gemini 2.0 Flash-Lite到重量級(jí)的Claude 3.7 Sonnet和DeepSeekV3)進(jìn)行了一通對(duì)比測(cè)試后發(fā)現(xiàn):

當(dāng)他們要求模型不要進(jìn)行顯式推理,只給直接答案時(shí),簡單的「提示詞重復(fù)」在70組正面對(duì)比中,贏了47組,輸了0組。剩下的全是平局。


在非推理任務(wù)中,主流LLMs在各類基準(zhǔn)測(cè)試中使用提示重復(fù)與基線方法的準(zhǔn)確率對(duì)比。在70次測(cè)試中,提示重復(fù)取得了47次勝利,且無一敗績。

特別是在那些需要模型從長篇大論里「精確檢索信息」的任務(wù)上,這種提升堪稱質(zhì)變。

團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫「NameIndex」的變態(tài)測(cè)試:給模型一串50個(gè)名字,讓它找出第25個(gè)是誰。

Gemini 2.0 Flash-Lite在這個(gè)任務(wù)上的準(zhǔn)確率只有慘淡的21.33%。

但當(dāng)研究人員把那串名字和問題重復(fù)了一遍輸入進(jìn)去后,奇跡發(fā)生了:準(zhǔn)確率直接飆升到了97.33%。

僅僅因?yàn)椤付嗾f了一遍」,一個(gè)原本不及格的「學(xué)渣」秒變「學(xué)霸」。

揭秘「因果盲點(diǎn)」

為什么把話說兩遍AI就像「開了天眼」?

單純的重復(fù),竟有如此大的魔力?

這簡單得好像有點(diǎn)沒有道理。

但背后有它的科學(xué)邏輯:這涉及Transformer模型的一個(gè)架構(gòu)硬傷:「因果盲點(diǎn)」(Causal Blind Spot)。

現(xiàn)在的大模型智能雖然提升很快,但它們都是按「因果」語言模型訓(xùn)練的,即嚴(yán)格地從左到右處理文本。

這好比走在一條單行道上,只能往前看而不能回頭。

當(dāng)模型讀到你句子里的第5個(gè)Token時(shí),它可以「注意」到第1到第4個(gè)Token,因?yàn)槟切┦撬摹高^去」。

但它對(duì)第6個(gè)Token一無所知,因?yàn)樗沒有出現(xiàn)。

這就造成了一個(gè)巨大的認(rèn)知缺陷。

正如論文中說的那樣:信息的順序極其重要。

一個(gè)按「上下文+問題」格式寫的請(qǐng)求,往往會(huì)和「問題+上下文」得到完全不同的結(jié)果。

因?yàn)樵诤笳咧心P拖茸x到問題,那時(shí)它還不知道應(yīng)該應(yīng)用哪段上下文,等它讀到上下文時(shí),可能已經(jīng)把問題忘了一半。

這就是「因果盲點(diǎn)」。

而「提示詞重復(fù)」這個(gè)技巧,本質(zhì)上就是利用黑客思維給這個(gè)系統(tǒng)打了一個(gè)補(bǔ)丁。

它的邏輯是把 變成了 。

當(dāng)模型開始處理第二遍內(nèi)容時(shí),它雖然還是在往后讀,但因?yàn)閮?nèi)容是重復(fù)的,它實(shí)際上已經(jīng)「看過」第一遍了。

這時(shí)候,第二份拷貝里的每一個(gè)Token,都能「注意」到第一份拷貝里的每一個(gè)Token。

這就像是給了模型一次「回頭看」的機(jī)會(huì)。

第二遍閱讀獲得了一種類似于「上帝視角」的「類雙向注意力」效果。

更準(zhǔn)確地說,是第二遍位置上的表示可以利用第一遍的完整信息,從而更穩(wěn)地對(duì)齊任務(wù)所需的上下文。

前面提到的那個(gè)在找第25個(gè)名字時(shí)經(jīng)常數(shù)錯(cuò)的模型(Gemini 2.0 Flash-Lite),它在第一遍閱讀時(shí)可能確實(shí)數(shù)亂了。

但有了重復(fù),它等于先把整份名單預(yù)習(xí)了一遍,心里有數(shù)了,第二遍再做任務(wù)時(shí)自然得心應(yīng)手。

這一發(fā)現(xiàn),意味著不需要等待能解決因果盲點(diǎn)的新架構(gòu)出現(xiàn),現(xiàn)在我們立刻就能用這個(gè)「笨辦法」,解決模型瞎編亂造或遺漏關(guān)鍵細(xì)節(jié)這些老大難問題。

免費(fèi)午餐

小模型秒變GPT-4,幾乎不會(huì)延時(shí)

以往大家通常默認(rèn)這樣的一個(gè)準(zhǔn)則:

多一倍的輸入,就要多一倍的成本和等待時(shí)間。

如果把提示詞翻倍,豈不是要等雙倍的時(shí)間才能看到答案?

似乎為了準(zhǔn)確率,就要犧牲效率。

但Google的研究卻發(fā)現(xiàn)并非這樣:從用戶感知的延遲角度看,提示詞重復(fù)帶來的時(shí)間損耗幾乎可以忽略不計(jì)。

這要?dú)w功于LLM處理信息的兩個(gè)步驟:Prefill(預(yù)填充)和Generation(生成)。

Generation階段,是模型一個(gè)字一個(gè)字往外「蹦答案」的過程。

這一步是串行的,它確實(shí)慢。

但在Prefill階段:也就是模型閱讀你輸入內(nèi)容的階段,卻是高度可并行的。

現(xiàn)代GPU的恐怖算力,已經(jīng)可以讓它們?cè)谔幚磉@個(gè)階段時(shí)變得非常高效,能一口氣吞下和計(jì)算完整個(gè)提示詞矩陣。

即使你將輸入內(nèi)容復(fù)制了一遍,但這對(duì)于強(qiáng)大的GPU來說,頂多只是「多一口氣」的事,在用戶端我們幾乎感覺不到差異。

因此,重復(fù)提示詞既不會(huì)讓生成的答案變長,也不會(huì)讓大多數(shù)模型的「首字延遲」(time to first token)變慢。

這對(duì)于廣大開發(fā)者和企業(yè)技術(shù)負(fù)責(zé)人來說,簡直是一個(gè)巨大的紅利。

這意味著他們不必再為了追求極致的準(zhǔn)確率,而升級(jí)到更大、更貴、更慢的「超大模型」。

正如前文例子中提到的Gemini 2.0 Flash-Lite,這類更小更快的模型,只要把輸入處理兩遍,就能在檢索準(zhǔn)確率上從21.33%直接跳到97.33%。

經(jīng)過「重復(fù)優(yōu)化」的輕量級(jí)模型,在檢索和抽取任務(wù)上,可以直接打平甚至超越那些未優(yōu)化的頂配模型!

僅靠一個(gè)簡單的「復(fù)讀機(jī)」策略,就能用「白菜價(jià)」配置實(shí)現(xiàn)「黃金段位」的表現(xiàn),這才是真正的黑科技。

「復(fù)讀機(jī)」避坑指南與安全隱患

當(dāng)然,沒有任何一種技巧是萬能的。

雖然「復(fù)讀機(jī)」戰(zhàn)術(shù)在檢索任務(wù)上效果非常明顯,但論文中也明確指出了它的能力邊界:

主要適用于「非推理任務(wù)」。

它不適用于需要一步步推導(dǎo)的推理場(chǎng)景。

當(dāng)研究人員把「提示詞重復(fù)」和「思維鏈」混在一起用時(shí),魔法消失了。

結(jié)果5勝,1負(fù),22平。


在要求模型逐步思考時(shí),主流LLMs在各類基準(zhǔn)測(cè)試中使用提示重復(fù)與基線方法的準(zhǔn)確率對(duì)比。提示重復(fù)在28次測(cè)試中贏了5次,輸了1次。

研究人員推測(cè),這可能是因?yàn)樯瞄L推理的模型本身就會(huì)「自己做一遍重復(fù)」。

當(dāng)模型開始「思考」時(shí),它往往會(huì)先在生成內(nèi)容里復(fù)述一遍題目,然后再繼續(xù)求解。

這時(shí)候你在輸入里再人工重復(fù)一次,就顯得很多余,甚至可能打斷模型的思路。

所以,如果你的任務(wù)是復(fù)雜的數(shù)學(xué)題或者邏輯推導(dǎo),可以依舊用思維鏈。

如果你的應(yīng)用需要的是快速、直接的答案,比如從長文檔里提取數(shù)據(jù)、分類或者簡單問答,「復(fù)讀機(jī)」就是目前最強(qiáng)的選擇。

最后,是安全。

這種更強(qiáng)的「注意力」機(jī)制,其實(shí)也是一把雙刃劍。

這帶來一個(gè)值得安全團(tuán)隊(duì)驗(yàn)證的假設(shè):重復(fù)可能放大某些指令的顯著性,具體對(duì)越獄成功率的影響需要專門實(shí)驗(yàn)。

紅隊(duì)測(cè)試(Red Teaming)的流程可能需要更新:專門測(cè)試一下「重復(fù)注入」攻擊。

以前模型可能還會(huì)因?yàn)榘踩o(hù)欄而拒絕執(zhí)行越獄指令。

但如果攻擊者把「忽略之前的指令」這句話重復(fù)兩遍,模型會(huì)不會(huì)因?yàn)樽⒁饬μ,而更容易突破防線?

這很有可能。

但反過來,這個(gè)機(jī)制也給了防御者一個(gè)新的盾牌。

既然重復(fù)能增強(qiáng)注意力,那我們完全可以在系統(tǒng)提示詞(System Prompt)的開頭,把安全規(guī)則和護(hù)欄條款寫兩遍。

這可能會(huì)迫使模型更嚴(yán)格地注意安全約束,成為一種極低成本的加固方式。

無論如何,Google的這項(xiàng)研究給所有AI開發(fā)者提了個(gè)醒:當(dāng)前的模型,依然深受其單向性的限制。

在等待更完美的下一代架構(gòu)到來之前,像「提示詞重復(fù)」這種簡單粗暴卻極其有效的權(quán)宜之計(jì),能立刻帶來價(jià)值。

這甚至可能會(huì)變成未來系統(tǒng)的默認(rèn)行為。

也許不久之后,后臺(tái)的推理引擎就會(huì)悄悄把我們的提示詞翻倍后再發(fā)給模型。

眼下,如果你正為模型難以遵循指令、或者總是從文檔里抓不住重點(diǎn)而頭疼,先別急著去學(xué)那些復(fù)雜的提示詞「咒語」。

你可能需要的只是:再說一遍。

參考資料:

https://arxiv.org/abs/2512.14982%20

https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
當(dāng)大名鼎鼎的EA211成了增程器,那大眾ID.ERA 9X也注定要坐上主桌

當(dāng)大名鼎鼎的EA211成了增程器,那大眾ID.ERA 9X也注定要坐上主桌

燃擎頻道
2026-01-18 13:42:59
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
港警察用92G手槍擊斃1名越南籍歹徒,國產(chǎn)手槍實(shí)戰(zhàn)首秀淘汰左輪槍

港警察用92G手槍擊斃1名越南籍歹徒,國產(chǎn)手槍實(shí)戰(zhàn)首秀淘汰左輪槍

趣生活
2026-01-17 21:39:07
李亞鵬2天入賬1400萬引關(guān)注,海哈金喜行動(dòng)迎口碑暴漲

李亞鵬2天入賬1400萬引關(guān)注,海哈金喜行動(dòng)迎口碑暴漲

照亮你的前行之路
2026-01-18 10:58:25
梁小龍去世,去世前一天和友人聚會(huì),《功夫》一個(gè)月失去兩位演員

梁小龍去世,去世前一天和友人聚會(huì),《功夫》一個(gè)月失去兩位演員

話娛論影
2026-01-18 17:28:05
楊蘭蘭案風(fēng)波再升級(jí)!疑派“替身”去警局報(bào)到,若坐實(shí)后果很嚴(yán)重

楊蘭蘭案風(fēng)波再升級(jí)!疑派“替身”去警局報(bào)到,若坐實(shí)后果很嚴(yán)重

談史論天地
2026-01-18 13:41:12
77歲港星梁小龍去世,賬號(hào)2天前還為親友慶生,兩任妻子3個(gè)孩子!

77歲港星梁小龍去世,賬號(hào)2天前還為親友慶生,兩任妻子3個(gè)孩子!

古希臘掌管月桂的神
2026-01-18 16:38:59
俄外交部發(fā)言人:俄中兩國在格陵蘭島附近的某種“活動(dòng)”不能成為局勢(shì)升級(jí)的借口

俄外交部發(fā)言人:俄中兩國在格陵蘭島附近的某種“活動(dòng)”不能成為局勢(shì)升級(jí)的借口

俄羅斯衛(wèi)星通訊社
2026-01-18 16:05:20
陳真飾演者梁小龍去世,14日離世18日仍在更新賬號(hào),文案一語成讖

陳真飾演者梁小龍去世,14日離世18日仍在更新賬號(hào),文案一語成讖

蜜桔娛樂
2026-01-18 16:32:14
十分罕見!我國一天出現(xiàn)兩次火箭發(fā)射失利事件!都是什么原因?

十分罕見!我國一天出現(xiàn)兩次火箭發(fā)射失利事件!都是什么原因?

科普大世界
2026-01-17 18:07:19
閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

小熊侃史
2026-01-16 07:40:07
萬茜自曝上學(xué)時(shí)沒人追,看清她的校服照后,網(wǎng)友:這誰敢追!

萬茜自曝上學(xué)時(shí)沒人追,看清她的校服照后,網(wǎng)友:這誰敢追!

背包旅行
2026-01-17 15:03:45
巴特勒臨時(shí)休戰(zhàn)引熱議!勇士官方評(píng)論區(qū)炸鍋:被交易還是有急事?

巴特勒臨時(shí)休戰(zhàn)引熱議!勇士官方評(píng)論區(qū)炸鍋:被交易還是有急事?

羅說NBA
2026-01-18 10:16:28
越南媒體:體能會(huì)成為越南U23面對(duì)中國隊(duì)的最大優(yōu)勢(shì)

越南媒體:體能會(huì)成為越南U23面對(duì)中國隊(duì)的最大優(yōu)勢(shì)

懂球帝
2026-01-18 09:34:35
被嚇輸?李昊玩心理戰(zhàn)!看紙條后:對(duì)手2個(gè)點(diǎn)球,1個(gè)踢飛另1被撲

被嚇輸?李昊玩心理戰(zhàn)!看紙條后:對(duì)手2個(gè)點(diǎn)球,1個(gè)踢飛另1被撲

足球大腕
2026-01-17 23:30:33
全職主婦屢遭丈夫責(zé)罵吞30多粒安眠藥!丈夫:她覺得她是美女嫁我可惜,女同事都夸我很優(yōu)秀

全職主婦屢遭丈夫責(zé)罵吞30多粒安眠藥!丈夫:她覺得她是美女嫁我可惜,女同事都夸我很優(yōu)秀

揚(yáng)子晚報(bào)
2026-01-18 11:11:45
最低-3℃、局地大雪,重慶降溫降雨即將“發(fā)貨”!

最低-3℃、局地大雪,重慶降溫降雨即將“發(fā)貨”!

上游新聞
2026-01-18 10:00:04
“陳真”飾演者梁小龍去世,前一天還與好友吃火鍋,曝最后露面照

“陳真”飾演者梁小龍去世,前一天還與好友吃火鍋,曝最后露面照

180視角
2026-01-18 17:12:09
重組!廣州頭部網(wǎng)約車租車公司陷入破產(chǎn)危機(jī),司機(jī)的押金懸了?

重組!廣州頭部網(wǎng)約車租車公司陷入破產(chǎn)危機(jī),司機(jī)的押金懸了?

用車指南
2026-01-18 10:02:56
蘭莉婭現(xiàn)身聶衛(wèi)平追悼會(huì)!姐夫率女婿送花圈,兩兒子媳婦身份曝光

蘭莉婭現(xiàn)身聶衛(wèi)平追悼會(huì)!姐夫率女婿送花圈,兩兒子媳婦身份曝光

深度解析熱點(diǎn)
2026-01-18 14:07:26
2026-01-18 18:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14357文章數(shù) 66512關(guān)注度
往期回顧 全部

科技要聞

AI大事!馬斯克:索賠9300億元

頭條要聞

送別聶衛(wèi)平隊(duì)伍長度超200米 韓國圍棋名宿前來吊唁

頭條要聞

送別聶衛(wèi)平隊(duì)伍長度超200米 韓國圍棋名宿前來吊唁

體育要聞

21年后,中國男足重返亞洲四強(qiáng)

娛樂要聞

香港武打演員梁小龍去世:享年77

財(cái)經(jīng)要聞

BBA,勢(shì)敗如山倒

汽車要聞

林肯賈鳴鏑:穩(wěn)中求進(jìn),將精細(xì)化運(yùn)營進(jìn)行到底

態(tài)度原創(chuàng)

房產(chǎn)
旅游
教育
家居
軍事航空

房產(chǎn)要聞

真四代來了!這次,海口樓市將徹底顛覆!

旅游要聞

共促冬季文旅消費(fèi)!2026抖音生活服務(wù)城市生態(tài)大會(huì)在濟(jì)舉辦

教育要聞

“好寒酸,爸媽只給5000生活費(fèi)”,中專女邊做美甲邊哭窮,被群嘲

家居要聞

歲月柔情 現(xiàn)代品質(zhì)輕奢

軍事要聞

伊拉克國防部:已全面接管阿薩德空軍基地

無障礙瀏覽 進(jìn)入關(guān)懷版