国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需訓(xùn)練、即插即用,這個解碼方法讓模型學(xué)會謹(jǐn)慎思考

0
分享至

你有沒有發(fā)現(xiàn)這樣一種現(xiàn)象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩(wěn)定?

隨著技術(shù)的發(fā)展,大模型在自然語言處理和多模態(tài)任務(wù)中已經(jīng)表現(xiàn)出越來越強的性能。傳統(tǒng)解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認(rèn)的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準(zhǔn)測試(benchmark)上表現(xiàn)會有所提升,特別是在推理性任務(wù)上。但是,模型在不確定情況下的表現(xiàn)仍不理想。

為解決上述問題,美國東北大學(xué)與 Adobe、美國凱斯西儲大學(xué)聯(lián)合團隊提出了一種無需訓(xùn)練的新型解碼策略,名為“謹(jǐn)慎下一步預(yù)測(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統(tǒng)策略,CNTP 顯著提升了大模型在多種任務(wù)上的推理準(zhǔn)確度,可應(yīng)用場景包括語音助手、視覺助手、聊天機器人等。


圖丨相關(guān)論文(來源:arXiv)

“我們的研究證明了 Transformer 模型下一個詞元預(yù)測(next token prediction)的范式,有可能實現(xiàn)真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?DeepTech 表示。他目前正在東北大學(xué)攻讀博士學(xué)位,主要研究方向包括大模型、多模態(tài)模型和計算機視覺,即將加入 Adobe 擔(dān)任研究科學(xué)家/工程師。


圖丨王亦周(來源:王亦周)

Safe Superintelligence 公司創(chuàng)始人、前 OpenAI 首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預(yù)測能力可能反映對世界的某種理解,這可能是實現(xiàn)更深層智能的關(guān)鍵路徑。

也就是說,next token prediction 是智能的核心。要實現(xiàn)這一點,需要在模型內(nèi)部進行強推理,再通過一系列計算預(yù)測下一個 token。

受此啟發(fā),研究團隊從人類認(rèn)知行為中尋找靈感:人在思考時,往往越謹(jǐn)慎回答,結(jié)果的準(zhǔn)確率越高,那么大模型會不會也和人腦有類似的機制?

王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認(rèn)為最有把握的方法,確認(rèn)無誤后再進行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來源:arXiv)

這里的謹(jǐn)慎指的是,當(dāng)面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩(wěn)妥、最可信的路徑。

研究團隊用熵作為模型不確定性的衡量標(biāo)準(zhǔn):熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標(biāo)點符號截止的方式來計算困惑度。相當(dāng)于每句話、每個小的推理單元,即每個局部自洽能夠?qū)崿F(xiàn)較理想的效果。

為控制采樣次數(shù),研究團隊通過設(shè)置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數(shù) Nmax。該方法在提高解碼準(zhǔn)確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


(來源:arXiv)

在實驗驗證方面,該團隊在數(shù)學(xué)推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務(wù)中證明,與包括貪婪解碼、隨機解碼和束搜索在內(nèi)的傳統(tǒng)方法相比,CNTP 策略的結(jié)果更具優(yōu)勢。

例如,在 TruthfulQA 任務(wù)中,Llama-2-7B 在使用 CNTP 方法后,真實性準(zhǔn)確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

值得關(guān)注的是,CNTP 策略無需訓(xùn)練,僅解碼即可直接實現(xiàn)提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應(yīng)用中有很多優(yōu)化的方法可解決該問題。


(來源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現(xiàn)頻率最高的答案),且計算成本遠(yuǎn)低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數(shù)投票。

研究團隊證明,每個樣本也是越謹(jǐn)慎越好。“我們的方法會在一定程度上限制它的多樣性,但通過調(diào)高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務(wù)。除了有固定答案的數(shù)學(xué)題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優(yōu)化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鎢價暴漲6倍!這兩家企業(yè)才是真正悶聲發(fā)財

鎢價暴漲6倍!這兩家企業(yè)才是真正悶聲發(fā)財

戶外釣魚哥阿旱
2026-04-20 07:39:30
他有上將的能力,更有上將資歷:兩任首長都不看好他,最后成中將

他有上將的能力,更有上將資歷:兩任首長都不看好他,最后成中將

浩渺青史
2026-04-20 02:35:41
女人多久會主動跟你發(fā)生關(guān)系?別害羞,真實的答案在這里

女人多久會主動跟你發(fā)生關(guān)系?別害羞,真實的答案在這里

阿凱銷售場
2026-04-20 10:52:10
車主速看!4月30日前未辦理,5月1日起一律扣分罰款

車主速看!4月30日前未辦理,5月1日起一律扣分罰款

西莫的藝術(shù)宮殿
2026-04-20 08:03:03
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
中國校園關(guān)閉簡史

中國校園關(guān)閉簡史

必記本
2026-04-19 00:21:08
東莞通往深圳最堵大動脈,五車道突然變兩車道,這樣的設(shè)計合理嗎

東莞通往深圳最堵大動脈,五車道突然變兩車道,這樣的設(shè)計合理嗎

旭芯怡
2026-04-20 09:45:14
軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

軍費90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

小蘭聊歷史
2026-04-18 15:27:37
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

深圳空姐月入一萬五,負(fù)債102萬,申請個人破產(chǎn)獲立案

一口老湯
2026-04-19 17:39:21
下一站英超?曝法布雷加斯有望執(zhí)教阿森納,球迷不滿前隊長回歸

下一站英超?曝法布雷加斯有望執(zhí)教阿森納,球迷不滿前隊長回歸

夏侯看英超
2026-04-20 11:28:36
善惡有報!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費

善惡有報!許家印剛認(rèn)罪1天,子女近況曝光,大兒子的安排全白費

來科點譜
2026-04-20 07:14:44
出大事了,特朗普病癥已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

出大事了,特朗普病癥已晚期?和伊朗開戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

史智文道
2026-04-20 09:28:50
45歲宋佳:陪玩陪睡、風(fēng)流成性傳聞?wù)嫦嘟颐?>
    </a>
        <h3>
      <a href=暗香暗香
2026-03-23 04:26:38
五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊
2026-04-19 15:23:04
酒館老板娘,光看腿就先醉了三分

酒館老板娘,光看腿就先醉了三分

飛娛日記
2026-04-12 11:40:25
G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

田先生籃球
2026-04-19 15:17:44
廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

娛小余
2026-04-03 22:52:32
肯帕努:中國聯(lián)賽水平遠(yuǎn)高于羅馬尼亞;中國發(fā)展水平遙遙領(lǐng)先

肯帕努:中國聯(lián)賽水平遠(yuǎn)高于羅馬尼亞;中國發(fā)展水平遙遙領(lǐng)先

懂球帝
2026-04-19 11:49:41
2026-04-20 11:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16599文章數(shù) 514891關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉(zhuǎn)賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

本地
時尚
手機
教育
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

今年最流行的衣服竟然是它?高級又氣質(zhì)!

手機要聞

消息稱某廠驍龍8 Elite Gen6 Pro手機新開6.9英寸直屏

教育要聞

我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版