国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需訓(xùn)練、即插即用,這個(gè)解碼方法讓模型學(xué)會(huì)謹(jǐn)慎思考

0
分享至

你有沒(méi)有發(fā)現(xiàn)這樣一種現(xiàn)象:面對(duì)同一個(gè)問(wèn)題,大模型可能在每次回答時(shí)都給出不同答案。一個(gè)不容忽視的問(wèn)題是,這種不確定性,是否意味著推理仍不穩(wěn)定?

隨著技術(shù)的發(fā)展,大模型在自然語(yǔ)言處理和多模態(tài)任務(wù)中已經(jīng)表現(xiàn)出越來(lái)越強(qiáng)的性能。傳統(tǒng)解碼策略主要包括隨機(jī)采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認(rèn)的是隨機(jī)采樣(random sample),即便是回答相同的問(wèn)題,它們可能每次都會(huì)給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準(zhǔn)測(cè)試(benchmark)上表現(xiàn)會(huì)有所提升,特別是在推理性任務(wù)上。但是,模型在不確定情況下的表現(xiàn)仍不理想。

為解決上述問(wèn)題,美國(guó)東北大學(xué)與 Adobe、美國(guó)凱斯西儲(chǔ)大學(xué)聯(lián)合團(tuán)隊(duì)提出了一種無(wú)需訓(xùn)練的新型解碼策略,名為“謹(jǐn)慎下一步預(yù)測(cè)(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過(guò)在模型不確定性高的步驟采樣多個(gè)候選路徑,并選擇困惑度最低的路徑。相較于隨機(jī)采樣和貪婪解碼等傳統(tǒng)策略,CNTP 顯著提升了大模型在多種任務(wù)上的推理準(zhǔn)確度,可應(yīng)用場(chǎng)景包括語(yǔ)音助手、視覺(jué)助手、聊天機(jī)器人等。


圖丨相關(guān)論文(來(lái)源:arXiv)

“我們的研究證明了 Transformer 模型下一個(gè)詞元預(yù)測(cè)(next token prediction)的范式,有可能實(shí)現(xiàn)真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?duì) DeepTech 表示。他目前正在東北大學(xué)攻讀博士學(xué)位,主要研究方向包括大模型、多模態(tài)模型和計(jì)算機(jī)視覺(jué),即將加入 Adobe 擔(dān)任研究科學(xué)家/工程師。


圖丨王亦周(來(lái)源:王亦周)

Safe Superintelligence 公司創(chuàng)始人、前 OpenAI 首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開(kāi)表示,如果模型足夠強(qiáng)大,對(duì)下一個(gè) token 的預(yù)測(cè)能力可能反映對(duì)世界的某種理解,這可能是實(shí)現(xiàn)更深層智能的關(guān)鍵路徑。

也就是說(shuō),next token prediction 是智能的核心。要實(shí)現(xiàn)這一點(diǎn),需要在模型內(nèi)部進(jìn)行強(qiáng)推理,再通過(guò)一系列計(jì)算預(yù)測(cè)下一個(gè) token。

受此啟發(fā),研究團(tuán)隊(duì)從人類認(rèn)知行為中尋找靈感:人在思考時(shí),往往越謹(jǐn)慎回答,結(jié)果的準(zhǔn)確率越高,那么大模型會(huì)不會(huì)也和人腦有類似的機(jī)制?

王亦周解釋道:“這種過(guò)程類似于我們?cè)趨⒓涌荚嚂r(shí)的解題過(guò)程,我們可能會(huì)先想下有哪些解法,然后從中挑選一種認(rèn)為最有把握的方法,確認(rèn)無(wú)誤后再進(jìn)行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來(lái)源:arXiv)

這里的謹(jǐn)慎指的是,當(dāng)面對(duì)不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩(wěn)妥、最可信的路徑。

研究團(tuán)隊(duì)用熵作為模型不確定性的衡量標(biāo)準(zhǔn):熵越高越不可信。在自然語(yǔ)言處理(NLP)中,困惑度(perplexity)越低代表對(duì)答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會(huì)采樣多個(gè)候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過(guò)消融研究證明,由于思維鏈推理的回答往往較長(zhǎng),每條路徑長(zhǎng)度也不同,如果算完整評(píng)估的困惑度無(wú)法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標(biāo)點(diǎn)符號(hào)截止的方式來(lái)計(jì)算困惑度。相當(dāng)于每句話、每個(gè)小的推理單元,即每個(gè)局部自洽能夠?qū)崿F(xiàn)較理想的效果。

為控制采樣次數(shù),研究團(tuán)隊(duì)通過(guò)設(shè)置最小熵 Hmin 和最大熵 Hmax 兩個(gè)閾值和最大試驗(yàn)次數(shù) Nmax。該方法在提高解碼準(zhǔn)確性的同時(shí),還有效地限制了計(jì)算成本,避免了在每個(gè)步驟大量采樣而帶來(lái)的高計(jì)算開(kāi)銷。


(來(lái)源:arXiv)

在實(shí)驗(yàn)驗(yàn)證方面,該團(tuán)隊(duì)在數(shù)學(xué)推理(GSM8K、MATH)、常識(shí)推理(StrategyQA)和開(kāi)放問(wèn)答(TruthfulQA)等任務(wù)中證明,與包括貪婪解碼、隨機(jī)解碼和束搜索在內(nèi)的傳統(tǒng)方法相比,CNTP 策略的結(jié)果更具優(yōu)勢(shì)。

例如,在 TruthfulQA 任務(wù)中,Llama-2-7B 在使用 CNTP 方法后,真實(shí)性準(zhǔn)確率提升到了 84.8%,相較于隨機(jī)解碼提升 6.8%。

值得關(guān)注的是,CNTP 策略無(wú)需訓(xùn)練,僅解碼即可直接實(shí)現(xiàn)提升性能。王亦周解釋道:這種方法在某種程度上像“免費(fèi)午餐”,盡管可能會(huì)帶來(lái)更多的 token 消耗,但在實(shí)際應(yīng)用中有很多優(yōu)化的方法可解決該問(wèn)題。


(來(lái)源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進(jìn)一步提升性能(注:自一致性是取多個(gè)樣本,然后選一個(gè)出現(xiàn)頻率最高的答案),且計(jì)算成本遠(yuǎn)低于后者。原因在于,利用多樣性和隨機(jī)性集思廣益后,選取多數(shù)投票。

研究團(tuán)隊(duì)證明,每個(gè)樣本也是越謹(jǐn)慎越好?!拔覀兊姆椒〞?huì)在一定程度上限制它的多樣性,但通過(guò)調(diào)高溫度可以解決這一點(diǎn),所以它能進(jìn)一步提升?!蓖跻嘀苷f(shuō)。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對(duì)話任務(wù)。除了有固定答案的數(shù)學(xué)題或代碼題,它也可以用于開(kāi)放式問(wèn)題,研究團(tuán)隊(duì)未來(lái)將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優(yōu)化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國(guó)一總領(lǐng)館及一軍事基地,擊落3架美軍機(jī)

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國(guó)一總領(lǐng)館及一軍事基地,擊落3架美軍機(jī)

新民晚報(bào)
2026-03-02 19:04:01
特斯拉車主:Model Y L 中控臺(tái)充電口“燒壞”,自費(fèi)更換要 2700 元

特斯拉車主:Model Y L 中控臺(tái)充電口“燒壞”,自費(fèi)更換要 2700 元

新浪財(cái)經(jīng)
2026-03-02 23:51:33
伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

伊朗再對(duì)美以基地發(fā)動(dòng)大規(guī)模襲擊

財(cái)聯(lián)社
2026-03-01 12:32:05
伊朗開(kāi)展“真實(shí)承諾-4”行動(dòng)第12輪攻擊

伊朗開(kāi)展“真實(shí)承諾-4”行動(dòng)第12輪攻擊

國(guó)際在線
2026-03-03 02:30:06
78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國(guó)男籃自挖苦坑,日本隊(duì)坐收漁利

行舟問(wèn)茶
2026-03-02 12:06:53
終于反噬!網(wǎng)約車大量低價(jià)單沒(méi)人接,司機(jī):報(bào)應(yīng)來(lái)了。

終于反噬!網(wǎng)約車大量低價(jià)單沒(méi)人接,司機(jī):報(bào)應(yīng)來(lái)了。

我不叫阿哏
2026-03-02 17:00:41
上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場(chǎng)意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
北京女子奔赴河南見(jiàn)陌生男,一見(jiàn)面抱緊崩潰說(shuō):對(duì)不起,我來(lái)晚了

北京女子奔赴河南見(jiàn)陌生男,一見(jiàn)面抱緊崩潰說(shuō):對(duì)不起,我來(lái)晚了

觀察鑒娛
2026-03-02 10:22:34
一艘懸掛美國(guó)國(guó)旗油輪在巴林港口停泊期間,遭兩枚炮彈擊中

一艘懸掛美國(guó)國(guó)旗油輪在巴林港口停泊期間,遭兩枚炮彈擊中

瀟湘晨報(bào)
2026-03-02 21:46:26
伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

補(bǔ)壹刀
2026-03-02 16:08:19
“斬首”行動(dòng)細(xì)節(jié)揭秘:美以戰(zhàn)機(jī)同地起飛,直撲哈梅內(nèi)伊

“斬首”行動(dòng)細(xì)節(jié)揭秘:美以戰(zhàn)機(jī)同地起飛,直撲哈梅內(nèi)伊

中國(guó)新聞周刊
2026-03-02 10:32:04
剛剛,全線暴跌!緊急救市!

剛剛,全線暴跌!緊急救市!

中國(guó)基金報(bào)
2026-03-02 17:11:34
伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

西樓飲月
2026-03-02 16:30:15
“伊朗德黑蘭飛烏魯木齊航班進(jìn)入中國(guó)領(lǐng)空 機(jī)艙內(nèi)傳來(lái)廣播”視頻熱傳 川航:未開(kāi)通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進(jìn)入中國(guó)領(lǐng)空 機(jī)艙內(nèi)傳來(lái)廣播”視頻熱傳 川航:未開(kāi)通伊朗航線

閃電新聞
2026-03-02 17:29:47
川普活成自己最討厭的人,昔日數(shù)次預(yù)言?shī)W巴馬打伊朗:為挽回顏面與支持率

川普活成自己最討厭的人,昔日數(shù)次預(yù)言?shī)W巴馬打伊朗:為挽回顏面與支持率

不掉線電波
2026-03-02 11:07:35
寧可放棄中國(guó)市場(chǎng),也不刪鏡頭!《蜘蛛俠:英雄無(wú)歸》沒(méi)引進(jìn)的真相終于來(lái)了

寧可放棄中國(guó)市場(chǎng),也不刪鏡頭!《蜘蛛俠:英雄無(wú)歸》沒(méi)引進(jìn)的真相終于來(lái)了

小椰的奶奶
2026-03-02 10:32:14
3月30日全國(guó)執(zhí)行新殯葬制度!死不起、葬不起的時(shí)代終于要結(jié)束了

3月30日全國(guó)執(zhí)行新殯葬制度!死不起、葬不起的時(shí)代終于要結(jié)束了

南權(quán)先生
2026-03-02 15:29:15
伊朗反擊太快,只給以2小時(shí),導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時(shí),導(dǎo)彈從天而降,以色列民眾抱頭鼠竄

書(shū)紀(jì)文譚
2026-03-02 17:24:46
哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

哈梅內(nèi)伊身亡現(xiàn)場(chǎng)照片曝光

名人茍或
2026-03-02 10:37:43
黃金白銀突然跳水 天然氣漲超50% 美股低開(kāi)后走高

黃金白銀突然跳水 天然氣漲超50% 美股低開(kāi)后走高

每日經(jīng)濟(jì)新聞
2026-03-02 23:40:04
2026-03-03 03:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16346文章數(shù) 514696關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

健康
手機(jī)
藝術(shù)
教育
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

手機(jī)要聞

iPhone 17e外觀與前代幾乎一致 舊款iPhone 16e保護(hù)殼可繼續(xù)用

藝術(shù)要聞

這四位老人的花鳥(niǎo)畫,竟讓人欲罷不能!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

軍事要聞

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版