国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圣地亞哥分校與Adobe突破:AI推理系統(tǒng)實(shí)現(xiàn)最優(yōu)路徑自動選擇能力

0
分享至


在現(xiàn)代人工智能的世界里,我們經(jīng)常聽到"大模型"這個詞,但很少有人知道,這些模型在"思考"復(fù)雜問題時其實(shí)有著不同的"思路"。最近,一項來自加州大學(xué)圣地亞哥分校和Adobe研究院的研究成果為我們揭示了一個有趣的現(xiàn)象:讓AI在不同的"思維模式"間自動切換,竟然能顯著提升解題效果。這項名為"THINKROUTER"的研究發(fā)表于2026年2月,為大語言模型的推理優(yōu)化開辟了全新的思路。

這里需要先解釋一下背景。當(dāng)前的大型語言模型在處理復(fù)雜問題時,就像一個學(xué)生做數(shù)學(xué)題一樣,通常有兩種方式。第一種是"顯性思考",就像在草稿紙上一步步寫下思考過程,每一步都清清楚楚。第二種是"隱性思考",更像是在腦海中快速閃過多個想法,然后綜合這些模糊的思路得出答案。

以往,大多數(shù)AI系統(tǒng)要么只用顯性思考(雖然準(zhǔn)確但很慢),要么只用隱性思考(雖然快但有時不準(zhǔn)確)。就好比一個學(xué)生要么每道題都寫詳細(xì)步驟,要么每道題都只在心里算。很少有系統(tǒng)能夠像真正聰明的學(xué)生那樣,在簡單題目時快速心算,在復(fù)雜題目時仔細(xì)推演。

研究團(tuán)隊發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象:當(dāng)AI在進(jìn)行隱性思考時,如果它對某個推理步驟不夠確信(也就是"信心不足"),那么這種不確信往往預(yù)示著最終答案可能出錯。這就像一個學(xué)生在心算時,如果某一步感覺不太確定,那么最終答案很可能是錯的。

基于這個發(fā)現(xiàn),研究團(tuán)隊開發(fā)了THINKROUTER系統(tǒng)。這個系統(tǒng)的工作原理非常巧妙:它會實(shí)時監(jiān)控AI的"信心水平"。當(dāng)AI對某個推理步驟很有把握時,系統(tǒng)就讓它繼續(xù)進(jìn)行快速的隱性思考;但當(dāng)AI開始猶豫不決時,系統(tǒng)就會自動切換到慢而準(zhǔn)確的顯性思考模式。

具體來說,系統(tǒng)通過觀察AI在每個思維步驟中的"最高概率值"來判斷其信心水平。這個概率值就像學(xué)生心中的"確定度"——如果學(xué)生對某個推理步驟非常確定,那么這個確定度就高;如果學(xué)生覺得有好幾種可能的答案都不太確定,那么這個確定度就低。

當(dāng)這個確定度低于某個閾值時,THINKROUTER就會判斷此時不適合進(jìn)行模糊的隱性思考,因為把多個不確定的想法混合在一起,很可能會產(chǎn)生"噪音",導(dǎo)致錯誤的推理方向。此時,系統(tǒng)會切換到顯性思考,讓AI明確地選擇一個具體的推理路徑,避免在不確定的情況下產(chǎn)生混亂。

為了驗證這個想法,研究團(tuán)隊在多個具有挑戰(zhàn)性的任務(wù)上測試了THINKROUTER。這些任務(wù)包括高難度數(shù)學(xué)競賽題(AIME 2024和2025)、研究生水平的科學(xué)問題(GPQA Diamond),以及復(fù)雜的編程任務(wù)(HumanEval和MBPP)。測試使用了不同規(guī)模的AI模型,從17億參數(shù)到320億參數(shù)不等,涵蓋了Qwen3和gpt-oss兩個不同的模型系列。

實(shí)驗結(jié)果令人印象深刻。在數(shù)學(xué)推理任務(wù)上,THINKROUTER相比傳統(tǒng)的顯性思考方法,平均準(zhǔn)確率提升了19.70個百分點(diǎn)。更重要的是,即使在那些純隱性思考方法表現(xiàn)不佳的情況下,THINKROUTER依然能夠保持穩(wěn)定的性能提升。比如在某些測試中,純隱性思考方法的準(zhǔn)確率反而下降了3.33個百分點(diǎn),但THINKROUTER仍然實(shí)現(xiàn)了15個百分點(diǎn)的提升。

在編程任務(wù)上,THINKROUTER同樣表現(xiàn)出色。雖然在這類任務(wù)中純隱性思考方法經(jīng)常導(dǎo)致性能下降,但THINKROUTER始終能夠保持性能改善,證明了其路由機(jī)制的有效性。

除了準(zhǔn)確率的提升,THINKROUTER在效率方面也有不錯的表現(xiàn)。它能夠?qū)⑸傻耐评砦谋鹃L度減少高達(dá)15.55%,這意味著在保持甚至提升準(zhǔn)確率的同時,系統(tǒng)變得更加高效。這種效率提升來自于系統(tǒng)能夠智能地選擇何時使用快速的隱性思考,何時使用詳細(xì)的顯性思考。

研究團(tuán)隊還深入分析了THINKROUTER成功的原因。他們發(fā)現(xiàn),這個系統(tǒng)具有一種"糾錯能力"——它能夠修正純顯性思考和純隱性思考各自的錯誤。當(dāng)顯性思考過于拘泥于某個錯誤方向時,適時的隱性思考能夠提供新的視角;當(dāng)隱性思考過于模糊導(dǎo)致混亂時,顯性思考能夠提供清晰的邏輯結(jié)構(gòu)。

更有趣的是,研究團(tuán)隊發(fā)現(xiàn)THINKROUTER還有一個意外的好處:它能夠幫助AI更早地結(jié)束推理過程。通過降低整體的過度自信,系統(tǒng)能夠更準(zhǔn)確地判斷何時已經(jīng)找到了正確答案,從而避免不必要的冗長推理。

這項研究的意義不僅在于技術(shù)層面的突破,更在于它揭示了一個重要原理:最佳的AI推理系統(tǒng)不應(yīng)該固守單一的思維模式,而應(yīng)該能夠根據(jù)具體情況動態(tài)調(diào)整策略。就像人類專家在解決問題時會根據(jù)問題的復(fù)雜程度和自己的把握程度來選擇不同的思考方式一樣,AI系統(tǒng)也應(yīng)該具備這種靈活性。

THINKROUTER的另一個重要優(yōu)勢是它的實(shí)用性。與許多需要大量額外訓(xùn)練的優(yōu)化方法不同,這個系統(tǒng)可以在推理階段直接應(yīng)用,不需要對原有模型進(jìn)行任何修改或重新訓(xùn)練。這使得它能夠容易地集成到現(xiàn)有的AI系統(tǒng)中,為廣大用戶帶來立竿見影的性能提升。

研究團(tuán)隊通過大量的消融實(shí)驗證實(shí)了信心水平監(jiān)控的關(guān)鍵作用。他們發(fā)現(xiàn),如果隨機(jī)選擇何時切換思維模式(而不是基于信心水平),雖然也能獲得一定的性能提升,但遠(yuǎn)不如基于信心的智能路由效果好。這進(jìn)一步證明了"信心感知"這一核心思想的價值。

值得注意的是,THINKROUTER在不同類型的任務(wù)上都展現(xiàn)出了一致的效果,這表明這種混合推理策略具有很好的通用性。無論是需要嚴(yán)密邏輯的數(shù)學(xué)證明,還是需要創(chuàng)造性思維的編程任務(wù),這種動態(tài)路由機(jī)制都能發(fā)揮作用。

從更廣闊的視角來看,這項研究為AI推理系統(tǒng)的發(fā)展指明了一個新方向。傳統(tǒng)上,研究人員往往致力于開發(fā)更強(qiáng)大的單一推理模式,但這項工作表明,不同推理模式之間的智能協(xié)調(diào)可能是提升整體性能的更有效途徑。

研究團(tuán)隊還提供了詳細(xì)的實(shí)現(xiàn)指導(dǎo)和開源代碼,使得其他研究者和開發(fā)者能夠輕松地復(fù)現(xiàn)和應(yīng)用這項技術(shù)。他們詳細(xì)記錄了各種參數(shù)設(shè)置和優(yōu)化策略,為這一技術(shù)的廣泛應(yīng)用打下了良好基礎(chǔ)。

展望未來,THINKROUTER這種基于信心的動態(tài)路由思想可能會啟發(fā)更多的創(chuàng)新。研究人員正在探索是否可以擴(kuò)展到更多種類的思維模式,或者開發(fā)更精細(xì)的信心評估方法。這些發(fā)展可能會進(jìn)一步提升AI系統(tǒng)在復(fù)雜任務(wù)中的表現(xiàn)。

說到底,THINKROUTER的成功展示了一個重要理念:最好的AI系統(tǒng)不是那些在單一維度上最強(qiáng)大的,而是那些能夠智能地協(xié)調(diào)不同能力、在合適時機(jī)使用合適策略的系統(tǒng)。就像一個真正的專家不會固守單一的解題方法,而會根據(jù)具體情況選擇最合適的approach一樣,未來的AI系統(tǒng)也應(yīng)該具備這種動態(tài)適應(yīng)的智慧。

對于普通用戶而言,這項技術(shù)的應(yīng)用前景十分光明。當(dāng)這種智能路由技術(shù)被廣泛部署時,我們?nèi)粘J褂玫腁I助手將變得更加可靠和高效,既能在簡單問題上快速響應(yīng),又能在復(fù)雜問題上進(jìn)行深入思考,為用戶提供更好的服務(wù)體驗。

Q&A

Q1:THINKROUTER是如何判斷AI的信心水平的?

A:THINKROUTER通過監(jiān)控AI在每個推理步驟中的"最高概率值"來判斷信心水平。當(dāng)AI對某個推理步驟很確定時,這個概率值就高;當(dāng)AI覺得有多種可能答案且都不太確定時,這個概率值就低。系統(tǒng)會設(shè)定一個閾值,當(dāng)概率值低于閾值時就切換到顯性思考模式。

Q2:THINKROUTER相比傳統(tǒng)方法有什么明顯優(yōu)勢?

A:THINKROUTER在數(shù)學(xué)推理任務(wù)上平均準(zhǔn)確率提升了19.70個百分點(diǎn),同時能將生成文本長度減少高達(dá)15.55%。更重要的是,即使在純隱性思考方法表現(xiàn)不佳的情況下,THINKROUTER仍能保持穩(wěn)定的性能提升,證明了其路由機(jī)制的可靠性。

Q3:這項技術(shù)需要重新訓(xùn)練AI模型嗎?

A:不需要。THINKROUTER的一個重要優(yōu)勢是它可以在推理階段直接應(yīng)用,不需要對原有模型進(jìn)行任何修改或重新訓(xùn)練。這使得它能夠容易地集成到現(xiàn)有的AI系統(tǒng)中,為用戶帶來立竿見影的性能提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6999元!新機(jī)官宣:3月20日,正式開售!

6999元!新機(jī)官宣:3月20日,正式開售!

科技堡壘
2026-03-14 11:48:32
伊朗軍方宣布打擊美國多處基地

伊朗軍方宣布打擊美國多處基地

參考消息
2026-03-13 21:22:35
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

紅星新聞
2026-03-14 15:58:37
順產(chǎn)分娩手術(shù)時直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

順產(chǎn)分娩手術(shù)時直腸被切漏,女子:手術(shù)操作失誤引發(fā)直腸陰道瘺,醫(yī)院隱瞞術(shù)中損傷事實(shí),追責(zé)兩年無果,涉事醫(yī)院因未履行告知義務(wù)被處罰

極目新聞
2026-03-14 17:27:32
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對湖北投入

鞭牛士
2026-03-14 12:04:14
隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊負(fù)分

隨著上海申花1-1,山東泰山2-1,中超最新積分榜出爐:還有8隊負(fù)分

側(cè)身凌空斬
2026-03-14 17:48:06
伊朗稱哈爾克島局勢已得到控制

伊朗稱哈爾克島局勢已得到控制

界面新聞
2026-03-14 18:35:14
河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

河南女子拍到大雁排成“ETC”陣型遷徙,場面震撼,當(dāng)事人:從來沒見過,大家都在歡呼

臺州交通廣播
2026-03-14 08:59:12
外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時間

外地人去301醫(yī)院看病,水太深!這份避坑指南能幫你省下一半時間

牛鍋巴小釩
2026-03-14 09:52:49
無錫至成都航班在地面滑行時,一旅客隨身充電寶突發(fā)自燃

無錫至成都航班在地面滑行時,一旅客隨身充電寶突發(fā)自燃

都市快報橙柿互動
2026-03-14 13:18:38
主動辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

主動辭職女籃?宮魯鳴發(fā)聲,耐人尋味,籃協(xié)回應(yīng),媒體人怒了

萌蘭聊個球
2026-03-14 14:28:11
其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會豁然開朗

其實(shí)人根本不用養(yǎng)老,為什么呢?看到此文,你就會豁然開朗

暖風(fēng)吹過竹林
2026-03-14 10:23:30
日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

日本大師在中國代表作,耗資30億的地標(biāo),怎么就成了“鬼城”?

GA環(huán)球建筑
2026-03-13 17:27:01
鎮(zhèn)江市委常委會召開會議 堅決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會召開會議 堅決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

84比56大勝19分!女籃勁敵爆冷掀翻世界第9:中國晉級世界杯穩(wěn)了

籃球快餐車
2026-03-14 16:48:34
中國女足為何戰(zhàn)勝中國臺北賽后王霜毫不客氣說出原因 說的很實(shí)在

中國女足為何戰(zhàn)勝中國臺北賽后王霜毫不客氣說出原因 說的很實(shí)在

籃球看比賽
2026-03-14 17:06:54
中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

中超巨大爭議!楊皓宇染紅離場,媒體人集體開炮:主裁莫名其妙

奧拜爾
2026-03-14 17:40:57
馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺,以方應(yīng)“抓住機(jī)會”

馬克龍:黎巴嫩稱愿與以色列直接對話,法國愿提供平臺,以方應(yīng)“抓住機(jī)會”

環(huán)球網(wǎng)資訊
2026-03-14 19:42:07
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
王霜停賽!中國女足3月17日18點(diǎn)對陣東道主澳大利亞 勝者將進(jìn)決賽

王霜停賽!中國女足3月17日18點(diǎn)對陣東道主澳大利亞 勝者將進(jìn)決賽

風(fēng)過鄉(xiāng)
2026-03-14 16:00:51
2026-03-14 20:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

手機(jī)
教育
時尚
本地
健康

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

審美提升|| 來和時髦尖子生學(xué)幾招

本地新聞

坐標(biāo)北京,過敏季反向遷徒

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版