国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大等機(jī)構(gòu)突破:AI實(shí)現(xiàn)對話式價值信息自主學(xué)習(xí)能力

0
分享至


這項由北京大學(xué)、DeepWisdom、香港科技大學(xué)(廣州)和蒙特利爾大學(xué)聯(lián)合開展的研究發(fā)表于2026年3月3日的預(yù)印本平臺,論文編號為arXiv:2603.00656v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

在我們的日常生活中,當(dāng)朋友向我們提出一個模糊的請求時,比如"幫我訂張下周的機(jī)票",我們會自然而然地問一些澄清問題:"去哪里?什么時候?預(yù)算多少?"通過這樣的對話,我們逐步收集信息,最終幫助朋友解決問題。這個看似簡單的過程,對于AI助手來說卻是一個巨大的挑戰(zhàn)。

目前的AI助手在處理這類場景時經(jīng)常遇到困難。它們要么問了很多無關(guān)緊要的問題,浪費(fèi)用戶時間,要么直接猜測用戶的需求,結(jié)果往往南轅北轍。更糟糕的是,傳統(tǒng)的訓(xùn)練方法無法有效地教會AI助手什么時候該問問題,什么時候該采取行動,以及如何從用戶的回答中獲取有價值的信息。

研究團(tuán)隊發(fā)現(xiàn)了問題的癥結(jié)所在:傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練方法就像一個只看最終結(jié)果的老師,只有當(dāng)整個對話結(jié)束后才給出評分。這就好比教孩子下棋時,只在整盤棋結(jié)束后告訴他勝負(fù),而不指出每一步棋的優(yōu)劣。這種訓(xùn)練方式讓AI助手無法理解對話中每一輪交互的價值,導(dǎo)致學(xué)習(xí)效率低下。

為了解決這個問題,研究團(tuán)隊開發(fā)了一種名為InfoPO(信息驅(qū)動策略優(yōu)化)的全新訓(xùn)練方法。這種方法的核心思想是教會AI助手識別和重視那些能夠獲得有價值信息的對話輪次,就像一個經(jīng)驗豐富的偵探知道哪些問題能夠獲得關(guān)鍵線索一樣。

InfoPO的工作原理可以用一個簡單的比喻來理解。想象你在玩一個猜謎游戲,你需要通過提問來猜出對方心中的物品。一個聰明的玩家會問那些能夠顯著縮小答案范圍的問題,比如"它是生物嗎?"而不是"它是紅色的嗎?"InfoPO正是通過測量每個問題對后續(xù)行動決策的影響程度,來判斷這個問題的價值高低。

具體來說,InfoPO采用了一種"反事實(shí)對比"的方法。每當(dāng)AI助手收到用戶的回答后,系統(tǒng)會進(jìn)行一個思想實(shí)驗:如果這個回答被替換成"沒有找到信息"這樣的空白回答,AI助手的下一步行動會有什么不同?如果差異很大,說明這個回答包含了有價值的信息,相應(yīng)的提問行為就應(yīng)該得到獎勵。如果差異很小,說明這個提問沒有獲得什么有用信息,獎勵就會相對較少。

這種方法解決了傳統(tǒng)訓(xùn)練中的一個重大問題:信用分配困難。在傳統(tǒng)方法中,即使AI助手問對了關(guān)鍵問題并獲得了重要信息,但如果最后執(zhí)行任務(wù)時出了小錯,整個對話都會被判為失敗,前面的優(yōu)秀表現(xiàn)得不到任何認(rèn)可。這就像一個學(xué)生在考試中前面的解題步驟都正確,只是最后計算出了小錯誤,卻被判為完全錯誤一樣不公平。

InfoPO還設(shè)計了一個巧妙的"自適應(yīng)門控機(jī)制"。這個機(jī)制就像一個智能的平衡器,能夠根據(jù)任務(wù)完成情況自動調(diào)節(jié)對信息獲取和任務(wù)執(zhí)行的重視程度。當(dāng)任務(wù)結(jié)果難以區(qū)分優(yōu)劣時(比如在訓(xùn)練初期,AI助手普遍表現(xiàn)不好),系統(tǒng)會更多地關(guān)注信息獲取的質(zhì)量,鼓勵A(yù)I助手多問有價值的問題。而當(dāng)AI助手已經(jīng)能夠較好地完成任務(wù)時,系統(tǒng)會更多地關(guān)注最終的任務(wù)完成效果,確保AI助手不會為了問問題而問問題,忘記了最終目標(biāo)。

為了驗證InfoPO的效果,研究團(tuán)隊在三個不同類型的交互任務(wù)上進(jìn)行了全面測試。第一個測試環(huán)境叫UserGym,涵蓋了八種不同的交互場景,從旅行規(guī)劃到意圖澄清,模擬了現(xiàn)實(shí)生活中AI助手可能遇到的各種情況。第二個測試環(huán)境ColBench專注于協(xié)作編程,要求AI助手與用戶合作完成Python代碼的編寫和調(diào)試。第三個測試環(huán)境τ?-Bench則模擬了客服場景,涉及航空、零售和電信三個領(lǐng)域的復(fù)雜交互。

實(shí)驗結(jié)果令人印象深刻。在UserGym的測試中,InfoPO在八個子任務(wù)中的七個都取得了最佳成績,整體性能比傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法提升了14%到16%。特別值得注意的是,在那些需要處理模糊不清用戶需求的任務(wù)上,InfoPO的表現(xiàn)尤為突出。比如在意圖澄清任務(wù)中,傳統(tǒng)方法的得分是1.826,而InfoPO達(dá)到了1.892,在搜索任務(wù)中從0.446提升到0.480,在心靈感應(yīng)游戲中從0.424提升到0.488。

在協(xié)作編程任務(wù)ColBench中,InfoPO同樣表現(xiàn)優(yōu)異。在代碼通過率方面,從傳統(tǒng)方法的0.457提升到0.534,任務(wù)成功率從0.352提升到0.426。這意味著使用InfoPO訓(xùn)練的AI助手能夠更好地理解編程需求,問出更有針對性的澄清問題,從而編寫出更符合要求的代碼。

最具挑戰(zhàn)性的τ?-Bench測試涉及長達(dá)50輪的復(fù)雜對話,AI助手需要在用戶和系統(tǒng)都能影響環(huán)境狀態(tài)的情況下完成任務(wù)。即使在這種極其復(fù)雜的場景下,InfoPO依然保持了穩(wěn)定的性能提升,在電信領(lǐng)域從0.138提升到0.181,在零售領(lǐng)域從0.169提升到0.188,在航空領(lǐng)域從0.075提升到0.163。

為了更深入理解InfoPO的工作機(jī)制,研究團(tuán)隊還進(jìn)行了詳細(xì)的行為分析。他們發(fā)現(xiàn),使用InfoPO訓(xùn)練的AI助手展現(xiàn)出了一種"先澄清后行動"的智能行為模式。在對話的早期階段,AI助手會集中精力問關(guān)鍵問題,收集必要信息,然后在后期專注于執(zhí)行具體任務(wù)。這種行為模式與人類專家的做法高度相似,體現(xiàn)了真正的智能交互策略。

更有趣的是,隨著訓(xùn)練的進(jìn)行,AI助手學(xué)會了逐漸減少不必要的交互輪次,提高了對話效率。在初期訓(xùn)練中,AI助手可能會問很多問題來探索環(huán)境,但隨著對任務(wù)理解的加深,它們學(xué)會了只問最關(guān)鍵的問題,然后迅速轉(zhuǎn)入執(zhí)行階段。這種自我優(yōu)化的能力表明InfoPO不僅提高了學(xué)習(xí)效果,還培養(yǎng)了AI助手的效率意識。

研究團(tuán)隊還測試了InfoPO的泛化能力。他們發(fā)現(xiàn),即使將訓(xùn)練好的AI助手應(yīng)用到完全不同類型的任務(wù)中,比如從用戶交互任務(wù)轉(zhuǎn)向環(huán)境交互任務(wù),InfoPO訓(xùn)練的模型依然能夠保持良好的性能。這說明InfoPO學(xué)到的不是特定任務(wù)的技巧,而是一種通用的信息價值評估能力。

從理論角度來看,研究團(tuán)隊為InfoPO提供了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)基礎(chǔ)。他們證明了InfoPO的信息增益獎勵在期望意義下等價于條件互信息,這是信息論中衡量信息價值的標(biāo)準(zhǔn)指標(biāo)。更重要的是,他們還證明了要想成功完成任務(wù),必須積累足夠的信息增益,這為InfoPO的有效性提供了理論保證。這就像證明了要想破案,偵探必須收集到足夠的線索一樣,為方法的合理性提供了數(shù)學(xué)依據(jù)。

當(dāng)然,InfoPO也有一些局限性。由于需要進(jìn)行反事實(shí)對比計算,訓(xùn)練時間比傳統(tǒng)方法增加了約63%。不過考慮到性能的顯著提升,這種額外的計算成本是值得的。此外,目前的評估主要集中在文本交互上,對于多模態(tài)交互(如圖像、語音等)的效果還需要進(jìn)一步驗證。

這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在實(shí)際應(yīng)用中,InfoPO有望顯著改善AI助手的用戶體驗。用戶將不再需要忍受AI助手無休止的無意義提問,也不會因為AI助手的錯誤猜測而感到沮喪。相反,AI助手將變得更像一個善解人意的朋友,能夠準(zhǔn)確把握對話的節(jié)奏,在恰當(dāng)?shù)臅r候問恰當(dāng)?shù)膯栴},在合適的時機(jī)采取行動。

對于企業(yè)來說,InfoPO的應(yīng)用前景同樣廣闊。在客服系統(tǒng)中,使用InfoPO訓(xùn)練的AI能夠更快地理解客戶需求,減少不必要的來回溝通,提高問題解決效率。在智能助手領(lǐng)域,用戶可以用更自然、更模糊的方式表達(dá)需求,而不必?fù)?dān)心AI理解不了。在教育和咨詢領(lǐng)域,AI助手可以更好地引導(dǎo)學(xué)習(xí)者或客戶,通過有針對性的問題幫助他們澄清思路。

研究團(tuán)隊已經(jīng)將InfoPO的代碼開源,這意味著其他研究者和開發(fā)者可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用。隨著更多人的參與,我們有理由相信,這種智能交互技術(shù)將在不久的將來走進(jìn)千家萬戶,讓AI助手真正成為我們生活和工作中的得力伙伴。

說到底,InfoPO代表了AI助手發(fā)展的一個重要轉(zhuǎn)折點(diǎn)。它不再是簡單地讓機(jī)器模仿人類的行為,而是教會機(jī)器理解信息的價值,學(xué)會在對話中尋找和利用關(guān)鍵信息。這種能力的獲得,讓我們看到了AI助手從工具向伙伴轉(zhuǎn)變的可能性。未來,當(dāng)我們與AI助手交流時,可能會忘記對面是一臺機(jī)器,因為它已經(jīng)具備了與人類相似的交流智慧。這項研究為我們描繪了一個更加智能、更加人性化的AI交互未來,值得我們期待。

Q&A

Q1:InfoPO是什么,它解決了什么問題?

A:InfoPO是一種新的AI助手訓(xùn)練方法,全稱"信息驅(qū)動策略優(yōu)化"。它解決了傳統(tǒng)訓(xùn)練方法無法識別對話中哪些問題有價值的問題。就像教孩子下棋只在結(jié)束時說勝負(fù)一樣,傳統(tǒng)方法只看最終結(jié)果,不知道每步的好壞。InfoPO能識別出哪些提問獲得了有用信息,從而讓AI助手學(xué)會問有價值的問題。

Q2:InfoPO訓(xùn)練的AI助手比傳統(tǒng)方法好在哪里?

A:InfoPO訓(xùn)練的AI助手表現(xiàn)出"先澄清后行動"的智能模式,就像經(jīng)驗豐富的專家一樣。在測試中,它比傳統(tǒng)方法性能提升了14%-16%,能更準(zhǔn)確理解用戶需求,問更有針對性的問題,減少無意義的來回溝通,最終更高效地完成任務(wù)。

Q3:InfoPO的反事實(shí)對比方法是如何工作的?

A:反事實(shí)對比就像做思想實(shí)驗。當(dāng)AI收到用戶回答后,系統(tǒng)會假設(shè)"如果這個回答是空白的,AI的下一步行動會有什么不同?"如果差異很大,說明這個回答很有價值,相應(yīng)的提問就會得到獎勵。這樣AI就能學(xué)會識別哪些問題能獲得關(guān)鍵信息,哪些問題沒什么用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時,頂級名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

斯坦福卷瘋了!當(dāng)你在糾結(jié)怎么用 AI 寫代碼時,頂級名校已經(jīng)開始系統(tǒng)教 “Vibe Coding” 了...

留學(xué)生日報
2026-03-14 15:34:12
52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場愣住

52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說了句話讓他當(dāng)場愣住

老杉說歷史
2026-03-13 23:00:06
國乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

國乒這步棋太狠!放棄蒯曼亮出底牌,壓死日本新星撕開孫王防線

生活新鮮市
2026-03-14 11:18:04
第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

萬物知識圈
2026-03-14 09:40:59
蘋果首款折疊屏機(jī)型頂配版定價超2萬元!將成為蘋果最貴手機(jī)

蘋果首款折疊屏機(jī)型頂配版定價超2萬元!將成為蘋果最貴手機(jī)

大象新聞
2026-03-12 08:41:03
蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

蘇寧,清零!2387億債務(wù)落定,張近東凈身出戶,一個零售時代落幕

叮當(dāng)當(dāng)科技
2026-03-14 01:50:37
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
茅臺1935酒(尊享)上線i茅臺,首秀超預(yù)期

茅臺1935酒(尊享)上線i茅臺,首秀超預(yù)期

微酒
2026-03-14 19:15:12
054A抵達(dá)伊朗海域護(hù)航

054A抵達(dá)伊朗海域護(hù)航

烽火觀天下
2026-03-10 11:54:38
伊朗革命衛(wèi)隊已經(jīng)事實(shí)獨(dú)立

伊朗革命衛(wèi)隊已經(jīng)事實(shí)獨(dú)立

難得君
2026-03-04 12:29:04
3·15影子暗訪|神秘的“特供酒”

3·15影子暗訪|神秘的“特供酒”

澎湃新聞
2026-03-14 08:04:32
老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

老婆沒穿內(nèi)褲引人取笑,丈夫一怒之下拔刀亂捅,整整逃亡二十多年

長安一孤客
2026-03-12 16:00:24
獲全場最低分 U23國足紅星坑慘申花 空門踢偏失絕殺 補(bǔ)時假摔染紅

獲全場最低分 U23國足紅星坑慘申花 空門踢偏失絕殺 補(bǔ)時假摔染紅

我愛英超
2026-03-14 18:10:23
淚目!中國女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

淚目!中國女籃30歲王牌轟17+5+4,央視名嘴大贊:節(jié)奏大師

李喜林籃球絕殺
2026-03-14 22:05:19
反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國四子幾近全塌房

反轉(zhuǎn)了?張藝興工作室正式回應(yīng),歸國四子幾近全塌房

姩姩有娛
2026-03-14 14:41:47
被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對稱

被誤解的曼聯(lián)“兩翼齊飛”傳統(tǒng),弗格森的秘密武器從來不是對稱

卡靈頓分析師
2026-03-14 21:48:41
七歲兒子寫詩向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

七歲兒子寫詩向父親要錢,全篇20字無一錢字,好友:我把女兒嫁他

柳絮憶史
2026-03-14 09:07:10
歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

歐洲晚宴上,王毅定調(diào)中歐關(guān)系,71歲默克爾現(xiàn)身,開口就直戳痛處

風(fēng)眼軍情
2026-03-14 21:25:39
特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

特朗普這么一打伊朗,烏克蘭幾乎全是壞消息

觀察者網(wǎng)
2026-03-14 09:34:10
委內(nèi)瑞拉5億美元石油1億美元黃金,為何運(yùn)向美國?

委內(nèi)瑞拉5億美元石油1億美元黃金,為何運(yùn)向美國?

中國新聞周刊
2026-03-14 12:42:09
2026-03-14 23:15:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
游戲
親子

教育要聞

童年的天空的云彩會伴隨孩子的一生

本地新聞

坐標(biāo)北京,過敏季反向遷徒

房產(chǎn)要聞

不容易?。『?诮K于又要賣地了!

重磅!XGP熱門大作即將免費(fèi)登陸PS Plus會員

親子要聞

小龍寶為啥不跟爺爺奶奶玩了?婆婆買蝦怪兒媳婦愛吃,兒子氣跑了

無障礙瀏覽 進(jìn)入關(guān)懷版