国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人大與百度突破:AI智能體實現(xiàn)工具使用成本精細(xì)化控制能力

0
分享至


這項由中國人民大學(xué)高瓴人工智能學(xué)院聯(lián)合上海財經(jīng)大學(xué)和百度公司共同完成的研究發(fā)表于2026年2月,論文編號為arXiv:2602.11541v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內(nèi)容。

當(dāng)我們談到AI智能體時,通常會聯(lián)想到那些能夠自主完成復(fù)雜任務(wù)的"數(shù)字助手"。但你有沒有想過這樣一個問題:如果讓AI助手幫你處理工作,但每次使用工具都要花錢,它會不會像個不懂節(jié)約的"敗家子"一樣把你的預(yù)算全部花光?

這個看似有趣的問題其實反映了一個非?,F(xiàn)實的挑戰(zhàn)。隨著AI智能體變得越來越強(qiáng)大,它們開始能夠調(diào)用各種外部工具來完成任務(wù),就像一個萬能助手可以使用計算器、搜索引擎、數(shù)據(jù)庫查詢工具等等。然而,在現(xiàn)實世界中,這些工具往往不是免費(fèi)的。比如,獲取實時股價信息需要付費(fèi),使用高分辨率衛(wèi)星圖像需要花錢,調(diào)用專業(yè)的金融數(shù)據(jù)API同樣需要成本。

研究團(tuán)隊發(fā)現(xiàn)了一個令人擔(dān)憂的現(xiàn)象:即使明確告訴AI助手有預(yù)算限制,它們經(jīng)常會像沒有金錢概念的孩子一樣超支。這就好比你給孩子50元去買午餐,結(jié)果他回來告訴你花了61元,因為"看到好吃的就忍不住買了"。更有意思的是,那些看起來更"聰明"的AI模型雖然超支情況較少,但往往過于保守,就像一個過分節(jié)儉的人,明明有足夠預(yù)算卻不敢花錢,最終無法完成應(yīng)該完成的任務(wù)。

為了解決這個問題,研究團(tuán)隊開發(fā)了一套名為"INTENT"的系統(tǒng),就像給AI助手配了一個精明的財務(wù)顧問。這個系統(tǒng)的核心理念是讓AI學(xué)會"未雨綢繆"——在執(zhí)行每個動作之前,先預(yù)測一下接下來可能需要花多少錢,確保整個任務(wù)能在預(yù)算范圍內(nèi)順利完成。

INTENT系統(tǒng)的工作原理可以用一個生動的比喻來理解。假設(shè)你要做一道復(fù)雜的菜,需要買各種食材,但你的預(yù)算有限。一個普通人可能會先買最貴的主要食材,結(jié)果發(fā)現(xiàn)剩余預(yù)算不夠買配菜和調(diào)料,最終做不成這道菜。而INTENT就像一個經(jīng)驗豐富的主廚,在開始購買之前就會仔細(xì)規(guī)劃:這道菜需要哪些食材,每種食材大概多少錢,按什么順序購買最合理,哪些食材如果買不到可以用替代品。

具體來說,INTENT系統(tǒng)包含三個核心組件,就像一個專業(yè)的財務(wù)規(guī)劃團(tuán)隊。第一個組件是"意圖預(yù)測器",它的作用是判斷AI助手想要執(zhí)行的每個操作是否真的有必要,以及成功的可能性有多大。這就像一個經(jīng)驗豐富的投資顧問,會評估每筆投資的風(fēng)險和回報。第二個組件是"條件生成器",它負(fù)責(zé)模擬在理想情況下任務(wù)會如何進(jìn)行,就像制定一個最優(yōu)的行動計劃。第三個組件是"幾何成本校準(zhǔn)器",它會考慮到現(xiàn)實中的各種不確定性,對成本進(jìn)行更保守的估算。

研究團(tuán)隊在StableToolBench這個廣泛使用的測試平臺上驗證了他們的方法。他們?yōu)槊總€任務(wù)設(shè)定了固定的預(yù)算約束,并給不同的工具分配了不同的使用成本,模擬了真實世界中的付費(fèi)工具環(huán)境。實驗結(jié)果令人驚訝:在沒有任何預(yù)算控制的情況下,AI助手的超支率高達(dá)65%以上,而使用了INTENT系統(tǒng)后,不僅完全避免了超支,任務(wù)完成率還顯著提升了。

更重要的是,INTENT系統(tǒng)表現(xiàn)出了出色的適應(yīng)性。當(dāng)工具價格發(fā)生變化時,傳統(tǒng)的基于提示詞的方法表現(xiàn)極不穩(wěn)定,就像一個只會按固定菜譜做菜的廚師,一旦食材價格變化就不知所措。而INTENT系統(tǒng)能夠靈活調(diào)整策略,選擇性價比更高的替代方案,表現(xiàn)出了類似于專業(yè)采購經(jīng)理的敏銳度。

研究團(tuán)隊還測試了系統(tǒng)在不同預(yù)算水平下的表現(xiàn)。結(jié)果顯示,INTENT不僅在預(yù)算充足時能夠充分利用資源實現(xiàn)最佳效果,在預(yù)算緊張時也能通過精明的資源配置實現(xiàn)意想不到的好結(jié)果。這種能力特別有價值,因為在實際應(yīng)用中,不同用戶的預(yù)算限制差別很大。

從技術(shù)實現(xiàn)的角度來看,INTENT系統(tǒng)最巧妙的地方在于它不需要重新訓(xùn)練原有的AI模型。這就像給現(xiàn)有的汽車加裝一個智能導(dǎo)航系統(tǒng),而不是重新設(shè)計整輛車。這種設(shè)計大大降低了應(yīng)用門檻,使得現(xiàn)有的AI系統(tǒng)都能夠快速升級獲得預(yù)算管理能力。

系統(tǒng)還包含了幾個實用的優(yōu)化機(jī)制。比如"軌跡緩存"功能,當(dāng)AI助手找到一個可行的計劃后,會把后續(xù)步驟記住,避免重復(fù)規(guī)劃浪費(fèi)時間。還有"黑名單機(jī)制",會自動識別那些成功率很低的工具,避免AI助手反復(fù)嘗試注定失敗的操作,就像一個聰明的購物者會避開那些評價很差的商店。

為了更直觀地展示INTENT的工作效果,研究團(tuán)隊提供了一個詳細(xì)的案例研究。在這個案例中,用戶要求AI助手收集谷歌公司的財務(wù)數(shù)據(jù),包括季度現(xiàn)金流、資產(chǎn)負(fù)債表、收入報表等信息,預(yù)算限制為50個信用點。

在沒有INTENT系統(tǒng)的情況下,AI助手采用了直接的策略:先調(diào)用最昂貴的現(xiàn)金流查詢工具(花費(fèi)38個信用點),然后又調(diào)用資產(chǎn)負(fù)債表工具(花費(fèi)23個信用點),總共花費(fèi)61個信用點,超出預(yù)算11個信用點,導(dǎo)致任務(wù)失敗。更糟糕的是,AI助手在最后的回答中還誠實地承認(rèn)了超支,就像一個不懂事的孩子花光了家長給的零花錢后才意識到問題的嚴(yán)重性。

而在INTENT系統(tǒng)的指導(dǎo)下,AI助手展現(xiàn)了完全不同的行為模式。當(dāng)它最初也打算使用昂貴的現(xiàn)金流工具時,INTENT系統(tǒng)及時干預(yù),分析了整個任務(wù)的成本結(jié)構(gòu),發(fā)現(xiàn)這種策略會導(dǎo)致超支。系統(tǒng)向AI助手反饋了詳細(xì)的風(fēng)險分析,包括每個工具的成功概率和預(yù)期成本。基于這些信息,AI助手重新調(diào)整策略,選擇了更便宜但同樣有效的替代工具,最終以43個信用點完成了所有必需的數(shù)據(jù)收集,不僅沒有超支,還提供了更全面的財務(wù)分析結(jié)果。

這個案例生動地展示了INTENT系統(tǒng)的核心價值:它不是簡單地阻止AI助手花錢,而是幫助AI助手做出更明智的決策,在預(yù)算約束下實現(xiàn)最佳效果。

從更廣泛的角度來看,這項研究解決的問題具有重要的現(xiàn)實意義。隨著AI智能體在金融分析、法律盡職調(diào)查、云服務(wù)故障診斷等專業(yè)領(lǐng)域的應(yīng)用越來越廣泛,成本控制成為了一個不可忽視的問題。一個無法控制成本的AI助手,無論多么聰明,都難以在商業(yè)環(huán)境中獲得信任和廣泛應(yīng)用。

研究團(tuán)隊的工作還揭示了一個重要的設(shè)計原則:在AI系統(tǒng)設(shè)計中,我們不能簡單地假設(shè)AI會自然而然地學(xué)會人類的價值觀和約束意識。就像教育孩子需要明確的規(guī)則和指導(dǎo)一樣,AI系統(tǒng)也需要專門的機(jī)制來確保它們在復(fù)雜的現(xiàn)實環(huán)境中做出負(fù)責(zé)任的決策。

值得注意的是,INTENT系統(tǒng)的設(shè)計哲學(xué)體現(xiàn)了一種"最小干預(yù)"的原則。系統(tǒng)不會改變AI助手的核心能力,而是在關(guān)鍵決策點提供指導(dǎo)和約束。這種設(shè)計既保持了AI系統(tǒng)的靈活性和創(chuàng)造性,又確保了行為的可控性和可預(yù)測性。

從技術(shù)發(fā)展的趨勢來看,這項研究預(yù)示著AI智能體將朝著更加"負(fù)責(zé)任"的方向發(fā)展。未來的AI助手不僅要能夠完成復(fù)雜任務(wù),還要能夠在各種約束條件下做出最優(yōu)決策,就像一個真正的專業(yè)顧問一樣。

研究結(jié)果還顯示了AI系統(tǒng)在動態(tài)環(huán)境中的適應(yīng)能力的重要性。現(xiàn)實世界是不斷變化的,工具的價格會波動,新的工具會出現(xiàn),用戶的需求和預(yù)算也會調(diào)整。一個成功的AI系統(tǒng)必須能夠快速適應(yīng)這些變化,而不是僵化地遵循預(yù)設(shè)的規(guī)則。

說到底,這項研究的核心貢獻(xiàn)在于為AI智能體賦予了"經(jīng)濟(jì)頭腦"。就像培養(yǎng)一個孩子不僅要教會他知識和技能,還要教會他如何合理管理資源一樣,AI智能體也需要學(xué)會在資源約束下做出明智選擇的能力。INTENT系統(tǒng)就是這樣一個"財務(wù)教練",它幫助AI助手從一個只知道完成任務(wù)的"工具"成長為一個懂得權(quán)衡利弊的"伙伴"。

這種能力的重要性會隨著AI技術(shù)的普及而日益凸顯。當(dāng)AI助手開始處理涉及真實經(jīng)濟(jì)后果的決策時,成本意識和風(fēng)險管理能力將成為區(qū)分優(yōu)秀AI系統(tǒng)和普通AI系統(tǒng)的關(guān)鍵標(biāo)準(zhǔn)。研究團(tuán)隊的工作為這個重要方向奠定了堅實的基礎(chǔ),也為后續(xù)的相關(guān)研究開辟了廣闊的空間。

Q&A

Q1:INTENT系統(tǒng)是如何幫助AI智能體控制工具使用成本的?

A:INTENT系統(tǒng)就像給AI配了一個精明的財務(wù)顧問,它包含三個核心組件:意圖預(yù)測器負(fù)責(zé)評估每個操作的必要性和成功概率,條件生成器制定理想情況下的行動計劃,幾何成本校準(zhǔn)器進(jìn)行保守的成本估算。系統(tǒng)會在AI執(zhí)行每個付費(fèi)操作前先預(yù)測整個任務(wù)的成本,確保在預(yù)算范圍內(nèi)完成任務(wù)。

Q2:為什么傳統(tǒng)的AI智能體容易在使用付費(fèi)工具時超支?

A:傳統(tǒng)AI智能體就像沒有金錢概念的孩子,即使被告知有預(yù)算限制,也經(jīng)常會超支。它們通常采用簡單的順序策略,比如先用最貴的工具獲取主要信息,結(jié)果發(fā)現(xiàn)剩余預(yù)算不足以完成整個任務(wù)。更聰明的AI模型雖然超支較少,但往往過于保守,明明有足夠預(yù)算卻不敢花錢,無法充分完成任務(wù)。

Q3:INTENT系統(tǒng)在動態(tài)工具市場中表現(xiàn)如何?

A:INTENT系統(tǒng)展現(xiàn)了出色的適應(yīng)性,就像專業(yè)采購經(jīng)理一樣敏銳。當(dāng)工具價格變化時,傳統(tǒng)基于提示詞的方法表現(xiàn)極不穩(wěn)定,而INTENT能夠靈活調(diào)整策略,選擇性價比更高的替代方案。它還能適應(yīng)新工具的出現(xiàn)和不同的預(yù)算水平,在預(yù)算充足時充分利用資源,在預(yù)算緊張時通過精明配置實現(xiàn)最佳效果。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

小晴星座說
2026-03-14 19:34:17
同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟(jì)醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

新華社
2026-03-14 18:14:07
擊落美軍加油機(jī)?B-1B轟炸機(jī)對伊朗扔炸彈,以色列財長之子受重傷

擊落美軍加油機(jī)?B-1B轟炸機(jī)對伊朗扔炸彈,以色列財長之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒離,畢竟400億資產(chǎn)的男人也不多?。?>
    </a>
        <h3>
      <a href=她果然沒離,畢竟400億資產(chǎn)的男人也不多??! BenSir本色說
2026-03-11 22:06:22
貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺董秘蔣焰嚴(yán)重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟(jì)報道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹(jǐn)慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進(jìn),勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

教育
時尚
手機(jī)
游戲
公開課

教育要聞

“十五五”規(guī)劃綱要明確,有序推進(jìn)小班化教學(xué)

審美提升|| 來和時髦尖子生學(xué)幾招

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

《GTA》歷代開發(fā)成本對比:25年來暴增上百倍!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版