国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)巧用8B模型秒掉GPT-5,開源了

0
分享至

英偉達(dá)端著一個8B小模型對GPT-5說:

不好意思,你還得練(bushi)。

何出此言?——英偉達(dá)攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。



哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。



而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

如何吊打GPT-5?

人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

Orchestrator干的就是這事兒。

雖然自己只有8B參數(shù),但手下管著一整個工具團(tuán)隊。

既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實用小幫手。



它并不是自己解題,而是判斷現(xiàn)在該用哪個工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

  • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
  • 過程中動態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗證?那就先用代碼解釋器跑一遍;
  • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團(tuán)隊干專業(yè)活。



能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達(dá)的ToolOrchestra訓(xùn)練大法。

核心有兩個,一個是有獎有罰的強化學(xué)習(xí),一個是量身定制的ToolScale數(shù)據(jù)集。

訓(xùn)練時給Orchestrator立了三條獎懲規(guī)則:

  • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
  • 效率獎:用的錢少、耗時短加分,反之扣分;
  • 偏好獎:聽用戶的話加分,比如用戶要隱私保護(hù),多用本地搜索就加分。

研究者建了個包含金融、醫(yī)療、電商、旅游等10個領(lǐng)域的訓(xùn)練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

Orchestrator-8B也在權(quán)威測試中交出了令人滿意的答卷。



HLE測試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

小模型的逆襲

實際上,在AI領(lǐng)域工具編排和小模型驅(qū)動復(fù)合系統(tǒng)的賽道上,英偉達(dá)ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

最早探索讓小模型學(xué)會調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會調(diào)用計算器、翻譯API、搜索引擎等基礎(chǔ)工具;

但當(dāng)時,Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫。

MIT和CMU聯(lián)合團(tuán)隊的ToolRL,提出以獎勵為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強化學(xué)習(xí)動態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動生成工具交互軌跡訓(xùn)練模型。

雖然也是獎勵機制,但ToolRL的獎勵函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎(chǔ)工具和專業(yè)API為主。

今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

越來越多的團(tuán)隊在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進(jìn)展。

就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實現(xiàn)「強+省錢」,直接解決了落地時的成本難題。

用低成本實現(xiàn)高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

作者簡介

Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語言處理,現(xiàn)在英偉達(dá)實習(xí)。



共一是英偉達(dá)研究院的研究科學(xué)家Shizhe Diao,主要進(jìn)行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對齊方面的研究,曾與字節(jié)跳動人工智能實驗室的李航博士合作。



論文地址:https://arxiv.org/abs/2511.21689
項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
血債血償!伊朗導(dǎo)彈深夜斬首,以色列心臟被炸,特朗普坐不住了

血債血償!伊朗導(dǎo)彈深夜斬首,以色列心臟被炸,特朗普坐不住了

鐵錘簡科
2026-03-01 23:25:12
顧軍跨省履新遼寧,曾長期在上海工作

顧軍跨省履新遼寧,曾長期在上海工作

上觀新聞
2026-03-02 06:48:09
中國有源相控陣?yán)走_(dá)真實水平:并非世界第一,和美差距有多大

中國有源相控陣?yán)走_(dá)真實水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
B組亂成一鍋粥!中國男籃戰(zhàn)勝中國臺北后,出線生死線全解析

B組亂成一鍋粥!中國男籃戰(zhàn)勝中國臺北后,出線生死線全解析

現(xiàn)代小青青慕慕
2026-03-02 01:45:13
歐盟下禁令,禁止中國機構(gòu)參與930億關(guān)鍵科研項目,包含AI與芯片

歐盟下禁令,禁止中國機構(gòu)參與930億關(guān)鍵科研項目,包含AI與芯片

臨云史策
2026-03-01 14:32:13
汪小菲和張?zhí)m解除母子關(guān)系!馬筱梅在旁煽風(fēng)點火,大S的話沒說錯

汪小菲和張?zhí)m解除母子關(guān)系!馬筱梅在旁煽風(fēng)點火,大S的話沒說錯

山谷里的怒吼
2026-03-02 00:20:27
伊朗前總統(tǒng)內(nèi)賈德身亡細(xì)節(jié):住所遭空襲,和保鏢一同遇害;其以“反美戰(zhàn)士”著稱,任內(nèi)堅定推進(jìn)伊朗核計劃

伊朗前總統(tǒng)內(nèi)賈德身亡細(xì)節(jié):住所遭空襲,和保鏢一同遇害;其以“反美戰(zhàn)士”著稱,任內(nèi)堅定推進(jìn)伊朗核計劃

揚子晚報
2026-03-01 22:28:50
回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

談史論天地
2026-02-28 14:55:57
掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場均7分,想送走他

掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場均7分,想送走他

你的籃球頻道
2026-03-02 08:57:26
炸裂!楊瀚森遭庫明加隔扣!5分鐘1+1慘淡收場,斯帥表情耐人尋味

炸裂!楊瀚森遭庫明加隔扣!5分鐘1+1慘淡收場,斯帥表情耐人尋味

球盲姐
2026-03-02 09:56:12
伊朗或退出2026年世界杯!遞補球隊浮出水面,國際足聯(lián)給出答案

伊朗或退出2026年世界杯!遞補球隊浮出水面,國際足聯(lián)給出答案

十點街球體育
2026-03-01 10:49:34
電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

社會醬
2026-03-01 20:43:29
清華才子遠(yuǎn)赴美國,10年后鉈中毒離奇慘死,兇手身份出人意料

清華才子遠(yuǎn)赴美國,10年后鉈中毒離奇慘死,兇手身份出人意料

一更歷史
2024-03-03 21:15:46
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

帶你感受人間冷暖
2026-02-17 01:00:24
這場戰(zhàn)爭,給世界的五個深刻教訓(xùn)

這場戰(zhàn)爭,給世界的五個深刻教訓(xùn)

牛彈琴
2026-03-02 08:04:13
萬萬沒想到!正月十五還沒到,除雞蛋遇冷外 這5種蔬菜也賣不動了

萬萬沒想到!正月十五還沒到,除雞蛋遇冷外 這5種蔬菜也賣不動了

三農(nóng)雷哥
2026-03-01 18:00:51
2026.3.2【A股早報】:美伊沖突最新進(jìn)展!

2026.3.2【A股早報】:美伊沖突最新進(jìn)展!

旌陽財經(jīng)視角
2026-03-02 06:30:03
再現(xiàn)逆轉(zhuǎn)!中國男籃擊敗中國臺北男籃,世預(yù)賽賽場斬獲連勝

再現(xiàn)逆轉(zhuǎn)!中國男籃擊敗中國臺北男籃,世預(yù)賽賽場斬獲連勝

澎湃新聞
2026-03-01 17:52:27
美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

環(huán)球網(wǎng)資訊
2026-03-02 07:21:11
一個U盤裝走180億,200萬人的血汗錢48小時人間蒸發(fā)

一個U盤裝走180億,200萬人的血汗錢48小時人間蒸發(fā)

流蘇晚晴
2026-03-01 16:54:18
2026-03-02 10:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12211文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

手機
家居
房產(chǎn)
公開課
軍事航空

手機要聞

真·大屏Air:榮耀Magic V6魔改直屏機曝光,重量來到2位數(shù)

家居要聞

素色肌理 品意式格調(diào)

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版