国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

會議軟件Zoom也來搞AI了,稱在AI最難考試上“擊敗”了Gemini 3

0
分享至

最近,視頻會議軟件公司 Zoom 發(fā)布了一條出人意料的消息:他們宣稱在“人類最后的考試”(Humanity s Last Exam,簡稱 HLE)這個號稱當前 AI 領域最具挑戰(zhàn)性的基準測試上,取得了 48.1% 的成績,比此前由 Google Gemini 3 Pro(帶工具)保持的 45.8% 高出 2.3 個百分點。

這是什么概念?一家做視頻會議起家的 SaaS 公司,跑去和 OpenAI、Anthropic、Google 這些 AI 前沿實驗室在同一張考卷上比分數,而且還贏了(至少按他們自己的說法)。

消息一出,許多人的第一反應是:“誰,Zoom?”甚至有人好奇:“難道 Zoom 現在也是個前沿 AI 實驗室了?”


圖丨相關評論(來源:X)

不過且慢,仔細看看,這個“SOTA”(state-of-the-art,最先進水平)的含金量,恐怕需要打個問號。

先說 HLE 這個基準測試到底是什么。它由 Scale AI 與 Center for AI Safety(CAIS,人工智能安全中心)聯合推出,包含 2,500 道由全球近千位學科專家貢獻的高難度問題,涵蓋數學、物理、生物醫(yī)學、人文社科、計算機科學等數十個領域。

設計初衷是應對“基準飽和”問題:此前流行的 MMLU 等測試,頂級模型早已刷到 90% 以上,區(qū)分度幾乎喪失。HLE 的難度足以讓大多數當前模型的得分停留在個位數到兩位數低端,被稱為“為衡量 AI 進展而設計的最后一道封閉式學術測試”。

那么 Zoom 是怎么做到的?

根據 Zoom 首席技術官黃學東在官方博客中的介紹,核心在于他們的“聯邦 AI 方法”(Federated AI Approach)。這套架構的思路說起來并不復雜:不依賴單一大模型,而是把 Zoom 自研的小型語言模型(SLM,Small Language Model)與 OpenAI、Anthropic、Google 等公司的閉源和開源模型組合起來,通過一套叫做“Z-scorer”的自研評分系統(tǒng)來選擇或精煉不同模型的輸出。

具體到這次 HLE 測試,Zoom 使用了一種名為“探索-驗證-聯邦”(explore–verify–federate)的智能體工作流:不是讓單一模型生成長鏈推理,而是策略性地識別最有價值的推理路徑,再由多個模型通過“辯證協作”來生成、挑戰(zhàn)、修正答案,最終整合全部上下文做出判斷。

所以,Zoom 并沒有從頭訓練自己的前沿模型,只是在現有模型之上做了聚合和腳手架。這次 48.1% 的成績也并未出現在 HLE 官方排行榜上。Scale AI 維護的 HLE 官方榜單上,列出的是各家廠商提交的單一模型成績,而 Zoom 的“聯邦 AI 系統(tǒng)”嚴格來說是一個由多模型協作加自研編排層組成的復合系統(tǒng)。


圖丨在 HLE 全集基準測試上的表現(來源:Zoom)

有評論者直言,這不過是“把問題分發(fā)給三個頂尖模型,榨出幾個百分點的提升,然后宣稱自己達到 SOTA”的策略,確實是創(chuàng)意,但這跟“Zoom AI”本身有多大關系呢?

就在 Zoom 發(fā)布公告的同一天,另一家名為 Sup AI 的初創(chuàng)公司宣布以 52.15% 的準確率超越了所有現有系統(tǒng),同樣采用的是多模型編排方案。HLE 官方排行榜還沒來得及更新,這個“SOTA”就已經易主了??梢娺@種基于工具調用和模型聚合的測試成績,也是一個相當卷的競技場。

那么 Zoom 為什么要做這件事?

要回答這個問題,得先理解 Zoom 這幾年的處境。疫情紅利消退后,這家公司一直在尋找新的增長敘事,而 AI 成了最順理成章的選項,為此,Zoom 挖來在微軟工作 30 余年的黃學東擔任 CTO。


圖丨黃學東(來源:WikiPedia)

2023 年 9 月,Zoom 推出了 AI Companion 功能,提供會議摘要、待辦事項提取、實時問答等能力,并且對原付費用戶免費開放,無需額外加購。

背后支撐這些功能的,正是 Zoom 所謂的聯邦 AI 架構。簡單說,他們不是一味調用最貴的模型來處理所有任務,而是建了一套路由機制:簡單任務交給自研的 20 億參數小模型,復雜任務才調用外部大模型;同時用 Z-scorer 來判斷初次輸出的質量,如果不達標再讓第二個模型來修正。這樣一來,每次 API 調用的平均成本就被壓下來了。Zoom 自己在 2023 年底宣稱,這套方案能以 GPT-4 約 6% 的推理成本達到接近的輸出質量。

2024 年起,Zoom 進一步深化了這個思路。今年 10 月,他們與 NVIDIA 合作,把 Nemotron 推理模型接入了聯邦架構,并且自研了一個 490 億參數的中等規(guī)模 LLM。盡管規(guī)模不大,但足以在其所涉及的企業(yè)協作場景里把事情干得更穩(wěn)、更快、更便宜。

這其實也是 2024 年以來企業(yè) AI 領域一個越來越清晰的趨勢。對于絕大多數 SaaS 公司來說,從頭訓練一個前沿大模型既不現實也沒必要。于是,它們面臨兩條路:要么深度綁定某一家大模型廠商,要么走多模型編排路線,在上層建立自己的調度和優(yōu)化能力。

Zoom 選擇了后者,而且走得相當激進。它不僅同時接入 OpenAI 和 Anthropic 的模型,還自研了用于特定任務的小模型,再加上 Perplexity 提供的網絡搜索能力。這套架構的好處是靈活:新模型出來了可以快速接入,不同任務可以選用最合適的模型,成本也可以通過靈活的策略來控制。

所以,與其說 Zoom“戰(zhàn)勝”了 OpenAI 和 Google,不如說他們驗證了另一條路徑的可行性:不造巨型模型,而是做好模型的調度和協同。

誰能把不同模型、工具調用、企業(yè)數據與工作流拼成穩(wěn)定、可控、高質量的生產力輸出,誰就能在企業(yè)市場占據優(yōu)勢。這和微軟 CEO 納德拉提出的“AI 成為業(yè)務應用的邏輯編排層”思路一致,也類似于 Salesforce 試圖通過 Agentforce 把 AI Agent 深度嵌入 CRM 流程的策略。

只不過,微軟背后有 Azure 和 OpenAI,Salesforce 有自己的 Data Cloud 和收購來的技術資產,而 Zoom 的護城河主要在于它龐大的會議用戶基礎和對“會議場景”的深度理解。

這家公司在 2025 年 9 月的 Zoomtopia 大會上正式發(fā)布了 AI Companion 3.0,主打智能體 AI(Agentic AI)能力:不僅能總結會議、提取待辦事項,還能主動分析日程、自動安排會議、跨平臺(包括 Microsoft Teams 和 Google Meet)抓取信息、與 ServiceNow 等第三方 Agent 協作。黃學東將其定位為從“被動助手”到“主動協作者”的躍遷。

按 Zoom 的說法,這套系統(tǒng)底層依然是聯邦多模型架構,前端則通過統(tǒng)一的 AI Companion 入口呈現給用戶。

這意味著什么?意味著 Zoom 正在把 AI 能力從單點功能升級為平臺級服務。它不再滿足于“幫你總結會議”,而是試圖成為企業(yè)工作流中的 AI 中樞,一個能夠理解上下文、調用多種模型和工具、在不同應用間穿梭執(zhí)行任務的智能層。這和微軟、Salesforce、ServiceNow 等巨頭的愿景高度重合,只不過各家的起點和路徑不同。

在大模型能力快速商品化的背景下,差異化競爭的焦點正在向“編排能力”和“場景整合能力”轉移。訓練一個萬億參數的基礎模型需要數億美元和數萬塊 GPU,這注定是少數玩家的游戲;但如何把現有模型用好、用對、用便宜,這是每一家企業(yè)軟件公司都可以、也必須認真思考的問題。Zoom 的聯邦 AI 路線,本質上是對后一個問題的回答。

參考資料:

1.https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social

2.https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/?utm_source=social&utm_medium=organic-social&DeviceId=92a0a21e-4914-432c-b54c-91f0bcba09eb&SessionId=1765775112166

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國務院暫不允許貸款利息抵稅,但仍存想象空間

國務院暫不允許貸款利息抵稅,但仍存想象空間

第一財經資訊
2026-01-08 14:36:08
人口學家梁建章警告:如果不盡早干預,40年后印度人口將是中國3倍

人口學家梁建章警告:如果不盡早干預,40年后印度人口將是中國3倍

豐譚筆錄
2026-01-08 00:08:41
潘石屹再次預判樓市,不出意外的話,未來3年樓市將迎來3大走向

潘石屹再次預判樓市,不出意外的話,未來3年樓市將迎來3大走向

小裝修
2026-01-06 09:37:06
女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

第7情感
2025-09-17 12:12:15
中國統(tǒng)治越南一千多年,為何都不能同化越南?看完就明白了

中國統(tǒng)治越南一千多年,為何都不能同化越南?看完就明白了

大千世界觀
2026-01-07 19:55:56
杜致禮有多美?1956年和楊振寧舊金山留影,充滿魅力比明星還漂亮

杜致禮有多美?1956年和楊振寧舊金山留影,充滿魅力比明星還漂亮

萬物知識圈
2026-01-08 09:18:51
5.05億!富安娜總部大廈項目開工!

5.05億!富安娜總部大廈項目開工!

GA環(huán)球建筑
2026-01-07 22:10:52
2025年,內娛最賺錢的10位明星,劉德華第四,第一名讓人意外

2025年,內娛最賺錢的10位明星,劉德華第四,第一名讓人意外

林雁飛
2026-01-06 13:15:06
500志愿軍夜襲迷路,陷入6000英軍重圍,絕望之時三營長創(chuàng)造奇跡

500志愿軍夜襲迷路,陷入6000英軍重圍,絕望之時三營長創(chuàng)造奇跡

云霄紀史觀
2026-01-08 09:25:56
這和“真空”有啥區(qū)別,章子怡大膽穿衣,卻沒贏過保守的蔣勤勤

這和“真空”有啥區(qū)別,章子怡大膽穿衣,卻沒贏過保守的蔣勤勤

黃小仙的搞笑視頻
2025-12-27 16:10:37
揭秘尼姑庵的黑暗面:尼姑平均年齡不到25,香客人來人往究竟為何

揭秘尼姑庵的黑暗面:尼姑平均年齡不到25,香客人來人往究竟為何

豐譚筆錄
2026-01-06 11:40:49
Kpler:“索菲亞”號油輪載有200萬桶自委內瑞拉港口裝載的原油

Kpler:“索菲亞”號油輪載有200萬桶自委內瑞拉港口裝載的原油

新浪財經
2026-01-08 00:29:33
格陵蘭島除了大,還有啥?

格陵蘭島除了大,還有啥?

娛樂洞察點點
2026-01-08 02:05:32
廣東3消息!杜鋒罵哭王洪澤,徐杰賽后霸氣發(fā)聲,王少杰最新傷情

廣東3消息!杜鋒罵哭王洪澤,徐杰賽后霸氣發(fā)聲,王少杰最新傷情

多特體育說
2026-01-08 00:41:13
72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
“一個杯子開15次會”?小米徐潔云:至少開了16次

“一個杯子開15次會”?小米徐潔云:至少開了16次

三言科技
2026-01-07 22:29:04
老家河南:一家五個孩子,其中四個離婚了,離婚理由都令人無法反駁

老家河南:一家五個孩子,其中四個離婚了,離婚理由都令人無法反駁

救贖之旅
2026-01-07 07:06:32
火箭1分惜敗直落西部第6!火蜜直言難受 隊記:連輸6支弱旅真有趣

火箭1分惜敗直落西部第6!火蜜直言難受 隊記:連輸6支弱旅真有趣

顏小白的籃球夢
2026-01-08 14:11:06
壽司郎盤子里為什么總有一片葉子?

壽司郎盤子里為什么總有一片葉子?

有意思報告
2026-01-07 19:44:40
一種“新型養(yǎng)老”出現了:既不雇保姆也不去養(yǎng)老院,還不拖累子女

一種“新型養(yǎng)老”出現了:既不雇保姆也不去養(yǎng)老院,還不拖累子女

黃家湖的憂傷
2025-08-19 16:54:53
2026-01-08 17:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16095文章數 514462關注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

藝術
親子
旅游
本地
公開課

藝術要聞

頤和園金光穿洞

親子要聞

投資幾十萬讓娃3歲學英語,值不值?

旅游要聞

平遙古城“低價票”調查:網售假證件何以順利闖關8個景點?丨封面深鏡

本地新聞

1986-2026,一通電話的時空旅程

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版