国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

破防了!全球頂尖AI慘敗,人類最后防線竟是「重啟試試」?

0
分享至


新智元報(bào)道

編輯:元宇 好困

【新智元導(dǎo)讀】大模型能寫代碼、聊八卦,但敢不敢讓它直接接管網(wǎng)絡(luò)運(yùn)維?一項(xiàng)最新評測顯示,面對真實(shí)網(wǎng)絡(luò)故障,頭部模型平均準(zhǔn)確率竟不足50%!為此,GSMA聯(lián)手全球巨頭開啟「地獄級」難度挑戰(zhàn)賽,通往MWC 2026的門票已備好,3.5萬歐元大獎等你來拿!

大模型的效用價值正處在從「做試卷」向「干實(shí)活」轉(zhuǎn)變的深刻變革期。

當(dāng)業(yè)界目光從聊天機(jī)器人(Chatbot)轉(zhuǎn)向智能體(Agent),在現(xiàn)實(shí)網(wǎng)絡(luò)作業(yè)的復(fù)雜場景下,現(xiàn)有的大模型表現(xiàn)與其在基準(zhǔn)Benchmark的表現(xiàn)大相徑庭。


GSMA(全球移動通信系統(tǒng)協(xié)會)連同ITU、ETSI、IEEE、TM Forum等電信行業(yè)權(quán)威組織,正式發(fā)起AITelco Troubleshooting Challenge(全球電信AI故障排查挑戰(zhàn)賽)。

這種跨標(biāo)準(zhǔn)組織、跨地域的合作極其罕見,彰顯了該賽事的權(quán)威性。


這是一場邁向網(wǎng)絡(luò)智能體的終極實(shí)驗(yàn)。

截至當(dāng)前,該項(xiàng)賽事已吸引來自全球超過1000+支隊(duì)伍參賽,受到產(chǎn)學(xué)研各界的廣泛關(guān)注。

智能體能力的提升,已成為大模型在垂直領(lǐng)域大規(guī)模應(yīng)用的關(guān)鍵賽點(diǎn)。

全球精英同臺競技,你準(zhǔn)備好了嗎?


為什么這可能是今年最「硬核」的AI賽事


范式躍遷

從「懂行」到「能干」的跨越

電信行業(yè)是人類歷史上構(gòu)建的最為復(fù)雜的工程系統(tǒng)之一。

現(xiàn)代通信網(wǎng)絡(luò)涉及從無線接入網(wǎng)、傳輸網(wǎng)到核心網(wǎng)的端到端協(xié)同,包含數(shù)以萬計(jì)的配置參數(shù)、毫秒級的信令交互以及海量的多模態(tài)日志數(shù)據(jù)。

長期以來,運(yùn)營商一直致力于通過自動化技術(shù)降低運(yùn)維成本,提升網(wǎng)絡(luò)韌性。

具備強(qiáng)大推理與代碼生成能力的大語言模型,被視為解決這一困境的銀彈。

理論上,LLM可以閱讀數(shù)百萬頁的技術(shù)標(biāo)準(zhǔn)(3GPP、ETSI等),理解復(fù)雜的網(wǎng)絡(luò)拓?fù),甚至像資深工程師一樣進(jìn)行故障排查。

然而,現(xiàn)實(shí)與理想之間存在著巨大的「準(zhǔn)確性鴻溝」。

隨著AI向垂直領(lǐng)域縱深發(fā)展,電信行業(yè)正經(jīng)歷從網(wǎng)絡(luò)優(yōu)化到客戶服務(wù)的全方位智能化轉(zhuǎn)型。

盡管全球運(yùn)營商已斥資數(shù)十億美元進(jìn)軍AI,但至今未出現(xiàn)一款「一騎絕塵」的殺手級應(yīng)用。

原因在于電信領(lǐng)域的高門檻低容錯

  • 知識壁壘模型需理解復(fù)雜的協(xié)議原理、計(jì)費(fèi)結(jié)構(gòu)、網(wǎng)絡(luò)切片及擁塞控制。

  • 風(fēng)險(xiǎn)極高一個錯誤的配置指令,可能導(dǎo)致地區(qū)級網(wǎng)絡(luò)癱瘓。

此前網(wǎng)絡(luò)領(lǐng)域的相關(guān)評測往往聚焦于靜態(tài)問答,忽略了智能體在真實(shí)網(wǎng)絡(luò)環(huán)境中的表現(xiàn)。

本次挑戰(zhàn)賽旨在打破這一瓶頸,依托GSMA Open-Telco LLM Benchmarks,尋找真正能「讀取日志、分析原因、生成配置、下發(fā)指令、修復(fù)網(wǎng)絡(luò)」的自主智能體。


權(quán)威標(biāo)尺

GSMA Open-Telco Benchmarks

本次大賽的底座——GSMA Open-Telco LLM Benchmarks,是由GSMA Foundry發(fā)起,AT&T、中國電信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球頂級運(yùn)營商,以及華為、Hugging Face、哈利法大學(xué)(Khalifa University)等技術(shù)伙伴共同構(gòu)建的產(chǎn)業(yè)級大模型評價基準(zhǔn)。

其目標(biāo)是建立一個透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營挑戰(zhàn)的評估框架

它經(jīng)歷了兩大階段的迭代:

1.0階段(Proof of Concept)

集中在通用的電信知識問答上的通用能力。

驗(yàn)證通用大模型在電信行業(yè)的獨(dú)特需求下的滿足度,即在高度專業(yè)化的工業(yè)場景中,通用推理能力無法替代領(lǐng)域知識。

2.0階段(Operational Realism)

引入了更為嚴(yán)苛和務(wù)實(shí)的評估標(biāo)準(zhǔn),來自12家運(yùn)營商貢獻(xiàn)了多個具體的真實(shí)用例,涵蓋了從RAN優(yōu)化、網(wǎng)絡(luò)預(yù)測到客戶支持的八大戰(zhàn)略領(lǐng)域。

不僅關(guān)注模型「懂不懂知識」,更關(guān)注模型「能不能干活」,即在網(wǎng)絡(luò)故障定位、通信協(xié)議分析、網(wǎng)絡(luò)配置生成等生產(chǎn)環(huán)節(jié)的表現(xiàn)。

這是目前行業(yè)內(nèi)最透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營挑戰(zhàn)的評估框架。

豐厚激勵

決戰(zhàn)MWC 2026


賽程與賽制

本次挑戰(zhàn)賽官方提供算力資源供參賽隊(duì)伍部署訓(xùn)練模型,并挑選不同參數(shù)規(guī)模的模型以適配未來在端側(cè)和云端不同的消費(fèi)需求。

挑戰(zhàn)賽問題包含了網(wǎng)絡(luò)故障定位和網(wǎng)絡(luò)運(yùn)維任務(wù),為滿足運(yùn)營商降低網(wǎng)絡(luò)故障(無論是硬件故障還是軟件配置錯誤)的運(yùn)營成本訴求,參賽者需要通過微調(diào)構(gòu)建電信領(lǐng)域?qū)S心P停瑥亩诰W(wǎng)絡(luò)故障根因作業(yè)中輔助網(wǎng)絡(luò)工程師。

然而,構(gòu)建能夠泛化到未知故障、新的數(shù)據(jù)分布和全新的網(wǎng)絡(luò)環(huán)境,同時還能在資源受限的邊緣服務(wù)器上高效運(yùn)行的模型,仍然是一個巨大的挑戰(zhàn)。


根據(jù)使用的基座模型區(qū)別,參賽者將在以下三個賽道中展開角逐,每類產(chǎn)生一支冠軍隊(duì)伍:

  • 最佳云模型(LLM)挑戰(zhàn)大規(guī)模參數(shù)模型在復(fù)雜邏輯下的推理極限。

  • 最佳邊緣模型(SLM)探索輕量化模型在邊緣側(cè)的高效部署與決策。

  • 最佳推理模型聚焦故障定位、告警分析與自動化修復(fù)的準(zhǔn)確性。

獲勝者不僅能獲得豐厚的現(xiàn)金獎勵,更將獲得全球頂級的展示舞臺:

  • 現(xiàn)金大獎瓜分3.5萬歐元(約合人民幣27萬元)獎金池。

  • 直通巴塞羅那:獲獎團(tuán)隊(duì)代表將獲得全額資助(機(jī)票+住宿),前往MWC Barcelona 2026(世界移動通信大會)現(xiàn)場領(lǐng)獎!在全球數(shù)十萬行業(yè)精英面前展示你的方案。

  • 頂會加持:冠軍方案有機(jī)會被推薦至IEEE ICMLCN 2026(阿布扎比)發(fā)表,科研KPI直接拉滿。

  • 全球曝光:獲勝模型將登頂Hugging Face的GSMA Benchmark榜單,獲得ITU「AI for Good」項(xiàng)目的官方認(rèn)證。


5G路測日志故障定位

該任務(wù)數(shù)據(jù)集使用GSMA Open Telco Benchmark 2.0中未公開的TeleLogs特定競賽版本,通過兩階段分別發(fā)布競賽題,防止早期過擬合。

大模型需要在真實(shí)的5G路測日志、工參等信息中,定位配置錯誤或網(wǎng)絡(luò)問題,重點(diǎn)考察其在電信推理任務(wù)-網(wǎng)絡(luò)故障根因分析的基礎(chǔ)能力,需要模型具備「物理世界的直覺」。

賽題設(shè)置:

通過兩階段分開分布賽題,支撐對作品模型的泛化性能力評估,預(yù)防過擬合結(jié)果:

第一階段:該階段公布一部分比賽用例,支撐參賽人員研究并查看初步結(jié)果;

第二階段:剩余問題將于挑戰(zhàn)截止日期前兩周公布,綜合評估在更廣泛網(wǎng)絡(luò)問題中模型推理能力。

核心評估指標(biāo):

Pass@1:衡量模型在單次嘗試中得出正確答案的能力。其計(jì)算方法是分別評估生成的4個答案,然后對所有樣本的正確率取平均值;

綜合能力評估:未預(yù)防模型在專有任務(wù)的過擬合,模型的最終評估將在涵蓋保持通用知識準(zhǔn)確性的能力。即判分評測集將包含網(wǎng)絡(luò)故障數(shù)據(jù)(與公開案例不同的數(shù)據(jù)分布)以及通用知識問題。

??難度預(yù)警:

在最新的海外廠商測試中,Agent類挑戰(zhàn)任務(wù)使用閉源模型的最好表現(xiàn)不足50%,這意味著,目前的通用大模型距離成為「可靠的網(wǎng)絡(luò)工程師」,仍有很長的路要走。


One More Thing

Agent挑戰(zhàn)賽即將開啟

除了面向網(wǎng)絡(luò)故障的定位任務(wù),GSMA AI挑戰(zhàn)賽的下一跳為限時條件下的智能體任務(wù)。

在網(wǎng)絡(luò)運(yùn)維場景中,通過深度模擬高度還原的企業(yè)級數(shù)據(jù)中心組網(wǎng)環(huán)境,競賽系統(tǒng)會通過動態(tài)注入技術(shù),隨機(jī)產(chǎn)生異常波動與突發(fā)故障,模擬出真實(shí)生產(chǎn)環(huán)境中的各種不確定性。

開發(fā)者可以通過訓(xùn)練模型、設(shè)計(jì)并實(shí)現(xiàn)智能體完成真實(shí)網(wǎng)絡(luò)運(yùn)維業(yè)務(wù)場景的關(guān)鍵難題,系統(tǒng)將針對每類問題生成獨(dú)立的任務(wù)環(huán)境,涵蓋多家網(wǎng)絡(luò)服務(wù)廠商的真實(shí)問題分布,最終以步驟級推理和最終結(jié)果進(jìn)行打分,深度評估Agent在應(yīng)對復(fù)雜網(wǎng)絡(luò)問題時的邏輯推理能力與自動化處置效能。

而將Agent置于復(fù)雜的拓?fù)浣Y(jié)構(gòu)與動態(tài)流量之中,這種全鏈路、高壓力的場景設(shè)定,旨在使參賽智能體需像資深運(yùn)維專家一樣,不僅要理解深厚的網(wǎng)絡(luò)協(xié)議知識,更要在海量告警的干擾下精準(zhǔn)完成告警相關(guān)性分析,并迅速給出網(wǎng)絡(luò)還原策略,即自主完成網(wǎng)絡(luò)還原、故障定位與修復(fù)。

在效能考核上,競賽制定了「準(zhǔn)確性(Correctness)」與「速度(Speed)」并重的雙重評價體系,旨在深度挖掘Agent在復(fù)雜網(wǎng)絡(luò)環(huán)境下發(fā)現(xiàn)并修復(fù)故障的實(shí)戰(zhàn)潛力。

相關(guān)任務(wù)敬請期待~


重構(gòu)運(yùn)營模式

構(gòu)建「網(wǎng)絡(luò)生命體」


AI Telco Troubleshooting Challenge系列賽事不僅是一場技術(shù)競賽,更是電信運(yùn)營模式重構(gòu)的開始。

電信領(lǐng)域的AGI愿景,是構(gòu)建一個能夠自我感知、自我決策、乃至自我進(jìn)化的「網(wǎng)絡(luò)生命體」。

構(gòu)建電信領(lǐng)域?qū)S迷u測基準(zhǔn)不僅是技術(shù)發(fā)展的必然要求,更是推動產(chǎn)業(yè)智能化升級的戰(zhàn)略支點(diǎn),為破解垂直領(lǐng)域AI評估難題提供了可復(fù)制的范式。

本次挑戰(zhàn)賽預(yù)示著電信運(yùn)營模式的根本性重構(gòu),降低風(fēng)險(xiǎn)并加速人工智能在電信行業(yè)的應(yīng)用,形成「技術(shù)-場景-商業(yè)」閉環(huán),實(shí)現(xiàn)AI從「可用」到「可信」的質(zhì)變,推動「工程師」角色的深刻變革。

立即報(bào)名

挑戰(zhàn)SOTA

無論你是來自高校的科研狂人,還是大廠的算法大神,這場「電信界的究極挑戰(zhàn)」都不容錯過。

立即訪問官網(wǎng)報(bào)名:https://telcoai-competition.bluescarf.ai/

截止時間以官網(wǎng)公布信息為準(zhǔn)。

最新挑戰(zhàn)賽的詳細(xì)安排也將在大賽官網(wǎng)陸續(xù)更新,敬請期待!

二維碼快速報(bào)名:


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國際金價首破5100美元大關(guān),黃金珠寶門店:一口價金飾品甚至來不及改價!

國際金價首破5100美元大關(guān),黃金珠寶門店:一口價金飾品甚至來不及改價!

上觀新聞
2026-01-27 10:39:07
沖上熱搜!“昨天剛買,今天就降價2000元”,iPhone Air大降價,很多人破防:離譜

沖上熱搜!“昨天剛買,今天就降價2000元”,iPhone Air大降價,很多人破防:離譜

大風(fēng)新聞
2026-01-27 08:14:16
火爆硅谷的Clawdbot,48小時插件病毒式裂變,一句話讓AI執(zhí)行任務(wù)

火爆硅谷的Clawdbot,48小時插件病毒式裂變,一句話讓AI執(zhí)行任務(wù)

DeepTech深科技
2026-01-26 13:36:21
真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

真實(shí)事件!普京女婿被俄羅斯億萬富翁欺負(fù),普京助理找上門

馬爾科故事會
2024-11-05 13:56:12
張?zhí)m帶孫子孫女溜冰!小玥兒想媽媽心事重重,小箖箖摔跤逗笑姐姐

張?zhí)m帶孫子孫女溜冰!小玥兒想媽媽心事重重,小箖箖摔跤逗笑姐姐

離離言幾許
2026-01-25 18:27:11
1958年,劉亞樓直言不諱道:空軍的事都是我說了算,毛主席聽罷當(dāng)即表態(tài):那就讓他說了算

1958年,劉亞樓直言不諱道:空軍的事都是我說了算,毛主席聽罷當(dāng)即表態(tài):那就讓他說了算

文史明鑒
2026-01-26 17:50:24
美專家:中國兩艘航母都不行!但福建艦扼殺了美日最后一絲希望

美專家:中國兩艘航母都不行!但福建艦扼殺了美日最后一絲希望

顧史
2026-01-23 20:41:45
我買了5600元的年貨,被二婚丈夫扇了一巴掌:就你會花錢

我買了5600元的年貨,被二婚丈夫扇了一巴掌:就你會花錢

船長與船1
2026-01-27 09:41:38
1951年,戴笠獨(dú)子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

1951年,戴笠獨(dú)子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

古書記史
2025-12-11 17:37:45
江蘇一男子花50萬向老同學(xué)購買“內(nèi)部黃金”,每克僅100元?到手發(fā)現(xiàn)88%成分是銅

江蘇一男子花50萬向老同學(xué)購買“內(nèi)部黃金”,每克僅100元?到手發(fā)現(xiàn)88%成分是銅

揚(yáng)子晚報(bào)
2026-01-27 09:41:43
休媒熱議申京17中15:創(chuàng)4紀(jì)錄比肩大夢 聯(lián)盟前5中鋒 火箭非賣品

休媒熱議申京17中15:創(chuàng)4紀(jì)錄比肩大夢 聯(lián)盟前5中鋒 火箭非賣品

顏小白的籃球夢
2026-01-27 12:15:01
請做好失業(yè)準(zhǔn)備,2026世界即將變天!

請做好失業(yè)準(zhǔn)備,2026世界即將變天!

水木然
2026-01-26 22:10:34
瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書記史
2026-01-06 16:31:56
央視發(fā)聲后,新華社點(diǎn)評李亞鵬更“猛”,真正道出了老百姓的心聲

央視發(fā)聲后,新華社點(diǎn)評李亞鵬更“猛”,真正道出了老百姓的心聲

娛樂故事
2026-01-26 17:22:02
張雨綺假雙胞胎騙局被拆穿?疑似在美國代孕,親身產(chǎn)子湊數(shù)

張雨綺假雙胞胎騙局被拆穿?疑似在美國代孕,親身產(chǎn)子湊數(shù)

社會醬
2026-01-26 17:51:52
Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

洲洲影視娛評
2026-01-27 12:08:04
澳洲塔斯馬尼亞島面積約等于海南島的兩倍,但為啥這么沒存在感?

澳洲塔斯馬尼亞島面積約等于海南島的兩倍,但為啥這么沒存在感?

向航說
2026-01-27 09:30:03
公司一把手裁員能多隨便?網(wǎng)友:西安一家電纜公司才是裁員天花板

公司一把手裁員能多隨便?網(wǎng)友:西安一家電纜公司才是裁員天花板

帶你感受人間冷暖
2026-01-25 00:05:08
兩種葬禮,兩種人生,梁小龍和吳孟達(dá)的身后事,差距真是一目了然

兩種葬禮,兩種人生,梁小龍和吳孟達(dá)的身后事,差距真是一目了然

喜歡歷史的阿繁
2026-01-27 13:15:21
李思思現(xiàn)身邢臺主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

李思思現(xiàn)身邢臺主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

小娛樂悠悠
2026-01-26 11:36:45
2026-01-27 13:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14422文章數(shù) 66543關(guān)注度
往期回顧 全部

科技要聞

理想開始關(guān)店“過冬”,否認(rèn)“百家”規(guī)模

頭條要聞

寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

頭條要聞

寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

體育要聞

帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊(duì)魂

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財(cái)經(jīng)要聞

金價狂飆 “牛市神話”未完待續(xù)

汽車要聞

劍指小米YU7與特斯拉Model Y 問界M6要來了?

態(tài)度原創(chuàng)

教育
時尚
家居
親子
數(shù)碼

教育要聞

為什么背單詞刷題幾輪,高三英語成績還是70多?從3個方面破解

降溫了!羽絨服這樣穿顯瘦又時髦

家居要聞

現(xiàn)代古典 中性又顯韻味

親子要聞

9歲孩子從外面回到家,主動推開母親房間門,無意間拍到這樣一幕

數(shù)碼要聞

蘋果M4 Max秀肌肉:非原生運(yùn)行卡普空3A游戲大作狂飆近100幀

無障礙瀏覽 進(jìn)入關(guān)懷版