国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福報告:AI透明度集體倒退!IBM奪冠,馬斯克xAI墊底

0
分享至

最近,美國斯坦福大學(xué)等團(tuán)隊發(fā)布了一份名為《2025 年基礎(chǔ)模型透明度指數(shù)》(FMTI,The 2025 Foundation Model Transparency Index)的報告。其中,IBM 以透明度得分最高奪冠,xAI 和 Midjourney 則墊底。

該報告揭示了一種令人擔(dān)憂的趨勢:隨著技術(shù)的發(fā)展,盡管基礎(chǔ)模型在性能等各方面持續(xù)進(jìn)步,但其在數(shù)據(jù)使用、模型訓(xùn)練和下游影響等方面的透明度卻出現(xiàn)了集體倒退。

這是該報告自 2023 年以來發(fā)布的第三個年度版本,就像通過量化透明度為各大基礎(chǔ)模型開發(fā)者做一次“體檢”。

本次評估共包括 13 家基礎(chǔ)模型公司,其中既有阿里巴巴、DeepSeek 和馬斯克的 xAI 等首次納入報告的企業(yè),也有 IBM、OpenAI 等老牌科技巨頭。為使評估更全面,今年的報告中還涵蓋了數(shù)據(jù)獲取、使用數(shù)據(jù)和監(jiān)控等方面的新指標(biāo)。


(來源:The 2025 Foundation Model Transparency Index)

從報告的整體結(jié)果來看,盡管 2024 年報告顯示模型透明度有短暫的改善,但 2025 年的報告指出,透明度指數(shù)正呈現(xiàn)倒退:各基礎(chǔ)模型的平均得分從 2024 年的 58 分下降到 2025 年的 40 分,幾乎與 2023 年報告首次發(fā)布時的水平相當(dāng)(備注:100 分為滿分)。

報告顯示,公司在其旗艦?zāi)P偷挠?xùn)練數(shù)據(jù)、訓(xùn)練計算以及模型部署后的使用和影響方面信息披露最為有限。盡管公司在模型能力評估和風(fēng)險評估方面披露較多,但在方法透明度、第三方參與、可復(fù)現(xiàn)性和訓(xùn)練-測試數(shù)據(jù)重疊報告方面仍存在挑戰(zhàn)。


(來源:The 2025 Foundation Model Transparency Index)

從各公司的表現(xiàn)來看差異明顯,其中 IBM 以 95 分獲得透明度最高得分,xAI 和 Midjourney 得分最低,僅 14 分。中國的兩家公司 DeepSeek 和阿里巴巴在透明度的得分則位于中下游。

可以看到的是,公司特征和透明度指數(shù)在某些程度上存在著一些有趣的關(guān)聯(lián),例如開放模型開發(fā)者、以企業(yè)為中心的 B2B 公司、自行準(zhǔn)備透明度報告的公司以及簽署歐盟 AI 法案通用目的 AI 行為準(zhǔn)則的公司得分高于平均水平。


(來源:The 2025 Foundation Model Transparency Index)

那么,透明度越高就意味著模型越好嗎?

清華大學(xué)邱寒副教授告訴 DeepTech,“這里的透明度不等同于我們常識認(rèn)為的開源,而是由一系列明確的打分表組成的量化指標(biāo)——如果不按照這個指標(biāo)披露相關(guān)的數(shù)據(jù)(而不是什么都沒披露),那么這項指標(biāo)得分就是 0?!?/p>


以阿里巴巴 Qwen 和 DeepSeek 得分均為 0 的使用數(shù)據(jù)、影響、部署后監(jiān)控三項指標(biāo)為例:它們都各自含有更詳細(xì)的評測指標(biāo),得分為 0 并不等于什么都沒有披露,而這些計算指標(biāo)的方法與開源、安全、性能并不能直接劃等號。

需要了解的是,透明或開源也并不意味著模型性能更好。從這份報告來看,透明度得分最高的模型(IBM 的 Granite 3.3),在實際應(yīng)用場景種的性能表現(xiàn)并不是最頂尖的那批模型。

試想一下,如果有一個任務(wù)要做,你是會去選擇微調(diào) Qwen3 或 Claude 的 API,還是會因為透明度得分更高而選擇 Granite 3.3?

邱寒認(rèn)為,透明度是安全的前提,但必須明確不一定是報告中定義的透明:如果公司拒絕披露任何模型生產(chǎn)相關(guān)的信息,比如版權(quán)內(nèi)容、隱私數(shù)據(jù)的濫用確實難以發(fā)掘和確認(rèn);模型的偏見和價值觀更難評測,確實會給安全和治理帶來一定的影響。更糟的是,一旦嚴(yán)重安全事故發(fā)生,還可能引發(fā)更粗暴的安全監(jiān)管策略落地,反而進(jìn)一步限制了大模型技術(shù)的進(jìn)步。

該報告提到,隨著全球政策制定者越來越多地要求某些類型的透明度,這項工作揭示了基礎(chǔ)模型開發(fā)者的當(dāng)前透明度狀態(tài),透明度可能如何變化,以及需要更積極的政策干預(yù)來解決哪些關(guān)鍵信息問題。

正如邱寒所指出的那樣,黑盒模型的評測技術(shù)可以在一定程度上彌補不透明的問題,而當(dāng)前的透明與否也只是暫時狀態(tài)。隨著模型落地的深化和監(jiān)管機(jī)制的完善,最終目標(biāo)是“公司不需完全公開,但模型行為可測、聲明可證、安全可控”。

總之,表面上看公司信息披露程度影響透明度,但本質(zhì)上這需要一種權(quán)責(zé)歸屬的清晰界定。通過這份報告對透明度倒退的警示,我們需要看到,未來需要構(gòu)建一種綜合的激勵機(jī)制,來理解、評估并最終確保模型的安全與可信。

參考資料:

https://arxiv.org/abs/2512.10169

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
三四十元一碗的面,澆頭湯底都是袋裝?和府撈面回應(yīng):材料都是當(dāng)天制作

三四十元一碗的面,澆頭湯底都是袋裝?和府撈面回應(yīng):材料都是當(dāng)天制作

中國能源網(wǎng)
2026-01-07 08:45:05
廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

曉艾故事匯
2024-11-04 10:55:36
Scotto:多隊有意祖巴茨 快船報價至少兩個首輪

Scotto:多隊有意祖巴茨 快船報價至少兩個首輪

北青網(wǎng)-北京青年報
2026-01-07 09:10:14
軍長叫來500士兵砸場,警察局長嚇得直冒冷汗,起因竟是一個杯子

軍長叫來500士兵砸場,警察局長嚇得直冒冷汗,起因竟是一個杯子

朝暮書屋
2024-04-26 17:08:50
烏專家:中國“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

烏專家:中國“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們造出2.0

博覽歷史
2025-12-29 19:26:45
續(xù)約韋世豪解約卡?。∪爻钦佑|拜合拉木,茹薩加盟令周定洋失寵

續(xù)約韋世豪解約卡?。∪爻钦佑|拜合拉木,茹薩加盟令周定洋失寵

刀鋒體育
2026-01-07 13:30:11
“補腦首選”不是核桃,而是它!一天吃幾顆,腦袋聰明,記憶好

“補腦首選”不是核桃,而是它!一天吃幾顆,腦袋聰明,記憶好

江江食研社
2026-01-06 13:30:03
NBA名宿建議火箭交易謝潑德史密斯換特雷楊,球迷:想坑火箭啊

NBA名宿建議火箭交易謝潑德史密斯換特雷楊,球迷:想坑火箭啊

張癈鹵說體育
2026-01-07 13:27:50
張凌赫跨年表演殺穿外網(wǎng):40秒封神背后,爭議與野心并存?

張凌赫跨年表演殺穿外網(wǎng):40秒封神背后,爭議與野心并存?

不甜的李子
2026-01-06 10:45:54
1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

大運河時空
2026-01-06 10:40:03
兩性相處:如果女人不重視你,男人記住這三點,你就贏了

兩性相處:如果女人不重視你,男人記住這三點,你就贏了

張小楠說情感
2026-01-07 13:31:52
明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

長風(fēng)文史
2025-12-18 15:00:28
官宣,國乒教練離隊第1人,56歲,被外協(xié)挖走,曾培養(yǎng)王楚欽莎莎

官宣,國乒教練離隊第1人,56歲,被外協(xié)挖走,曾培養(yǎng)王楚欽莎莎

樂聊球
2026-01-06 12:32:48
TA:曼聯(lián)計劃未來幾天內(nèi)和索爾斯克亞、卡里克分別面談執(zhí)教事宜

TA:曼聯(lián)計劃未來幾天內(nèi)和索爾斯克亞、卡里克分別面談執(zhí)教事宜

畫夕
2026-01-07 14:00:28
“時速高達(dá)185公里”,外媒:日本演員廣末涼子因“過失駕駛致人受傷”,被判罰款70萬日元

“時速高達(dá)185公里”,外媒:日本演員廣末涼子因“過失駕駛致人受傷”,被判罰款70萬日元

環(huán)球網(wǎng)資訊
2026-01-06 15:37:19
1.7五百萬基金|A股突然跳水!大龍今天有加有減!

1.7五百萬基金|A股突然跳水!大龍今天有加有減!

龍行天下虎
2026-01-07 13:57:37
東北供暖危機(jī):80%居民自掏腰包受凍,18℃成笑談!

東北供暖危機(jī):80%居民自掏腰包受凍,18℃成笑談!

劉哥談體育
2026-01-07 13:29:54
正視差距!中國想復(fù)刻美國特種兵“斬首”某島還缺什么?

正視差距!中國想復(fù)刻美國特種兵“斬首”某島還缺什么?

花花娛界
2026-01-05 20:42:58
黃仁勛回應(yīng)H200何時售往中國:正加快生產(chǎn),等待許可的最終細(xì)節(jié)敲定

黃仁勛回應(yīng)H200何時售往中國:正加快生產(chǎn),等待許可的最終細(xì)節(jié)敲定

界面新聞
2026-01-07 10:53:25
許家印被執(zhí)行4700萬

許家印被執(zhí)行4700萬

揚子晚報
2026-01-07 12:43:41
2026-01-07 14:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16087文章數(shù) 514457關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復(fù)

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
公開課
軍事航空

家居要聞

寧靜不單調(diào) 恰到好處的美

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進(jìn)入關(guān)懷版