国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型黑箱被撬開:MIT華人聯(lián)創(chuàng),造出能追溯思考過程的大模型

0
分享至

大模型的黑箱問題有解了?2 月 23 日,三名 MIT 博士在美國舊金山創(chuàng)辦的 Guide Labs 初創(chuàng)公司開源了一個 80 億參數(shù)的語言模型 Steerling-8B。它最特別的地方在于,所生成的每一個詞都可以追溯到三個源頭:輸入了哪些提示詞、動用了哪些概念、參考了哪些訓練數(shù)據(jù)。之所以能做到這些,是因為 Guide Labs 在設計之初就給模型 Steerling-8B 事先埋了功能。


(來源:Guide Labs)

創(chuàng)始團隊的三個人在 AI 領域已經(jīng)泡了十幾年。

Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學學習機械工程,后來在麻省理工學院拿了三個學位。2017 年他在谷歌做 AI 研究院,隨后進入基因泰克子公司 Prescient Design 做數(shù)據(jù)科學。他的博士論文研究方向就是調試機器學習模型的工具,2018 年他那篇被廣泛引用的論文證明了一個結論:現(xiàn)有的深度學習模型解釋方法根本不可靠。


圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來源:領英)

Guide Labs 的首席科學家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學帕克分校拿的計算機科學博士,在 NeurIPS、ICLR 這些頂級會議上發(fā)了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導訓練來提升深度學習解釋性,同時還建立了一套時間序列數(shù)據(jù)的解釋性評估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來源:領英)

第三位聯(lián)合創(chuàng)始人富爾頓·王(Fulton Wang)是麻省理工學院計算機科學博士,2015 年拿過美國統(tǒng)計協(xié)會統(tǒng)計學習與數(shù)據(jù)挖掘分會的最佳學生論文獎。


圖 | 富爾頓·王(Fulton Wang)(來源:領英)

這三個人湊在一起就是希望解決同一個問題:如何讓 AI 的解釋變得可信。

當前市面上流行的方法,就像給一個陌生人做腦部掃描,試圖通過觀察這個人的神經(jīng)活動來推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經(jīng)科學。但 Guide Labs 換了個思路,他們放棄從外部解讀的方法,轉而從內部設計。也就是從一開始就把模型架構做成可解釋的,讓每一層計算都留下痕跡。

他們在模型里嵌入了一個概念層,相當于給數(shù)據(jù)分了類,貼上了可追溯的標簽。這個層里有大約 3.3 萬個已知概念,是人工預先標注好的,比如基因編輯、量子計算這些話題。還有大約 10 萬個發(fā)現(xiàn)概念,是模型自己在訓練過程中學會的。


(來源:Guide Labs)

當你讓 Steerling-8B 生成一段文字,它輸出的每一個詞塊,都可以點開并查看以下三張清單。第一張清單是輸入特征歸因,會告訴你這個詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會列出它動用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓練數(shù)據(jù)歸因,會告訴你這個詞涉及的概念主要來自哪些訓練數(shù)據(jù)源,比如是來自 arXiv、維基百科還是 FLAN 數(shù)據(jù)集。

這意味著如果模型輸出了一段涉及版權的內容,你可以直接追溯到是哪篇訓練文章影響了它。如果模型在回答醫(yī)療問題時表現(xiàn)得有偏見,你可以查看到底是哪些概念在起作用,然后就能精準關掉那個概念的開關。

說到開關,這個模型還有一個能力叫做概念控制。你在推理的時候,可以手動放大或者壓制某個概念的影響,不需要重新訓練模型。比如說你想讓回答更專業(yè)一點,就把“專業(yè)”這個概念對應的向量調大。再比如你想避免模型談論暴力,就把“暴力”概念的權重調低。Guide Labs 稱,這相當于使用幾十個概念的調節(jié),取代了以往需要成千上萬條安全訓練數(shù)據(jù)才能做到的護欄效果。

在性能上,Steerling-8B 訓練使用了 1.35 萬億個 tokens,在各種基準測試上的表現(xiàn)和使用了 2 到 7 倍數(shù)據(jù)量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻來自概念層,而不是其他通道。這意味著模型的預測確實是沿著概念走的,而不是表面上給個解釋、暗地里使用其他方式干活。


(來源:Guide Labs)

要想驗證這一點其實很簡單:把其他通道關掉,看看模型還能不能正常工作。Guide Labs 的測試結果顯示,在各種任務上性能變化很小,這反過來證明了模型主要依靠概念在運轉。

阿德巴約告訴媒體,把可解釋性做進模型的基因里,對于人類來說是一件長期的好事。據(jù)了解,Guide Labs 于 2024 年浮出水面,當時從 Initialized Capital 拿了 900 萬美元種子輪融資,阿德巴約也是 Y Combinator 的畢業(yè)生。這次開源的 Steerling-8B 是他們目前為止最大的概念驗證。下一步,他們打算做更大的模型,并將開放 API 接口讓更多人用上這套可追溯的 AI 系統(tǒng)。


(來源:Guide Labs)

Guide Labs 也在公司官網(wǎng)的博客里介紹了一些接下來要深挖的方向:概念控制、概念發(fā)現(xiàn)、無需微調的對齊、訓練數(shù)據(jù)溯源,這些目標的每一條背后都用論文支撐,有的是幾年前發(fā)的,有的是剛發(fā)的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

七年前,阿德巴約在麻省理工學院寫博士論文的時候,開頭第一句話大意是隨著機器學習系統(tǒng)部署到越來越多的高風險領域,確保它們可靠、公平、安全變得至關重要。但是,如果沒有有效工具來理解這些系統(tǒng)為何做出某個決定,這些目標就很難實現(xiàn)。

現(xiàn)在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問題,每個解釋也不是完美無缺的,但它證明了這樣一條走得通的新路,那就是對著 AI 黑箱瞎猜是不行的,要在一開始就給黑箱安個燈。

參考資料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

軟件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
法國表示“準備參與”海灣國家的防御行動

法國表示“準備參與”海灣國家的防御行動

財聯(lián)社
2026-03-02 17:28:08
羅永浩不知要卸妝一年沒卸 結果長了黃褐斑 現(xiàn)狀已失控

羅永浩不知要卸妝一年沒卸 結果長了黃褐斑 現(xiàn)狀已失控

快科技
2026-03-02 09:27:07
560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

560名美軍傷亡,航母挨炸,美國后院起火,特朗普算錯一件事!

董董歷史燴
2026-03-02 15:16:56
起始價55.64億元,上海上架2宗宅地

起始價55.64億元,上海上架2宗宅地

財聞
2026-03-02 14:52:01
不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭

不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭

扶蘇聊歷史
2025-12-21 06:35:03
“重大作戰(zhàn)”,要打多久?

“重大作戰(zhàn)”,要打多久?

中國新聞周刊
2026-02-28 20:19:57
汪小菲和張?zhí)m矛盾升級!張?zhí)m哭完不敢對鏡頭,大S當年真沒說錯他

汪小菲和張?zhí)m矛盾升級!張?zhí)m哭完不敢對鏡頭,大S當年真沒說錯他

夏末moent
2026-03-02 08:43:40
被震撼到了!哈梅內伊一死普京馬上下令,俄羅斯全體高層緊急到場

被震撼到了!哈梅內伊一死普京馬上下令,俄羅斯全體高層緊急到場

娛樂的宅急便
2026-03-02 16:48:09
反擊太猛?美軍在伊陣亡引發(fā)嘩然,特朗普:預料之中,四周內停戰(zhàn)

反擊太猛?美軍在伊陣亡引發(fā)嘩然,特朗普:預料之中,四周內停戰(zhàn)

劉拕說體壇
2026-03-02 15:17:03
基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

混沌錄
2026-03-02 17:15:04
開會開會一鍋端,烏疆冬盡春天還!

開會開會一鍋端,烏疆冬盡春天還!

夜半挑燈看吳鉤
2026-03-02 16:40:25
WTA梅里達站:蔣欣玗收獲最高級別頭銜,助布克沙一日雙冠

WTA梅里達站:蔣欣玗收獲最高級別頭銜,助布克沙一日雙冠

全網(wǎng)球APP
2026-03-02 13:14:49
許世友得知開國中將途經(jīng)南京,怒道:這還了得,我去車站截住他!

許世友得知開國中將途經(jīng)南京,怒道:這還了得,我去車站截住他!

史海孤雁
2026-03-01 16:16:08
1200枚導彈從天而降,27座美軍基地被炸,美民眾:特朗普必須下臺

1200枚導彈從天而降,27座美軍基地被炸,美民眾:特朗普必須下臺

軍機Talk
2026-03-02 17:20:13
伊朗犯下10月7日的致命失誤,導致其失去一切

伊朗犯下10月7日的致命失誤,導致其失去一切

山河路口
2026-03-01 20:25:18
尷尬之夜!C羅點球偏出+傷退,五年紀錄被終結

尷尬之夜!C羅點球偏出+傷退,五年紀錄被終結

夜白侃球
2026-03-01 21:08:24
上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

上海影院丈夫抓小三后續(xù):女主帶著丈夫和兒子,還有男小三看電影

漢史趣聞
2026-02-28 11:58:20
美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領先”

美國沒想到,俄羅斯也沒想到!中國石油,如今會成為“遙遙領先”

來科點譜
2026-02-20 07:16:30
你見過最土的土豪有多土?網(wǎng)友:你這明顯是短劇看多了

你見過最土的土豪有多土?網(wǎng)友:你這明顯是短劇看多了

帶你感受人間冷暖
2026-02-11 11:21:06
哈妹內衣沒了

哈妹內衣沒了

名人茍或
2026-03-01 06:06:59
2026-03-02 18:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16346文章數(shù) 514693關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當天不幸離世 家中有3個孩子

頭條要聞

36歲副鎮(zhèn)長開會暈倒除夕當天不幸離世 家中有3個孩子

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
藝術
時尚
教育
健康

家居要聞

萬物互聯(lián) 享科技福祉

藝術要聞

香港展出王羲之書法,足有60篇、10多米長!

從每天只睡4小時到8小時:一個失眠者的自救指南

教育要聞

2月28日雅思大作文示范寫作 | 違規(guī)駕駛成因與最優(yōu)對策分析

轉頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關懷版