国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型黑箱被撬開:MIT華人聯(lián)創(chuàng),造出能追溯思考過程的大模型

0
分享至

大模型的黑箱問題有解了?2 月 23 日,三名 MIT 博士在美國舊金山創(chuàng)辦的 Guide Labs 初創(chuàng)公司開源了一個 80 億參數(shù)的語言模型 Steerling-8B。它最特別的地方在于,所生成的每一個詞都可以追溯到三個源頭:輸入了哪些提示詞、動用了哪些概念、參考了哪些訓(xùn)練數(shù)據(jù)。之所以能做到這些,是因為 Guide Labs 在設(shè)計之初就給模型 Steerling-8B 事先埋了功能。


(來源:Guide Labs)

創(chuàng)始團隊的三個人在 AI 領(lǐng)域已經(jīng)泡了十幾年。

Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學(xué)學(xué)習(xí)機械工程,后來在麻省理工學(xué)院拿了三個學(xué)位。2017 年他在谷歌做 AI 研究院,隨后進入基因泰克子公司 Prescient Design 做數(shù)據(jù)科學(xué)。他的博士論文研究方向就是調(diào)試機器學(xué)習(xí)模型的工具,2018 年他那篇被廣泛引用的論文證明了一個結(jié)論:現(xiàn)有的深度學(xué)習(xí)模型解釋方法根本不可靠。


圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來源:領(lǐng)英)

Guide Labs 的首席科學(xué)家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學(xué)帕克分校拿的計算機科學(xué)博士,在 NeurIPS、ICLR 這些頂級會議上發(fā)了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導(dǎo)訓(xùn)練來提升深度學(xué)習(xí)解釋性,同時還建立了一套時間序列數(shù)據(jù)的解釋性評估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來源:領(lǐng)英)

第三位聯(lián)合創(chuàng)始人富爾頓·王(Fulton Wang)是麻省理工學(xué)院計算機科學(xué)博士,2015 年拿過美國統(tǒng)計協(xié)會統(tǒng)計學(xué)習(xí)與數(shù)據(jù)挖掘分會的最佳學(xué)生論文獎。


圖 | 富爾頓·王(Fulton Wang)(來源:領(lǐng)英)

這三個人湊在一起就是希望解決同一個問題:如何讓 AI 的解釋變得可信。

當(dāng)前市面上流行的方法,就像給一個陌生人做腦部掃描,試圖通過觀察這個人的神經(jīng)活動來推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經(jīng)科學(xué)。但 Guide Labs 換了個思路,他們放棄從外部解讀的方法,轉(zhuǎn)而從內(nèi)部設(shè)計。也就是從一開始就把模型架構(gòu)做成可解釋的,讓每一層計算都留下痕跡。

他們在模型里嵌入了一個概念層,相當(dāng)于給數(shù)據(jù)分了類,貼上了可追溯的標簽。這個層里有大約 3.3 萬個已知概念,是人工預(yù)先標注好的,比如基因編輯、量子計算這些話題。還有大約 10 萬個發(fā)現(xiàn)概念,是模型自己在訓(xùn)練過程中學(xué)會的。


(來源:Guide Labs)

當(dāng)你讓 Steerling-8B 生成一段文字,它輸出的每一個詞塊,都可以點開并查看以下三張清單。第一張清單是輸入特征歸因,會告訴你這個詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會列出它動用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓(xùn)練數(shù)據(jù)歸因,會告訴你這個詞涉及的概念主要來自哪些訓(xùn)練數(shù)據(jù)源,比如是來自 arXiv、維基百科還是 FLAN 數(shù)據(jù)集。

這意味著如果模型輸出了一段涉及版權(quán)的內(nèi)容,你可以直接追溯到是哪篇訓(xùn)練文章影響了它。如果模型在回答醫(yī)療問題時表現(xiàn)得有偏見,你可以查看到底是哪些概念在起作用,然后就能精準關(guān)掉那個概念的開關(guān)。

說到開關(guān),這個模型還有一個能力叫做概念控制。你在推理的時候,可以手動放大或者壓制某個概念的影響,不需要重新訓(xùn)練模型。比如說你想讓回答更專業(yè)一點,就把“專業(yè)”這個概念對應(yīng)的向量調(diào)大。再比如你想避免模型談?wù)摫┝?,就把“暴力”概念的?quán)重調(diào)低。Guide Labs 稱,這相當(dāng)于使用幾十個概念的調(diào)節(jié),取代了以往需要成千上萬條安全訓(xùn)練數(shù)據(jù)才能做到的護欄效果。

在性能上,Steerling-8B 訓(xùn)練使用了 1.35 萬億個 tokens,在各種基準測試上的表現(xiàn)和使用了 2 到 7 倍數(shù)據(jù)量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻來自概念層,而不是其他通道。這意味著模型的預(yù)測確實是沿著概念走的,而不是表面上給個解釋、暗地里使用其他方式干活。


(來源:Guide Labs)

要想驗證這一點其實很簡單:把其他通道關(guān)掉,看看模型還能不能正常工作。Guide Labs 的測試結(jié)果顯示,在各種任務(wù)上性能變化很小,這反過來證明了模型主要依靠概念在運轉(zhuǎn)。

阿德巴約告訴媒體,把可解釋性做進模型的基因里,對于人類來說是一件長期的好事。據(jù)了解,Guide Labs 于 2024 年浮出水面,當(dāng)時從 Initialized Capital 拿了 900 萬美元種子輪融資,阿德巴約也是 Y Combinator 的畢業(yè)生。這次開源的 Steerling-8B 是他們目前為止最大的概念驗證。下一步,他們打算做更大的模型,并將開放 API 接口讓更多人用上這套可追溯的 AI 系統(tǒng)。


(來源:Guide Labs)

Guide Labs 也在公司官網(wǎng)的博客里介紹了一些接下來要深挖的方向:概念控制、概念發(fā)現(xiàn)、無需微調(diào)的對齊、訓(xùn)練數(shù)據(jù)溯源,這些目標的每一條背后都用論文支撐,有的是幾年前發(fā)的,有的是剛發(fā)的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

七年前,阿德巴約在麻省理工學(xué)院寫博士論文的時候,開頭第一句話大意是隨著機器學(xué)習(xí)系統(tǒng)部署到越來越多的高風(fēng)險領(lǐng)域,確保它們可靠、公平、安全變得至關(guān)重要。但是,如果沒有有效工具來理解這些系統(tǒng)為何做出某個決定,這些目標就很難實現(xiàn)。

現(xiàn)在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問題,每個解釋也不是完美無缺的,但它證明了這樣一條走得通的新路,那就是對著 AI 黑箱瞎猜是不行的,要在一開始就給黑箱安個燈。

參考資料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

軟件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
華為重返歐洲高端市場!Mate 80 Pro海外發(fā)布:系統(tǒng)不是鴻蒙

華為重返歐洲高端市場!Mate 80 Pro海外發(fā)布:系統(tǒng)不是鴻蒙

快科技
2026-02-27 00:27:08
不見棺材不掉淚?巴拿馬總統(tǒng)斷言中國不敢反制,中方給他一句忠告

不見棺材不掉淚?巴拿馬總統(tǒng)斷言中國不敢反制,中方給他一句忠告

起喜電影
2026-02-28 00:51:34
72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

72萬個充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

毒sir財經(jīng)
2026-02-22 10:38:14
渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

哄動一時啊
2026-02-27 23:35:44
科學(xué)家在太陽系邊緣,發(fā)現(xiàn)了一堵火墻,溫度高達5萬攝氏度

科學(xué)家在太陽系邊緣,發(fā)現(xiàn)了一堵火墻,溫度高達5萬攝氏度

觀察宇宙
2026-02-27 20:30:03
與董潔牽手同框僅1個月,50歲陳坤現(xiàn)狀曝光,網(wǎng)友:一點都不意外

與董潔牽手同框僅1個月,50歲陳坤現(xiàn)狀曝光,網(wǎng)友:一點都不意外

白面書誏
2026-02-27 17:22:09
“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

室內(nèi)設(shè)計師有料兒
2026-02-19 11:17:18
柬埔寨國王西哈莫尼和太后莫尼列來華

柬埔寨國王西哈莫尼和太后莫尼列來華

新華社
2026-02-27 15:22:08
16點,CCTV直播!中國男籃vs中國臺北,誓破魔咒復(fù)仇,爆冷=墊底

16點,CCTV直播!中國男籃vs中國臺北,誓破魔咒復(fù)仇,爆冷=墊底

大秦壁虎白話體育
2026-02-28 00:33:06
原來不是AI!郭士強場邊搶斷富永啟生視頻曝光,球迷都看樂了!

原來不是AI!郭士強場邊搶斷富永啟生視頻曝光,球迷都看樂了!

籃球資訊達人
2026-02-27 11:57:39
周杰倫和田馥甄的瓜,沖上熱搜第一

周杰倫和田馥甄的瓜,沖上熱搜第一

背包旅行
2026-02-27 17:05:44
16:00,中國男籃vs中國臺北!贏10分=升小組前二,首發(fā)面臨調(diào)整

16:00,中國男籃vs中國臺北!贏10分=升小組前二,首發(fā)面臨調(diào)整

侃球熊弟
2026-02-28 00:05:03
開炮真管用!中國海警船果斷開炮,菲律賓50多艘艦船奪命而逃!

開炮真管用!中國海警船果斷開炮,菲律賓50多艘艦船奪命而逃!

頭條爆料007
2026-02-26 08:30:30
庫明加兩戰(zhàn)轟44+16+7,主帥公開稱贊他無私!老鷹兩筆1換2皆大賺

庫明加兩戰(zhàn)轟44+16+7,主帥公開稱贊他無私!老鷹兩筆1換2皆大賺

鍋子籃球
2026-02-27 13:59:15
剛剛!津巴布韋停止向中國出口一切鋰礦制品,包括原礦和精煉鋰礦

剛剛!津巴布韋停止向中國出口一切鋰礦制品,包括原礦和精煉鋰礦

說故事的阿襲
2026-02-27 20:33:46
新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

天下霸奇
2026-02-24 08:09:25
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
公開宣稱要創(chuàng)造條件解體俄羅斯,內(nèi)部確實很難!布達諾夫干得不錯

公開宣稱要創(chuàng)造條件解體俄羅斯,內(nèi)部確實很難!布達諾夫干得不錯

鷹眼Defence
2026-02-27 12:52:36
2人雙響,贏4-0!中國女足殺瘋了,4連勝轟15球,劍指亞洲杯冠軍

2人雙響,贏4-0!中國女足殺瘋了,4連勝轟15球,劍指亞洲杯冠軍

侃球熊弟
2026-02-27 09:46:40
美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

楊華評論
2026-02-27 23:36:24
2026-02-28 02:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16333文章數(shù) 514665關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

新華社:美國伊朗要打了嗎

頭條要聞

新華社:美國伊朗要打了嗎

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
時尚
房產(chǎn)
家居
公開課

旅游要聞

蜜雪冰城主題樂園來了 選址已"出爐"!在河南總部

舒淇最愛穿的裙子搭配,真的很適合春天!

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版