国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind 前研究科學(xué)家:企業(yè) AI 真提效,先把 “ KPI ”設(shè)對

0
分享至

全文 3,000字 | 閱讀約 8 分鐘


(前DeepMind神經(jīng)科學(xué)家訪談精彩片段)

企業(yè)部署 AI ,普遍的感覺是:會說,但不會干。

最近,著名科技播客主持人 Dwarkesh Patel 發(fā)布了他與 Adam Marblestone 的長談。

Marblestone 曾在 Google DeepMind 的神經(jīng)科學(xué)團隊做研究科學(xué)家,如今是 Convergent Research 的 CEO。

他從神經(jīng)科學(xué)的視角,重新審視了企業(yè) AI 落地難的這件事。

AI 學(xué)得快不快,關(guān)鍵不在模型有多大、技術(shù)有多新,而在你給它設(shè)定了什么樣的學(xué)習(xí)目標(biāo)。

就像團隊管理,KPI 設(shè)錯了,再努力也是白費。AI 也一樣,損失函數(shù)、獎勵信號這些“AI 的 KPI”,決定了它最終往哪個方向優(yōu)化。

這背后的邏輯是什么?

AI 現(xiàn)在喂的數(shù)據(jù)已經(jīng)夠多了,但它不知道什么數(shù)據(jù)值得學(xué)。就像一個學(xué)生拼命刷題,卻不知道哪些題型重要。

第一節(jié)|數(shù)據(jù)喂了十倍,能力沒漲一倍,問題在哪?

過去幾年,企業(yè)在 AI 上的投入越來越大。模型越來越強,算力越來越貴,訓(xùn)練數(shù)據(jù)越堆越多。

但落地的時候,很多人還是那個感覺:AI 會說,但不會干。

事實上,我們給大語言模型投喂的數(shù)據(jù)量,已經(jīng)遠超任何一個人類一輩子能接觸到的信息總量。但它的能力,還遠不如一個普通人。

問題出在哪?

Marblestone 把 AI 系統(tǒng)分成三個部分:

  • 架構(gòu)(Architecture):有多少層,怎么連接

  • 學(xué)習(xí)算法(Learning Algorithm):反向傳播還是別的什么

  • 代價函數(shù)(Cost Functions):訓(xùn)練它去做什么,獎勵什么

他的判斷是,前兩個被過度關(guān)注,第三個反而被忽視了。

大家都在優(yōu)化模型結(jié)構(gòu)和訓(xùn)練方法,但最該優(yōu)化的反而被忽視了:你到底在獎勵什么。

為什么會這樣?

因為機器學(xué)習(xí)喜歡數(shù)學(xué)上簡單的損失函數(shù)。預(yù)測下一個詞,算個交叉熵,這些都是計算機科學(xué)家喜歡的簡單目標(biāo)。

但大腦不是這樣工作的。

自然進化給大腦設(shè)計了成千上萬個不同的學(xué)習(xí)目標(biāo):這個腦區(qū)學(xué)什么,那個腦區(qū)學(xué)什么;三歲學(xué)什么,十歲學(xué)什么;什么情況該興奮,什么情況該警惕。

Marblestone 形容它像一套預(yù)裝的操作指南,精確規(guī)定了大腦的每個部分在每個階段該關(guān)注什么。

第二節(jié)|大腦怎么做到的?靠的是雙系統(tǒng)協(xié)作

為了解釋這個大腦機制,Adam Marblestone 引用了前物理學(xué)家、現(xiàn) AI 安全研究員Steve Byrnes 的一套理論。

這個理論把大腦分成兩個系統(tǒng):

  • 學(xué)習(xí)子系統(tǒng):主要是皮層,負責(zé)學(xué)習(xí)世界模型,結(jié)構(gòu)相對簡單重復(fù)

  • 引導(dǎo)子系統(tǒng):下丘腦、腦干、杏仁核等,負責(zé)提供先天的獎勵信號

就像一對搭檔:一個專注積累經(jīng)驗,另一個負責(zé)告訴它什么值得學(xué)

“引導(dǎo)子系統(tǒng)”不只是發(fā)信號那么簡單,它有自己的感覺系統(tǒng)。

比如視覺,我們以為只有皮層在處理。但大腦深處還有一個更原始的視覺系統(tǒng),叫上丘,天生就能檢測面孔和威脅。當(dāng)有小黑影快速靠近你的身體,上丘會直接觸發(fā)退縮反射。這個反應(yīng)比你意識到發(fā)生了什么還快。

這就是引導(dǎo)子系統(tǒng)在工作:小的、深色的、高對比度的、快速移動的=昆蟲=危險。

但泛化是怎么發(fā)生的?

秘密在于:負責(zé)學(xué)習(xí)的部分會去預(yù)測那些天生反應(yīng)。

還是剛才退縮的例子。當(dāng)你退縮時,杏仁核會訓(xùn)練一個預(yù)測器:我快要退縮了嗎?這個預(yù)測器接收的信息來自皮層。蜘蛛這個詞、蜘蛛的圖片、關(guān)于蜘蛛的書,甚至這段對話,都會輸入給它。

所以你聽到“你背上有蜘蛛”,即使沒有真蜘蛛,也會觸發(fā)預(yù)測器,進而激活類似的不適感。

泛化機制包括三個部分:

  • 引導(dǎo)子系統(tǒng)提供簡單標(biāo)簽(危險/安全、喜歡/討厭)

  • 學(xué)習(xí)子系統(tǒng)把標(biāo)簽連接到復(fù)雜的世界特征上

  • 預(yù)測器讓這種連接可以泛化到新情境

人能從極少例子中學(xué)習(xí),靠的就是這套泛化機制。

對此,Marblestone 還提供了一個生物學(xué)證據(jù):引導(dǎo)子系統(tǒng)的細胞種類,比學(xué)習(xí)子系統(tǒng)多得多。

皮層的細胞類型相對統(tǒng)一,就像重復(fù)的 Transformer 層。但下丘腦、腦干這些引導(dǎo)子系統(tǒng),有成千上萬種不同的細胞,每一種對應(yīng)一個特定的先天反應(yīng)。檢測鹽味的,檢測社交地位的,區(qū)分朋友和敵人的,都是不同的細胞在負責(zé)。

這么多種細胞,人類基因的信息量其實很少,不像大模型有海量訓(xùn)練數(shù)據(jù),怎么能造出這么復(fù)雜的大腦?

答案是,人類進化不需要預(yù)先編碼整個世界模型。

它只需要編碼三樣?xùn)|西:一個可以學(xué)習(xí)的架構(gòu)(皮層) 、一套豐富的獎勵信號(引導(dǎo)子系統(tǒng))、 一個連接機制(預(yù)測器)。

剩下的,交給學(xué)習(xí)。

因此,大腦的秘密不是結(jié)構(gòu)有多復(fù)雜,而是知道該學(xué)什么。

第三節(jié)|企業(yè) AI 的KPI,該怎么重新設(shè)計

那企業(yè) AI 怎么辦?

Adam Marblestone 指出了當(dāng)前 AI 訓(xùn)練的現(xiàn)狀:

“我們在大模型中根本沒有價值函數(shù)。這種訓(xùn)練方式非常原始,比 10 年前的 AI用的方法還要簡單?!?/p>

什么是價值函數(shù)?

簡單說,就是讓 AI 不只看眼前這一步對不對,而是評估這一步對長期目標(biāo)有什么影響。

現(xiàn)在的訓(xùn)練方式是:整個對話軌跡解決了問題,就把這個軌跡里的每個詞都加權(quán)。但 AI 不知道哪個詞是關(guān)鍵轉(zhuǎn)折,哪個詞只是過渡,哪個決策會在 5 步后引發(fā)好結(jié)果。

它只知道這次成功了,不知道為什么成功。

而大腦有多層次的評估機制。有負責(zé)簡單動作選擇的部分,有負責(zé)建立獎勵模型的部分,還有專門評估當(dāng)前狀態(tài)對長期目標(biāo)價值的價值函數(shù)。

更關(guān)鍵的是,大腦不只是單向預(yù)測下一個詞。

它可以全向推理??吹疆嬅婺茴A(yù)測聲音,聽到聲音也能預(yù)測畫面;知道目標(biāo),能反推路徑;看到結(jié)果,能倒推原因。

Marblestone 說,大腦可以在任意方向上做預(yù)測。

大模型擅長從原因推結(jié)果,比如“他遲到了,所以___”,它能接“被批評了”。但如果反過來,告訴它“他被批評了’,讓它推斷前面可能發(fā)生了什么,就要弱很多。

因為大模型的訓(xùn)練方向是固定的:從左往右預(yù)測下一個詞。

人卻能靈活選擇推理方向。看到結(jié)果能倒推原因,知道目標(biāo)能反推路徑。

所以 AI 缺的是兩樣?xùn)|西:價值函數(shù)告訴它什么值得做,全向推理讓它靈活達成目標(biāo)。

那企業(yè) AI 的 KPI 該怎么設(shè)計?

基于原文的思路,可能的方向包括:

1、引入價值函數(shù)

不只是這個任務(wù)做對了,不只評估這一步對不對,還要評估它對后續(xù) 5 步、10步的影響。在業(yè)務(wù)場景下,什么樣的中間狀態(tài)是有價值的?哪些信息值得記住,哪些可以忽略?

2、設(shè)計分層的獎勵信號

借鑒大腦的雙系統(tǒng):基礎(chǔ)層判斷對錯(客服回復(fù)是否解決問題),中間層關(guān)注業(yè)務(wù)目標(biāo)(滿意度、轉(zhuǎn)化率、風(fēng)險控制),高層對準(zhǔn)戰(zhàn)略目標(biāo)(品牌形象、長期留存)。不同層次的獎勵權(quán)重不同,在不同階段啟用。

3、訓(xùn)練全向推理能力

不只是從輸入預(yù)測輸出,還要能從目標(biāo)倒推路徑、從部分信息補全上下文、從約束條件生成方案。這可能需要在訓(xùn)練中移除固定的掩碼,讓模型學(xué)會從任意變量預(yù)測任意變量。

4、探索行為克隆

除了給 AI 標(biāo)簽(這個回復(fù)好或壞),更重要的是給它專家的思考路徑:在哪個時刻關(guān)注什么信息,在哪些點放慢速度,決策邊界在哪里。

說到底,訓(xùn)練 AI 理解什么值得做對,為什么值得做對,以及這個“對”在整個業(yè)務(wù)流程里處于什么位置。

企業(yè) AI 提效,模型能力重要,但你給它設(shè)定什么樣的評分體系,可能更重要。

你獎勵什么,它就會往什么方向優(yōu)化。

就像企業(yè)管理:KPI 設(shè)錯了,團隊再努力也會在把事做偏。

  • 獎勵準(zhǔn)確率,它可能變得保守;

  • 獎勵效率,它可能犧牲質(zhì)量;

  • 獎勵用戶滿意度,它可能過度迎合。

真正的挑戰(zhàn)是設(shè)計一套像大腦那樣豐富、分層、動態(tài)調(diào)整的獎勵體系。這不是換個模型就能解決的。

在你的業(yè)務(wù)場景里,什么才是真正值得 AI 去學(xué)、去記、去優(yōu)化的,得想清楚。

模型會變強,但方向得你給。

結(jié)語|KPI 設(shè)對了,AI 才能學(xué)得快

AI 現(xiàn)在的問題很清楚:數(shù)據(jù)喂得越來越多,能力漲得越來越慢。

原因也很清楚:它不知道什么值得學(xué)。

人腦的數(shù)據(jù)效率來自自然進化預(yù)裝的復(fù)雜獎勵體系。不同腦區(qū)、不同階段、不同情境,有不同的學(xué)習(xí)目標(biāo)。

AI 只有一個簡單目標(biāo):預(yù)測下一個詞。

這就是差距。

Marblestone 的觀點是:調(diào)模型、堆參數(shù),不如重新設(shè)計評分標(biāo)準(zhǔn)。

企業(yè) AI 提效也一樣。

與其追求更大的模型,不如先想清楚:你在獎勵 AI 什么?這套評分體系,能引導(dǎo)它做對的事嗎?

答案可能不在算力,在 KPI設(shè)得對不對。

識自AI

本文由AI深度研究院出品,內(nèi)容翻譯整理自Adam Marblestone在Dwarkesh Patel播客的訪談等網(wǎng)上公開素材,屬翻譯分析性質(zhì)。內(nèi)容為觀點提煉與合理引述,未逐字復(fù)制原訪談材料。未經(jīng)授權(quán),不得轉(zhuǎn)載。

星標(biāo)公眾號, 點這里 1. 點擊右上角 2. 點擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)

https://www.youtube.com/watch?v=_9V_Hbe-N1A

https://www.dwarkesh.com/p/adam-marblestone

https://www.dwarkesh.com/feed?utm_source=chatgpt.com

https://coefficientgiving.org/files/Research/Moral_Patienthood/Marblestone_et_al_%282016%29.pdf?utm_source=chatgpt.com

來源:官方媒體/網(wǎng)絡(luò)新聞,

排版:Atlas

編輯:深思

主編:圖靈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大潰?。≈袊W(wǎng)貸公司,在印度全軍覆沒

大潰?。≈袊W(wǎng)貸公司,在印度全軍覆沒

首席品牌評論
2026-01-07 18:20:00
萬萬沒想到,小國朝鮮霸占四個世界第一,至今無人能破?

萬萬沒想到,小國朝鮮霸占四個世界第一,至今無人能破?

素年文史
2026-01-20 20:05:03
千人相送只是冰山一角,看了向華炎的葬禮,才知何謂真正的大佬!

千人相送只是冰山一角,看了向華炎的葬禮,才知何謂真正的大佬!

青橘罐頭
2026-01-21 19:34:14
退錢哥:經(jīng)中國使館與沙特足協(xié)協(xié)商,中國球迷決賽將免票入場

退錢哥:經(jīng)中國使館與沙特足協(xié)協(xié)商,中國球迷決賽將免票入場

懂球帝
2026-01-21 22:21:07
98年瀘定縣慘案:690元引發(fā)血案,24歲民警遭圍毆后槍殺10名村民

98年瀘定縣慘案:690元引發(fā)血案,24歲民警遭圍毆后槍殺10名村民

談史論天地
2026-01-21 23:20:03
女子違停豎中指被撞,疑似撞人車主發(fā)聲,不是故意原因披露

女子違停豎中指被撞,疑似撞人車主發(fā)聲,不是故意原因披露

阿纂看事
2026-01-21 18:41:21
原來王菲沒撒謊!公開求助、哽咽落淚的李亞鵬,證實了她當(dāng)年評價

原來王菲沒撒謊!公開求助、哽咽落淚的李亞鵬,證實了她當(dāng)年評價

芳芳歷史燴
2026-01-22 12:58:18
“甘肅一拆遷工地被曝有人挖寶”,官方回應(yīng):現(xiàn)場已管控,文保部門已介入,“沒見到銀元”

“甘肅一拆遷工地被曝有人挖寶”,官方回應(yīng):現(xiàn)場已管控,文保部門已介入,“沒見到銀元”

揚子晚報
2026-01-22 15:01:21
奧迪Q5L降11.88萬!老車主哭到:早知道不買那么早了

奧迪Q5L降11.88萬!老車主哭到:早知道不買那么早了

汽車網(wǎng)評
2026-01-19 19:30:35
-14℃!新一輪雨雪要來!江蘇天氣最新預(yù)測!

-14℃!新一輪雨雪要來!江蘇天氣最新預(yù)測!

句容發(fā)布
2026-01-22 05:02:08
高盛:AI有望引爆PCB大周期

高盛:AI有望引爆PCB大周期

財聞
2026-01-21 19:56:32
極氪8X內(nèi)飾圖首次曝光 今年上半年上市

極氪8X內(nèi)飾圖首次曝光 今年上半年上市

答答買車
2026-01-22 15:22:29
娛樂圈又丟人!嫣然醫(yī)院捐款名單曝光,年入上億明星一個都不吭聲

娛樂圈又丟人!嫣然醫(yī)院捐款名單曝光,年入上億明星一個都不吭聲

君笙的拂兮
2026-01-21 07:19:36
換帥的前奏?廣東“七冠教頭”霸氣放話,朱芳雨施壓杜鋒!

換帥的前奏?廣東“七冠教頭”霸氣放話,朱芳雨施壓杜鋒!

緋雨兒
2026-01-21 14:29:47
國手常昊:不顧恩師聶衛(wèi)平的反對,娶大8歲的二婚師姑,如今成了典范

國手常昊:不顧恩師聶衛(wèi)平的反對,娶大8歲的二婚師姑,如今成了典范

動物奇奇怪怪
2026-01-22 10:44:21
【美股收盤】大逆轉(zhuǎn)!特朗普宣布取消關(guān)稅 道指暴漲588點、英偉達飆升11.7%

【美股收盤】大逆轉(zhuǎn)!特朗普宣布取消關(guān)稅 道指暴漲588點、英偉達飆升11.7%

FX168美股聚焦
2026-01-22 06:05:11
上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

一方聊市
2026-01-19 13:13:48
誰說詹姆斯已被厭惡?珍妮巴斯火速發(fā)文澄清,湖人想奪冠離不開他

誰說詹姆斯已被厭惡?珍妮巴斯火速發(fā)文澄清,湖人想奪冠離不開他

小路看球
2026-01-22 15:28:50
贏了官司卻虧到吐血!嫣然醫(yī)院搬家,房東成年度最大笑話!

贏了官司卻虧到吐血!嫣然醫(yī)院搬家,房東成年度最大笑話!

達文西看世界
2026-01-20 13:35:51
10億王者級肉簽發(fā)申購,打新收益高,但股民中簽很難!

10億王者級肉簽發(fā)申購,打新收益高,但股民中簽很難!

數(shù)據(jù)挖掘分析
2026-01-22 07:48:41
2026-01-22 16:19:00
AI深度研究員 incentive-icons
AI深度研究員
AI時代剛剛到來,一切才剛開始,我們正當(dāng)其時!
366文章數(shù) 158關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

特朗普邀請普京加入和平委員會:他辦實事 影響力巨大

頭條要聞

特朗普邀請普京加入和平委員會:他辦實事 影響力巨大

體育要聞

珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

汽車要聞

今年集中上市 旅行車的春天可能真要來了

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
時尚
公開課

家居要聞

法式風(fēng)情 南洋中古居

教育要聞

無數(shù)家長踩坑:你的反復(fù)"提醒",正在摧毀孩子自信和動力...

藝術(shù)要聞

一場雪,飄進了唐詩

50+女性穿衣沒頭緒?教你3個顯瘦還時髦的思路,照搬就好看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版