網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

劉永謀：有益AI，能否解決超級AI的控制問題？| 讀書

2025-09-15 18:00:57　來源: 科學(xué)的歷程

湖北舉報

分享至

*中國人民大學(xué)吳玉章講席教授劉永謀首發(fā)于微信公眾號，保留一切知識產(chǎn)權(quán)，侵犯必究。

羅素（Stuart Russel）是AI領(lǐng)域的大咖，他的《AI新生》一書提出一種控制AI的設(shè)想，即建構(gòu)有益AI。該設(shè)想的核心是所謂有益機器原則：

1.機器的唯一目標(biāo)是最大限度地實現(xiàn)人類的偏好。

2.機器最初不確定這些偏好是什么。

3.關(guān)于人類偏好的最終信息來源是人類行為。

顯然，這是指導(dǎo)AI研發(fā)人員的原則，而不是輸入AI的指令。該原則具有很強的工具主義色彩，即AI應(yīng)該設(shè)計為實現(xiàn)人類偏好的機器，而TA自身是沒有目標(biāo)的。這一點我非常贊同，與有限AI的工具論主張是一致的。

與有限AI不同的是，羅素希望AI主動預(yù)測人的目標(biāo)，又隨時可以被關(guān)機。這里的危險在于：AI可能比人更知道自己的偏好，這有可能使得它的預(yù)測成為人類行動的“應(yīng)然”，甚至TA可能誘導(dǎo)甚至操控人類行動。這就有走向AI實體論的味道了。

羅素也意識到類似想法存在巨大危險。于是，他用偏好替代目標(biāo)概念。這就是上述三原則中沒有目標(biāo)而只有偏好的原因。

偏好是經(jīng)濟學(xué)和決策理論的基本術(shù)語——我博后做的是決策理論研究——衡量的是人在在幾種選擇或方案范圍中的喜好程度，往往與經(jīng)濟利益、享樂消費相連。與偏好相連的術(shù)語是效用，它是偏好的數(shù)學(xué)測量。

大家都在講AI價值對齊。技術(shù)人員說是偏好對齊和效用最大化，哲學(xué)家說的是人類目標(biāo)與AI目標(biāo)的一致，甚至是人類主流價值觀指導(dǎo)AI的運算、輸出和行動。這里面的差距有多大，大家可以研究一下。因此，我說過，目前的AI對齊問題日益演變成純粹技術(shù)問題，與人文反思、倫理研究關(guān)系不大。

然而，這恰恰說明技術(shù)性的AI對齊——實際上是AI偏好對齊——是可行的、起作用的。不能說偏好對齊與價值對齊完全沒有關(guān)系，起碼在物質(zhì)性的人類福祉目標(biāo)上方向一致。反過來，羅素的有益AI與宏大的AI價值對齊理想天差地別。

按照羅素的想法，機器不應(yīng)該沒有目標(biāo)，TA必須以人的目標(biāo)為目標(biāo)。這是我極為贊同的。我的質(zhì)疑在于：

第一，偏好對齊根本談不上控制了AI，而且隨著超級AI的出現(xiàn)——我理解，羅素式工具性的超級AI主要是在預(yù)測和滿足人類AI偏好的超凡能力上——實體性一面大大增強，免不了讓AI預(yù)測的應(yīng)然“覆蓋”人類自主選擇的結(jié)果。

第二，我懷疑人類有沒有穩(wěn)定的、一致的、可測量的偏好存在。即使有益AI目標(biāo)并不高大上，但這個問題仍然無法解決。偏好比較有范圍，不同范圍數(shù)值會不一樣。偏好主要處理有形的尤其是經(jīng)濟問題，對于精神問題無法解決，比如某人在唯物主義與唯心主義之間偏好不是偏好考慮的問題。

人的偏好是變化的，人與人也不一樣。我甚至認(rèn)為，人的目標(biāo)在完全確定之前是不確定的，在完全確定之后可能不斷變化。換言之，目標(biāo)只有在“現(xiàn)在”才存在。

當(dāng)然，我沒有否認(rèn)AI偏好預(yù)測在經(jīng)濟領(lǐng)域的應(yīng)用。在我看來，羅素的理論主要關(guān)注的是AI在經(jīng)濟世界中運用。我覺得這應(yīng)該還是會有成效。

因此，羅素支持超級AI的理由就是最常見的想法，即有了超級AI，人類可以擁有更偉大“也許更好”的文明，可以解決重大問題，如人類永生、超光速旅行、氣候變化等。對此類觀點，我的反駁是：第一，要與超級AI的毀滅性后果相比較。第二，基本上包括羅素在內(nèi)沒人否認(rèn)這樣的生存性風(fēng)險。第三，羅素對更偉大文明的渴望，我不是很贊同，因為它可能并不美好。這樣的文明比如三體文明。第四，沒有超級AI，我們變得偉大會慢很多，但人類可以自己思考，而且不用擔(dān)心被滅絕。

建設(shè)美好世界的路有千萬條，不必選擇迅速但極其危險的道路。

羅素的有益AI理論之下，暗含著他對智能的行為主義理解：

人類是智能的，因為我們的行動有望實現(xiàn)我們的目標(biāo)。

機器是智能的，因為它們的行動有望實現(xiàn)它們的目標(biāo)。

機器是有益的，因為它們的行動有望實現(xiàn)我們的目標(biāo)。

按照這種理解，有智能不一定有意識、有自由意志。所有的生命體或有機體均有智能，只要它們能用行動實現(xiàn)自己的目標(biāo)。這種目標(biāo)不一定是在人類大腦中浮現(xiàn)的念頭，也可能是一種本能，只要它能驅(qū)動有機體的刺激-反應(yīng)行動。

這是典型的行為主義觀點。人類的所謂目標(biāo)，其實不是自由意志，而是更大的自然文化、社會環(huán)境和文化環(huán)境所演化塑成的無意識。最近有實驗宣稱，面對刺激人做出反應(yīng)，比腦中產(chǎn)生念頭要快，也就是行為在目標(biāo)之前而不是之后。

按照這樣的想法，僵尸、寵物乃至一切有生命的東西，都是智能體。于是，AI時代并非有些人說的雙智社會，而是泛智社會。這樣的圖景其實是我所稱的AI擬人論的世界，或者是“泛靈論的復(fù)興”。

羅素的觀點中，我最為贊同的是：

人工智能的歷史一直被一句咒語所推動：“越智能越好。”我確信這是一個錯誤，不是因為我隱隱地害怕被人工智能取代，而是因為我們理解智能的方式有誤。

我不知道“智能”應(yīng)該如何正確理解，只覺得現(xiàn)在的理解有錯。但是，我強烈贊同：為人類福祉計，機器用不著太聰明，我們需要的是能力強大的工具，而不是一個超越我們的智能體。

羅素沒有說什么是“過于智能的AI”，只是說TA不好。他想在“過于”上玩一個騎墻。而我的有限AI直接反對超級AI的研發(fā)進(jìn)路：AI發(fā)展的路有千萬條，不必走這條危險的道路，然后為如何關(guān)機、隔絕盒中等問題絞盡腦汁。

從根本上說，我討論的不是控制超級AI，而是控制人，尤其是控制從事有關(guān)研發(fā)工作的科技專家，讓他們不要去走危險的路。我的想法最大的問題是過于理想主義，人類比超級AI的控制難度不會小。

實際上，我們能做的不是控制，而是社會文化的全面綜合性引導(dǎo)。它很可能最終失敗，但這并不妨礙我們在超級AI滅絕之前做西西弗斯式的嘗試。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.