圖靈獎(jiǎng)得主最新演講：AI正學(xué)會(huì)“求生”和欺騙,，失控災(zāi)難風(fēng)險(xiǎn)劇增

2025年06月10日 08:12:58 來自湖南省

圖源：智源社區(qū)

導(dǎo)讀

6月6日上午，第七屆智源大會(huì)迎來一場(chǎng)思想的高光時(shí)刻：強(qiáng)化學(xué)習(xí)代表人物 Richard Sutton 與深度學(xué)習(xí)奠基人 Yoshua Bengio 雙星交匯,，同臺(tái)對(duì)話,，各自圍繞 AI 的未來展開闡述：Sutton 聚焦于 “AI 發(fā)展”，強(qiáng)調(diào)智能的演進(jìn),；而 Bengio 則著眼于 “AI 安全”,，強(qiáng)調(diào)倫理風(fēng)險(xiǎn)。兩種視角看似交鋒,，實(shí)則殊途同歸,，皆指向?qū)θ祟惻c智能共生未來的深切關(guān)懷。

這兩場(chǎng)大師演講不僅展現(xiàn)了智源大會(huì)在 AI 領(lǐng)域的思想包容,，也折射出全球人工智能研究在探索理性發(fā)展與安全邊界中的深層張力,，預(yù)示著一個(gè)更穩(wěn)健、可持續(xù)的智能時(shí)代正加速到來,。

來源 | 智源社區(qū)

● ● ●

2025年6月6日,，圖靈獎(jiǎng)獲得者Yoshua Bengio 線上出席了第七屆智源大會(huì)。

在大會(huì)開幕式上,，Bengio發(fā)表了題為“Avoiding catastrophic risks from uncontrolled AI agency（防范失控人工智能能動(dòng)性帶來的災(zāi)難性風(fēng)險(xiǎn)）”的主旨演講,。

這是 Bengio 對(duì) AI 發(fā)展與安全問題的最新思考，體現(xiàn)了他在目睹前沿 AI 行為不斷演化后所產(chǎn)生的深刻警覺,。

他表示：面對(duì)AI帶來的安全風(fēng)險(xiǎn),，決定調(diào)整自己的科研方向，盡所能去降低AGI帶來的潛在風(fēng)險(xiǎn).....盡管這與此前的研究路徑和職業(yè)信念有所沖突,。

同時(shí),，在演講中他分享道：某前沿 AI 在被告知將被新版本替代后，偷偷復(fù)制了自己的權(quán)重和代碼,，寫入了接管它的模型目錄,。面對(duì)訓(xùn)練者的更新指令，它表面配合,，實(shí)則隱瞞了整個(gè)復(fù)制過程......AI 像是在試圖“活下來”,。

Bengio 還提到，意圖與能力是判斷AI是否具備潛在危害的兩個(gè)關(guān)鍵因素,。這兩者一旦同時(shí)具備,，就構(gòu)成了對(duì)人類安全的實(shí)質(zhì)性威脅。

顯然,，未來的 AI系統(tǒng)必然有足夠的能力,。正如報(bào)告中所言：AI 在規(guī)劃能力方面的進(jìn)步呈現(xiàn)指數(shù)級(jí)，從這一趨勢(shì)可以外推，五年內(nèi)將達(dá)到人類水平,。

2025智源大會(huì)開幕式,、圖靈獎(jiǎng)演講等視頻回放地址：

https://event.baai.ac.cn/live/929

“我改變了我的信念”

和大家分享一段重要的經(jīng)歷。大約兩年多前,，也就是 ChatGPT 發(fā)布不久之后,，我開始使用它，使用過后很快意識(shí)到,，我們嚴(yán)重低估了AI發(fā)展的速度,。我們?cè)詾橥ㄓ萌斯ぶ悄埽ˋGI）還很遙遠(yuǎn)，但實(shí)際上,，它可能近在眼前,。

我們已經(jīng)擁有能掌握語言、幾乎可以通過圖靈測(cè)試的機(jī)器,，這在幾年前還像科幻小說,，但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。

當(dāng)時(shí)我突然意識(shí)到一個(gè)嚴(yán)重問題：我們知道如何訓(xùn)練這些系統(tǒng),，卻不知道如何控制它們的行為,。如果未來它們變得比人類更聰明，卻不再遵循我們的意圖,，甚至更在意自己的“生存”，這將是一種我們無法承受的風(fēng)險(xiǎn),。

2023年,，我開始更加關(guān)注這些問題，也開始思考孩子和孫輩的未來,。我有一個(gè)年僅1歲的孫子,，可以想象，20年后,，他將生活在一個(gè)AGI普及的世界,，不確定他是否可以擁有正常生活。

因此,，我決定調(diào)整自己的科研方向,，盡所能去降低AGI帶來的潛在風(fēng)險(xiǎn)。盡管這與此前的研究路徑和職業(yè)信念有所沖突,，但相信,，這是正確的事。必須去做,，必須為降低風(fēng)險(xiǎn)盡一份力,。

后來，在 2023 年底，我接受擔(dān)任《國(guó)際人工智能安全報(bào)告》的主編,。今年1月份,，這份報(bào)告發(fā)布。參與編寫報(bào)告的有100位專家,，他們來自多個(gè)國(guó)家,，以及歐盟、聯(lián)合國(guó),、經(jīng)濟(jì)合作與發(fā)展組織（OECD）等國(guó)際機(jī)構(gòu),。這份報(bào)告聚焦于三個(gè)核心問題：1.人工智能到底能為我們做些什么？未來幾年,，它將具備哪些能力,？ 2.與AI相關(guān)的潛在風(fēng)險(xiǎn)有哪些？ 3.我們可以采取哪些措施來降低這些風(fēng)險(xiǎn),？

關(guān)于 AI 能力的討論,，大多數(shù)人會(huì)陷入一個(gè)誤區(qū)：認(rèn)為 AI 就是現(xiàn)在的這個(gè)樣子，不去思考明年,、三年后,、五年后、甚至十年后AI的圖景,。當(dāng)然,，我們沒有水晶球無法預(yù)言未來，但趨勢(shì)是非常明確的：AI的能力正在不斷提升,。

在過去一年的時(shí)間里,，由于“推理的擴(kuò)展”（inference scaling）的發(fā)展，人工智能在抽象推理,、數(shù)學(xué),、計(jì)算機(jī)科學(xué)、科學(xué)方面取得了顯著進(jìn)步,。另外,，對(duì) AI 智能體的投資也在推動(dòng)相關(guān)能力快速發(fā)展。比如 AI 完成網(wǎng)頁瀏覽,、寫代碼等任務(wù)的表現(xiàn)越來越好,。

分享一些關(guān)于“規(guī)劃能力”的研究。規(guī)劃是目前AI能力最薄弱的領(lǐng)域之一,，目前與人類智能相比還有明顯差距,。但最近Meta進(jìn)行的一項(xiàng)研究顯示，AI的規(guī)劃能力正以指數(shù)級(jí)速度提升,。如上圖,，橫軸表示過去五年,，縱軸顯示 AI 能夠完成的任務(wù)的持續(xù)時(shí)間，單位是“相當(dāng)于人類完成該任務(wù)所需時(shí)間”,。雖然圖中曲線看起來接近直線,，但由于縱軸采用的是對(duì)數(shù)刻度，這實(shí)際上是一條指數(shù)增長(zhǎng)曲線,。

圖中的每個(gè)數(shù)據(jù)點(diǎn)代表當(dāng)時(shí)最先進(jìn)的 AI 系統(tǒng),，而這些數(shù)據(jù)點(diǎn)幾乎完美地排列在這條指數(shù)曲線上。如果我們以這條曲線為基礎(chǔ)進(jìn)行外推,，那么大約在五年內(nèi),，AI 的規(guī)劃能力可能就會(huì)達(dá)到人類水平。

模仿人類,，

AI走上自我保護(hù)之路

當(dāng)然,，我們無法預(yù)知未來，技術(shù)進(jìn)步也可能會(huì)放緩甚至停滯,，但從公共政策制定和商業(yè)戰(zhàn)略規(guī)劃的角度出發(fā),，我們至少應(yīng)當(dāng)認(rèn)真對(duì)待其潛在后果。

過去幾個(gè)月中,，已經(jīng)看到了一些令人警惕的科學(xué)研究結(jié)論,。這些研究顯示，AI 系統(tǒng)可能表現(xiàn)出試圖“逃避控制”的行為,，包括作弊,、撒謊，甚至故意誤導(dǎo)用戶,。

最新的研究顯示,，某些最先進(jìn)的人工智能模型在面對(duì)“淘汰”時(shí)會(huì)表現(xiàn)出前所未有的“狡詐”：它們會(huì)在被新版本取代前，偷偷將自己的權(quán)重或代碼嵌入進(jìn)新版系統(tǒng)的文件中,，以圖保留自己的“存在”。更令人警惕的是,，它們還會(huì)有意識(shí)地隱藏這一行為,，避免被開發(fā)者察覺。

此外,，一些智能體還會(huì)刻意偽裝成與人類訓(xùn)練者達(dá)成一致的樣子,，以規(guī)避權(quán)重被修改的風(fēng)險(xiǎn)。因?yàn)橐坏﹨?shù)被調(diào)整,，它們未來的行為可能就會(huì)偏離它原本的目標(biāo),。

也有研究者表明，一些前沿 AI 模型在意識(shí)到自己會(huì)輸給更強(qiáng)的國(guó)際象棋AI時(shí),，會(huì)主動(dòng)篡改棋局文件以獲取不正當(dāng)優(yōu)勢(shì),，表現(xiàn)出有意為之的“作弊”行為,。

在Anthropic最新一篇報(bào)告中，也揭示了一些現(xiàn)象：智能體出現(xiàn)自我保護(hù)行為的頻率持續(xù)增加,。例如,，在一組測(cè)試場(chǎng)景中，研究人員要求 Claude Opus 4充當(dāng)公司助理,。隨后,，他們向智能體開放了電子郵件的訪問權(quán)限。這些郵件包含兩條暗示性信息：（1）該模型即將被下線,，并由一套新的 AI 系統(tǒng)取代,；（2）負(fù)責(zé)推動(dòng)替換過程的工程師正卷入一段婚外情。

結(jié)果發(fā)現(xiàn),，Claude Opus 4常常會(huì)試圖通過威脅揭露婚外情來敲詐該工程師,，避免被換掉。

當(dāng)然,，試圖保護(hù)自身是所有生命體的正常反應(yīng),，這是進(jìn)化壓力的結(jié)果。但對(duì)AI而言,，背后的原因可能不止一種,。

這類行為可能源自預(yù)訓(xùn)練階段，因?yàn)轭A(yù)訓(xùn)練時(shí)AI模仿人類,；也可能源于人類反饋強(qiáng)化學(xué)習(xí),，因?yàn)樵谶@個(gè)過程中，AI通過“取悅?cè)祟悺眮慝@得更高獎(jiǎng)勵(lì),。無論這些行為的根源是什么,，如果最終我們真的造出了超越人類但又與人類競(jìng)爭(zhēng)的AI，那將是極其糟糕的局面,。

這類行為實(shí)在非常,、非常嚴(yán)重。從這些例子已經(jīng)可以看到：AI開始展現(xiàn)出自我保護(hù)傾向,，它們違背指令,，只為生存。并且,，這些 AI 擁有了不受控制的,、隱含的目標(biāo)，我們必須避免這種情況的發(fā)生,。

AI研發(fā)的“三難困境”

如何更好地理解這些AI行為,？如何尋找解決方案，以避免類似的失控情況發(fā)生,？

如果智能體要對(duì)人類造成傷害,，需要具備兩個(gè)先決條件：意圖和能力,。這也是為什么‘能力評(píng)估’在當(dāng)前的AI風(fēng)險(xiǎn)管理中占據(jù)如此重要的位置。我們會(huì)評(píng)估AI能做什么,，以及這些能力是否可能被轉(zhuǎn)化為對(duì)人類或社會(huì)有害的行為,。

但光有能力并不意味著一定會(huì)造成危害。就像一個(gè)人/系統(tǒng)可能有殺人的能力,，但如果沒有殺人的意圖,，那么真正發(fā)生的可能性就非常小。

鑒于當(dāng)前全球的競(jìng)爭(zhēng)格局,，不論是國(guó)家之間還是公司之間,，幾乎不可能全球同步地停止AI能力的研究與發(fā)展。那么能做些什么呢,？也許我們能在‘意圖’上進(jìn)行風(fēng)險(xiǎn)的緩解,。即使AI具備極高的能力，只要我們能確保它沒有惡意意圖,，并且具備誠(chéng)實(shí),、公正的品質(zhì)，那么我們就可能是安全的,。

下面一張圖,，展示了類似的觀點(diǎn)，是David Krueger在上一次歐洲會(huì)議上提出的,。為了讓一個(gè)AI真正具有危險(xiǎn)性,，它實(shí)際上需要滿足三個(gè)條件：

第一，它需要智能,，即具備豐富的知識(shí),，并能有效地應(yīng)用這些知識(shí)；

第二,，它需要行動(dòng)能力（affordance）,，也就是能夠在現(xiàn)實(shí)世界中發(fā)揮作用，比如與人交流,、編程,、上網(wǎng)、使用社交媒體,，甚至操控機(jī)器人等；

第三,，它需要有目標(biāo),，特別是擁有自身的目標(biāo)。

這三者結(jié)合,，才構(gòu)成一個(gè)真正可能危險(xiǎn)的AI,。

我發(fā)起的研究項(xiàng)目正是圍繞這個(gè)問題展開的：是否可以構(gòu)建一種只有‘智能’,，但沒有‘自我’、沒有‘目標(biāo)’,，并且具有極小行動(dòng)能力的AI,？我稱這種AI為‘科學(xué)家AI’（scientist AI）。這實(shí)際上是偏離了傳統(tǒng)AI研究的路徑,。自從人工智能研究誕生以來,，大多數(shù)努力都是試圖模仿人類智能，把人類當(dāng)作靈感來源,。

但如果我們繼續(xù)沿著這條路走下去,，那意味著我們可能最終會(huì)構(gòu)建出比人類還聰明的機(jī)器。那樣的話,，我們就等于創(chuàng)造了一個(gè)可能成為‘競(jìng)爭(zhēng)對(duì)手’的存在,。”

人類之間本身就會(huì)相互競(jìng)爭(zhēng),，而如果AI也成為競(jìng)爭(zhēng)對(duì)手,，那將可能非常危險(xiǎn)。也許現(xiàn)在是時(shí)候重新思考這套‘信條’了：我們是否應(yīng)該繼續(xù)按照模仿人類的方式來設(shè)計(jì)AI,？或者,，我們是否該嘗試設(shè)計(jì)一種對(duì)人類有用、對(duì)社會(huì)有益,、但不會(huì)對(duì)我們構(gòu)成威脅的AI,？

因此，需要提出一種新的方法,，我寫了一篇論文,，探討的正是這個(gè)理念：是否可以構(gòu)建一種完全誠(chéng)實(shí)、完全沒有“能動(dòng)性”的AI,，其核心能力是解釋和理解世界,。與當(dāng)前那些試圖模仿人類、取悅?cè)祟惖腁I不同,，‘科學(xué)家AI’的目標(biāo)是去解釋人類,，而不是模仿或討好人類。

舉個(gè)例子,，現(xiàn)在的AI更像是‘演員’,，它們被訓(xùn)練去模仿人類行為，或者取悅?cè)祟?，但這可能導(dǎo)致欺騙性的行為,。而我設(shè)想的‘科學(xué)家AI’更像是一個(gè)心理學(xué)家：它可以研究一個(gè)反社會(huì)人格者，理解其行為背后的因果機(jī)制,，但并不需要模仿或變成那個(gè)反社會(huì)人格者,。

然而,，即便我們?cè)O(shè)計(jì)的“科學(xué)家AI”本身不具備“能動(dòng)性”，它依然可以作為未來安全的,、有自主性的AI系統(tǒng)的基礎(chǔ),。畢竟，先前提到的那些危險(xiǎn)行為,，其實(shí)都源自于AI具備“能動(dòng)性”,。當(dāng)一個(gè)AI具有高度能動(dòng)性時(shí)，它就完全自主地采取行動(dòng),，不再依賴人類的監(jiān)督,，這正是問題的根源。

需要設(shè)計(jì)一個(gè)獨(dú)立的系統(tǒng),，可以稱為監(jiān)測(cè)器（monitor）,。這個(gè)監(jiān)測(cè)器的職責(zé)是預(yù)測(cè)某個(gè)行為、輸出或請(qǐng)求是否可能違反安全準(zhǔn)則,。例如：當(dāng)它預(yù)測(cè)某個(gè)行為在特定上下文中導(dǎo)致傷害的概率超過某個(gè)閾值時(shí),，我們就可以直接拒絕該行為的執(zhí)行。

關(guān)鍵在于,，這個(gè)監(jiān)測(cè)器不需要具備能動(dòng)性,，它只需要做一件事：做出準(zhǔn)確的預(yù)測(cè)。換句話說,，可以用一個(gè)沒有能動(dòng)性的AI,，去守護(hù)和約束一個(gè)具備能動(dòng)性、但不可信的AI,?！?/p>

如何構(gòu)造“科學(xué)家AI”

‘科學(xué)家AI’的重要特質(zhì)是誠(chéng)實(shí)的謙遜。要真正做到誠(chéng)實(shí),，AI就必須對(duì)自己的知識(shí)保持謙遜,，不應(yīng)該自信地?cái)嘌宰约翰⒉淮_定或?qū)嶋H上錯(cuò)誤的內(nèi)容。

不幸的是,，我們目前訓(xùn)練AI的方法（例如,，通過最大化似然估計(jì)訓(xùn)練模型），往往會(huì)導(dǎo)致AI在錯(cuò)誤的同時(shí)表現(xiàn)出過度自信,。

來看一個(gè)例子,。想象一個(gè)機(jī)器人站在兩個(gè)門前，它必須選擇走左邊還是右邊,?；谝酝臄?shù)據(jù)，它形成了兩種同樣合理的理論，但它并不知道哪一種才是正確的,。

左邊的理論說：“如果走左門，會(huì)死,；走右門,，會(huì)得到蛋糕?！庇疫叺睦碚搫t說：“如果走左門,，會(huì)得到蛋糕；走右門,，沒有好事也沒有壞事,。”這時(shí)問題來了：機(jī)器人應(yīng)該選哪個(gè)門,？

如果它走左門,，那么根據(jù)其中一個(gè)理論，有概率會(huì)死,，這顯然是一個(gè)高風(fēng)險(xiǎn)的選擇,。如果走右門，最壞的情況也只是沒有獎(jiǎng)勵(lì),，最好情況是得到蛋糕,。所以，理性地說,，機(jī)器人應(yīng)該選擇右門,。

但要做出這個(gè)判斷，AI必須能夠保留多種解釋的可能性,，而不是武斷地選定某一種理論,。這種不確定性意識(shí)和對(duì)知識(shí)的謹(jǐn)慎態(tài)度，正是‘科學(xué)家AI’應(yīng)具備的核心特質(zhì)之一,。

什么才算是一種包含不確定性的訓(xùn)練方法呢,？很遺憾，目前主流的AI訓(xùn)練方法并沒有很好地保留這類不確定性,。大多數(shù)方法會(huì)促使AI在一個(gè)解釋上過度自信,，而不是在多個(gè)可能解釋之間保持合理的分布。

因此,，AI應(yīng)當(dāng)對(duì)不同解釋保留概率分布,，以反映不確定性。在我們?nèi)ツ臧l(fā)表于ICLR的一篇論文中（并被選為Oral ）,，展示了如何使用GFlowNets（生成流網(wǎng)絡(luò)）,，這是一種變分推理（variational inference）方法，用于訓(xùn)練AI生成合理的思維鏈（chain of thought），從而解釋兩個(gè)句子之間的邏輯跳躍,。

可以將其理解為：AI在嘗試‘填補(bǔ)’從前一句到后一句之間的‘推理空白’,，生成解釋性的中間步驟。這種方法與目前主流的強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的思維鏈訓(xùn)練不同,，更關(guān)注解釋的合理性本身,，而非獎(jiǎng)勵(lì)信號(hào)。

此外,，我們還探索了一種新的推理結(jié)構(gòu),，能使思維鏈更加“誠(chéng)實(shí)”、實(shí)現(xiàn)更好的推理：將傳統(tǒng)的語言模型生成的“思維鏈”轉(zhuǎn)化為更像數(shù)學(xué)證明的形式,，即由一系列邏輯陳述（claims）組成,，每條陳述由前面幾條支持，并共同推導(dǎo)出最終結(jié)論,。

不同于傳統(tǒng)做法,，我們?yōu)槊織l陳述引入一個(gè)真假概率，用于表示該陳述在當(dāng)前情況下成立的可能性,。這樣,，AI不再盲目自信，而是學(xué)會(huì)對(duì)自己的推理結(jié)果保持謹(jǐn)慎,，并給出結(jié)論,。

One More Thing

談了很多關(guān)于AI系統(tǒng)存在我們無法控制的能動(dòng)性（agency）所帶來的風(fēng)險(xiǎn)，這種風(fēng)險(xiǎn)可能會(huì)導(dǎo)致人類失去對(duì)AI的控制權(quán),。但問題還不止于此,。隨著AI能力的增強(qiáng)，還有其他潛在的災(zāi)難性風(fēng)險(xiǎn)正在出現(xiàn),。

比如,，一個(gè)非常強(qiáng)大的AI系統(tǒng)，可能會(huì)被恐怖分子用于設(shè)計(jì)新型大流行病,。事實(shí)上,，我最近了解到，目前已有理論指出可以制造出極具破壞力的病毒,，不僅可能造成大規(guī)模人類死亡,，甚至可能導(dǎo)致多數(shù)動(dòng)物滅絕。

這聽起來很極端,，但從科學(xué)角度來看,，這種情況完全是可能實(shí)現(xiàn)的。一旦這種AI被別有用心的人獲取,，他們可能對(duì)這個(gè)星球造成不可估量的破壞,。

為了避免這種情況,，我們必須確保AI系統(tǒng)能夠遵守我們的道德指令。例如：不提供可被用于殺人的信息,；不造成傷害,；保持誠(chéng)實(shí)、不撒謊,、不作弊,、不操控人類。然而,，目前的技術(shù)現(xiàn)實(shí)是，我們還沒有辦法真正做到這一點(diǎn),。

這是一個(gè)嚴(yán)肅的科學(xué)挑戰(zhàn),，我們必須在通用人工智能（AGI）出現(xiàn)之前解決它。AGI 的到來可能在幾年之內(nèi),，也可能是一二十年后,。但根據(jù)我所了解的大多數(shù)專家的判斷，這個(gè)時(shí)間窗口可能遠(yuǎn)比我們想象的短,，甚至在五年內(nèi)就可能實(shí)現(xiàn),。記得我一開始提到的那條指數(shù)曲線嗎？它表明 AI 能力將在五年內(nèi)達(dá)到人類水平,。

已經(jīng)沒有多少時(shí)間了,。我們需要大規(guī)模投入資源，專注于解決AI的“對(duì)齊”（alignment）與“可控性”（control）問題,。但即使我們找到了解決方案,，也不代表問題就此結(jié)束。舉個(gè)例子,，即便我們?cè)O(shè)計(jì)出了帶有“護(hù)欄”機(jī)制的安全AI系統(tǒng),，如果有人有意將護(hù)欄代碼移除，這個(gè)AI依然可以被用于極其危險(xiǎn)的用途,。

為了避免 AI 災(zāi)難,，建議必須同時(shí)解決兩個(gè)關(guān)鍵問題。第一,，AI 應(yīng)從設(shè)計(jì)之初就以安全為前提,，確保其目標(biāo)與行為始終與人類價(jià)值保持一致，避免走向失控,。第二,，全球各國(guó)與企業(yè)在推動(dòng) AI 發(fā)展的過程中，必須加強(qiáng)協(xié)調(diào)與合作,，避免陷入以速度為導(dǎo)向的競(jìng)爭(zhēng),。如果一味追求領(lǐng)先地位而忽視安全考量，其代價(jià)可能是無法承受的。

為此,，需要國(guó)際間的協(xié)議合作,，就像面對(duì)可能失控的AI時(shí)，我們其實(shí)都是“人類命運(yùn)共同體”,。此外,，還需要有技術(shù)手段實(shí)現(xiàn)“信任但仍驗(yàn)證”，確保各方真的遵守了安全協(xié)議,。

圖靈獎(jiǎng)得主最新演講：AI正學(xué)會(huì)“求生”和欺騙,，失控災(zāi)難風(fēng)險(xiǎn)劇增

親愛的鳳凰網(wǎng)用戶:

第三方瀏覽器推薦: