周伯文：探索人工智能45°平衡律

周伯文人工智能 45平衡律

數(shù)據(jù)猿 | 2024-07-06 20:57

【數(shù)據(jù)猿導(dǎo)讀】 7月4日，2024世界人工智能大會暨人工智能全球治理高級別會議（WAIC 2024）在上海開幕。上海人工智能實驗室主任、首席科學(xué)家，清華大學(xué)惠妍講席教授，銜遠(yuǎn)科技創(chuàng)始人周伯文在WAIC 2024全體會議上發(fā)表演講。以下為演講全文。

7月4日，2024世界人工智能大會暨人工智能全球治理高級別會議（WAIC 2024）在上海開幕。上海人工智能實驗室主任、首席科學(xué)家，清華大學(xué)惠妍講席教授，銜遠(yuǎn)科技創(chuàng)始人周伯文在WAIC 2024全體會議上發(fā)表演講。以下為演講全文。

尊敬的各位領(lǐng)導(dǎo)，各位嘉賓，大家上午好，非常榮幸在WAIC大會上、在上海，與大家分享人工智能安全的前沿技術(shù)話題，我想提出一個技術(shù)主張：探索人工智能45°平衡律——Towards AI-45°Law。

當(dāng)前，以大模型為代表的生成式人工智能快速發(fā)展，但隨著能力的不斷提升，模型自身及其應(yīng)用也帶來了一系列潛在風(fēng)險的顧慮。

從公眾對AI風(fēng)險的關(guān)注程度來看，首先是數(shù)據(jù)泄露、濫用、隱私及版權(quán)相關(guān)的內(nèi)容風(fēng)險；其次是惡意使用帶來偽造、虛假信息等相關(guān)的使用風(fēng)險；當(dāng)然也誘發(fā)了偏見歧視等倫理相關(guān)問題；此外還有人擔(dān)心：人工智能是否會對就業(yè)結(jié)構(gòu)等社會系統(tǒng)性問題帶來挑戰(zhàn)。在一系列關(guān)于人工智能的科幻電影中，甚至出現(xiàn)了AI失控、人類喪失自主權(quán)等設(shè)定。

這些由AI帶來的風(fēng)險已初露端倪，但更多的是潛在風(fēng)險，防范這些風(fēng)險需要各界共同努力，需要科學(xué)社區(qū)做出更多貢獻(xiàn)。

去年5月，國際上數(shù)百名AI科學(xué)家和公眾人物共同簽署了一份公開信《Statement of AI Risk》，表達(dá)了對AI風(fēng)險的擔(dān)憂，并呼吁，應(yīng)該像對待流行病和核戰(zhàn)爭等其他大規(guī)模的風(fēng)險一樣，把防范人工智能帶來的風(fēng)險作為全球優(yōu)先事項。

出現(xiàn)對這些風(fēng)險擔(dān)憂，根本原因是我們目前的AI發(fā)展是失衡的。

先讓我們來看一下目前的AI發(fā)展趨勢：

在Transformer為代表的基礎(chǔ)模型架構(gòu)下，加以（大數(shù)據(jù)-大參數(shù)量與大計算）的尺度定律（Scaling Law），目前AI性能呈指數(shù)級增長。

與此形成對比的是，在AI安全維度典型的技術(shù)，如：紅隊測試、安全標(biāo)識、安全護(hù)欄與評估測量等，呈現(xiàn)零散化、碎片化，且后置性的特性。

最近的一些對齊技術(shù)兼顧了性能和安全性。比如：監(jiān)督式微調(diào)SFT、人類反饋的強(qiáng)化學(xué)習(xí)RLHF等技術(shù)，RLAIF、SuperAlignment等。這些方法幫助將人類的偏好傳遞給AI，助推涌現(xiàn)出了ChatGPT、GPT-4等令人興奮的AI系統(tǒng)，以及我們上海AI實驗室的書生Intern大模型等等。雖然瞄準(zhǔn)的是安全和性能同時提升，但這些方法在實際使用中往往還是性能優(yōu)先。

所以總體上，我們在AI模型安全能力方面的提升，還遠(yuǎn)遠(yuǎn)落后于性能的提升，這種失衡導(dǎo)致AI的發(fā)展是跛腳的，我們稱之為Crippled AI。

不均衡的背后是二者投入上的巨大差異。如果對比一下，從研究是否體系化，以及人才密集度、商業(yè)驅(qū)動力、算力的投入度等方面來看，安全方面的投入是遠(yuǎn)遠(yuǎn)落后于AI能力的。

李強(qiáng)總理剛才提出“智能向善”。AI要確?？煽?，統(tǒng)籌發(fā)展與安全。毫無疑問地，我們要避免這樣的Crippled AI發(fā)展，我們應(yīng)該追求的是：TrustWorthy AGI，可信的AI，可信的通用人工智能。

周伯文_人工智能_45平衡律-1

實現(xiàn)安全與性能共同增長的“AI-45°平衡律”

可信AGI需要能夠兼顧安全與性能，我們需要找到AI安全優(yōu)先，但又能保證AI性能長期發(fā)展的技術(shù)體系。我們把這樣一種技術(shù)思想體系叫做“AI-45°平衡律” （AI-45° Law）。

AI-45°平衡律是指從長期的角度來看，我們要大體上沿著45度安全與性能平衡發(fā)展，平衡是指短期可以有波動，但不能長期低于45°（如同現(xiàn)在），也不能長期高于45度（這將阻礙發(fā)展與產(chǎn)業(yè)應(yīng)用）。這個技術(shù)思想體系要求強(qiáng)技術(shù)驅(qū)動、全流程優(yōu)化、多主體參與以及敏捷治理。

實現(xiàn)AI-45°平衡律也許有多種技術(shù)路徑。我們上海AI實驗室最近在探索一條以因果為核心的路徑，我們把它取名為：可信AGI的“因果之梯”，致敬因果推理領(lǐng)域的先驅(qū)——圖靈獎得主Judea Pearl。

可信AGI的“因果之梯”將可信AGI的發(fā)展分為三個遞進(jìn)階段：泛對齊、可干預(yù)、能反思。

“泛對齊”主要包含當(dāng)前最前沿的人類偏好對齊技術(shù)。但需要注意的是，這些安全對齊技術(shù)僅依賴統(tǒng)計相關(guān)性而忽視真正的因果關(guān)系，可能導(dǎo)致錯誤推理和潛在危險。一個典型的例子是巴甫洛夫的狗：當(dāng)狗僅僅基于鈴聲和食物的統(tǒng)計相關(guān)性形成條件反射時，它可能在任何聽到鈴聲的場合都觸發(fā)行為分泌唾液——如果這些行為涉及到……時這顯然是不安全的。

“可干預(yù)”主要包含通過對AI系統(tǒng)進(jìn)行干預(yù)，探究其因果機(jī)制的安全技術(shù)，例如人在回路、機(jī)械可解釋性，以及我們提出的對抗演練等，它以通過提高可解釋性和泛化性來提升安全性，同時也能提升AI能力。

“能反思”則要求AI系統(tǒng)不僅追求高效執(zhí)行任務(wù)，還能審視自身行為的影響和潛在風(fēng)險，從而在追求性能的同時，確保安全和道德邊界不被突破。這個階段的技術(shù)，包括基于價值的訓(xùn)練、因果可解釋性、反事實推理等。

目前，AI安全和性能技術(shù)發(fā)展主要停留第一階段，部分在嘗試第二階段，但要真正實現(xiàn)AI的安全與性能平衡，我們必須完善第二階段并勇于攀登第三階段。沿著可信AGI的“因果之梯”拾級而上，我們相信可以構(gòu)建真正可信AGI，實現(xiàn)人工智能的安全與卓越性能的完美平衡。

最終，像安全可控的核聚變技術(shù)為全人類帶來清潔、豐富的能源一樣，我們希望通過深入理解AI的內(nèi)在機(jī)理和因果過程，從而安全且有效地開發(fā)和使用這項革命性技術(shù)。

也正如可控核聚變對全人類都是共同利益一樣，我們堅信AI的安全也是全球性的公共福祉，陳吉寧書記剛剛在發(fā)布的《人工智能全球治理上海宣言》中提到“要推動各國加強(qiáng)交流和對話”，我們愿與大家一起攜手推進(jìn)AI-45°平衡律的發(fā)展，共享AI安全技術(shù)、加強(qiáng)全球AI安全人才交流與合作，平衡AI安全與能力的投入，共同構(gòu)建開放、安全的通用人工智能創(chuàng)新生態(tài)和人才發(fā)展環(huán)境。

謝謝大家！

關(guān)于上海人工智能實驗室

上海人工智能實驗室是我國人工智能領(lǐng)域的新型科研機(jī)構(gòu)，開展戰(zhàn)略性、原創(chuàng)性、前瞻性的科學(xué)研究與技術(shù)攻關(guān)，突破人工智能的重要基礎(chǔ)理論和關(guān)鍵核心技術(shù)，打造“突破型、引領(lǐng)型、平臺型”一體化的大型綜合性研究基地，支撐我國人工智能產(chǎn)業(yè)實現(xiàn)跨越式發(fā)展，目標(biāo)建成國際一流的人工智能實驗室，成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。

E-mail: Comm@pjlab.org.cn

如需了解更多信息，請訪問：www.shlab.org.cn；或關(guān)注公眾號：

周伯文_人工智能_45平衡律-2