周伯文:探索人工智能45°平衡律
數(shù)據(jù)猿 | 2024-07-06 20:57
【數(shù)據(jù)猿導(dǎo)讀】 7月4日,2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)在上海開幕。上海人工智能實驗室主任、首席科學(xué)家,清華大學(xué)惠妍講席教授,銜遠(yuǎn)科技創(chuàng)始人周伯文在WAIC 2024全體會議上發(fā)表演講。以下為演講全文。

7月4日,2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)在上海開幕。上海人工智能實驗室主任、首席科學(xué)家,清華大學(xué)惠妍講席教授,銜遠(yuǎn)科技創(chuàng)始人周伯文在WAIC 2024全體會議上發(fā)表演講。以下為演講全文。
尊敬的各位領(lǐng)導(dǎo),各位嘉賓,大家上午好,非常榮幸在WAIC大會上、在上海,與大家分享人工智能安全的前沿技術(shù)話題,我想提出一個技術(shù)主張:探索人工智能45°平衡律——Towards AI-45°Law。
當(dāng)前,以大模型為代表的生成式人工智能快速發(fā)展,但隨著能力的不斷提升,模型自身及其應(yīng)用也帶來了一系列潛在風(fēng)險的顧慮。
從公眾對AI風(fēng)險的關(guān)注程度來看,首先是數(shù)據(jù)泄露、濫用、隱私及版權(quán)相關(guān)的內(nèi)容風(fēng)險;其次是惡意使用帶來偽造、虛假信息等相關(guān)的使用風(fēng)險;當(dāng)然也誘發(fā)了偏見歧視等倫理相關(guān)問題;此外還有人擔(dān)心:人工智能是否會對就業(yè)結(jié)構(gòu)等社會系統(tǒng)性問題帶來挑戰(zhàn)。在一系列關(guān)于人工智能的科幻電影中,甚至出現(xiàn)了AI失控、人類喪失自主權(quán)等設(shè)定。
這些由AI帶來的風(fēng)險已初露端倪,但更多的是潛在風(fēng)險,防范這些風(fēng)險需要各界共同努力,需要科學(xué)社區(qū)做出更多貢獻(xiàn)。
去年5月,國際上數(shù)百名AI科學(xué)家和公眾人物共同簽署了一份公開信《Statement of AI Risk》,表達(dá)了對AI風(fēng)險的擔(dān)憂,并呼吁,應(yīng)該像對待流行病和核戰(zhàn)爭等其他大規(guī)模的風(fēng)險一樣,把防范人工智能帶來的風(fēng)險作為全球優(yōu)先事項。
出現(xiàn)對這些風(fēng)險擔(dān)憂,根本原因是我們目前的AI發(fā)展是失衡的。
先讓我們來看一下目前的AI發(fā)展趨勢:
在Transformer為代表的基礎(chǔ)模型架構(gòu)下,加以(大數(shù)據(jù)-大參數(shù)量與大計算)的尺度定律(Scaling Law),目前AI性能呈指數(shù)級增長。
與此形成對比的是,在AI安全維度典型的技術(shù),如:紅隊測試、安全標(biāo)識、安全護(hù)欄與評估測量等,呈現(xiàn)零散化、碎片化,且后置性的特性。
最近的一些對齊技術(shù)兼顧了性能和安全性。比如:監(jiān)督式微調(diào)SFT、人類反饋的強(qiáng)化學(xué)習(xí)RLHF等技術(shù),RLAIF、SuperAlignment等。這些方法幫助將人類的偏好傳遞給AI,助推涌現(xiàn)出了ChatGPT、GPT-4等令人興奮的AI系統(tǒng),以及我們上海AI實驗室的書生Intern大模型等等。雖然瞄準(zhǔn)的是安全和性能同時提升,但這些方法在實際使用中往往還是性能優(yōu)先。
所以總體上,我們在AI模型安全能力方面的提升,還遠(yuǎn)遠(yuǎn)落后于性能的提升,這種失衡導(dǎo)致AI的發(fā)展是跛腳的,我們稱之為Crippled AI。
不均衡的背后是二者投入上的巨大差異。如果對比一下,從研究是否體系化,以及人才密集度、商業(yè)驅(qū)動力、算力的投入度等方面來看,安全方面的投入是遠(yuǎn)遠(yuǎn)落后于AI能力的。
李強(qiáng)總理剛才提出“智能向善”。AI要確??煽?,統(tǒng)籌發(fā)展與安全。毫無疑問地,我們要避免這樣的Crippled AI發(fā)展,我們應(yīng)該追求的是:TrustWorthy AGI,可信的AI,可信的通用人工智能。
實現(xiàn)安全與性能共同增長的“AI-45°平衡律”
可信AGI需要能夠兼顧安全與性能,我們需要找到AI安全優(yōu)先,但又能保證AI性能長期發(fā)展的技術(shù)體系。我們把這樣一種技術(shù)思想體系叫做“AI-45°平衡律” (AI-45° Law)。
AI-45°平衡律是指從長期的角度來看,我們要大體上沿著45度安全與性能平衡發(fā)展,平衡是指短期可以有波動,但不能長期低于45°(如同現(xiàn)在),也不能長期高于45度(這將阻礙發(fā)展與產(chǎn)業(yè)應(yīng)用)。這個技術(shù)思想體系要求強(qiáng)技術(shù)驅(qū)動、全流程優(yōu)化、多主體參與以及敏捷治理。
實現(xiàn)AI-45°平衡律也許有多種技術(shù)路徑。我們上海AI實驗室最近在探索一條以因果為核心的路徑,我們把它取名為:可信AGI的“因果之梯”,致敬因果推理領(lǐng)域的先驅(qū)——圖靈獎得主Judea Pearl。
可信AGI的“因果之梯”將可信AGI的發(fā)展分為三個遞進(jìn)階段:泛對齊、可干預(yù)、能反思。
“泛對齊”主要包含當(dāng)前最前沿的人類偏好對齊技術(shù)。但需要注意的是,這些安全對齊技術(shù)僅依賴統(tǒng)計相關(guān)性而忽視真正的因果關(guān)系,可能導(dǎo)致錯誤推理和潛在危險。一個典型的例子是巴甫洛夫的狗:當(dāng)狗僅僅基于鈴聲和食物的統(tǒng)計相關(guān)性形成條件反射時,它可能在任何聽到鈴聲的場合都觸發(fā)行為分泌唾液——如果這些行為涉及到……時這顯然是不安全的。
“可干預(yù)”主要包含通過對AI系統(tǒng)進(jìn)行干預(yù),探究其因果機(jī)制的安全技術(shù),例如人在回路、機(jī)械可解釋性,以及我們提出的對抗演練等,它以通過提高可解釋性和泛化性來提升安全性,同時也能提升AI能力。
“能反思”則要求AI系統(tǒng)不僅追求高效執(zhí)行任務(wù),還能審視自身行為的影響和潛在風(fēng)險,從而在追求性能的同時,確保安全和道德邊界不被突破。這個階段的技術(shù),包括基于價值的訓(xùn)練、因果可解釋性、反事實推理等。
目前,AI安全和性能技術(shù)發(fā)展主要停留第一階段,部分在嘗試第二階段,但要真正實現(xiàn)AI的安全與性能平衡,我們必須完善第二階段并勇于攀登第三階段。沿著可信AGI的“因果之梯”拾級而上,我們相信可以構(gòu)建真正可信AGI,實現(xiàn)人工智能的安全與卓越性能的完美平衡。
最終,像安全可控的核聚變技術(shù)為全人類帶來清潔、豐富的能源一樣,我們希望通過深入理解AI的內(nèi)在機(jī)理和因果過程,從而安全且有效地開發(fā)和使用這項革命性技術(shù)。
也正如可控核聚變對全人類都是共同利益一樣,我們堅信AI的安全也是全球性的公共福祉,陳吉寧書記剛剛在發(fā)布的《人工智能全球治理上海宣言》中提到“要推動各國加強(qiáng)交流和對話”,我們愿與大家一起攜手推進(jìn)AI-45°平衡律的發(fā)展,共享AI安全技術(shù)、加強(qiáng)全球AI安全人才交流與合作,平衡AI安全與能力的投入,共同構(gòu)建開放、安全的通用人工智能創(chuàng)新生態(tài)和人才發(fā)展環(huán)境。
謝謝大家!
關(guān)于上海人工智能實驗室
上海人工智能實驗室是我國人工智能領(lǐng)域的新型科研機(jī)構(gòu),開展戰(zhàn)略性、原創(chuàng)性、前瞻性的科學(xué)研究與技術(shù)攻關(guān),突破人工智能的重要基礎(chǔ)理論和關(guān)鍵核心技術(shù),打造“突破型、引領(lǐng)型、平臺型”一體化的大型綜合性研究基地,支撐我國人工智能產(chǎn)業(yè)實現(xiàn)跨越式發(fā)展,目標(biāo)建成國際一流的人工智能實驗室,成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。
E-mail: Comm@pjlab.org.cn
如需了解更多信息,請訪問:www.shlab.org.cn;或關(guān)注公眾號:
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯過的資訊
-
1現(xiàn)場Live震撼!OmAgent框架強(qiáng)勢開源!行
-
2論壇預(yù)告|空間智能:邁向下一代人機(jī)共融
-
32024世界人工智能大會(WAIC)專題報道—
-
42024世界人工智能大會暨人工智能全球治理
-
52024世界人工智能大會暨人工智能全球治理
-
6擎朗智能閃耀WAIC 2024,構(gòu)建智能服務(wù)多
-
7金融行業(yè)大模型四方簽約!復(fù)旦、國泰君安
-
8達(dá)觀數(shù)據(jù)專注行業(yè)知識庫與垂直大模型,攜
-
9【數(shù)智化人物展】天云數(shù)據(jù)CEO雷濤:大模
-
10商湯發(fā)布可控人物視頻生成大模型Vimi;支
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
