幾十年以來,我們一直在努力按自己的形象開發(fā)出人工智能。在此期間,我們也始終致力于創(chuàng)造一種既像人類一樣睿智、又像人類一樣愚蠢的機(jī)器。
但經(jīng)過六十年的研發(fā),讓AI系統(tǒng)在目標(biāo)、意圖與價(jià)值觀層面與人類保持統(tǒng)一,仍是個(gè)遙不可及的目標(biāo)。AI幾乎已經(jīng)在各個(gè)主要領(lǐng)域達(dá)到與人類智能相近、甚至更高的水平,但又總是在最核心的范疇內(nèi)有所欠缺。正是這種欠缺,導(dǎo)致AI技術(shù)無法成為我們所期望的、真正擁有更改及行事邏輯的智能主體。
程序員兼研究員Brian Christian在最新著作《機(jī)器學(xué)習(xí)與人類價(jià)值觀之間的一致性問題》(The Alignment Problem: Machine Learning and Human Value)當(dāng)中,討論了我們?cè)撛鯓哟_保AI模型能夠捕捉到“我們的規(guī)范與價(jià)值觀,理解我們的意思或意圖,并據(jù)此做出優(yōu)先級(jí)判斷”這一現(xiàn)實(shí)挑戰(zhàn)。近年來,隨著機(jī)器學(xué)習(xí)應(yīng)用范圍的逐步推廣,在實(shí)際領(lǐng)域中做出錯(cuò)誤決策很可能帶來災(zāi)難性的后果。正是這樣的背景,讓Christian提出的問題變得愈發(fā)緊迫。
根據(jù)Christian所述,“隨著機(jī)器學(xué)習(xí)系統(tǒng)的日益普及與功能的逐步增強(qiáng),我們開始變得像「新手巫師」——我們掌握著一種具有自主性的力量,我們似乎可以用指令引導(dǎo)這種力量,但如果指示不夠準(zhǔn)確或不夠完整,就有可能引發(fā)某些可怕且超出意料的后果。”
在書中,Christian全面描述了人工智能的現(xiàn)狀以及整個(gè)發(fā)展歷程,同時(shí)探討了現(xiàn)有AI創(chuàng)建方法的種種缺陷。
下面來看書中的幾大要點(diǎn)。
機(jī)器學(xué)習(xí):將輸入映射至輸出
在AI研究的前幾十年中,符號(hào)系統(tǒng)在解決以往涉及邏輯推理的復(fù)雜問題時(shí),取得了舉世矚目的成就。然而,這類系統(tǒng)反而很難解決人類兒童就能處理的小問題——例如檢測(cè)物體、識(shí)別人臉、理解聲音與語音。此外,這類系統(tǒng)的可擴(kuò)展性也比較差,往往需要大量人工介入以建立明確的規(guī)則與知識(shí)定義。
最近,全世界對(duì)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的關(guān)注開始快速增長,同時(shí)也推動(dòng)著計(jì)算機(jī)視覺、語音識(shí)別與自然語言處理等領(lǐng)域(傳統(tǒng)符號(hào)AI無法處理的領(lǐng)域)的迅猛發(fā)展。機(jī)器學(xué)習(xí)算法可以跟隨數(shù)據(jù)量與計(jì)算資源同步擴(kuò)展,借此帶來了人工智能的黃金十年。
但問題在于,機(jī)器學(xué)習(xí)算法的效果雖然相當(dāng)突出,但本質(zhì)卻仍然簡陋——將觀察結(jié)果通過復(fù)雜的數(shù)學(xué)函數(shù)與結(jié)果映射起來。因此,機(jī)器學(xué)習(xí)的質(zhì)量將直接由數(shù)據(jù)質(zhì)量決定,而且會(huì)在實(shí)際應(yīng)用并接觸到與訓(xùn)練數(shù)據(jù)不符的真實(shí)素材時(shí),產(chǎn)生嚴(yán)重的性能下降。
在書中,Christian列舉了一系列實(shí)例,闡述機(jī)器學(xué)習(xí)算法遭遇的各種尷尬、甚至具有危害性的破壞。以Google Photos分類算法為例,該算法會(huì)將皮膚黝黑的人標(biāo)記為大猩猩。問題不在算法本身,而在于所使用的訓(xùn)練數(shù)據(jù)。如果谷歌能夠在數(shù)據(jù)集中納入更多皮膚黝黑的素材,完全可以避免這個(gè)問題。
Christian寫道,“當(dāng)然,從理論上講,這類系統(tǒng)可以從一組示例中學(xué)到任何知識(shí)。但這也意味著AI系統(tǒng)的理解方式完全受示例左右。”
更糟糕的是,機(jī)器學(xué)習(xí)模型無法分辨對(duì)錯(cuò),也無法做出道德決策。機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)中存在的任何問題,通常都會(huì)以極細(xì)微、甚至根本無法察覺的方式反映在模型行為當(dāng)中。例如,Amazon于2018年關(guān)閉了用于做出雇用決策的機(jī)器學(xué)習(xí)工具,因?yàn)槠錄Q策結(jié)果明顯歧視女性。很明顯,AI的創(chuàng)造者并不希望根據(jù)性別來選擇候選人,但由于模型訓(xùn)練使用的數(shù)據(jù)來自Amazon公司的過往記錄,因此反映出了其用人方面的某些傾向。
這還只是機(jī)器學(xué)習(xí)模型偏見問題中的冰山一角。正是由于存在這些問題,由于機(jī)器學(xué)習(xí)模型會(huì)盲目根據(jù)我們以往的行為總結(jié)經(jīng)驗(yàn),才讓我們無法充分信任這類工具。
Christian寫道,“對(duì)真實(shí)世界建模相對(duì)簡單,但模型在付諸使用后總會(huì)出現(xiàn)種種變化,甚至反過來改變這個(gè)世界。目前大部分機(jī)器學(xué)習(xí)模型在設(shè)計(jì)當(dāng)中存在一種廣泛假設(shè),即模型本身不會(huì)改變其建模所依據(jù)的現(xiàn)實(shí)。但這種假設(shè)幾乎完全站不住腳。實(shí)際上,草率部署這類模型很可能會(huì)產(chǎn)生反饋循環(huán),導(dǎo)致我們?cè)絹碓诫y以將其扳回正軌。”
對(duì)于數(shù)據(jù)收集、模式查找以及將模式轉(zhuǎn)化為行動(dòng)等層面,人類智能應(yīng)該發(fā)揮更大的作用。機(jī)器學(xué)習(xí)的現(xiàn)實(shí)挑戰(zhàn)已經(jīng)證明,我們對(duì)于數(shù)據(jù)乃至機(jī)器學(xué)習(xí)的很多假設(shè)性認(rèn)識(shí)完全是錯(cuò)的。
Christian警告稱,“我們需要作出批判性思考……除了重視訓(xùn)練數(shù)據(jù)的來源,還應(yīng)重視系統(tǒng)中作為基本事實(shí)的標(biāo)簽來源。人們認(rèn)為的基本事實(shí),往往并不是基本事實(shí)。”
強(qiáng)化學(xué)習(xí):獎(jiǎng)勵(lì)最大化
強(qiáng)化學(xué)習(xí)同樣幫助研究人員實(shí)現(xiàn)了非凡的成就,使得AI能夠在復(fù)雜的電子游戲中擊敗人類冠軍。
過去十年以來,作為AI技術(shù)的另一大分支,強(qiáng)化學(xué)習(xí)同樣獲得了廣泛關(guān)注。強(qiáng)化學(xué)習(xí)要求為模型提供問題空間加獎(jiǎng)勵(lì)函數(shù)規(guī)則,之后就由模型自主探索整個(gè)空間,找出能夠?qū)崿F(xiàn)獎(jiǎng)勵(lì)最大化的方法。
Christian寫道,“強(qiáng)化學(xué)習(xí)……幫助我們一步步探索著智能的普遍、甚至是最本質(zhì)的定義。如果說John McCarthy提出的「智能是實(shí)現(xiàn)真實(shí)目標(biāo)的能力中的計(jì)算部分」的說法真實(shí)可靠,那么強(qiáng)化學(xué)習(xí)相當(dāng)于提供了一套驚人的通用型工具箱。它的核心機(jī)理就是在一次又一次試錯(cuò)當(dāng)中,摸索出新時(shí)代下一切人工智能方案的共通基礎(chǔ)。”
強(qiáng)化學(xué)習(xí)確實(shí)在雅達(dá)利游戲、圍棋、《星際爭霸2》以及DOTA 2等游戲中表現(xiàn)出色,并在機(jī)器人技術(shù)領(lǐng)域得到廣泛應(yīng)用。但成功的背后人們也開始意識(shí)到,單純追求外部獎(jiǎng)勵(lì)并不能完全體現(xiàn)智能的運(yùn)作方式。
一方面,強(qiáng)化學(xué)習(xí)模型需要漫長的訓(xùn)練周期才能得出簡單的判斷能力。因此,這方面研究成為極少數(shù)掌握無窮資源的科技巨頭的專利。另外,強(qiáng)化學(xué)習(xí)系統(tǒng)的適用性也非常有限——能夠在《星際爭霸2》中擊敗人類世界冠軍的系統(tǒng),卻無法在其他類似的游戲中觸類旁通。強(qiáng)化學(xué)習(xí)代理也更傾向于通過無止境的循環(huán),以犧牲長期目標(biāo)的方式追求最簡單的獎(jiǎng)勵(lì)最大化路徑。以賽車游戲AI為例,它經(jīng)常會(huì)陷入不斷收集獎(jiǎng)勵(lì)物品的死循環(huán),卻總是贏不下整場比賽。
Christian認(rèn)為,“消除這種與外部獎(jiǎng)勵(lì)的硬性聯(lián)系,可能才是構(gòu)建通用型AI的訣竅所在。因?yàn)榕c雅達(dá)利游戲不同,真實(shí)生活并不會(huì)為我們的每種行為預(yù)先設(shè)定明確的實(shí)時(shí)反饋。當(dāng)然,我們有父母、有老師,他們可以及時(shí)糾正我們的拼寫、發(fā)音和行為模式。但是,這些并不是人生的全部,我們的生活不可能由權(quán)威所全面掌控。我們需要根據(jù)自己的觀點(diǎn)與立場做出判斷,這也正是人類族群得以存續(xù)發(fā)展的根本前提。”
Christian還建議,不妨根據(jù)強(qiáng)化學(xué)習(xí)的原理反其道而行之,“結(jié)合預(yù)期行為考慮如何構(gòu)建環(huán)境獎(jiǎng)勵(lì),引導(dǎo)模型一步步掌握行為模式。這就像是面對(duì)美食評(píng)論家做出一份份食物,思考如何才能獲得對(duì)方的肯定。”
AI有必要模仿人類嗎?
在書中,Christian還討論了開發(fā)AI代理的意義——讓這些代理模仿人類行為,真的有意義嗎?自動(dòng)駕駛汽車就是典型實(shí)例,代理會(huì)通過觀察人類司機(jī)學(xué)習(xí)如何駕駛車輛。
模仿確實(shí)可以創(chuàng)造奇跡,特別善于處理規(guī)則及標(biāo)簽不夠明確的問題。但是,模仿也會(huì)繼承人類智能中的欠缺。人類在年輕時(shí)往往通過模仿與死記硬背學(xué)習(xí)大量知識(shí),但模仿只是我們發(fā)展出智能行為的多種機(jī)制之一。在觀察他人的行為時(shí),我們會(huì)根據(jù)自己的限制、意圖、目標(biāo)、需求以及價(jià)值觀調(diào)整出適合自己的處理方式。
Christian寫道,“如果模仿對(duì)象比我們更快、更強(qiáng)壯、身材更高大,那我們就沒辦法完美模仿他們。這時(shí)候一味堅(jiān)持模仿,只會(huì)影響我們解決問題的能力。”
誠然,AI系統(tǒng)確實(shí)通過觀察并預(yù)測(cè)我們的行為,嘗試以模仿的方式提供幫助。但很明顯,AI系統(tǒng)并不像人類這樣受到種種約束與限制,因此會(huì)導(dǎo)致其誤解我們的意圖,甚至放大我們的某些不良習(xí)慣,最終將負(fù)面影響擴(kuò)散到我們生活中的方方面面。
Christian寫道,“我們的數(shù)字管家正密切關(guān)注我們的私人生活與公共生活,審視著我們好的一面與壞的一面,但卻并不清楚這些因素到底有何區(qū)別、有何聯(lián)系。AI系統(tǒng)好似生活在一處詭異而復(fù)雜的山谷:能夠從我們的行為中推理出復(fù)雜的人類欲望模型,但卻無法理解這些欲望從何而來。它們努力思考接下來該做什么,但不了解我們想要什么、又是怎樣成長為我們自己。”
未來在哪里?
機(jī)器學(xué)習(xí)的進(jìn)步表明,我們?cè)趧?chuàng)造思想機(jī)器方面已經(jīng)取得了一定成就。但是,機(jī)器學(xué)習(xí)帶來的挑戰(zhàn)與影響,也再次提醒我們應(yīng)該正視理解人類智能這一前提性難題。
AI科學(xué)家與研究人員正探索多種不同方法,希望克服這些障礙,打造出讓人類只受益、不受害的AI系統(tǒng)。而在達(dá)成這項(xiàng)目標(biāo)之前,我們需要謹(jǐn)慎行事,不可貿(mào)然為這類系統(tǒng)賦予過多權(quán)限。
Christian最后警告稱,“著眼于當(dāng)下,最危險(xiǎn)的行為就是在機(jī)器學(xué)習(xí)領(lǐng)域找到一種看似合理的模型、急于宣告研究成功——這可能會(huì)給整個(gè)社會(huì)帶來災(zāi)難性的后果。”
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。