在一年一度的超級(jí)碗決賽之前,Amazon又發(fā)布了“Alexa新形態(tài)”的重磅廣告。在廣告中,一位女演員把自己對(duì)邁克爾·喬丹的崇拜傾注在Alexa語音助手身上,徹底惹毛了自己的丈夫。毫無疑問,大多數(shù)觀眾都不會(huì)把Amazon設(shè)計(jì)的這段新廣告太當(dāng)真;但事實(shí)上,能像人一樣與我們流暢交通的AI也并沒那么遙遠(yuǎn)。
如今,AI化身——即使用數(shù)字形體及/或面部渲染出的AI形象——還遠(yuǎn)遠(yuǎn)不像喬丹那么有人格魅力,甚至看起來還有點(diǎn)恐怖。研究表明,人類確實(shí)很喜歡開發(fā)這種具有類人功能的機(jī)器人,但一旦機(jī)器的“類人性”超過某個(gè)閾值,反而會(huì)讓人感到可怕——這就是著名的“恐怖谷”理論。創(chuàng)造這個(gè)詞的機(jī)器人專家Masahiro Mori預(yù)計(jì),終有一天會(huì)出現(xiàn)能夠以假亂真的機(jī)器人,讓我們徹底失去分辨能力。至少在對(duì)話層面,這樣的AI已經(jīng)有望實(shí)現(xiàn),徹底打破舊有圖靈測(cè)試的束縛。
在最近與傳奇營銷天才Guy Kawasaki的遠(yuǎn)程視頻中,我大膽做出預(yù)測(cè):未來兩年以內(nèi),Guy就將無法區(qū)分我本人和我們打造的對(duì)話型AI方案Kuki。Guy明顯不以為然,但我也沒有動(dòng)搖,打算一步步做出論證。
結(jié)合這次對(duì)話,我打算向大家公開匯報(bào),說說自己為什么對(duì)這樣的預(yù)測(cè)有信心。在本質(zhì)上,要想在視頻通話中實(shí)現(xiàn)與人類相信的表現(xiàn),AI必須獲得五大關(guān)鍵實(shí)時(shí)技術(shù):
隨著動(dòng)作捕捉技術(shù)(MoCap)與生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN,也是Deep Fake所依賴的底層機(jī)器學(xué)習(xí)技術(shù))的廣泛普及與成本下降,化身方案近年來取得了長(zhǎng)足發(fā)展。早期動(dòng)作捕捉要求演員穿上特殊的服裝,但整個(gè)拍攝與調(diào)整過程成本高昂,只有《阿凡達(dá)》這類鴻篇巨制才負(fù)擔(dān)得起。但如今,單靠iPhone X與免費(fèi)游戲引擎軟件就足以讓動(dòng)作捕捉“走進(jìn)尋常百姓家”。眾多在線Web服務(wù)讓創(chuàng)建低分辨率Deep Fake圖像與視頻變得輕而易舉,快速推動(dòng)這項(xiàng)技術(shù)的大眾化步伐。但如果不加限制,這項(xiàng)技術(shù)也有可能給人類社會(huì)造成巨大沖擊。事實(shí)上,這種進(jìn)步還催生出新的產(chǎn)業(yè),很多主播開始將自己的面部與表情實(shí)時(shí)轉(zhuǎn)化為動(dòng)物形象,甚至出現(xiàn)了“Lil’Miquela”等AI意見領(lǐng)袖。就在上周,Epic Games(〈堡壘之夜〉與虛幻引擎的開發(fā)商)公布了MetaHuman創(chuàng)作器,很快每個(gè)人都能夠免費(fèi)創(chuàng)造出無限接近于真人的“假臉”。
生成類人語音的技術(shù)同樣在迅速發(fā)展。Amazon、微軟與谷歌都提供可靈活消費(fèi)的云文本到語音轉(zhuǎn)換(TTS)API,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)生成越來越逼真的語音效果。此外,我們還能輕松獲取多種自定義語音風(fēng)格工具,這些工具由人類演員根據(jù)一定數(shù)量的示例語句建模而成。與現(xiàn)在的高精度語音識(shí)別類似,語音合成也將隨著算力與訓(xùn)練數(shù)據(jù)的增強(qiáng)而不斷改善。
單有令人信服的AI語音與人臉,還不足以產(chǎn)生價(jià)值——必須有生動(dòng)的表情與之匹配。事實(shí)證明,只需要配合前置攝像頭,計(jì)算機(jī)視覺技術(shù)就足以分析并生成豐富的面部表情。目前已經(jīng)有多種API可供您分析文本內(nèi)容并理解相應(yīng)的情感。NTT Data等實(shí)驗(yàn)室甚至展示了能夠?qū)崟r(shí)模仿人類手勢(shì)與表情的方案;Magic Leap的MICA則能夠提供令人印象深刻的非語言化身表情。當(dāng)然,現(xiàn)有AI還很難摸索出真正自主的精神與情感狀態(tài),這方面仍有很長(zhǎng)的研究道路要走。
為了避免“恐怖谷”問題,AI必須能夠展示出與面部乃至肢體動(dòng)作相一致的“態(tài)度”,并根據(jù)對(duì)話進(jìn)程動(dòng)態(tài)觸發(fā)。南加州大學(xué)ICT實(shí)驗(yàn)室的Shaprio項(xiàng)目以及眾多語音圖像初創(chuàng)企業(yè)的探索,已經(jīng)在為游戲角色提供同步口型與面部表情等方面取得了開創(chuàng)性成果。這類系統(tǒng)能夠通過化身轉(zhuǎn)換文字表達(dá)、分析情感,并通過既定規(guī)則調(diào)用庫內(nèi)的適當(dāng)動(dòng)畫,同時(shí)結(jié)合真實(shí)人類活動(dòng)的視頻持續(xù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練。隨著研發(fā)推進(jìn)與機(jī)器學(xué)習(xí)發(fā)展,這類程序動(dòng)畫有望在兩年之后全面實(shí)現(xiàn)無縫運(yùn)作。
類人對(duì)話中最生澀、也是最困難的部分,在于大多數(shù)聊天機(jī)器人仍然掙扎在進(jìn)行基本對(duì)話的及格線上。到目前為止,相較于語音合成及計(jì)算機(jī)視覺等大獲成功的領(lǐng)域,深度學(xué)習(xí)+更多數(shù)據(jù)+更強(qiáng)算力的模式還沒能在自然語言理解方面取得有意義的突破。
類人AI這個(gè)思路極具吸引力,目前已經(jīng)吸引到3.2億風(fēng)險(xiǎn)投資;但至少在未來幾年當(dāng)中,除非其中的核心要素得以“解決”,否則一切恐怕仍只是個(gè)幻想。隨著化身技術(shù)真正邁出前進(jìn)的步伐,人們的期望也會(huì)越來越高;而當(dāng)虛擬助手的仿真面孔無法匹配靈活的大腦與情商表達(dá)時(shí),失望之情也會(huì)與日俱增。因此,現(xiàn)在預(yù)測(cè)聊天機(jī)器人什么時(shí)候能夠達(dá)到真人水平還為時(shí)過早。再說點(diǎn)喪氣話:如今的機(jī)器智能甚至連基于純文本的圖靈測(cè)試都還無法通過。
也許更重要的問題應(yīng)該是:我們有必要弄出這種類人形式的AI嗎?這類成果在媒體交互角色、AI醫(yī)療助手、培訓(xùn)乃至教育領(lǐng)域帶來的收益,真的比潛在風(fēng)險(xiǎn)更大嗎?類人AI必然要無限趨近于人,還是應(yīng)該像很多業(yè)內(nèi)人士們的觀點(diǎn),盡量避開類人這個(gè)坑以消除“恐怖谷”效應(yīng)?
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。