在國際象棋、Jeopardy!、圍棋、德州撲克以及《星際爭霸》等等這些激烈對抗的項(xiàng)目當(dāng)中,人工智能都已經(jīng)成功擊敗世界上最出色的人類選手。這些勝利標(biāo)志著人工智能得到的驚人成就,但同時也令人們開始產(chǎn)生審美疲勞——人類不斷在新的項(xiàng)目中被人工智能擊敗。
在位于西雅圖的艾倫人工智能研究所(簡稱AI2)中,研究人員正在探索一些與眾不同的方向。他們的AllenAI開始與人類選手合作,共同解決看圖猜字游戲中的種種謎題——可以看到,這一次人工智能與人類站在了同一陣營當(dāng)中。
更令人振奮的是,現(xiàn)在大家也可以親自體驗(yàn)這種合作感受。AI2剛剛發(fā)布了游戲的公開版本,屬于看圖猜字(Pictionary)的簡化版本,并被命名為Iconary。雖然當(dāng)前版本的AllenAI能力有限,不過隨著與不同人類選手、不同技能水平以及不同比賽策略之間的協(xié)同磨合,它正在變得越來越強(qiáng)大。
然而,這個項(xiàng)目的目標(biāo)絕不是要構(gòu)建起“世界上最棒的看圖猜字選手”。AI2計算機(jī)視覺部門高級研究主管Ali Farhadi強(qiáng)調(diào)稱,相反,他們將看圖猜字視為一種載體,最終目的是要把從中積累的經(jīng)驗(yàn)轉(zhuǎn)移到其它領(lǐng)域當(dāng)中。
Farhadi在接受采訪時解釋稱:“要玩轉(zhuǎn)看圖猜字,人工智能必須進(jìn)行一系列常識性推理,必須了解抽象概念,甚至還需要一點(diǎn)心理學(xué)中的心智理論知識。”(當(dāng)我們對另一個人的情緒或者想法進(jìn)行猜測時,心理學(xué)家將其稱為心智理論。)“通過游玩看圖猜詞,人工智能將可以得到足以轉(zhuǎn)移至現(xiàn)實(shí)世界應(yīng)用場景當(dāng)中的技能與知識。”
Farhadi同時補(bǔ)充稱,由此學(xué)習(xí)到的經(jīng)驗(yàn)有望適用于任何需要人類與AI交流的系統(tǒng)。他提出構(gòu)想,未來Alexa等語音助手以及其它根據(jù)反饋進(jìn)行自我調(diào)整的助手型機(jī)器人,都將能夠借此實(shí)現(xiàn)更有效的交互能力。
艾倫研究所并不是唯一一家通過游戲玩法探索人工智能協(xié)作的研究機(jī)構(gòu)。OpenAI是一家總部位于舊金山的研究機(jī)構(gòu),其擁有一支由5個AI代理組成的競技隊(duì)伍,這些人工智能方案共同合作游玩《Dota 2》游戲并與人類隊(duì)伍正面對抗(這支隊(duì)伍去年曾經(jīng)正式挑戰(zhàn)人類團(tuán)隊(duì),但遺憾的是未能獲勝)。Spectrum最近還報道了另一項(xiàng)競賽,其中AI代理在《我的世界》游戲中學(xué)習(xí)如何協(xié)作。
上述項(xiàng)目的目標(biāo)完全一致——要求AI學(xué)習(xí)彼此協(xié)作,而這也將成為邁向人工智能合作能力的關(guān)鍵一步。然而,Iconary項(xiàng)目卻直接把目光投向最終目標(biāo)。
在看圖猜字的典型游戲場景下,團(tuán)隊(duì)中的一名成員將負(fù)責(zé)繪制代表某個詞語或短語的藍(lán)圖,并由其他團(tuán)隊(duì)成員猜測其表示的正確答案。在Iconary當(dāng)中,AllenAI能夠扮演繪畫者或者猜謎者角色。當(dāng)其作為繪畫者時,它會給出一系列圖標(biāo),并由人類隊(duì)友嘗試猜出其中的含義。如果人類找不到思路,該AI將針對圖標(biāo)內(nèi)容做出更詳細(xì)的引導(dǎo)。
而當(dāng)AllenAI進(jìn)行猜測時,則由人類選手繪制藍(lán)圖,隨后選擇最能代表其所想內(nèi)容的圖標(biāo)。通過重復(fù)這個過程并在盤面上布置結(jié)果圖標(biāo),人類選手將能夠拼湊出一個小故事,用以幫助AllenAI正確找出最終答案。
目前,該游戲當(dāng)中共包含75000條短語,且需要通過12000個圖標(biāo)進(jìn)行描述。研究人員們表示,他們有意限制了圖標(biāo)的數(shù)量,因此人工智能與人類選手必須以創(chuàng)造性的方式將這些圖標(biāo)結(jié)合起來,從而使用較為簡單的元素構(gòu)建起更為復(fù)雜的概念。
在整個游戲過程中,AllenAI適應(yīng)了個人選手的需求。艾倫人工智能研究所研究科學(xué)家兼Iconary項(xiàng)目聯(lián)合負(fù)責(zé)人Aniruddha Kembhavi解釋稱,這也正是其表現(xiàn)出基礎(chǔ)心智理論能力的證明。“它會把自己的立場與合作者的思維結(jié)合起來,從而判斷「我需要繪制怎樣的內(nèi)容來確保對方能夠猜出正確的答案?」”
在AllenAI的訓(xùn)練方面,其觀察了人們在眾包平臺Mechanical Turk之上進(jìn)行的約10萬局Iconary游戲,并逐漸從中學(xué)習(xí)到成功的游戲策略。為了加速學(xué)習(xí)曲線,它還以遠(yuǎn)超人類能力范圍的超高速度以自我對抗的形式自動進(jìn)行Iconary游戲演練。
這種自我對抗的游戲方式,正是其它AI方案在游戲當(dāng)中獲得勝利的關(guān)鍵所在。最典型的例子當(dāng)數(shù)DeepMind打造的AlphaGo系統(tǒng),其能夠在無需任何提示的情況下自行學(xué)習(xí)國際象棋、圍棋以及將棋。然而,Kembhavi表示他的團(tuán)隊(duì)無法完全依靠自我對抗的游戲方式訓(xùn)練AllenAI:“它也許能夠通過這種自我對抗的方式在看圖猜字中給出理想的成績,但這樣一來,它繪制出的圖形對于人類來說恐怕將無法理解。”
艾倫人工智能研究所的相關(guān)團(tuán)隊(duì)還沒有發(fā)布關(guān)于此項(xiàng)目或者研究方法的任何論文。因此其他一些AI研究人員在接受采訪時表示,如果無法更好地理解“引擎蓋下到底存在著怎樣的運(yùn)作機(jī)制”,他們將無法評論這項(xiàng)成果的科學(xué)意義——佐治亞理工學(xué)院副教授Mark Riedl就秉持著這樣的觀點(diǎn)。不過他同時指出,Iconary項(xiàng)目似乎確實(shí)代表著“積極的一步。”Riedl是Entertainment Intelligence實(shí)驗(yàn)室的負(fù)責(zé)人,該機(jī)構(gòu)致力于實(shí)現(xiàn)人工智能的協(xié)作能力與創(chuàng)造能力;目前,他本人正在嘗試教授人工智能如何游玩《龍與地下城》這款角色扮演游戲。
Riedl認(rèn)為,人工智能研究需要擺脫以往那些具備一系列已知規(guī)則與有限可能行動的游戲項(xiàng)目,包括像圍棋以及《星際爭霸》這些復(fù)雜程度較高的游戲。在他看來,只有立足于不受約束的開放式游戲當(dāng)中,人工智能才能真正展現(xiàn)出自身的發(fā)展?jié)摿?,特別是獨(dú)創(chuàng)性與想象力。雖然Iconary已經(jīng)屬于看詞猜字游戲的一種高度精簡的版本,但他表示“我認(rèn)為這仍是一個極具價值的目標(biāo)。接下來,完整版的看圖猜字有望帶來更加有趣的研究方向。”
Riedl同時指出,即使是在目前的精簡版本當(dāng)中,項(xiàng)目也已經(jīng)非常重視常識性推理。人工智能系統(tǒng)要想把其技能從游戲遷移到現(xiàn)實(shí)世界的應(yīng)用場景之內(nèi),常識將成為一大重要基礎(chǔ)。他進(jìn)一步補(bǔ)充稱,“世界是如何運(yùn)作的?社交互動是如何實(shí)現(xiàn)的?我們傾向于遵循怎樣的腳本步驟?這些都是人工智能應(yīng)當(dāng)掌握的基礎(chǔ)知識。”
艾倫人工智能研究所的Farhadi表示,Iconary除了幫助人工智能了解人類社會的協(xié)作方式,也將幫助人類選手了解人工智能的思維軌跡。由于人工智能在某些游戲當(dāng)中擊敗了眾多人類大師,不少人開始認(rèn)為AI方案將很快在智能水平方面超越人類——事實(shí)并非如此,他指出,“目前AI的智能水平實(shí)際上還不如狗。”
雖然埃隆-馬斯克以及其他一些技術(shù)界的名人已經(jīng)提出超級人工智能可能帶來的隱患,包括有可能徹底消滅人類,或者全面奪走我們的工作崗位,但Farhadi認(rèn)為這些論斷基本屬于科幻小說的范疇。他總結(jié)稱,“實(shí)際情況遠(yuǎn)非如此,而且也絕不是我們研究人工智能的目標(biāo)所在。我們設(shè)想的,是一個人類與人工智能聯(lián)手協(xié)作的美好世界。”
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。