科技行者 10月24日 北京消息:雖然能夠像人類(lèi)一樣靈活處理問(wèn)題的「機(jī)器人」遠(yuǎn)沒(méi)有出現(xiàn),但AI技術(shù)的加速發(fā)展讓我們比以往任何時(shí)候都更接近這一愿景。今年9月份的一篇論文中,谷歌公司的一支科學(xué)家團(tuán)隊(duì)利用機(jī)械手臂進(jìn)行測(cè)試,旨在以最少的訓(xùn)練數(shù)據(jù)學(xué)會(huì)破解魔方;在今年6月份的一次計(jì)算機(jī)視覺(jué)會(huì)議上,麻省理工學(xué)院也展示了一套AI模型,僅憑視覺(jué)數(shù)據(jù)片段能夠預(yù)測(cè)物理對(duì)象的觸覺(jué)感受。
如今,OpenAI(由伊隆·馬斯克牽頭創(chuàng)立的AI研究公司,得到LinkedIn聯(lián)合創(chuàng)始人里德·霍夫曼以及Y Combinator總裁薩姆·奧特曼等人的支持,總部位于舊金山)表示,正在著力解決機(jī)器人技術(shù)與AI系統(tǒng)領(lǐng)域的一大重要挑戰(zhàn):破解魔方。不同于加州大學(xué)歐文分校等其他區(qū)域性團(tuán)隊(duì)所取得的原有突破(采用定制化機(jī)器快速操縱魔方體),OpenAI研究人員的基本思路在于:使用常規(guī)五指人形機(jī)械手臂,經(jīng)過(guò)13000年經(jīng)驗(yàn)積累的訓(xùn)練量數(shù)據(jù),所打造的AI模型,負(fù)責(zé)提供指揮。值得一提的是,這套模型此前曾被用于操作Dota游戲,當(dāng)時(shí)的訓(xùn)練量積累相當(dāng)于人類(lèi)選手40000年的經(jīng)驗(yàn)水平。
這套模型基于今年早些時(shí)候由騰訊公司以及香港中文大學(xué)開(kāi)展的實(shí)驗(yàn),具體包括:一款靈巧的人形機(jī)械手,一套AI軟件模型(用于識(shí)別魔方體的最佳移動(dòng)序列),以及一個(gè)魔方操作器(最多可控制五根手指)。該團(tuán)隊(duì)報(bào)告稱(chēng),基于模型與無(wú)模型的兩大規(guī)劃工具組合之后,該方案在1400次試驗(yàn)中實(shí)現(xiàn)了90.3%的平均成功率。而在對(duì)AI組件進(jìn)行30000次操作訓(xùn)練之后,其平均成功率進(jìn)一步提升至95.2%。
不過(guò)騰訊的方案是在嚴(yán)格的仿真環(huán)境中進(jìn)行的,并采用了Roboti提供的多關(guān)節(jié)接觸動(dòng)力學(xué)(Mujoco)技術(shù)。Mutjoco是一套專(zhuān)為機(jī)器人和生物力學(xué)的研究與開(kāi)發(fā)場(chǎng)景所設(shè)計(jì)的物理引擎。OpenAI同樣利用模擬場(chǎng)景訓(xùn)練了自己的AI模型,但其成功地在不犧牲準(zhǔn)確性或魯棒性的前提下,將處理能力遷移到了真實(shí)機(jī)器手臂當(dāng)中。
OpenAI機(jī)器人團(tuán)隊(duì)技術(shù)成員Matthias Plappert表示,“我們之所以對(duì)魔方任務(wù)抱有濃厚興趣,是因?yàn)樗髾C(jī)器手的敏捷性接近于人類(lèi)水平。從某種意義上講,這是一項(xiàng)高度復(fù)雜的任務(wù),必須真正精確地控制手指,才能準(zhǔn)確翻轉(zhuǎn)魔方的各個(gè)面。我們希望通過(guò)這次實(shí)驗(yàn)看看去年發(fā)布的這套AI模型能夠走多遠(yuǎn)。”
設(shè)置工作
據(jù)OpenAI在論文中介紹,考慮到魔方狀態(tài)評(píng)估的復(fù)雜性,以及破解魔方所需要的精確操作,在這項(xiàng)任務(wù)中僅憑模擬數(shù)據(jù)操作魔方比操作一個(gè)立方體要難得多。
魔方由26個(gè)通過(guò)鉸鏈與彈簧連接的小立方體組成,內(nèi)部至少包含6種自由旋轉(zhuǎn)方位,且六個(gè)面都能獨(dú)立完成旋轉(zhuǎn),而在魔方被打亂之后,只有將六個(gè)面都恢復(fù)為同一顏色,才算真正破解成功。
該團(tuán)隊(duì)采用的解決方案是一種被稱(chēng)為「自動(dòng)域隨機(jī)化(ADR,automatic domain randomization)」的算法。這種算法會(huì)自動(dòng)生成用于訓(xùn)練強(qiáng)化學(xué)習(xí)模型的分布以及可通過(guò)視覺(jué)估計(jì)對(duì)象姿態(tài)的模塊,即一個(gè)基于視覺(jué)的姿態(tài)估計(jì)器,憑借著由獎(jiǎng)勵(lì)與懲罰機(jī)制重復(fù)實(shí)現(xiàn)的復(fù)習(xí)與強(qiáng)化學(xué)習(xí)過(guò)程,AI系統(tǒng)將一步步朝著正確的目標(biāo)完成自主學(xué)習(xí)。
根據(jù)世界魔方協(xié)會(huì)的官方指南,研究人員使用了一種魔方置亂技術(shù)進(jìn)行ADR部署,將大約20步移動(dòng)到一個(gè)已解出的魔方上進(jìn)行置亂/標(biāo)準(zhǔn)化加擾。此后,他們將未加擾任務(wù)拆分為多個(gè)子目標(biāo),例如旋轉(zhuǎn)(順時(shí)針或逆時(shí)針旋轉(zhuǎn)一個(gè)立方體面90度),以及翻轉(zhuǎn)(將一個(gè)特定立方體的某個(gè)面旋轉(zhuǎn)至頂部)。由于旋轉(zhuǎn)頂面通常比旋轉(zhuǎn)其他面簡(jiǎn)單,因此研究人員將翻轉(zhuǎn)與頂面旋轉(zhuǎn)與其他子目標(biāo)按順序組合在一起。而對(duì)于魔方的實(shí)際求解方法,他們采用了現(xiàn)有的軟件庫(kù),比如Kociemba求解器等,用于生成子目標(biāo)解決方案的操作序列。
硬件
負(fù)責(zé)操縱魔方的機(jī)器手是Shadow Dextrous E系列產(chǎn)品,他的中指與無(wú)名指各有3個(gè)驅(qū)動(dòng)關(guān)節(jié)和1個(gè)欠驅(qū)動(dòng)關(guān)節(jié),小指與拇指各有5個(gè)驅(qū)動(dòng)關(guān)節(jié),腕部有2個(gè)驅(qū)動(dòng)關(guān)節(jié)。多年以來(lái),它一直是OpenAI機(jī)器人平臺(tái)的核心組成部分,它匹配了三臺(tái)用于視覺(jué)姿態(tài)估計(jì)與一臺(tái)配有PhaseSpace動(dòng)作捕捉系統(tǒng)的攝像機(jī)。這套系統(tǒng)被安裝在一個(gè)配有滑軌的計(jì)算機(jī)框體當(dāng)中。
該團(tuán)隊(duì)指出,他們與機(jī)器手臂制造商Shadow Robot公司建立合作關(guān)系,以提高某些機(jī)器人組件的堅(jiān)固性與可靠性。具體而言,他們?cè)黾恿藱C(jī)器手在與物體交互時(shí)的抓握力,同時(shí)減小了肌腱應(yīng)力,并調(diào)整了與之交互的軟件堆棧以盡可能消除扭矩限制。
▲ 圖:OpenAI測(cè)試了機(jī)械手諸多變化
至于魔方,它不是一般的模型,而是特別定制版本。它是一個(gè)小米的Giiker立方體,它搭載了可感知方向的藍(lán)牙和運(yùn)動(dòng)傳感器。市面上在售版本的Giiker立方體模型的面角分辨率為90度,但該團(tuán)隊(duì)修改了它們的模型,使面角跟蹤精度達(dá)到約5度。
模擬
與騰訊團(tuán)隊(duì)一樣,OpenAI的研究人員也利用Mujoco來(lái)模擬環(huán)境、機(jī)器手以及物體,同時(shí)采用ORRB(以游戲引擎Unity為基礎(chǔ)的遠(yuǎn)程渲染后端)進(jìn)行圖像渲染,從而訓(xùn)練基于視覺(jué)的姿態(tài)估計(jì)器。模擬環(huán)境下的魔方由26個(gè)1.9厘米邊長(zhǎng)的立方體組成,其中6個(gè)具有單一鉸鏈接頭,另外20個(gè)擁有三個(gè)鉸鏈接頭,有效旋轉(zhuǎn)自由度為66度。如此一來(lái),模擬環(huán)境即可表達(dá)43百萬(wàn)的立方個(gè)立方體朝向配置,以及介于這些朝向配置之間的所有過(guò)渡狀態(tài)。
指導(dǎo)Shadow Hand機(jī)器手的AI策略,還必須同時(shí)考慮到魔方,與魔方內(nèi)鉸鏈接點(diǎn)基礎(chǔ)壓力,以及Giiker魔方的材質(zhì)特征等一系列因素。例如,向單一立方體施加力通常足以使得單面旋轉(zhuǎn),因?yàn)榱κ峭ㄟ^(guò)接觸力在相鄰元素之間傳播的。但是,每個(gè)立方體有六個(gè)面,而且并非所有立方體都能夠同時(shí)旋轉(zhuǎn)。另外,垂直面必須卡入至適當(dāng)位置才能旋轉(zhuǎn),否則未能?chē)?yán)格對(duì)齊將導(dǎo)致整個(gè)魔方“全面癱瘓”。
這時(shí)候就要靠ADR解決難題了。根據(jù)研究人員們的解釋?zhuān)@項(xiàng)技術(shù)能夠隨時(shí)間隨機(jī)分配某些特定因素(例如多維數(shù)據(jù)集中的視覺(jué)外觀或手部動(dòng)態(tài)),從而在模擬環(huán)境中生成分布。初始分布集中在單一環(huán)境中,但它逐步擴(kuò)展為綜合數(shù)據(jù),這些數(shù)據(jù)可用于評(píng)估任意模型的性能。
從本質(zhì)上講,經(jīng)過(guò)ADR訓(xùn)練的模型將通過(guò)內(nèi)部學(xué)習(xí)算法來(lái)調(diào)整自身行為以實(shí)現(xiàn)目標(biāo)。該團(tuán)隊(duì)猜測(cè),當(dāng)分布太大,以致于模型無(wú)法記住某些專(zhuān)用解決方案時(shí)(由于容量有限),就會(huì)觸發(fā)這種內(nèi)部調(diào)整。而只要模型的精度不低于預(yù)定義的閾值,ADR就會(huì)繼續(xù)持續(xù)訓(xùn)練周期。
▲ 圖:OpenAI的模型可以從干擾中恢復(fù)
那么,在每種環(huán)境下具體要對(duì)哪些特征進(jìn)行隨機(jī)分配?除了模擬環(huán)境的物理特性(例如幾何形狀、摩擦系數(shù)與重力等)之外,還有模擬器并未納入的自定義物理效果(例如電機(jī)反沖)。另外還有一些視覺(jué)元素,比如攝像機(jī)位置與角度、照明條件,物體的材質(zhì)與外觀、背景紋理乃至渲染圖像后的處理效果等等,都需要被考慮進(jìn)來(lái)。
“這也正是我們這套方案的主要優(yōu)勢(shì)之一——一旦弄清楚如何在模擬環(huán)境中訓(xùn)練這些模型,即可高效獲取無(wú)窮無(wú)盡的實(shí)驗(yàn)數(shù)據(jù)。”Plappert解釋道,“接下來(lái),一旦明白怎樣將模型遷移到機(jī)器人當(dāng)中,就可以在現(xiàn)實(shí)世界進(jìn)行實(shí)際應(yīng)用了。”
獎(jiǎng)勵(lì)機(jī)制
如前文所述,由于這套方案使用了強(qiáng)化學(xué)習(xí)方法,因此必然涉及獎(jiǎng)勵(lì)機(jī)制。OpenAI團(tuán)隊(duì)在實(shí)驗(yàn)中定義了三項(xiàng)條件,分別為:(1)系統(tǒng)與目標(biāo)間的原有距離與當(dāng)前距離之間的差別;(2)達(dá)成目標(biāo)時(shí)給予獎(jiǎng)勵(lì);(3)魔方掉落時(shí)觸發(fā)懲罰。在訓(xùn)練過(guò)程中還會(huì)產(chǎn)生隨機(jī)目標(biāo),當(dāng)AI模型連續(xù)50次成功、且在試圖達(dá)成下一目標(biāo)時(shí)超時(shí),或者魔方掉落,則視為當(dāng)前訓(xùn)練輪結(jié)束。
研究人員在訓(xùn)練中還使用了Rapid框架。這套框架由一組rollout工作節(jié)點(diǎn)與優(yōu)化節(jié)點(diǎn)組成,負(fù)責(zé)在多塊顯卡之間執(zhí)行同步梯度下降(機(jī)器學(xué)習(xí)中的必要步驟)。隨著rollout工作節(jié)點(diǎn)不斷積累經(jīng)驗(yàn),得出的見(jiàn)解將被交付至優(yōu)化節(jié)點(diǎn);與此同時(shí),還有另一組工作節(jié)點(diǎn)負(fù)責(zé)比較訓(xùn)練完成的AI模型與參考代理的性能水平。
▲ 圖:模型在仿真中的訓(xùn)練時(shí)間越長(zhǎng),性能越好
整套系統(tǒng)共使用64塊英偉達(dá)V100顯卡+920臺(tái)各自包含32個(gè)處理器核心的工作節(jié)點(diǎn)設(shè)備,在長(zhǎng)達(dá)數(shù)月的周期內(nèi)對(duì)模型進(jìn)行訓(xùn)練。在此期間,研究人員則負(fù)責(zé)研究模擬保真度、ADR算法、超參數(shù)調(diào)整以及網(wǎng)絡(luò)架構(gòu)等變量。其中,僅優(yōu)化器節(jié)點(diǎn)就使用8塊V100顯卡以及64個(gè)處理器核心;而負(fù)責(zé)渲染視覺(jué)姿態(tài)估計(jì)器的圖像渲染節(jié)點(diǎn),則使用一塊英偉達(dá)V100顯卡外加8個(gè)處理器核心。
通常,視覺(jué)數(shù)據(jù)配合Giiker魔方內(nèi)置的傳感器,狀態(tài)估計(jì)器最終學(xué)會(huì)了估算立方體六個(gè)面的角度以及魔方多維數(shù)據(jù)集中的位置與方向信息。該研究小組指出,由于魔方各個(gè)面的貼紙擁有旋轉(zhuǎn)對(duì)稱(chēng)性,因此單憑視覺(jué)無(wú)法完成操作,他們希望未來(lái)能夠開(kāi)發(fā)出一套可重復(fù)使用的模型,從而只依靠攝像機(jī)捕捉到的圖像確定魔方形態(tài)。
轉(zhuǎn)向真實(shí)場(chǎng)景
接下來(lái),該團(tuán)隊(duì)嘗試將訓(xùn)練完成的AI模型遷移至真正的Shadow Hand當(dāng)中。他們?cè)u(píng)估了隨機(jī)化性能,完成了約兩個(gè)星期的隨機(jī)訓(xùn)練,利用ADR算法進(jìn)行約兩周的策略訓(xùn)練,而后又在四個(gè)月時(shí)間中先后進(jìn)行連續(xù)訓(xùn)練與策略更新,旨在確保策略能夠在實(shí)體機(jī)器手上正常起效。在隨后的10次試驗(yàn)(每項(xiàng)策略重復(fù)10次)中,研究人員首先提供一個(gè)初始狀態(tài)的魔方,要求機(jī)器手先學(xué)會(huì)將其打亂。
在這些試驗(yàn)中,研究人員定義了兩項(xiàng)閾值:至少成功實(shí)現(xiàn)半數(shù)加擾操作(即22次成功),以及至少成功完全全部加擾操作(即43次成功)。表現(xiàn)最好的模型在10次試驗(yàn)中的平均成功了26.8次,其中半數(shù)成功率為60%,完全成功率則為20%。位列第二的模型平均獲得17.8次成功,半數(shù)據(jù)成功率為30%,完全成功率為10%。
雖然成績(jī)似乎不算太好,但需要強(qiáng)調(diào)的是,所有模型都自行學(xué)會(huì)了前所未有的微擾恢復(fù)技術(shù),包括將多根機(jī)器手指綁在一起、在手上穿戴皮質(zhì)手套、用手帕遮住部分魔方、以及在魔方旁邊放上毛絨玩具與鋼筆等等。當(dāng)機(jī)器手偶爾旋轉(zhuǎn)錯(cuò)誤時(shí),成績(jī)最好的AI模型能夠立即反向操作撤銷(xiāo)這一錯(cuò)誤。另外,當(dāng)機(jī)器手旋轉(zhuǎn)操作過(guò)程中不慎導(dǎo)致魔方掉落時(shí),AI模型能夠重新分配抓握力,然后再次嘗試直到最終成功。
Plappert指出,“我們?cè)谶@里使用的算法與我們之前用于訓(xùn)練其他機(jī)器人的算法完全相同。這種特殊的方法擁有強(qiáng)大的通用性,可用于處理大家想得到的各種問(wèn)題,甚至無(wú)需進(jìn)行額外修改。雖然我們目前專(zhuān)注于解決魔方多維數(shù)據(jù)集任務(wù),但相關(guān)成果也可以應(yīng)用于多種同類(lèi)系統(tǒng)的測(cè)試場(chǎng)景當(dāng)中。”
OpenAI機(jī)器人團(tuán)隊(duì)研究科學(xué)家Lilian Weng表示,他們的最終目標(biāo)是實(shí)現(xiàn)完全通用,這一點(diǎn)也與OpenAI提出的“在多個(gè)領(lǐng)域中建立起「安全」的人類(lèi)級(jí)AI”目標(biāo)相吻合。大多數(shù)專(zhuān)家認(rèn)為,機(jī)器人技術(shù)的通用化還有很長(zhǎng)的道路要走——包括Aeolus在內(nèi)的當(dāng)前最先進(jìn)模型,也需要幾分鐘才能完成將垃圾撿起并扔進(jìn)廢紙簍這樣的簡(jiǎn)單任務(wù)。但是Weng、Plappert及其同事們相信,他們的工作將成為發(fā)展的奠基石,并最終成就真正具有自主能力、幾乎可以完成所有任務(wù)的通用型智能機(jī)器。
Weng總結(jié)道,“最終,我們希望未來(lái)的人工智能可以將某種價(jià)值傳遞到現(xiàn)實(shí)當(dāng)中。以機(jī)器人為例,機(jī)器人的優(yōu)勢(shì)在于幫助人們關(guān)注某些事物或者從事一部分高危工作……但實(shí)現(xiàn)這些目標(biāo)的前提,就是機(jī)器人必須有能力與現(xiàn)實(shí)世界互動(dòng)。而這,正是我們當(dāng)下努力的意義。”
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。