深度學(xué)習(xí)和量子物理是兩個(gè)看似聯(lián)系很小的領(lǐng)域,但研究者還是找到了它們之間的關(guān)聯(lián)之處。近日,耶路撒冷希伯來大學(xué)的幾位研究者的一篇論文《Quantum Entanglement in Deep Learning Architectures》(深度學(xué)習(xí)架構(gòu)的量子糾纏),稱深度學(xué)習(xí)在模擬量子計(jì)算中顯示了非常卓越能力。根據(jù)這些研究者的說法,最成功的兩種神經(jīng)網(wǎng)絡(luò)類型(卷積神經(jīng)網(wǎng)絡(luò)CNN以及遞歸神經(jīng)網(wǎng)絡(luò)RNN)都利用了信息冗余,信息冗余在模擬量子計(jì)算時(shí)所涉及的計(jì)算中有著重大的影響。
我們?nèi)匀徊恢罏槭裁瓷窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以在許多研究里取得巨大成功,這門學(xué)科缺乏一定的理論,經(jīng)驗(yàn)上的成功不能得到理論上的解釋。卷積神經(jīng)網(wǎng)絡(luò)之父Yann LeCun曾說過(https://youtu.be/gG5NCkMerHU),深度學(xué)習(xí)有點(diǎn)像蒸汽機(jī),熱力學(xué)基礎(chǔ)理論的出現(xiàn)晚過蒸汽機(jī)許多年。
然而多年來,一些深度學(xué)習(xí)研究者在理論問題上一直停步不前。
上周,在美國國家科學(xué)院主辦的華盛頓特區(qū)深度學(xué)習(xí)會(huì)議上,英特爾高級(jí)副總裁兼Mobileye主管Amnon Shashua公布了與希伯來大學(xué)同事共同完成的一項(xiàng)新研究,該研究既為深度學(xué)習(xí)能力提供了重要證據(jù),也為計(jì)算量子物理中一些常見的棘手問題提供了一條前進(jìn)的道路。(英特爾去年以 141 億美元收購了自動(dòng)駕駛技術(shù)公司Mobileye。)
該研究文章題為《Quantum Entanglement in Deep Learning Architectures》(深度學(xué)習(xí)架構(gòu)的量子糾纏),上周發(fā)表在著名期刊《物理評(píng)論快報(bào)》(Physical Review Letters)上。「Shashua另一重身份是耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)教授,此項(xiàng)研究文章由Shashua、耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院博士生Yoav Levine(主要作者)、耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)博士生Or Sharir、以及新澤西州普林斯頓高等研究院的Nadav Cohen合著完成。 」
文章從理論上證明了深度學(xué)習(xí)擅長解決某些問題,同時(shí)還提出了促進(jìn)量子計(jì)算領(lǐng)域廣泛發(fā)展的方法。
圖/Mobileye:Shashua及其同事的團(tuán)隊(duì)建造了 “CAC(convolutional arithmetic circuit)”(“卷積算術(shù)電路”),CAC可復(fù)制傳統(tǒng)CNN里的信息重復(fù)使用,同時(shí)使它與物理學(xué)中常用的“張量網(wǎng)絡(luò)”模型一起工作。
在量子計(jì)算領(lǐng)域,“理論與實(shí)踐問題”某種程度上與深度學(xué)習(xí)相反:量子計(jì)算存在很多引人注目的理論,但迄今為止,真正的例子還很少。多年來,Shashua和他的同事,以及其他研究人員,一直在思考如何模擬量子計(jì)算的所謂的“多體問題(Many-Body Problem)”。
物理學(xué)家 Richard Mattuck 曾在《A Guide to Feynman Diagrams in the Many-Body Problem》一書中將多體問題定義為“多體系統(tǒng)里實(shí)體之間交互效應(yīng)的研究”,多體指涉及到電子、原子、分子及各種其他實(shí)體。
Shashua及其團(tuán)隊(duì)發(fā)現(xiàn)并證實(shí):卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)于諸如“受限玻爾茲曼機(jī)”的傳統(tǒng)機(jī)器學(xué)習(xí)方法。受限玻爾茲曼機(jī)是 20 世紀(jì) 80 年代開發(fā)的神經(jīng)網(wǎng)絡(luò)方法,一直是物理研究的主流,特別在量子理論模擬領(lǐng)域。
論文作者提出,“以深度卷積及循環(huán)網(wǎng)絡(luò)形式的深度學(xué)習(xí)架構(gòu),可以有效地表達(dá)高度糾纏的量子系統(tǒng)。”
這里所說的“糾纏”是指量子系統(tǒng)里物體相互作用時(shí)的相互關(guān)系。實(shí)際量子計(jì)算在計(jì)算糾纏時(shí)有著巨大優(yōu)勢(shì),能夠達(dá)到極高的效率。而通過傳統(tǒng)的電子計(jì)算模擬的方法計(jì)算糾纏則可能非常困難,甚至難以著手。
“我們的工作量化了深度學(xué)習(xí)對(duì)于高度糾纏波函數(shù)表示的能力,”論文里寫道,“這將促進(jìn)理論上多體物理學(xué)研究向尖端深度學(xué)習(xí)體系結(jié)構(gòu)的轉(zhuǎn)移。”
圖/Mobileye:研究人員通過修改遞歸神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)重用添加到“遞歸運(yùn)算電路”(RAC)里。
研究者利用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用到他們?cè)O(shè)計(jì)的“擴(kuò)展”中來研究這個(gè)問題。他們將此稱為“簡單的‘技巧’”,這種做法涉及上文提到的冗余。據(jù)文章里介紹,事實(shí)證明,卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的本質(zhì)涉及到信息 “重用”。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò),卷積“內(nèi)核”的滑動(dòng)窗口覆蓋了整個(gè)圖像,每個(gè)時(shí)刻都有重疊,因此圖像的某些部分會(huì)被卷積神經(jīng)網(wǎng)絡(luò)多次接收使用;對(duì)于遞歸神經(jīng)網(wǎng)絡(luò),每一層網(wǎng)絡(luò)的信息的重復(fù)使用也是一種類似的重用,是對(duì)序列順序數(shù)據(jù)點(diǎn)的重用。
在卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)這兩種情況下,“這種架構(gòu)的特征是表達(dá)網(wǎng)絡(luò)的能力呈指數(shù)級(jí)增長,盡管參數(shù)數(shù)量和計(jì)算成本方面僅呈線性增長” 。換句話說,由于冗余的優(yōu)越性,用堆疊多層的方法實(shí)現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),在計(jì)算術(shù)語中對(duì)事物有更有效的“表達(dá)功能”。
例如,傳統(tǒng)的“全連接”神經(jīng)網(wǎng)絡(luò)(作者稱之為“經(jīng)驗(yàn)豐富的”神經(jīng)網(wǎng)絡(luò))需要計(jì)算的時(shí)間是所表示的物體數(shù)量的平方。文章寫道,RBM(受限玻爾茲曼機(jī))需要的計(jì)算時(shí)間少些,它的計(jì)算時(shí)間與物體的數(shù)量成線性關(guān)系。而卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)需要的計(jì)算時(shí)間甚至可以更好,它們所需的計(jì)算時(shí)間按比例縮放為物體數(shù)量的平方根。
文章寫道,“相對(duì)于基于傳統(tǒng)完全連接神經(jīng)網(wǎng)絡(luò)的方法”,這些屬性“表明,深度卷積網(wǎng)絡(luò)在數(shù)量糾纏建模方面具有顯著優(yōu)勢(shì)。實(shí)際上,重疊卷積網(wǎng)絡(luò)...可以支持任何 2D 系統(tǒng)的糾纏,2D系統(tǒng)的最大規(guī)??蛇_(dá)100×100,這是其他方法所無法實(shí)現(xiàn)的。”
為了做到這一點(diǎn),這些研究者們不得不使用他們提到的“技巧”,但傳統(tǒng)表示量子計(jì)算的“張量網(wǎng)絡(luò)”不支持信息重用。因此,這些研究者們創(chuàng)建了卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的改進(jìn)版。第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)改進(jìn)版名為“卷積運(yùn)算電路”(CAC)——這是他們近年來在工作中發(fā)展起來的一種方法,在這里取得了更大的成果。“技巧”在于,在CAC里“輸入數(shù)據(jù)本身的副本”,這有效地復(fù)制了卷積神經(jīng)網(wǎng)絡(luò)重疊部分的重用。文章作者還創(chuàng)建了對(duì)應(yīng)遞歸神經(jīng)網(wǎng)絡(luò)的“遞歸運(yùn)算電路”(RAC), 遞歸運(yùn)算電路用的則是復(fù)制輸入信息。
文章寫道,“由于深度RAC每一層的輸出向量在每個(gè)時(shí)間步都被使用了兩次(作為下一層的輸入,也作為下一個(gè)時(shí)間步的隱藏向量),數(shù)據(jù)重用在網(wǎng)絡(luò)計(jì)算過程中是內(nèi)在的。因此,我們?cè)谥丿B-卷積網(wǎng)絡(luò)里復(fù)制了輸入,從而獲得了基于深度RAC的張量網(wǎng)絡(luò)。”
所有這些的結(jié)果都具有雙重意義:深度學(xué)習(xí)的證明以及量子模擬的發(fā)展方向。
補(bǔ)充材料里對(duì)CACs和RACs效率的形式化證明,相當(dāng)于證明了深度學(xué)習(xí)方法可以更有效地處理量子糾纏。
作者最后滿懷希望地指出,希望他們的發(fā)現(xiàn)“有助于將量子多體物理學(xué)和最先進(jìn)的機(jī)器學(xué)習(xí)方法更緊密地結(jié)合在一起”。
量子計(jì)算和深度學(xué)習(xí)的理論研究可能再也不會(huì)和過去一個(gè)樣了。
【注:英特爾、耶路撒冷希伯來大學(xué)方面關(guān)于“人工智能和量子計(jì)算”研究文章《Quantum Entanglement in Deep Learning Architectures》(深度學(xué)習(xí)架構(gòu)的量子糾纏)獲取方式:關(guān)注科技行者微信公眾號(hào)(ID:itechwalker),回復(fù)關(guān)鍵字“量子計(jì)算”即可?!?/span>
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。