盡管所謂“深度神經(jīng)網(wǎng)絡(luò)”已經(jīng)幫助機(jī)器學(xué)會(huì)如何利用自然語(yǔ)言進(jìn)行交談、駕駛汽車(chē)、游玩電子游戲并奪取圍棋賽冠軍,甚至繪制夢(mèng)境、畫(huà)畫(huà)并推動(dòng)科學(xué)發(fā)現(xiàn),但其同時(shí)亦給創(chuàng)造者們帶來(lái)新的挑戰(zhàn)——因?yàn)檠芯咳藛T從未想到深度學(xué)習(xí)技術(shù)能夠擁有如此出色的運(yùn)作效果。除了從人類(lèi)大腦架構(gòu)中得出的模糊靈感之外,時(shí)至今日,我們?nèi)圆磺宄降资窃鯓拥幕驹瓌t指導(dǎo)著這些學(xué)習(xí)系統(tǒng)的實(shí)際設(shè)計(jì)(也沒(méi)人能夠真正理解其運(yùn)作原理)。
與大腦一樣,深度神經(jīng)網(wǎng)絡(luò)擁有大量神經(jīng)元——人工神經(jīng)元正是計(jì)算機(jī)記憶的象征。當(dāng)某一神經(jīng)元被激活時(shí),其會(huì)將信號(hào)發(fā)送至上層與之連接的另一神經(jīng)元。而在深度學(xué)習(xí)過(guò)程中,網(wǎng)絡(luò)中的連接會(huì)根據(jù)需要進(jìn)行加強(qiáng)與減弱,從而使得系統(tǒng)能夠更好地發(fā)送來(lái)自輸入數(shù)據(jù)(例如一張小狗圖片中的各像素)的信號(hào),并經(jīng)由各層最終通過(guò)神經(jīng)元將內(nèi)容關(guān)聯(lián)至正確的高級(jí)概念處——例如“狗”。在深度神經(jīng)網(wǎng)絡(luò)對(duì)成千上萬(wàn)張小狗圖片樣本進(jìn)行“學(xué)習(xí)”之后,其即可像人類(lèi)一樣準(zhǔn)確從新圖片中發(fā)現(xiàn)狗這一對(duì)象。在學(xué)習(xí)過(guò)程中,這種由特殊情況到一般性概念的奇跡般認(rèn)知提升正是深度神經(jīng)網(wǎng)絡(luò)的力量所在,這意味著其真正在與人類(lèi)一樣憑借著推理、創(chuàng)造力以及其它被統(tǒng)稱(chēng)為“智力”的能力得以解決實(shí)際問(wèn)題。專(zhuān)家們現(xiàn)在很想知道深度學(xué)習(xí)到底是什么,而大腦又是否在以同樣的方式理解現(xiàn)實(shí)事物。
上個(gè)月,在柏林舉辦的一場(chǎng)YouTube視頻會(huì)議也許能夠?yàn)槿斯ぶ悄苎芯咳藛T帶來(lái)潛在的答案。講座當(dāng)中,耶路撒冷希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)家兼神經(jīng)科學(xué)家Naftali Tishby提出了證據(jù)以支持一面新的理論,希望能夠借此對(duì)深度學(xué)習(xí)的工作原理作出解釋。Tishby認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)是根據(jù)一種所謂“信息瓶頸”的流程來(lái)進(jìn)行學(xué)習(xí)的,而他早在1999年就曾與兩位合作者利用純理論術(shù)語(yǔ)首次描述了這一概念。其想法在于,神經(jīng)網(wǎng)絡(luò)會(huì)從輸入數(shù)據(jù)中排除無(wú)關(guān)細(xì)節(jié)與干擾信息,類(lèi)似于擠壓信息以通過(guò)瓶頸,最終僅保留與一般性概念相關(guān)性最強(qiáng)的特征。Tishby和他的學(xué)生Ravid Shwart-Ziv設(shè)計(jì)出新的計(jì)算機(jī)實(shí)驗(yàn),希望至少立足其實(shí)驗(yàn)環(huán)境展示這一擠壓過(guò)程究竟是如何在深度學(xué)習(xí)過(guò)程當(dāng)中實(shí)現(xiàn)的。
耶路撒冷希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)家兼神經(jīng)科學(xué)家Naftali Tishby
Tishby的發(fā)現(xiàn)很快在人工智能領(lǐng)域引起轟動(dòng)。谷歌公司的Alex ALemi表示:“我認(rèn)為信息瓶頸這一概念在未來(lái)的深度神經(jīng)網(wǎng)絡(luò)研究中可能將扮演非常重要的角色。”他開(kāi)發(fā)出多種新的近似方法,旨在對(duì)大型深層神經(jīng)網(wǎng)絡(luò)進(jìn)行信息瓶頸分析。Alemi解釋稱(chēng):“這一瓶頸不僅能夠作為理解神經(jīng)網(wǎng)絡(luò)實(shí)際工作原理的理論性工具,同時(shí)也可作為構(gòu)建新型網(wǎng)絡(luò)與架構(gòu)的輔助方案。”
一部分研究人員仍然懷疑該理論究竟是否能夠解釋深度學(xué)習(xí)所獲得的成功,不過(guò)曾利用機(jī)器學(xué)習(xí)技術(shù)分析大型繩子對(duì)撞機(jī)內(nèi)粒子碰撞狀態(tài)的紐約大學(xué)粒子物理學(xué)家Kyle Cranmer認(rèn)為,單純從學(xué)習(xí)的一般性原則角度來(lái)看,這一理論“聽(tīng)起來(lái)挺有道理”。
同時(shí)在谷歌公司與多倫多大學(xué)任職的深度學(xué)習(xí)技術(shù)先驅(qū)Geoffrey Hinton在觀看了此次柏林演講之后向Tishby發(fā)出一封電子郵件。他寫(xiě)道“這非常有趣,我必須重聽(tīng)一遍才能真正理解其中的內(nèi)容?,F(xiàn)在我們終于聽(tīng)到了真正具有原創(chuàng)性的思維,這很可能代表著一個(gè)重大難題迎來(lái)了正確答案——可喜可賀!”
根據(jù)Tishby的觀點(diǎn),信息瓶頸為機(jī)器學(xué)習(xí)背后的一項(xiàng)基本原則——無(wú)論是對(duì)于算法、昆蟲(chóng)抑或是任何其它有意識(shí)的存在,甚至包括對(duì)緊急行為的物理計(jì)算,我們長(zhǎng)久以來(lái)所期盼的答案應(yīng)該是“學(xué)習(xí)當(dāng)中最重要的部分其實(shí)在于遺忘”。
Tishby最初投身于信息瓶頸研究工作時(shí),其他研究人員才剛剛開(kāi)始鉆研深層神經(jīng)網(wǎng)絡(luò)——不過(guò)當(dāng)時(shí)這兩項(xiàng)技術(shù)概念還沒(méi)有被正式定名。那時(shí)候是上世紀(jì)八十年代,Tishby正在考慮人類(lèi)在語(yǔ)音識(shí)別方面的實(shí)際表現(xiàn)——這對(duì)當(dāng)時(shí)的人工智能還是一項(xiàng)巨大的挑戰(zhàn)。Tishby意識(shí)到,這個(gè)問(wèn)題的核心在于相關(guān)性——語(yǔ)音詞匯中相關(guān)性最高的特征究竟是什么?我們?nèi)绾螐呐c之相關(guān)的變量當(dāng)中剔除某些特征,例如噪音、雜音以及語(yǔ)調(diào)?一般來(lái)講,在面對(duì)現(xiàn)實(shí)世界中的數(shù)據(jù)海洋時(shí),我們應(yīng)選擇保留哪些信號(hào)?
Tishby在上個(gè)月接受采訪(fǎng)時(shí)表示,“這種與信息相關(guān)的概念曾在歷史上被多次提及,但從來(lái)沒(méi)能得到正確的表述。多年以來(lái),人們一直認(rèn)為信息理論并不是解讀相關(guān)性的正確途徑,而只是Shannon本人長(zhǎng)久以來(lái)一廂情愿的想法。”
信息理念的締造者Claude Shannon在某種意義上解放了信息研究工作的力量。從上世紀(jì)四十年代開(kāi)始,信息理論開(kāi)始將信息視為純抽象產(chǎn)物——類(lèi)似于數(shù)學(xué)意義上的0和1。Shannon認(rèn)為,“信息與語(yǔ)義無(wú)關(guān)”。不過(guò)Tishby對(duì)此抱不同看法。利用信息理論,他意識(shí)到“我們可以精確地對(duì)‘相關(guān)性’作出定義。”
我們首先想象X是一套復(fù)雜的數(shù)據(jù)集,例如小狗圖片中的全部像素,而Y則是一個(gè)能夠代表這些數(shù)據(jù)的簡(jiǎn)單變量,例如單詞“狗”。我們可以盡可能地壓縮X,同時(shí)保證不失去預(yù)測(cè)Y的能力,這樣即可在X中捕捉到全部“相關(guān)性”信息。在1999年發(fā)表的論文當(dāng)中,Tishby與聯(lián)合作者Fernando Pereira(現(xiàn)效力于谷歌公司)以及William Bialek(現(xiàn)任職于普林斯頓大學(xué))將其描述為一個(gè)數(shù)學(xué)優(yōu)化問(wèn)題。很明顯,這只是一種理論性思想,無(wú)法支持有力的現(xiàn)實(shí)應(yīng)用。
Tishby指出,“我已經(jīng)在各種背景之下對(duì)這個(gè)問(wèn)題思考了三十年。幸運(yùn)的是,如今深層神經(jīng)網(wǎng)絡(luò)開(kāi)始變得如此重要。”
雖然深度神經(jīng)網(wǎng)絡(luò)的基本概念早在數(shù)十年前就已經(jīng)誕生,但隨著訓(xùn)練方案的逐步改進(jìn)與計(jì)算機(jī)處理器的日益強(qiáng)大,其在語(yǔ)音與圖像識(shí)別領(lǐng)域的表現(xiàn)直到2010年才嶄露頭角。Tishby在閱讀了物理學(xué)家David Schwab與Pankaj Mehta于2014年發(fā)表的一篇令人驚訝的論文之后,最終意識(shí)到其與信息瓶頸原理之間存在著潛在聯(lián)系。
兩位作者發(fā)現(xiàn),Hinton所發(fā)明的所謂“深度信念網(wǎng)絡(luò)”這一深度學(xué)習(xí)算法能夠在特定情況下(特別是重整化)被應(yīng)用于物理系統(tǒng),即通過(guò)對(duì)細(xì)節(jié)進(jìn)行粗粒度轉(zhuǎn)化來(lái)放大物理系統(tǒng),從而計(jì)算其整體狀態(tài)。當(dāng)Schwab與Mehta將深層信念網(wǎng)絡(luò)應(yīng)用到磁體模型的“臨界點(diǎn)”場(chǎng)景中時(shí),系統(tǒng)在各個(gè)衡量尺度之上皆存在分形性或自相似特征,而該網(wǎng)絡(luò)會(huì)自動(dòng)利用類(lèi)似于重整化的過(guò)程來(lái)識(shí)別模型狀態(tài)。正如生物物理學(xué)家Ilya Nemenman當(dāng)時(shí)所言,這是一種驚人的跡象,“在統(tǒng)計(jì)物理這一背景之下提取相關(guān)特征,與在深度學(xué)習(xí)背景下提取相關(guān)特征已經(jīng)成為同一類(lèi)操作。”
不過(guò)唯一的問(wèn)題在于,一般來(lái)講現(xiàn)實(shí)世界中的分形性較為罕見(jiàn)。Cranmer表示,“自然世界大多不會(huì)體現(xiàn)出類(lèi)似重重疊疊的狀態(tài),而更多體現(xiàn)為場(chǎng)景、人、臉、眼睛這樣的差異化排布。因此我無(wú)法斷言重整化程序就是深度學(xué)習(xí)技術(shù)在自然圖像識(shí)別方面表現(xiàn)良好的原因。”不過(guò)當(dāng)時(shí)正在接受胰腺癌化療治療的Tishby認(rèn)識(shí)到,深度學(xué)習(xí)與粗粒度轉(zhuǎn)化程序應(yīng)可被納入更為廣泛的思路當(dāng)中。他指出,“思考科學(xué)以及思考我舊有思維的作用,是幫助我實(shí)現(xiàn)康復(fù)的重要支柱。”
2015年,他和他的學(xué)生Noga Zaslavsky將深度學(xué)習(xí)假設(shè)為一種信息瓶頸流程,其會(huì)盡可能地壓縮干擾數(shù)據(jù),同時(shí)保留關(guān)于數(shù)據(jù)的代表性信息。Tishby與Schwartz-Ziv利用深度神經(jīng)網(wǎng)絡(luò)建立的新實(shí)驗(yàn),提示了瓶頸程序如何實(shí)際發(fā)揮作用。在其中一個(gè)案例中,研究人員利用可訓(xùn)練的小型網(wǎng)絡(luò)通過(guò)1或0(代表有狗或無(wú)狗)標(biāo)記輸入數(shù)據(jù),并給出282個(gè)神經(jīng)連接隨機(jī)初始優(yōu)勢(shì)。在此之后,他們開(kāi)始持續(xù)追蹤深度學(xué)習(xí)網(wǎng)絡(luò)如何利用一套包含3000份樣本的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練。
Noga Zaslavsky(左)、Schwartz-Ziv(右)
在大多數(shù)深度學(xué)習(xí)程序當(dāng)中,用于調(diào)整神經(jīng)連接以響應(yīng)數(shù)據(jù)內(nèi)容的基本算法被稱(chēng)為“隨機(jī)梯度下降”:每當(dāng)訓(xùn)練數(shù)據(jù)被饋送至網(wǎng)絡(luò)當(dāng)中時(shí),即有一連串激活活動(dòng)向上經(jīng)過(guò)各人工神經(jīng)元層。當(dāng)信號(hào)到達(dá)頂層時(shí),最終的激活模式將能夠與圖像的正確標(biāo)簽進(jìn)行比較——即1或0,有狗或無(wú)狗。這種激活模式與正確模式之間的任何差異都都會(huì)以“反向傳播”形式被發(fā)往下層,這意味著類(lèi)似于老師批改試卷一樣,該算法能夠增強(qiáng)或減弱每條連接,使得網(wǎng)絡(luò)層能夠更好地產(chǎn)生正確的輸出信號(hào)。在訓(xùn)練雨刮器 ,訓(xùn)練數(shù)據(jù)中的常見(jiàn)模式將反映在連接的強(qiáng)度之上,且網(wǎng)絡(luò)本身也將通過(guò)訓(xùn)練提升數(shù)據(jù)標(biāo)記的正確率——包括識(shí)別小狗對(duì)象、單詞或者1。
在實(shí)驗(yàn)當(dāng)中,Tishby與Shwartz-Ziv追蹤了深度神經(jīng)網(wǎng)絡(luò)中每一層的輸入數(shù)據(jù)信息量,以及各輸入數(shù)據(jù)中有多少信息得到保留??茖W(xué)家們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)會(huì)逐層向信息瓶頸理論界限收斂:Tishby、Pereira與Bialek的原始論文中設(shè)定了一個(gè)理論上限,其代表著系統(tǒng)能夠在進(jìn)行相關(guān)性信息提取時(shí)獲得的最佳結(jié)果。在這一臨界點(diǎn)上,神經(jīng)網(wǎng)絡(luò)能夠盡可能壓縮輸入數(shù)據(jù),同時(shí)不會(huì)影響到其作出準(zhǔn)確預(yù)測(cè)的能力。
階段:一個(gè)簡(jiǎn)短的“擬合”階段,在此階段中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對(duì)其訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記; 接下來(lái)為更長(zhǎng)的壓縮階段,在此階段中其獲得更強(qiáng)大的泛化能力,且這種能力實(shí)際體現(xiàn)在對(duì)新測(cè)試數(shù)據(jù)的標(biāo)記效果上。
當(dāng)深度神經(jīng)網(wǎng)絡(luò)通過(guò)隨機(jī)梯度下降來(lái)調(diào)整其連接時(shí),首先其存儲(chǔ)的關(guān)于輸入數(shù)據(jù)的比特?cái)?shù)字會(huì)保持大致恒定或略微增加,與此同時(shí)連接調(diào)整以對(duì)輸入中的模型進(jìn)行編碼,神經(jīng)網(wǎng)絡(luò)本身也將更好地與正確標(biāo)簽相契合。部分專(zhuān)家將這一階段比喻為人類(lèi)的記憶過(guò)程。
接下來(lái)學(xué)習(xí)過(guò)程切換至壓縮階段。神經(jīng)網(wǎng)絡(luò)開(kāi)始丟棄與輸入數(shù)據(jù)有關(guān)的信息,而追蹤其中最強(qiáng)大的特征——包括與輸出標(biāo)簽相關(guān)性最高的特征。之所以會(huì)發(fā)生這種情況,是因?yàn)殡S機(jī)梯度下降的每一次迭代當(dāng)中,訓(xùn)練數(shù)據(jù)中都或多或少存在意外的相關(guān)性告知神經(jīng)網(wǎng)絡(luò)做出不同的判斷,這將隨機(jī)引發(fā)上下層調(diào)用以調(diào)整神經(jīng)連接的強(qiáng)度。這種隨機(jī)化與壓縮系統(tǒng)輸入數(shù)據(jù)的表現(xiàn)效果完全一致。舉例來(lái)說(shuō),某些小狗照片中可能存在背景房屋,而某些則并不包含。當(dāng)一套神經(jīng)網(wǎng)絡(luò)循環(huán)播放這些訓(xùn)練照片時(shí),可能會(huì)“遺忘”某些照片中房屋與狗之間的相關(guān)性,這是因?yàn)槠渌掌械牟幌嚓P(guān)性會(huì)抵消這種關(guān)聯(lián)。Tishby與Shwartz-Ziv認(rèn)為,正是這種對(duì)細(xì)節(jié)信息的遺忘操作使系統(tǒng)形成一般性概念。事實(shí)上,他們的實(shí)驗(yàn)結(jié)果表明,深層神經(jīng)網(wǎng)絡(luò)在壓縮階段提高了泛化能力,從而改善其在測(cè)試數(shù)據(jù)標(biāo)記方面的成效(一套經(jīng)過(guò)訓(xùn)練的小狗圖像識(shí)別深層神經(jīng)網(wǎng)絡(luò)將能夠利用新照片進(jìn)行測(cè)試,并準(zhǔn)確判斷其中是否包含狗這一對(duì)象)。
信息瓶頸究竟是否適用于所有深度學(xué)習(xí)機(jī)制,以及除壓縮之外還存在著哪些其它泛化途徑,目前仍有待觀察。一部分人工智能專(zhuān)家認(rèn)為,Tishby的理論是近期出現(xiàn)的與深度學(xué)習(xí)相關(guān)的眾多極為重要的指導(dǎo)性原則之一。哈佛大學(xué)AI研究員兼理論神經(jīng)科學(xué)家Andrew Saxe指出,某些規(guī)模非常龐大的深度神經(jīng)網(wǎng)絡(luò)似乎并不需要經(jīng)歷這樣的壓縮階段。相反,研究人員立足所謂“早期停止”方法進(jìn)行編程,這樣能夠有效減少訓(xùn)練時(shí)間并防止網(wǎng)絡(luò)編碼中存在過(guò)多相關(guān)性。
Tishby認(rèn)為,Saxe和他的同事所分析的網(wǎng)絡(luò)模型不同于標(biāo)準(zhǔn)深度神經(jīng)網(wǎng)絡(luò)架構(gòu),而且無(wú)論如何,信息瓶頸提出的理論界限決定了此類(lèi)網(wǎng)絡(luò)的泛化效能要比其它方法更好。Tishby與Shwartz-Ziv的最新實(shí)驗(yàn)在一定程度上解釋了瓶頸是否適用于較大規(guī)模神經(jīng)網(wǎng)線(xiàn)的問(wèn)題。盡管相關(guān)結(jié)果未被納入原始論文當(dāng)中,但他們?cè)谶@些實(shí)驗(yàn)雖訓(xùn)練了規(guī)模更為可觀的包含33萬(wàn)個(gè)連接的深度神經(jīng)網(wǎng)絡(luò),用以識(shí)別來(lái)自國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院的6萬(wàn)幅手寫(xiě)數(shù)字圖像——這套數(shù)據(jù)集正是衡量深度學(xué)習(xí)算法性能的著名基準(zhǔn)素材??茖W(xué)家們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的實(shí)際表現(xiàn)與信息瓶頸的理論界限存在趨同性; 他們還發(fā)現(xiàn)與小型網(wǎng)絡(luò)相比,這套大規(guī)模深度學(xué)習(xí)網(wǎng)絡(luò)的兩個(gè)階段更加清晰。Tishby指出,“我現(xiàn)在完全相信信息瓶頸屬于一種普遍現(xiàn)象。”
人類(lèi)與機(jī)器
大腦是如何從我們的感官當(dāng)中篩選信號(hào)的?又如何將其納入我們自覺(jué)的意識(shí)水平當(dāng)中?這一神秘課題推動(dòng)了人工智能先驅(qū)們研究深層神經(jīng)網(wǎng)絡(luò)的早期興趣,即以逆向方式設(shè)計(jì)出大腦的學(xué)習(xí)規(guī)則。人工智能從業(yè)者在很大程度上已經(jīng)放棄了這條鉆研之路,轉(zhuǎn)而開(kāi)始利用其它途徑小幅提升效能表現(xiàn)。盡管如此,隨著智能機(jī)器所取得的成就日益升級(jí)——甚至讓某些人開(kāi)始擔(dān)憂(yōu)人工智能終有一天將構(gòu)成嚴(yán)重威脅,許多研究人員希望此類(lèi)探索能夠揭示出關(guān)于機(jī)器學(xué)習(xí)與智能實(shí)現(xiàn)的一般性結(jié)論。
紐約大學(xué)心理學(xué)與數(shù)據(jù)利潤(rùn)總額助理教授Brenden Lake在研究人類(lèi)與機(jī)器學(xué)習(xí)間的異同時(shí)表示,Tishby的發(fā)現(xiàn)代表著“打開(kāi)神經(jīng)網(wǎng)絡(luò)黑匣的重要一步”,但他同時(shí)強(qiáng)調(diào)大腦代表著一個(gè)更大、更黑的黑匣子。我們成年人的大腦擁有860億個(gè)神經(jīng)元,其彼此間的連接更是多達(dá)數(shù)百萬(wàn)億條,這一切可能都需要憑借某些技巧來(lái)增強(qiáng)泛化能力,從而實(shí)現(xiàn)超越嬰兒期的基本圖像與聲音識(shí)別學(xué)習(xí)過(guò)程。在這方面,其很可能與目前的深度學(xué)習(xí)技術(shù)相當(dāng)類(lèi)似。
舉例來(lái)說(shuō),Lake認(rèn)為T(mén)ishby所發(fā)現(xiàn)的擬合與壓縮階段似乎與兒童的手寫(xiě)字母學(xué)習(xí)過(guò)程并不相似。孩子們并不需要觀察成千上萬(wàn)個(gè)字母并利用很長(zhǎng)時(shí)間對(duì)其表征進(jìn)行壓縮; 相反,他們能夠快速識(shí)別出同一字母的其它實(shí)例并學(xué)習(xí)如何書(shū)寫(xiě)。實(shí)際上,人類(lèi)甚至能夠利用單一例子進(jìn)行學(xué)習(xí)。Lake和他同事們的模型表明,大腦能夠?qū)⑿伦帜附鈽?gòu)成一系列筆畫(huà)——即以往 已經(jīng)存在的心理結(jié)構(gòu),從而立足原有認(rèn)知建立字母概念。Lake解釋稱(chēng):“我不會(huì)把信件上的圖像想象成一個(gè)個(gè)像素,并像標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法那樣對(duì)這些特征加以映射。我的目標(biāo)在于建立一套更為簡(jiǎn)單的因果模型,”即實(shí)現(xiàn)一條更短的泛化路徑。
這樣的智能實(shí)現(xiàn)方式可能會(huì)給AI行業(yè)帶來(lái)指導(dǎo),并促使兩個(gè)領(lǐng)域?qū)崿F(xiàn)相互往來(lái)。Tishby認(rèn)為,盡管人類(lèi)學(xué)習(xí)比人工智能學(xué)習(xí)更為普遍,但他的信息瓶頸理論最終將在兩大學(xué)科當(dāng)中發(fā)揮作用。從理論層面可以得出的直接見(jiàn)解,能夠幫助人們更好地理解哪些問(wèn)題類(lèi)型能夠?yàn)樯窠?jīng)網(wǎng)絡(luò)業(yè)解決,而哪些需要人工介入。Tishby表示:“其對(duì)于可學(xué)習(xí)的問(wèn)題作出了完整的描述。這些都屬于‘我可以消除輸入數(shù)據(jù)中的干擾信息而不損害分類(lèi)能力’的問(wèn)題。這一點(diǎn)體現(xiàn)在自然視覺(jué)與語(yǔ)音識(shí)別當(dāng)中,也同樣屬于我們的大腦能夠解決的實(shí)際任務(wù)。”
與此同時(shí),真實(shí)與人工神經(jīng)網(wǎng)絡(luò)也都面臨著同樣的挑戰(zhàn),即每個(gè)問(wèn)題的細(xì)節(jié)與微波差別都可能影響最終綶。舉例來(lái)說(shuō),大多數(shù)人無(wú)法快速完成兩個(gè)大數(shù)字的相加計(jì)算。Tishby指出,“這類(lèi)問(wèn)題長(zhǎng)期困擾著我們,事實(shí)上邏輯問(wèn)題很容易受到某一變量的影響。分類(lèi)、離散乃至密碼問(wèn)題皆是如此。我認(rèn)為深度學(xué)習(xí)無(wú)法幫助我破解密碼。”
泛化——即對(duì)信息瓶頸進(jìn)行遍歷,意味著丟棄部分細(xì)節(jié)信息。這對(duì)于實(shí)時(shí)代數(shù)運(yùn)算不太友好,但此類(lèi)運(yùn)算顯然不是大腦的主要任務(wù)。大腦的工作在于幫助我們從人群中尋找熟悉的面孔、認(rèn)識(shí)混亂中的秩序,并發(fā)現(xiàn)嘈雜世界中的其它顯著信號(hào)。
來(lái)源:QuantamaGazine
作者:Natalie Wolchover
編譯整理:科技行者
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。