就當(dāng)下來看,AI領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展的深度學(xué)習(xí)模型,其規(guī)模越大,能耗和成本也隨之增加。自然語言處理模型GPT-3就是個(gè)典型的例子,為了能夠在準(zhǔn)確性與速度方面與人類相匹敵,該模型包含1750億個(gè)參數(shù)、占用350 GB內(nèi)存并產(chǎn)生高達(dá)1200萬美元的模型訓(xùn)練成本。而且單從成本來看,大家應(yīng)該就能體會(huì)到它所消耗的海量能源。
UMass Amherst的研究人員們發(fā)現(xiàn),訓(xùn)練大型AI模型所需要的算力往往對(duì)應(yīng)超過60萬英磅二氧化碳排放量,相當(dāng)于五臺(tái)家用汽車在整個(gè)使用周期內(nèi)的全部排放!
更要命的是,這些模型在實(shí)際生產(chǎn)環(huán)境中(即推理階段)還需要耗費(fèi)更多能源以不斷產(chǎn)出分析結(jié)論。根據(jù)英偉達(dá)的估算,神經(jīng)網(wǎng)絡(luò)模型運(yùn)行所產(chǎn)生的成本有80%至90%來自推理階段、而非訓(xùn)練階段。
因此有觀點(diǎn)認(rèn)為,要保持AI技術(shù)的快速進(jìn)步,我們必須想辦法找到一條具備環(huán)境可持續(xù)性的道路。但事實(shí)證明,我們完全可以將大規(guī)模模型縮減為能夠運(yùn)行在日常工作站或服務(wù)器上的大小,且?guī)缀醪挥绊憸?zhǔn)確性與速度。
下面,我們先來聊聊為什么機(jī)器學(xué)習(xí)模型總是這么龐大臃腫。
當(dāng)前,計(jì)算能力每3到4個(gè)月即翻一番
十多年前,斯坦福大學(xué)的研究人員發(fā)現(xiàn),用于為視頻游戲中的復(fù)雜圖形提供處理支持的處理器(GPU)能夠在深度學(xué)習(xí)模型中提供極高的計(jì)算效率。這一發(fā)現(xiàn)掀起一輪“軍備競(jìng)賽”,各廠商爭(zhēng)相為深度學(xué)習(xí)應(yīng)用程序開發(fā)出越來越強(qiáng)大的專用硬件。與之對(duì)應(yīng),數(shù)據(jù)科學(xué)家們創(chuàng)建的模型也越來越龐大,希望借此帶來更準(zhǔn)確的處理結(jié)果。兩股力量相互纏繞,也就形成了如今的態(tài)勢(shì)。
來自O(shè)penAI的研究證明,目前整體行業(yè)都處于這樣的升級(jí)循環(huán)當(dāng)中。2012年至2018年期間,深度學(xué)習(xí)模型的計(jì)算能力每3到4個(gè)月就翻一番。這意味著六年時(shí)間內(nèi),AI計(jì)算能力增長(zhǎng)達(dá)驚人的30萬倍。如前所述,這些算力不僅可用于訓(xùn)練算法,同時(shí)也能在生產(chǎn)環(huán)境中更快帶來分析結(jié)果。但MIT的最終研究則表明,我們達(dá)到計(jì)算能力極限的時(shí)間可能遠(yuǎn)遠(yuǎn)早于大家的想象。
更重要的是,資源層面的限制導(dǎo)致深度學(xué)習(xí)算法開始成為極少數(shù)組織的專屬。我們當(dāng)然希望使用深度學(xué)習(xí)從醫(yī)學(xué)影像中檢測(cè)癌細(xì)胞變化、或者在社交媒體上自動(dòng)清除仇恨言論,但我們也確實(shí)無法承受體量更大、耗電量更高的深度學(xué)習(xí)模型。
未來:少即是多
幸運(yùn)的是,研究人員們發(fā)現(xiàn)了多種新方法,能夠使用更智能的算法縮小深度學(xué)習(xí)模型,并重新調(diào)整訓(xùn)練數(shù)據(jù)集的使用方式。如此一來,大型模型也能夠在配置較低的小規(guī)模生產(chǎn)環(huán)境內(nèi)運(yùn)行,并繼續(xù)根據(jù)用例提供必要的結(jié)果。
這些技術(shù)有望推動(dòng)機(jī)器學(xué)習(xí)大眾化,幫助那些沒有充足金錢或資源的組織也能訓(xùn)練算法并將成果投入生產(chǎn)。這一點(diǎn)對(duì)于無法容納專用AI硬件的“邊緣”用例顯得尤其重要,包括攝像機(jī)、汽車儀表板以及智能手機(jī)等小型設(shè)備。
研究人員們一直嘗試刪除神經(jīng)網(wǎng)絡(luò)內(nèi)的某些非必要連接,或降低某些數(shù)學(xué)運(yùn)算的復(fù)雜性等方式縮小模型體積。這些更小、更快的模型能夠在任意位置以類似于大型模型的準(zhǔn)確度與性能保持運(yùn)行。如此一來,我們不再需要瘋狂追求極致算力,也就有望緩解對(duì)環(huán)境的重大破壞。事實(shí)上,縮小模型體量、提升模型效率已經(jīng)成為深度學(xué)習(xí)的未來發(fā)展方向。
另一個(gè)重要問題,則體現(xiàn)在針對(duì)不同用例在新數(shù)據(jù)集上反復(fù)訓(xùn)練大型模型方面。遷移學(xué)習(xí)技術(shù)有望消除此類問題——這項(xiàng)技術(shù)以預(yù)訓(xùn)練完成的模型作為起點(diǎn),能夠使用有限的數(shù)據(jù)集將模型知識(shí)“遷移”至新任務(wù)當(dāng)中,因此我們不必從零開始重新訓(xùn)練初始模型。這既是降低模型訓(xùn)練所需算力的重要手段,也將極大緩解AI發(fā)展給自然環(huán)境帶來的能源壓力。
底線在哪?
只要有可能,模型應(yīng)當(dāng)、也必須尋求“瘦身”以降低算力需求。
另外,模型得到的知識(shí)應(yīng)該可以回收并再次利用,而不必每次都從零開始執(zhí)行深度學(xué)習(xí)訓(xùn)練過程。最終,一切有望降低模型規(guī)模、削減算力消耗(而不會(huì)影響性能或準(zhǔn)確性)的方法都將成為解放深度學(xué)習(xí)能量的重要新機(jī)遇。
如此一來,任何人都能夠以較低的成本在生產(chǎn)環(huán)境中運(yùn)行這些應(yīng)用程序,同時(shí)極大減輕對(duì)自然環(huán)境造成的壓力。當(dāng)“大AI”開始變小時(shí),其中必將蘊(yùn)藏?zé)o數(shù)新的可能。對(duì)于這樣的前景,我們充滿期待。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。