就當下來看,AI領域實現(xiàn)突破性進展的深度學習模型,其規(guī)模越大,能耗和成本也隨之增加。自然語言處理模型GPT-3就是個典型的例子,為了能夠在準確性與速度方面與人類相匹敵,該模型包含1750億個參數(shù)、占用350 GB內存并產生高達1200萬美元的模型訓練成本。而且單從成本來看,大家應該就能體會到它所消耗的海量能源。
UMass Amherst的研究人員們發(fā)現(xiàn),訓練大型AI模型所需要的算力往往對應超過60萬英磅二氧化碳排放量,相當于五臺家用汽車在整個使用周期內的全部排放!
更要命的是,這些模型在實際生產環(huán)境中(即推理階段)還需要耗費更多能源以不斷產出分析結論。根據(jù)英偉達的估算,神經(jīng)網(wǎng)絡模型運行所產生的成本有80%至90%來自推理階段、而非訓練階段。
因此有觀點認為,要保持AI技術的快速進步,我們必須想辦法找到一條具備環(huán)境可持續(xù)性的道路。但事實證明,我們完全可以將大規(guī)模模型縮減為能夠運行在日常工作站或服務器上的大小,且?guī)缀醪挥绊憸蚀_性與速度。
下面,我們先來聊聊為什么機器學習模型總是這么龐大臃腫。
當前,計算能力每3到4個月即翻一番
十多年前,斯坦福大學的研究人員發(fā)現(xiàn),用于為視頻游戲中的復雜圖形提供處理支持的處理器(GPU)能夠在深度學習模型中提供極高的計算效率。這一發(fā)現(xiàn)掀起一輪“軍備競賽”,各廠商爭相為深度學習應用程序開發(fā)出越來越強大的專用硬件。與之對應,數(shù)據(jù)科學家們創(chuàng)建的模型也越來越龐大,希望借此帶來更準確的處理結果。兩股力量相互纏繞,也就形成了如今的態(tài)勢。
來自OpenAI的研究證明,目前整體行業(yè)都處于這樣的升級循環(huán)當中。2012年至2018年期間,深度學習模型的計算能力每3到4個月就翻一番。這意味著六年時間內,AI計算能力增長達驚人的30萬倍。如前所述,這些算力不僅可用于訓練算法,同時也能在生產環(huán)境中更快帶來分析結果。但MIT的最終研究則表明,我們達到計算能力極限的時間可能遠遠早于大家的想象。
更重要的是,資源層面的限制導致深度學習算法開始成為極少數(shù)組織的專屬。我們當然希望使用深度學習從醫(yī)學影像中檢測癌細胞變化、或者在社交媒體上自動清除仇恨言論,但我們也確實無法承受體量更大、耗電量更高的深度學習模型。
未來:少即是多
幸運的是,研究人員們發(fā)現(xiàn)了多種新方法,能夠使用更智能的算法縮小深度學習模型,并重新調整訓練數(shù)據(jù)集的使用方式。如此一來,大型模型也能夠在配置較低的小規(guī)模生產環(huán)境內運行,并繼續(xù)根據(jù)用例提供必要的結果。
這些技術有望推動機器學習大眾化,幫助那些沒有充足金錢或資源的組織也能訓練算法并將成果投入生產。這一點對于無法容納專用AI硬件的“邊緣”用例顯得尤其重要,包括攝像機、汽車儀表板以及智能手機等小型設備。
研究人員們一直嘗試刪除神經(jīng)網(wǎng)絡內的某些非必要連接,或降低某些數(shù)學運算的復雜性等方式縮小模型體積。這些更小、更快的模型能夠在任意位置以類似于大型模型的準確度與性能保持運行。如此一來,我們不再需要瘋狂追求極致算力,也就有望緩解對環(huán)境的重大破壞。事實上,縮小模型體量、提升模型效率已經(jīng)成為深度學習的未來發(fā)展方向。
另一個重要問題,則體現(xiàn)在針對不同用例在新數(shù)據(jù)集上反復訓練大型模型方面。遷移學習技術有望消除此類問題——這項技術以預訓練完成的模型作為起點,能夠使用有限的數(shù)據(jù)集將模型知識“遷移”至新任務當中,因此我們不必從零開始重新訓練初始模型。這既是降低模型訓練所需算力的重要手段,也將極大緩解AI發(fā)展給自然環(huán)境帶來的能源壓力。
底線在哪?
只要有可能,模型應當、也必須尋求“瘦身”以降低算力需求。
另外,模型得到的知識應該可以回收并再次利用,而不必每次都從零開始執(zhí)行深度學習訓練過程。最終,一切有望降低模型規(guī)模、削減算力消耗(而不會影響性能或準確性)的方法都將成為解放深度學習能量的重要新機遇。
如此一來,任何人都能夠以較低的成本在生產環(huán)境中運行這些應用程序,同時極大減輕對自然環(huán)境造成的壓力。當“大AI”開始變小時,其中必將蘊藏無數(shù)新的可能。對于這樣的前景,我們充滿期待。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。