作者|周雅
如果不是在今年這屆WAIC2023(世界人工智能大會)的現(xiàn)場,你很難一次性看到這么多大模型扎堆。據(jù)悉此次參展的大模型多達(dá)30余個,僅被拿來對標(biāo)“ChatGPT”的國產(chǎn)大語言模型,就包括:
清華大學(xué)計(jì)算機(jī)系知識工程實(shí)驗(yàn)室的千億參數(shù)中英文對話模型ChatGLM-130B、復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室的MOSS、百度“文心一言”、阿里巴巴“通義千問”、科大訊飛星火認(rèn)知大模型、商湯商量中文語言大模型、云知聲山海大模型等之多。當(dāng)然,這些也還只是冰山一角,據(jù)不完全統(tǒng)計(jì)來看,國內(nèi)大模型用“群模大戰(zhàn)”來形容也毫不夸張。
國產(chǎn)大模型的頃刻爆發(fā),也導(dǎo)致算力的需求前所未有,增長曲線陡峭。有數(shù)據(jù)專門統(tǒng)計(jì)過,深度學(xué)習(xí)出現(xiàn)之前,用于AI訓(xùn)練的算力增長大約每20個月翻一番;之后,用于AI訓(xùn)練的算力大約每6個月翻一番;2012年后,全球頭部AI模型訓(xùn)練算力需求更是加速到每3個月至4個月翻一番,即平均每年算力增長幅度達(dá)到驚人的10倍;目前大模型發(fā)展如火如荼,訓(xùn)練算力需求有望擴(kuò)張到原來的10到100倍。
“過去兩年內(nèi),大模型帶來了750倍的算力需求增長,而硬件的算力供給增長僅有3倍。”華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊在采訪中,道出大模型增長與算力供給之間的不平衡現(xiàn)狀。換言之,其中存在超過兩百倍的算力缺口。
甚至,中國工程院院士、鵬城實(shí)驗(yàn)室主任高文在WAIC2023期間指出,“算力也是數(shù)字經(jīng)濟(jì)發(fā)展的一個指數(shù),算力夠,數(shù)字經(jīng)濟(jì)就能發(fā)展好;反之,就發(fā)展不好。”他還援引清華大學(xué)的一份2022年咨詢報告佐證觀點(diǎn),“算力指數(shù)和GDP成正比,算力越強(qiáng),GDP就越強(qiáng)。”
這意味著,如果按照先前機(jī)構(gòu)預(yù)測的“AIGC到2030年將創(chuàng)造一個萬億級的市場規(guī)模”,那么對于國產(chǎn)大模型來說,眼下最關(guān)鍵是找到高可靠性、高性價比的算力。
一個龐大的萬卡“算力工廠”
眾所周知,訓(xùn)練AI算法需要用到大量GPU算力資源,那么大模型時代下,如何才能把可用的算力資源,變成好用的算力資源?
業(yè)內(nèi)一個行之有效的方案是,既然單個服務(wù)器難以滿足計(jì)算需求,那么為何不集中火力辦大事,可以將多個服務(wù)器連接成一臺“超級計(jì)算機(jī)”,而這臺超級計(jì)算機(jī),就是算力集群。
以華為舉例。2018年,華為對外發(fā)布AI戰(zhàn)略,開始打造昇騰AI技術(shù)軟件平臺。時至今日,華為把昇騰AI打造成了一個算力集群,它集結(jié)了華為云、計(jì)算、存儲、網(wǎng)絡(luò)、能源的綜合優(yōu)勢。華為的理念是“DC as a Computer”,相當(dāng)于把AI算力中心當(dāng)成一臺超級計(jì)算機(jī)來設(shè)計(jì)。
2019年,華為發(fā)布Atlas 900 AI訓(xùn)練集群,由數(shù)千顆華為自研的昇騰910 AI芯片構(gòu)成,從今年6月可支持4000張卡,到目前已經(jīng)可支持8000張卡。而華為在WAIC期間宣布計(jì)劃,到今年底或明年初做到16000張卡,成為業(yè)界首個萬卡的AI集群。
為何打造算力集群?
張迪煊在采訪中解釋說,過去的小模型,每個場景是定制化的,導(dǎo)致開發(fā)成本高、變現(xiàn)能力差;大模型出現(xiàn)后,模型的泛化性越來越好、能力越來越強(qiáng)、可以很好去賦能各行業(yè)。“我們在那時候判斷,AI若要發(fā)展,必然要走向大模型+大算力+大數(shù)據(jù)的計(jì)算方式。”所以,昇騰AI迭代到萬卡集群,目的是讓大模型訓(xùn)練越來越快。
萬卡集群相當(dāng)于什么概念?以1750億參數(shù)量的GPT-3模型訓(xùn)練為例,使用單張英偉達(dá)V100顯卡,訓(xùn)練時長預(yù)計(jì)要288年;8張V100顯卡的訓(xùn)練時長預(yù)計(jì)要36年;512張V100的訓(xùn)練時長接近7個月;而1024張A100的訓(xùn)練時長,可以減少到1個月。
按照華為的評估,訓(xùn)練一個1750億參數(shù)、100B數(shù)據(jù)的GPT-3模型,在8000張卡的Atlas 900 AI集群下需要耗時1天,在16000張卡的集群下可以縮短到半天完成訓(xùn)練。“就像寫代碼一樣,敲一個鍵盤,這些文件就出來了。”張迪煊形容道。
“中國有一半左右的大模型創(chuàng)新,目前都是由昇騰AI來支持的。”華為輪值董事長胡厚崑在WAIC2023期間強(qiáng)調(diào),“昇騰AI集群目前可以提升10%以上的大模型訓(xùn)練效率,提高10倍以上的系統(tǒng)穩(wěn)定性,支持30天不中斷的長期穩(wěn)定訓(xùn)練。”
胡厚崑還公布了昇騰AI過去一年來的成績單:開發(fā)者數(shù)量從90萬到180多萬,實(shí)現(xiàn)了翻倍;原生孵化和適配30多個10億以上的大模型,占國產(chǎn)大模型的一半;目前已發(fā)展30多家硬件伙伴、1200多家ISV(獨(dú)立軟件開發(fā)商)、聯(lián)合推出2500多個行業(yè)AI解決方案;此外,昇騰AI集群已支撐全國25個城市的人工智能計(jì)算中心建設(shè),其中7個城市公共算力平臺入選首批國家“新一代人工智能公共算力開放創(chuàng)新平臺”,算力規(guī)模占比90%;同時,已有23家企業(yè)推出昇騰AI系列新品,覆蓋云、邊、端智能硬件,一同提升大模型開發(fā)、訓(xùn)練、微調(diào)、部署的效率。
這里我們梳理一下,面向AI這片前景廣闊的機(jī)遇之海,華為主要走了三條路徑:
其一,算力領(lǐng)域,從單點(diǎn)算力到集群算力,打造強(qiáng)有力的算力底座。這部分主要基于昇騰AI。
其二,產(chǎn)業(yè)領(lǐng)域,堅(jiān)持開源開放,來做強(qiáng)昇騰人工智能產(chǎn)業(yè)生態(tài)。這部分主打的就是政、產(chǎn)、學(xué)、研、用的合作。
其三,生態(tài)領(lǐng)域,推動昇騰AI服務(wù)從通用大模型到行業(yè)大模型,推動AI“走深向?qū)?rdquo;。這部分目標(biāo)是千行百業(yè)。
大模型落到實(shí)處
與華為的三條AI發(fā)展路徑相對應(yīng)的,是公眾圍繞“大模型”的關(guān)注度變化,從早期的“是什么”“為什么”轉(zhuǎn)而開始關(guān)心“怎么用”,換句話說,此刻更多人開始關(guān)心“大模型真正能發(fā)揮作用的場景在哪里”。
這時候,一個相對細(xì)分的行業(yè)大模型就被注意到了。
“東方·翼風(fēng)”,是由中國商飛上海飛機(jī)設(shè)計(jì)研究院開發(fā)的三維超臨界機(jī)翼流體仿真大模型,能高精度模擬大飛機(jī)全場景飛行狀況,而且用時僅為原來的千分之一,相當(dāng)于將大飛機(jī)三維翼型設(shè)計(jì)速度提升1000倍,縮短了商用大飛機(jī)的研發(fā)周期。
要知道,一架飛機(jī)在飛行過程中50%的阻力來自于翅膀,所以如何造出一個滿足飛機(jī)飛行要求的機(jī)翼,是非常重要的。根據(jù)中國商用飛機(jī)有限責(zé)任公司科技委常委、遠(yuǎn)程寬體客機(jī)總設(shè)計(jì)師陳迎春的介紹,目前大型客機(jī)的設(shè)計(jì)主要采用三種手段:數(shù)值仿真模擬、風(fēng)洞實(shí)驗(yàn)和飛行實(shí)驗(yàn),這三種互為補(bǔ)充。
但其中「數(shù)值仿真模擬」耗時長、成本高,是飛機(jī)設(shè)計(jì)的一大瓶頸;而「飛行實(shí)驗(yàn)」和「風(fēng)洞實(shí)驗(yàn)」也很費(fèi)錢,所以傳統(tǒng)的數(shù)值模擬方法算不動、算不快。要解決這個問題,唯有用到AI技術(shù)。
“東方·翼風(fēng)”大模型因?yàn)橛蠥I的加持,實(shí)現(xiàn)了效率、精度、模型、場景四個層面的突破:第一,在效率方面,用AI模型代替?zhèn)鹘y(tǒng)Navier-Stokes方程求解,大幅提升了全局仿真效率。第二,在精度方面,對流動劇烈變化區(qū)域特征進(jìn)行精細(xì)捕捉,比如在飛機(jī)巡航階段的機(jī)波現(xiàn)象,提升了模型的預(yù)測精度。第三,在模型方面,建立大數(shù)據(jù)樣本下模型組件化與分布式并行能力,大幅提升了新模型研發(fā)效率。第四,在場景方面,建立了流體到AI的數(shù)據(jù)統(tǒng)一映射,適用汽車、高鐵等多種仿真場景。
如果進(jìn)一步剖析商飛的“東方·翼風(fēng)”大模型,它有兩個必備條件:其一,大模型的技術(shù)底座,這部分來自華為的昇騰AI;其二,流體領(lǐng)域的設(shè)計(jì)思路、專家經(jīng)驗(yàn)、行業(yè)數(shù)據(jù),這部分是商飛的范疇。
從這里可見大模型的發(fā)展邏輯:當(dāng)技術(shù)的觸角深入應(yīng)用到各個行業(yè)場景里,帶來整個商業(yè)系統(tǒng)的健康運(yùn)轉(zhuǎn),進(jìn)而帶動產(chǎn)業(yè)高質(zhì)量發(fā)展。在這個過程中,技術(shù)廠商和行業(yè)廠商各司其職、互補(bǔ)共生。
“整個產(chǎn)業(yè)是有分工的,昇騰主要是做好算力,不會去碰大模型。”張迪煊在采訪中也強(qiáng)調(diào)。
如何打通 “最后一公里”?
談及爆發(fā)式增長的大模型,張迪煊坦言,如今雖是“百模大戰(zhàn)”,但未來重點(diǎn)卻應(yīng)該是各有分工。
其中,L0通用大模型只有一部分大廠能“燒”得起,更多企業(yè)做的是L1行業(yè)大模型,還有一部分在做場景大模型。比如金融行業(yè),由于L0缺乏行業(yè)屬性,因此一些企業(yè)會拿L1的模型去做金融大模型,然后結(jié)合一些細(xì)分場景需要(比如精準(zhǔn)營銷的、風(fēng)險風(fēng)控的、智能客服的)再去做一個場景大模型。這是一個產(chǎn)業(yè)趨勢。
在張迪煊看來,大模型的商業(yè)競爭即將開啟,大家一方面會快速造模型,另一方面會快速搶占格局,但之后形勢會有所收斂。
當(dāng)有了大算力、大模型,如何打通行業(yè)落地最后一公里?
目前,整個行業(yè)的痛點(diǎn)是大模型研發(fā)周期長、部署門檻高、業(yè)務(wù)安全性等。為了解決這個難題,華為與面壁智能、智譜AI、科大訊飛、云從科技四家伙伴共同發(fā)布大模型訓(xùn)推一體化解決方案,通過共同設(shè)計(jì)、聯(lián)合開發(fā)、協(xié)同上市、持續(xù)迭代,為行業(yè)客戶提供“開箱即用”的大模型一體化解決方案。
“客戶只需選擇合適的大模型,輸入行業(yè)數(shù)據(jù),即可以完成大模型的訓(xùn)練、微調(diào)、推理的全流程。”張迪煊指出,“華為做到了在精度小于千分之五的范圍內(nèi),實(shí)現(xiàn)20倍以上的模型壓縮,幫助大模型壓縮后用到場景中,降低部署難度和開發(fā)成本。”
“昇騰AI支持了中國近一半的原創(chuàng)大模型,也是目前國內(nèi)唯一完成千億參數(shù)大模型訓(xùn)練并商用的系統(tǒng)。”,張迪煊最后看似輕松的給出這樣一組數(shù)字。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。