作者:周雅
太平洋時(shí)間11月27日,在拉斯維加斯的亞馬遜云科技2023 re:Invent開(kāi)幕前兩個(gè)小時(shí),有一場(chǎng)小型的歡迎晚宴,《星期日泰晤士報(bào)》南非站記者Arthur Goldstuck在與至頂科技記者的交流中興奮地談到:“這些年參與過(guò)很多亞馬遜活動(dòng),我有個(gè)預(yù)感,我們可能會(huì)目睹最重要的一場(chǎng)re:Invent,這次亞馬遜云科技的技術(shù)發(fā)布,在未來(lái)五年都會(huì)是極具意義的。”
參與者們有理由興奮,大家都在好奇,在生成式AI幾乎席卷一切的背景下,一個(gè)處于領(lǐng)導(dǎo)者地位的云廠商,將會(huì)向外界講出怎樣的人工智能故事?
Arthur Goldstuck和包括我在內(nèi)的更多與會(huì)者沒(méi)有失望。如果站在未來(lái)看當(dāng)下,生成式AI可能是一場(chǎng)大型馬拉松,但亞馬遜云科技現(xiàn)在就已經(jīng)在勾勒出它的地圖。在亞馬遜云科技CEO Adam Selipsky長(zhǎng)達(dá)兩個(gè)半小時(shí)的演講中,一張“生成式AI堆棧圖”貫穿了整場(chǎng)。
亞馬遜云科技“生成式AI技術(shù)堆棧圖”(Generative AI Stack)
上圖可見(jiàn),亞馬遜云科技搭建了三層AI堆棧:最底層是用于訓(xùn)練和推理的「基礎(chǔ)設(shè)施層」,這里包括一些亞馬遜云科技的自研芯片;中間層是微調(diào)大模型或基礎(chǔ)模型需求的「工具層」;最上層是「生成式AI應(yīng)用層」,這里包括此次新推出的生成式AI助理Amazon Q。
概括而言,亞馬遜云科技正在構(gòu)建一種范式,去盡可能匹配這個(gè)時(shí)代下的更多客戶的更多需求,正如Adam Selipsky所說(shuō)——“我們?cè)谟靡环N跟傳統(tǒng)完全不同的方式探討生成式AI概念”。
不過(guò),正所謂見(jiàn)微知著,我們決定將「芯片」,作為觀察今年亞馬遜云科技re:Invent新發(fā)布的切入點(diǎn)。
圖片攝于2023 re:Invent一角
十年自研,逆向造芯
很多人了解亞馬遜云科技,知道它是全球領(lǐng)先云廠商,構(gòu)建底層軟件的能力非同一般。但大家可能不那么了解的是,亞馬遜云科技還是一個(gè)在芯片及硬件層有深厚技術(shù)底蘊(yùn)的公司。
早在十年前的2013年起,亞馬遜云科技就開(kāi)始自研芯片,至今已形成了一個(gè)芯片全家桶,包括四個(gè)系列:
· 云服務(wù)技術(shù)底層核心的虛擬化芯片Amazon Nitro
· 通用處理器芯片Amazon Graviton
· 用于機(jī)器學(xué)習(xí)的“訓(xùn)練”芯片Amazon Trainium和用于機(jī)器學(xué)習(xí)的“推理”芯片Amazon Inferentia
而且實(shí)際上,近年來(lái)亞馬遜云科技一直在年中舉辦“亞馬遜云科技硅芯片創(chuàng)新日”,與產(chǎn)業(yè)交流相關(guān)創(chuàng)新。就在今年6月的2023年芯片創(chuàng)新日,Amazon EC2副總裁Dave Brown回憶起2012年,當(dāng)時(shí)亞馬遜云科技是如何進(jìn)入芯片設(shè)計(jì)的故事。一晃,已是十年。
他描述了一群領(lǐng)導(dǎo)者,包括 Peter DeSantis 和 James Hamilton,如何設(shè)想“增加一個(gè)硬件設(shè)備來(lái)增強(qiáng)亞馬遜云科技的安全性和性能”——這個(gè)簡(jiǎn)單的想法,開(kāi)啟了一個(gè)全新的時(shí)代,帶來(lái)了多種定制的芯片產(chǎn)品。
而在此次re:Invent,就有兩款亞馬遜云科技自研芯片有了重大升級(jí),分別是:
· Amazon Graviton4
· Amazon Trainium2
Amazon Graviton4 和Amazon Trainium (原型) (Business Wire提供)
Amazon Graviton系列芯片,無(wú)疑是芯片發(fā)展史上濃墨重彩的發(fā)明。提起ARM架構(gòu)的云端芯片,大家似乎不陌生。但如果把時(shí)鐘撥回到6年前,雖然當(dāng)時(shí)業(yè)界已經(jīng)通過(guò)iPhone,認(rèn)可了ARM架構(gòu)是移動(dòng)端CPU的好選擇。但是,開(kāi)發(fā)并規(guī)?;逃肁RM架構(gòu)的服務(wù)器CPU,還是前無(wú)古人的創(chuàng)舉。
而亞馬遜云科技就是那個(gè)開(kāi)創(chuàng)者,Amazon Graviton第一代誕生于2018年,“現(xiàn)在接近10%的服務(wù)器總銷售額是ARM,其中很大一部分來(lái)自亞馬遜云科技。在CPU方面,這家公司做得很好。”Bernstein Research高級(jí)分析師Stacy Rasgon在一次接受采訪中如是說(shuō)。
本次大會(huì),Amazon Graviton已經(jīng)更新到第四代,但依然沒(méi)有放慢高速增長(zhǎng)的步伐。據(jù)悉,與前一代相比,Amazon Graviton4性能提升30%,獨(dú)立核心增加50%,對(duì)于高并發(fā)等應(yīng)用所需要的內(nèi)存帶寬,更提升75%,并且,還進(jìn)一步通過(guò)高速物理硬件接口的完全加密提升了安全性。
熟悉造芯的朋友們都知道,設(shè)計(jì)和成功流片一顆新架構(gòu)的芯片只是造芯的基本功,而能讓芯片規(guī)?;挠闷饋?lái),才是決定造芯是否成功的天花板。
在管理理念上,亞馬遜內(nèi)部有一招很特別的法門(mén),叫做“working backwards逆向工作法”。亞馬遜云科技的成功造芯,或許正與此有關(guān)。
關(guān)于“逆向工作法”,曾經(jīng)貝索斯在2008年致亞馬遜公司股東的信中所做解釋大意如下:如果我們能很好了解顧客需求,并深信這種需求是有長(zhǎng)期價(jià)值。那么,我們的一貫做法是——耐心探索,直至找到解決方案……從顧客需求出發(fā)的“逆向工作法”(working backwards)與“技能導(dǎo)向法”(skills-forward)形成鮮明對(duì)比。
簡(jiǎn)單來(lái)說(shuō),逆向工作法,就是先研究需求,再根據(jù)需求創(chuàng)造相應(yīng)工具;而技能導(dǎo)向法,則是手里拿著錘子,看什么都像釘子。
亞馬遜云科技的造芯過(guò)程,某種程度就遵循了逆向工作法。以亞馬遜云科技最早的硬件系統(tǒng)Amazon Nitro為例。它的出現(xiàn),就是為了解決Xen架構(gòu)的虛擬化系統(tǒng)的資源消耗問(wèn)題——服務(wù)器中大概只有七成的資源能夠提供給用戶。而Amazon Nitro針對(duì)虛擬化損耗,提出定制化硬件的思路,最終提供了裸機(jī)的性能。
而在與用戶應(yīng)用關(guān)系度更緊密的CPU層面,亞馬遜云科技提供了針對(duì)不同負(fù)載優(yōu)化的計(jì)算實(shí)例類型,來(lái)推動(dòng)芯片的落地應(yīng)用,從計(jì)算密集型、內(nèi)存密集型,再到存儲(chǔ)、IO敏感、吞吐敏感、網(wǎng)絡(luò)延遲敏感等,一應(yīng)俱全。
針對(duì)最新的Amazon Graviton4,亞馬遜云科技就提供了Amazon EC2 R8g內(nèi)存優(yōu)化性實(shí)例,可以提升客戶運(yùn)行高性能數(shù)據(jù)庫(kù)、內(nèi)存緩存、大數(shù)據(jù)分析等工作負(fù)載的效率。R8g實(shí)例相比當(dāng)前一代R7g實(shí)例提供更大的實(shí)例大小,虛擬處理器(vCPU)以及內(nèi)存均提升了3倍。這讓用戶可以處理更大量的數(shù)據(jù)、更大規(guī)模的工作負(fù)載、更快的獲得運(yùn)行結(jié)果,并降低總擁有成本。基于Amazon Graviton4的R8g實(shí)例現(xiàn)已提供預(yù)覽版,并將在未來(lái)幾個(gè)月推出正式可用版。
對(duì)于Amazon Graviton的設(shè)計(jì)方式,同樣是從逆向工作法開(kāi)始的,Amazon Graviton自發(fā)布以來(lái),它的設(shè)計(jì)出發(fā)點(diǎn)就是用戶的實(shí)際工作負(fù)載,而不是測(cè)試軟件的benchmark。通過(guò)一個(gè)“六邊形性能分析”可以看到,Amazon Graviton4相比上一代是如何在數(shù)據(jù)應(yīng)用中提升性能。這些性能的提升不僅僅存在于re:Invent上,更在客戶每次用實(shí)際工作負(fù)載來(lái)測(cè)試Amazon Graviton芯片中。
Amazon Graviton4的六邊形性能分析,以及在Amazon Graviton3和Amazon Graviton4上運(yùn)行的MySQL示例
據(jù)統(tǒng)計(jì),目前由Amazon Graviton支持的Amazon EC2實(shí)例種類達(dá)150多個(gè),已經(jīng)構(gòu)建的Amazon Graviton處理器數(shù)量超過(guò)200萬(wàn)個(gè),并擁有超過(guò)5萬(wàn)客戶,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服務(wù)之后,成本降低了35%,且分析速度更快,同時(shí)減少了45%的碳排放量。
不過(guò)我猜,Arthur Goldstuck和很多人在內(nèi),在re:Invent期間更關(guān)注的一顆芯,會(huì)是Amazon Trainium系列,因?yàn)檫@是面向模型“訓(xùn)練”的芯片,而這部分,算力的瓶頸問(wèn)題眾人皆知。
此次大會(huì)發(fā)布的Amazon Trainium2,是一款專為基礎(chǔ)模型和大模型而生的產(chǎn)品,為擁有數(shù)千億甚至數(shù)萬(wàn)億個(gè)參數(shù)的基礎(chǔ)模型訓(xùn)練做了優(yōu)化,相比第一代Amazon Trainium(發(fā)布于2020年12月),性能提升4倍,內(nèi)存提升3倍,能效(每瓦性能)提升2倍,幾乎全線超過(guò)摩爾定律所定義的范疇。
同樣,亞馬遜云科技也有相同的實(shí)例推動(dòng)新系列的落地。Amazon EC2 Trn2實(shí)例就采用了Amazon Trainium2,一個(gè)單獨(dú)實(shí)例中包含16個(gè)Amazon Trainium芯片,Trn2實(shí)例可幫助在下一代EC2 UltraCluster中擴(kuò)展到10萬(wàn)個(gè)Amazon Trainium2,通過(guò)搭配Amazon Elastic Fabric Adapter (EFA) 網(wǎng)絡(luò)互連,提供65 ExaFlops超算級(jí)性能。基于此,客戶只用幾周就能訓(xùn)練出有3000億個(gè)參數(shù)的大模型,這約是OpenAI的大模型GPT-3大小的1.75倍。
在這場(chǎng)發(fā)布的間隙,在采訪中被問(wèn)道“造芯對(duì)于客戶帶去什么價(jià)值”時(shí),亞馬遜云科技全球汽車及制造行業(yè)專業(yè)服務(wù)團(tuán)隊(duì)負(fù)責(zé)人Jon Allen告訴我:
“客戶想要更快的、更便宜的東西,這是基本原則。”無(wú)疑,這也是非常“逆向工作法”的一個(gè)回答。他以汽車業(yè)務(wù)舉例,“真正訓(xùn)練一輛自動(dòng)駕駛汽車,起碼得開(kāi)車跑900萬(wàn)英里,如果用傳統(tǒng)方式做數(shù)據(jù)訓(xùn)練,很多OEMs客戶可能根本負(fù)擔(dān)不起”。
生成式AI大時(shí)代,有自研,但不影響聯(lián)盟
雖然亞馬遜云科技一直持續(xù)自研芯片,但是封閉并非這家公司的基因。而在生成式AI時(shí)代起決定性作用的另外一家巨頭,英偉達(dá)創(chuàng)始人兼CEO黃仁勛穿著標(biāo)志性皮衣,甚至作為此次re:Invent的首位上場(chǎng)的合作伙伴,與Adam Selipsky進(jìn)行了一場(chǎng)對(duì)話,在對(duì)話中黃仁勛提到:
“生成式AI正改變各種云端負(fù)載,為多元內(nèi)容創(chuàng)作在底層注入加速計(jì)算動(dòng)能。我們的共同目標(biāo)是,為每個(gè)客戶提供具有成本效益的先進(jìn)生成式AI,為此英偉達(dá)與亞馬遜云科技在整個(gè)計(jì)算堆棧展開(kāi)合作,橫跨AI基礎(chǔ)設(shè)施、加速庫(kù)(acceleration libraries)、基礎(chǔ)模型、以及生成式AI服務(wù)。”
在真正的創(chuàng)新者面前,重要的不是是否有競(jìng)爭(zhēng),而是雙方是否有能滿足客戶需求的能力,顯然,亞馬遜云科技和英偉達(dá)都在對(duì)方身上看到了這一點(diǎn)。
“GPU和GPU之間用NV link連接方式讓我們的GPU可以直接存取CPU的記憶體,CPU可以直接使用GPU的記憶體,這是非??斓剡M(jìn)行的。在更大的網(wǎng)絡(luò)中,通過(guò)Grace Harper鏈接在一起。Amazon Nitro可以將GH變成一顆巨大的虛擬化的GPU。這么多的實(shí)例,我們可以跟亞馬遜云科技EFA兼容起來(lái)用,這也是非??焖俚乃俣葋?lái)運(yùn)用的,所有單元都可以變成超級(jí)的集群。”黃仁勛說(shuō)道。
約13年前,亞馬遜云科技是第一家把英偉達(dá)GPU芯片帶到云上的云廠商,而接下來(lái),雙方還將擴(kuò)大合作,主要包括四個(gè)方面:
· 亞馬遜云科技成為第一家在云端配備英偉達(dá)GH200 Grace Hopper超級(jí)芯片的云廠商。英偉達(dá)GH200 NVL32多節(jié)點(diǎn)平臺(tái)為運(yùn)用英偉達(dá)NVLink與NVSwitch技術(shù)連接32個(gè)Grace Hopper Superchips組成的實(shí)例。此平臺(tái)將在Amazon Elastic Compute Cloud(Amazon EC2)實(shí)例上可用,與亞馬遜云科技的網(wǎng)絡(luò)相連,由虛擬化(Amazon Nitro System)及超大規(guī)模集群(Amazon EC2 UltraClusters)提供支持,讓共同客戶能擴(kuò)展至數(shù)千個(gè)GH200超級(jí)芯片。
· 在亞馬遜云科技平臺(tái)上將推出英偉達(dá)DGX Cloud NVIDIA AI“訓(xùn)練即服務(wù)(AI-training-as-a-service)”。此服務(wù)將是首個(gè)配置GH200 NVL32的DGX Cloud,為開(kāi)發(fā)者提供單一實(shí)例中最多的共享內(nèi)存。在亞馬遜云科技上運(yùn)行的DGX Cloud將加速訓(xùn)練含有超過(guò)1兆參數(shù)的尖端生成式AI與大型語(yǔ)言模型。
· 英偉達(dá)與亞馬遜云科技合作推動(dòng)Project Ceiba,構(gòu)建全球最快的GPU驅(qū)動(dòng)的AI超級(jí)計(jì)算機(jī),這是一個(gè)配備GH200 NVL32與Amazon EFA互連技術(shù)的大規(guī)模系統(tǒng),該系統(tǒng)部署在亞馬遜云科技上,為英偉達(dá)研發(fā)團(tuán)隊(duì)提供服務(wù)。該超級(jí)計(jì)算機(jī)將前所未有地配置16384顆英偉達(dá)H200超級(jí)芯片,能處理65 exaflops(衡量超級(jí)計(jì)算機(jī)性能的單位,每秒浮點(diǎn)運(yùn)算可達(dá)一百億億次)速度等級(jí)的AI運(yùn)算,英偉達(dá)使用該超級(jí)計(jì)算機(jī)推動(dòng)其全新生成式AI的創(chuàng)新。
· 亞馬遜云科技將推出三款A(yù)mazon EC2實(shí)例:P5e實(shí)例配置英偉達(dá)H200 Tensor Core GPUs,針對(duì)大規(guī)模與尖端生成式AI及HPC高性能運(yùn)算工作負(fù)載;分別配置英偉達(dá)L4 GPUs與英偉達(dá)L40S GPUs的G6與G6e實(shí)例,可運(yùn)行包括AI微調(diào)、推理、繪圖以及影片工作負(fù)載等廣泛應(yīng)用。G6e實(shí)例特別適用于開(kāi)發(fā)3D工作流程、數(shù)字孿生、以及其他使用英偉達(dá)Omniverse的應(yīng)用,用來(lái)連接與構(gòu)建各種生成式AI的3D應(yīng)用。
提到大模型,總有人認(rèn)為這是巨頭的游戲。但是Jon Allen不這么看,他告訴我,在亞馬遜云科技的幫助下,“對(duì)中小企業(yè)和創(chuàng)業(yè)公司來(lái)說(shuō),我們的AI芯片帶給他們與寶馬等汽車巨頭相同的計(jì)算能力。十年前的硅谷,只有十幾人的小公司根本無(wú)法負(fù)擔(dān)高昂的算力(與大玩家競(jìng)爭(zhēng))。但現(xiàn)在不一樣了,AI芯片確實(shí)創(chuàng)造了新機(jī)會(huì)。”
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。