近期,AMD在紐約舉辦的分析師大會(Financial Analyst Day)上展示了很多新產(chǎn)品與新技術(shù),其中,HBM晶片堆棧式高帶寬內(nèi)存吸引了很多人的目光,AMD總裁兼首席執(zhí)行官蘇姿豐博士表示,HBM是真正能夠以更高的帶寬、更低的功耗來提供很好的效能。
HBM有何優(yōu)勢?它會何時推出呢?帶著這些問題,我們采訪了AMD事業(yè)群首席技術(shù)官(Business Unit CTO) Joe Macri,他表示,HBM在整個功耗降低方面做的非常好,它把所有節(jié)省的功耗用于補(bǔ)償GPU核心的功耗;另外,數(shù)據(jù)傳輸?shù)膸挻蠹s是每秒100GB。
圖為AMD事業(yè)群首席技術(shù)官(Business Unit CTO) Joe Macri
AMD開發(fā)HBM已經(jīng)有7年的歷史了,是什么原因使得AMD對HBM產(chǎn)生了這么大的興趣?Joe Macri表示,如今很多系統(tǒng)的問題是功耗較大,很多高端顯卡的功耗在250w-300w之間。有時會碰到一種極限,當(dāng)GPU性能已經(jīng)很高時,功耗也非常高,內(nèi)存的功耗也變得非常高,那是一個非??膳碌氖虑?,會造成整個系統(tǒng)熱量非常大,功耗很高,但是性能提升卻有限。很多時候為了保持系統(tǒng)功耗的平衡,內(nèi)存功耗很高的話,GPU的功耗就不可以很高,這樣會直接影響到GPU的性能。而AMD就想要生產(chǎn)出高帶寬、低功耗的內(nèi)存,這樣就可以平衡整個系統(tǒng)的性能和功耗。
如上圖所示,垂直的“四條線”是比較有功能性的DRAM的堆棧,這也是HBM整個內(nèi)存的晶片構(gòu)造,出自SK Hynix。左邊藍(lán)色的是整套SK Hynix內(nèi)存的HBM晶片,右邊是AMD GPU的晶片。Joe Macri表示,通過1024位連線進(jìn)行聯(lián)系,有非常高速的硅晶片的銅聯(lián)線來進(jìn)行數(shù)據(jù)交互,數(shù)據(jù)非常大且速度非??欤@是不能通過主板來解決的,必須通過這種聯(lián)線來做到,另外,HBM能夠與CPU/GPU封裝在一起。
HBM真正實現(xiàn)了低功耗和高帶寬,它的外形很小,并且可以把更多的功耗轉(zhuǎn)移到GPU,而且很多用途可以并到HBM,除了獨立顯卡和游戲以外,像HPC超級計算機(jī)、高性能計算、電信、服務(wù)器、還有所有類型的PC都會從中受益。
我們所熟悉的DDR5與HBM相比有很大的區(qū)別,就是帶寬上很不一樣,DDR5是32位,HBM則是1024位。Joe Macri解釋道,最重要的是它的時鐘頻率,DDR5是1750兆赫茲,每秒7GB的數(shù)據(jù)傳輸量;HBM的整個速度降低得非常快,最高才到500兆赫茲,1GB數(shù)據(jù)傳輸量,速率的降低大量地節(jié)省了功耗,這是最重要的一點。而整個數(shù)據(jù)傳輸?shù)膸?,DDR5是28GB每秒每個芯片,HBM大約是每秒100GB,它的功耗也大大降低了,但是由于整個位寬比較高,所以整個數(shù)據(jù)傳輸?shù)膸捠欠浅8叩?,大概是過去的5倍。
Joe Macri表示,AMD在建立一個HBM的完整的生態(tài)系統(tǒng),主要包括DRAM、組裝和封裝、芯片測試。AMD是第一家開始做HBM的公司,不過隨后一定也會有其他公司陸續(xù)加入。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強(qiáng)于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。