科技行者 1月7日 北京消息(文/于藝婉): 十幾天前華為智能計(jì)算大會(huì)上傳遞出來的一則信息,在今天擲地有聲。1月7日,華為將他們?cè)谥悄苡?jì)算領(lǐng)域的雄心轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)。繼面向智能終端的麒麟處理器和面向人工智能的昇騰處理器之后,華為宣布推出面向智能計(jì)算的業(yè)界最高性能ARM-based處理器-鯤鵬920(Kunpeng 920),并同步推出基于鯤鵬920的TaiShan系列服務(wù)器產(chǎn)品。
華為董事、戰(zhàn)略Marketing總裁徐文偉在開場(chǎng)時(shí)就表示,未來世界是一個(gè)智能世界,智能世界特征是萬物感知、萬物互聯(lián)、萬物智能。未來信息量巨大,計(jì)算無處不在,計(jì)算應(yīng)用的場(chǎng)景多種多樣,而場(chǎng)景的多樣性會(huì)帶來數(shù)據(jù)的多樣性,進(jìn)而帶來異構(gòu)計(jì)算的需求。“華為本次發(fā)布鯤鵬920及TaiShan服務(wù)器,主要應(yīng)用于大數(shù)據(jù)、分布式存儲(chǔ)、ARM原生應(yīng)用等場(chǎng)景。華為將攜手全球合作伙伴,秉承開放、合作、共贏,促進(jìn)ARM生態(tài)發(fā)展,做大計(jì)算領(lǐng)域空間,擁抱多樣性計(jì)算時(shí)代!”
鯤鵬920到底為何方神圣?基于ARM架構(gòu)授權(quán),華為自研了ARM核,針對(duì)數(shù)據(jù)中心大數(shù)據(jù)、分布式存儲(chǔ)、ARM原生應(yīng)用等場(chǎng)景,通過優(yōu)化分支預(yù)測(cè)算法、提升運(yùn)算單元數(shù)量、改進(jìn)內(nèi)存子系統(tǒng)架構(gòu)等一系列微架構(gòu)設(shè)計(jì),大幅提高了處理器核性能。SPECint Benchmark提供的評(píng)分顯示,采用7nm制造工藝的鯤鵬920在典型主頻下得分超過930,將性能紀(jì)錄提升了25%。同時(shí),能效比優(yōu)于業(yè)界標(biāo)桿30%。鯤鵬920以更低功耗為數(shù)據(jù)中心提供了更強(qiáng)性能。
為了改善在低延時(shí)條件下高并發(fā)的能力, 華為在鯤鵬920上采用三項(xiàng)措施:首先,將業(yè)界DDR通道數(shù)量從6通道增加到8通道,速率從2667MHz提升至2933MHz, 總帶寬達(dá)到1.5T比特每秒,帶寬提升46%;其次,將PCIe從3.0升級(jí)到4.0,速率翻番,帶寬達(dá)到640Gbps, 比業(yè)界主流提升66%;第三,將網(wǎng)口帶寬從25G直接提升到100G,帶寬翻了4倍。
鯤鵬920不僅是一顆通用CPU,還同時(shí)集成了南橋、網(wǎng)卡、SAS存儲(chǔ)控制器等三種芯片,做到集成度業(yè)界第一,單顆芯片實(shí)現(xiàn)4顆芯片的功能。同時(shí),還可以釋放出更多槽位擴(kuò)展更多功能,大幅提高系統(tǒng)的集成度,也給客戶的TCO帶來收益。
再來看看基于鯤鵬920的TaiShan系列服務(wù)器產(chǎn)品。均衡型、存儲(chǔ)型和高密型三款機(jī)型的TaiShan系列服務(wù)器主要面向大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景,可以發(fā)揮ARM架構(gòu)在多核、高能效等方面的優(yōu)勢(shì),為企業(yè)構(gòu)建高性能、低功耗的新計(jì)算平臺(tái)。以大數(shù)據(jù)場(chǎng)景為例,可實(shí)現(xiàn)多核高并發(fā)和資源調(diào)度調(diào)優(yōu),計(jì)算性能提升20%。
基于TaiShan服務(wù)器,華為云也將提供彈性云服務(wù)、裸金屬服務(wù)和云手機(jī)服務(wù)。云游戲就是云手機(jī)服務(wù)的一種應(yīng)用,以Gb為單位的游戲不用再占用手機(jī)內(nèi)存,也不用再對(duì)手機(jī)的其它硬件配置提出嚴(yán)苛要求,只需一個(gè)只有幾Mb的APP作為入口登陸云端,即可隨時(shí)隨地進(jìn)入游戲世界。這不僅緩解了消費(fèi)者對(duì)硬件的絕對(duì)依賴,同時(shí)也為游戲公司提升用戶體驗(yàn)拓展了新型模式。
云計(jì)算的興起,使得數(shù)據(jù)中心規(guī)模越來越大,從幾臺(tái)服務(wù)器、幾個(gè)機(jī)架演變成以萬臺(tái)服務(wù)器為單位的數(shù)據(jù)中心集群。占地空間和能源消耗成為大型數(shù)據(jù)中心的重要影響因素,基于ARM架構(gòu)的鯤鵬920及TaiShan服務(wù)器的節(jié)能表現(xiàn)將更具實(shí)際意義。據(jù)華為介紹,在大規(guī)模數(shù)據(jù)中心業(yè)務(wù)實(shí)踐中,每萬臺(tái)服務(wù)器可以每年省電1千萬度,碳排放每年減少10,000噸。
低功耗是ARM能夠在智能終端領(lǐng)域叱咤風(fēng)云的看家本事,而計(jì)算及高性能服務(wù)器領(lǐng)域從來都是X86架構(gòu)的天下,華為在此刻推出基于ARM架構(gòu)的處理器和服務(wù)器產(chǎn)品,會(huì)不會(huì)走入一條死胡同?
對(duì)此,徐文偉給出了明確的答復(fù)。“沒有一個(gè)單一的計(jì)算架構(gòu)能夠滿足所有場(chǎng)景、所有數(shù)據(jù)類型的處理,各種CPU、DSP、GPU、AI芯片、FPGA等會(huì)同時(shí)存在,多種計(jì)算架構(gòu)共存的異構(gòu)計(jì)算,是未來的發(fā)展之路。隨著ARM技術(shù)不斷進(jìn)步,多核性能大幅提高,尤其是開放的生態(tài),ARM也從端和邊緣計(jì)算走向服務(wù)器和數(shù)據(jù)中心。當(dāng)下,ARM架構(gòu)在面向大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景,不僅可以為企業(yè)構(gòu)建高性能、低功耗的新計(jì)算平臺(tái),也是計(jì)算發(fā)展的必然趨勢(shì)。”
華為GIV2025預(yù)測(cè),到2025年新增數(shù)據(jù)量180ZB,是2018年新增數(shù)據(jù)量的18倍,面對(duì)如此巨大的數(shù)據(jù)增長(zhǎng),對(duì)計(jì)算和存儲(chǔ)都提出了很高的要求。算力供應(yīng)問題,存在嚴(yán)重的供需不平衡。而華為認(rèn)為在大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等特定場(chǎng)景下,“ARM處理能力不行”的這頂帽子可以甩掉了。
雖然華為在力推鯤鵬920的TaiShan系列服務(wù)器,但是他們?cè)诎l(fā)布產(chǎn)品期間更多地談到了和英特爾之間的合作。徐文偉表示:“鯤鵬920不是要與Intel的CPU競(jìng)爭(zhēng),更不是替代。不同的產(chǎn)品在不同的領(lǐng)域發(fā)揮所長(zhǎng)。面向未來18倍海量數(shù)據(jù)的增長(zhǎng),以及每年10倍算力的遞增,帶來了大量異構(gòu)計(jì)算的需求。長(zhǎng)期以來,華為和Intel一起合作取得了很好的成績(jī),為ICT產(chǎn)業(yè)發(fā)展做出積極貢獻(xiàn),華為和Intel也將長(zhǎng)期保持戰(zhàn)略合作,聚焦價(jià)值持續(xù)創(chuàng)新。”
同時(shí),華為也一再強(qiáng)調(diào),他們從未想過成為一家芯片公司,走自研芯片這條路的初衷是降低成本、提高產(chǎn)品性能并以開放的姿態(tài)致力于產(chǎn)業(yè)各界的合作創(chuàng)新。“麒麟980助力華為手機(jī)推向智慧新高度,基于昇騰310的產(chǎn)品和服務(wù)(如華為云)使能行業(yè)普惠AI;今天,華為以鯤鵬920,把計(jì)算帶入多核異構(gòu)的多樣性時(shí)代。今天,ARM產(chǎn)業(yè)迎來新的發(fā)展機(jī)會(huì),華為期待,產(chǎn)業(yè)伙伴緊密合作共同開創(chuàng)一個(gè)多樣性的計(jì)算時(shí)代。”徐文偉說。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。