av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 為什么AI PC需要顆強(qiáng)大的NPU?

為什么AI PC需要顆強(qiáng)大的NPU?

2024-08-13 11:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2024-08-13 11:33 ? 周雅

作者|周雅

今天的技術(shù)時(shí)代有幾分像是20多年前的.com世界。在互聯(lián)網(wǎng)出現(xiàn)時(shí),有聲音高喊“每一臺(tái)計(jì)算機(jī)都將連接到互聯(lián)網(wǎng)”,而現(xiàn)在,同樣的聲音出現(xiàn)在個(gè)人電腦(PC)身上,只不過(guò)關(guān)鍵詞是AI。

從去年起,幾乎所有PC巨頭,包括聯(lián)想、戴爾、惠普、微軟等突然齊刷刷地推出或即將推出 AI PC 產(chǎn)品;業(yè)內(nèi)的討論聲音也多,比如英偉達(dá)CEO黃仁勛就曾表示“PC產(chǎn)業(yè)正在迎來(lái)再生,下個(gè)10年AI PC將取代傳統(tǒng)PC”,戴爾商用電腦與軟件副總裁Meghana Patwardhan更是直言——“未來(lái)每一臺(tái)PC將進(jìn)化成AI PC”。

不過(guò)話說(shuō)回來(lái),究竟啥是AI PC?

為什么AI PC需要顆強(qiáng)大的NPU?

01 漫談AI PC

AI PC顧名思義,是集成了AI的個(gè)人電腦。留意到此前IDC《AI PC產(chǎn)業(yè)(中國(guó))白皮書(shū)》指出,AI PC是一個(gè)“混合體”,在硬件上集成了混合AI算力單元,且能夠本地運(yùn)行“個(gè)人大模型”、創(chuàng)建個(gè)性化的本地知識(shí)庫(kù),實(shí)現(xiàn)自然語(yǔ)言交互。

區(qū)別于現(xiàn)有的通用PC,AI PC將為用戶帶來(lái)四大價(jià)值:

1、通用場(chǎng)景下的個(gè)性化服務(wù)。AI PC 能夠針對(duì)工作、學(xué)習(xí)、生活等場(chǎng)景,提供個(gè)性化創(chuàng)作服務(wù)、私人秘書(shū)服務(wù)、設(shè)備管家服務(wù)在內(nèi)的個(gè)性化服務(wù)。
2、提供即時(shí)、可靠的服務(wù)響應(yīng)。2023年IDC針對(duì)用戶AIGC平臺(tái)使用體驗(yàn)的調(diào)研中,“響應(yīng)速度慢”“反饋時(shí)間長(zhǎng)”是用戶主要的負(fù)面反饋。AI PC 以本地推理為主,邊緣和云端推理為輔,能夠在混合算力、混合模型之間智能、合理的調(diào)配任務(wù),有效縮減響應(yīng)時(shí)間。
3、更低的大模型使用成本。正因?yàn)楸镜赝评磔o以云端推理,一定程度降低了個(gè)人用戶使用AI大模型服務(wù)的成本。
4、可信、安全的個(gè)人數(shù)據(jù)和隱私保障等。

乍一看,或許看不出端倪,如果一言以蔽之,AI PC可以更好地支撐大語(yǔ)言模型和生成式AI應(yīng)用,帶來(lái)更懂你、智能化、個(gè)性化的體驗(yàn),或許也就讓PC回歸了它的名字,成為真正服務(wù)于每個(gè)人的“個(gè)人電腦”。

新概念最終是為新應(yīng)用的落地而生的。而提及生成式AI應(yīng)用,高通技術(shù)公司產(chǎn)品管理高級(jí)副總裁Ziad Asghar近期在媒體溝通會(huì)中,援引高通最新發(fā)布的《通過(guò)NPU和異構(gòu)計(jì)算開(kāi)啟終端側(cè)生成式AI》白皮書(shū)中總結(jié),生成式AI應(yīng)用可分為三類(lèi):

1、按需型:由用戶觸發(fā),需要立即響應(yīng)。這包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。比如用戶在PC上生成會(huì)議摘要,或在開(kāi)車(chē)時(shí)用語(yǔ)音查詢(xún)最近的加油站。
2、持續(xù)型:運(yùn)行時(shí)間較長(zhǎng)。這包括語(yǔ)音識(shí)別、游戲和視頻的超級(jí)分辨率、視頻通話的音頻/視頻處理以及實(shí)時(shí)翻譯。比如用手機(jī)進(jìn)行實(shí)時(shí)對(duì)話翻譯,或在 PC上玩游戲時(shí)逐幀運(yùn)行超級(jí)分辨率。
3、泛在型:在后臺(tái)持續(xù)運(yùn)行。這包括始終開(kāi)啟的預(yù)測(cè)性AI助手、基于情境感知的AI 個(gè)性化和高級(jí)文本自動(dòng)填充。比如手機(jī)根據(jù)對(duì)話內(nèi)容自動(dòng)建議用戶要開(kāi)會(huì)、PC根據(jù)用戶的答題情況實(shí)時(shí)調(diào)整學(xué)習(xí)資料。

不過(guò),就像大模型需要數(shù)據(jù)中心的并發(fā)算力。這些生成式AI應(yīng)用,也面臨算力設(shè)施層面的兩大關(guān)鍵挑戰(zhàn)。

第一,由于終端的功耗和散熱受限,通用CPU 和 GPU,難以滿足這些生成式AI應(yīng)用嚴(yán)苛且多樣化的計(jì)算需求。
第二,這些生成式AI應(yīng)用在不斷演進(jìn)而多樣化,如果在單一的硬件上部署,不符合常理。

對(duì)此,「NPU和異構(gòu)計(jì)算」成為硬件廠商專(zhuān)門(mén)應(yīng)對(duì)終端側(cè)生成式AI挑戰(zhàn)的關(guān)鍵。

為什么AI PC需要顆強(qiáng)大的NPU?

02 CPU、GPU、NPU,傻傻分不清?

眾所周知,傳統(tǒng)的PC通常有兩個(gè)處理單元:

1、CPU(Central Processing Unit),中央處理單元:是一塊超大規(guī)模的集成電路,主要邏輯架構(gòu)包括控制單元(Control),運(yùn)算單元(ALU),高速緩沖存儲(chǔ)器(Cache),以及實(shí)現(xiàn)它們之間聯(lián)系的數(shù)據(jù)(Data)、控制及狀態(tài)的總線(Bus)。簡(jiǎn)單說(shuō),就是計(jì)算單元、控制單元和存儲(chǔ)單元。

CPU遵循的是馮•諾依曼架構(gòu),其核心是存儲(chǔ)程序/數(shù)據(jù)、串行順序執(zhí)行。因此CPU的架構(gòu)中需要大量的空間去放置存儲(chǔ)單元和控制單元,相比之下計(jì)算單元ALU只占據(jù)了很小的一部分,所以CPU在進(jìn)行大規(guī)模并行計(jì)算方面受到限制,相對(duì)而言更擅長(zhǎng)于處理邏輯控制。

CPU無(wú)法做到大量數(shù)據(jù)并行計(jì)算的能力,但GPU可以。

2、GPU(Graphics Processing Unit),圖形處理單元:是一種由大量運(yùn)算單元組成的大規(guī)模并行計(jì)算架構(gòu),早先由CPU中分出來(lái)專(zhuān)門(mén)用于處理圖像并行計(jì)算數(shù)據(jù),專(zhuān)為同時(shí)處理多重并行計(jì)算任務(wù)而設(shè)計(jì)。

與CPU相比,CPU芯片空間的不到20%是ALU,而GPU芯片空間的80%以上是ALU。即GPU擁有更多的ALU用于數(shù)據(jù)并行處理。

因此,GPU的優(yōu)勢(shì)也很多,包括:多線程,提供了多核并行計(jì)算的基礎(chǔ)結(jié)構(gòu),且核心數(shù)非常多,可以支撐大量數(shù)據(jù)的并行計(jì)算,處理神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)遠(yuǎn)遠(yuǎn)高效于CPU;擁有更高的訪存速度;以及更高的浮點(diǎn)運(yùn)算能力。因此,GPU比CPU更適合深度學(xué)習(xí)中的大量訓(xùn)練數(shù)據(jù)、大量矩陣、卷積運(yùn)算。

這里需要提及的是,GPU雖然在并行計(jì)算能力上盡顯優(yōu)勢(shì),但并不能單獨(dú)工作,需要CPU的協(xié)同處理,對(duì)于神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和數(shù)據(jù)流的傳遞還是在CPU上進(jìn)行。

但是,GPU也有天生缺陷,那就是功耗高,體積大,價(jià)格貴。性能越高的GPU體積越大,功耗越高,價(jià)格也昂貴,對(duì)于一些小型設(shè)備、移動(dòng)設(shè)備來(lái)說(shuō)將無(wú)法使用。

正所謂古語(yǔ)有云:工欲善其事必先利其器。一塊石頭,是通用的工具,即便可以用來(lái)做很多事,但如果把它精心打磨,讓它變成鋒利的工具,是不是就可以用來(lái)切割東西了呢?

因此,一種體積小、功耗低、計(jì)算性能高、計(jì)算效率高的ASIC專(zhuān)用芯片NPU,就是那塊打磨過(guò)的石頭。

NPU(Neural Processing Unit),名為“神經(jīng)處理單元”。它針對(duì)于矩陣運(yùn)算進(jìn)行了專(zhuān)門(mén)的優(yōu)化設(shè)計(jì),解決了傳統(tǒng)芯片在神經(jīng)網(wǎng)絡(luò)運(yùn)算時(shí)效率低下的問(wèn)題。

按照字面意思去理解,神經(jīng)網(wǎng)絡(luò)就是你大腦里的神經(jīng)元組成的網(wǎng)絡(luò),錯(cuò)綜復(fù)雜的神經(jīng)網(wǎng)絡(luò)滿滿都是人類(lèi)智慧。而NPU就是在模仿人類(lèi)大腦的神經(jīng)網(wǎng)絡(luò),使之具備智能。

怎么模仿呢?NPU工作原理是在電路層模擬人類(lèi)神經(jīng)元和突觸,并且用深度學(xué)習(xí)指令集直接處理大規(guī)模的神經(jīng)元和突觸,一條指令完成一組神經(jīng)元的處理。相比于CPU和GPU,NPU通過(guò)突出權(quán)重實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化,從而提高運(yùn)行效率。

總結(jié)而言,NPU專(zhuān)為實(shí)現(xiàn)“以低功耗加速AI推理”而生,因?yàn)樗悄7律锷窠?jīng)網(wǎng)絡(luò)而構(gòu)建的,CPU、GPU處理器需要用數(shù)千條指令完成的神經(jīng)元處理,NPU只要一條或幾條就能完成,因此在深度學(xué)習(xí)的處理效率方面優(yōu)勢(shì)明顯。

尤其是面對(duì)當(dāng)下極其多變的生成式AI需求,以及面對(duì)端側(cè)AI的趨勢(shì),NPU更是非常在行。

Ziad Asghar指出,在上述所提及的“持續(xù)型”應(yīng)用中,需要以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高峰值性能,NPU可以發(fā)揮最大優(yōu)勢(shì)。在基于大語(yǔ)言模型(LLM)和大視覺(jué)模型(LVM)的不同用例,例如Stable Diffusion或其他擴(kuò)散模型中,NPU的每瓦特性能表現(xiàn)十分出色。

03 NPU的前世今生:此N非彼N

不過(guò),NPU這個(gè)名字不是現(xiàn)在才有。只是,伴隨著AI應(yīng)用趨勢(shì)的演變,NPU的內(nèi)涵也發(fā)生了一系列變化。我們現(xiàn)在說(shuō)的,是被重新定義的NPU。

約十年前,那些早期的NPU主要面向音頻和語(yǔ)音AI設(shè)計(jì),用于簡(jiǎn)單的CNN,且主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算。

從2016年至2022年期間,隨著AI在拍照和視頻應(yīng)用中大受歡迎,出現(xiàn)了基于Transformer、RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、以及更高維度的CNN等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運(yùn)算,因此NPU增加了張量加速器和卷積加速,不僅能夠顯著提高性能,且可以降低內(nèi)存帶寬占用和能耗。

也因此,智能手機(jī) SoC自多年前,就開(kāi)始利用NPU 改善日常用戶體驗(yàn),包括影像、音頻、連接性能、安全等等。

到了2023年的大模型時(shí)期,除計(jì)算需求之外,必須在性能、功耗、效率、可編程性和面積之間進(jìn)行權(quán)衡取舍,而一個(gè)專(zhuān)用的定制化設(shè)計(jì)NPU能夠做出正確的選擇。

為什么AI PC需要顆強(qiáng)大的NPU?

NPU的演進(jìn)

比如,高通驍龍X Elite上集成的Hexagon NPU算力達(dá)到45TOPS,在PC上運(yùn)行70億參數(shù)的Llama 2模型時(shí),處理速度則達(dá)到了30 Tokens/s;此外,驍龍8 Gen 3得益于Hexagon NPU,可以支持包括 Meta、Llama 2在內(nèi)的多種生成式 AI 大模型,能夠在終端側(cè)運(yùn)行超過(guò)100億參數(shù)的大模型,用戶無(wú)需再完全依賴(lài)云端。

但隨著AI時(shí)代持續(xù)演進(jìn),模型越來(lái)越復(fù)雜,參數(shù)規(guī)模也在不斷攀升,從10億、到百億、甚至到千億參數(shù),多模態(tài)趨勢(shì)日益增強(qiáng),生成式AI應(yīng)用也需要同時(shí)調(diào)用更多模型,種種跡象表明,雖然我們夸了那么多次NPU,但處理器僅靠NPU扛大旗,當(dāng)然并不現(xiàn)實(shí)。

所以,大家把焦點(diǎn)統(tǒng)統(tǒng)放在了同一個(gè)方向——異構(gòu)計(jì)算。

04 異構(gòu)計(jì)算扛大旗

“算力是AI PC各項(xiàng)功能得以實(shí)現(xiàn)的前提,終端異構(gòu)混合(CPU+NPU+GPU)算力是AI規(guī)模化落地的必然要求。”《AI PC產(chǎn)業(yè)(中國(guó))白皮書(shū)》指出,異構(gòu)混合計(jì)算,利用不同類(lèi)型的指令集和體系架構(gòu)的計(jì)算單元組成本地計(jì)算系統(tǒng),可以通過(guò)CPU、NPU、GPU等計(jì)算設(shè)備的組合應(yīng)用,充分發(fā)揮各硬件性能,對(duì)于不同的AI工作負(fù)載,提供靈活的解決方案。

如前文提到的三種生成式AI類(lèi)型——按需型、持續(xù)型、泛在型。按需型應(yīng)用的關(guān)鍵性能指標(biāo)是時(shí)延,因?yàn)橛脩舨幌氲却?,這些應(yīng)用使用小模型時(shí),CPU通常是正確的選擇;當(dāng)模型變大(比如數(shù)十億參數(shù))時(shí),GPU 和NPU 往往更合適;而電池續(xù)航和能效對(duì)于持續(xù)和泛在型應(yīng)用至關(guān)重要,因此NPU是最佳選擇。

“選擇合適的處理器處理相關(guān)任務(wù)至關(guān)重要,但同時(shí)也要關(guān)注SoC整體的工作負(fù)載情況。”Ziad Asghar舉例說(shuō)道,如果用戶正在玩一款重負(fù)載游戲,此時(shí)GPU會(huì)被完全占用;如果用戶正在瀏覽多個(gè)網(wǎng)頁(yè),CPU可能會(huì)占用過(guò)高,此時(shí)NPU作為真正的AI專(zhuān)用引擎就會(huì)體現(xiàn)出非常大的優(yōu)勢(shì),能夠確保我們?cè)贏I用例中獲得出色體驗(yàn)。

為什么AI PC需要顆強(qiáng)大的NPU?

就像在工具箱中選工具一樣,選擇合適的處理器取決于很多因素

那么異構(gòu)計(jì)算如何扛起終端側(cè)AI和生成式AI的大旗呢?我們不妨以芯片廠商高通的做法以作解釋。

集千萬(wàn)能力于一顆處理器身上,讓不同的計(jì)算單元各司其職,一直是芯片廠商高通堅(jiān)持且擅長(zhǎng)做的事。

具體而言,高通AI引擎包含多個(gè)硬件和軟件組件,以加速驍龍和高通平臺(tái)上的終端側(cè)Al。在集成硬件方面,高通AI引擎擁有領(lǐng)先的異構(gòu)計(jì)算架構(gòu),包括Hexagon NPU、Adreno GPU、高通Kryo或高通 Oryon CPU、高通傳感器中樞、內(nèi)存子系統(tǒng),所有硬件都經(jīng)過(guò)精心設(shè)計(jì)以實(shí)現(xiàn)協(xié)同工作,在終端側(cè)快速高效地運(yùn)行Al應(yīng)用。

那么它是如何工作的呢?

舉個(gè)例子,你要讓PC上的“虛擬助手”為你制定一個(gè)旅游規(guī)劃。

為什么AI PC需要顆強(qiáng)大的NPU?

— 你需要做的:對(duì)虛擬助手說(shuō),幫我制定一個(gè)去毛里求斯為期一周的旅游規(guī)劃。

— 你看見(jiàn)AI助手做的:給到航班行程建議,并與用戶進(jìn)行語(yǔ)音對(duì)話調(diào)整行程,最后通過(guò)某個(gè)插件創(chuàng)建完整航班日程。

— 實(shí)際上AI做的:

· 首先,你對(duì)虛擬助手所說(shuō)的話,會(huì)通過(guò)自動(dòng)語(yǔ)音識(shí)別(ASR)模型Whisper轉(zhuǎn)化為文本,Whisper是OpenAI發(fā)布的一個(gè)約2.4億參數(shù)的模型。該模型主要在高通傳感器中樞上運(yùn)行。
· 然后,AI助手利用Llama 2或百川大模型,基于文本內(nèi)容生成文本回復(fù)。該模型在Hexagon NPU上運(yùn)行。
· 再然后,需要通過(guò)在CPU上運(yùn)行的開(kāi)源TTS(Text to Speech)模型,將文本轉(zhuǎn)化為語(yǔ)音。
· 與此同時(shí),虛擬助手渲染必須與語(yǔ)音輸出同步,才能實(shí)現(xiàn)足夠真實(shí)的用戶交互界面。使用融合變形動(dòng)畫(huà)(Blendshape)技術(shù)讓語(yǔ)音與虛擬化身的嘴型匹配,實(shí)現(xiàn)音話同步。這一傳統(tǒng) AI工作負(fù)載在 NPU 上運(yùn)行。
· 再同時(shí),通過(guò)虛幻引擎MetaHuman 進(jìn)行虛擬助手渲染,這部分渲染工作在Adreno GPU上完成。
· 最后,通過(guò)驍龍調(diào)制解調(diào)器技術(shù)進(jìn)行網(wǎng)絡(luò)連接,使用 Skyscanner插件完成訂票操作。
誠(chéng)然,一顆處理器的內(nèi)部,其實(shí)是多個(gè)處理單元互相打配合,才能真正完全釋放AI引擎性能。但是高通認(rèn)為,這還不夠。

因?yàn)槿魏我粋€(gè)AI終端,無(wú)論是AI PC、還是AI手機(jī)、或是物聯(lián)網(wǎng),只有軟硬件結(jié)合,才能創(chuàng)造最佳體驗(yàn)。當(dāng)硬件性能準(zhǔn)備好了,如何讓軟件也跟上步伐呢?

于是,高通AI Hub誕生了。這是高通在MWC2024期間推出的一個(gè)全面的模型優(yōu)化庫(kù),為開(kāi)發(fā)者提供超過(guò)75個(gè)主流模型,如Stable Diffusion、ControlNet、Baichuan-7B等。這些模型全部經(jīng)過(guò)優(yōu)化,可以充分利用高通AI引擎內(nèi)所有核心的硬件加速能力,實(shí)現(xiàn)4倍推理速度提升。

對(duì)于開(kāi)發(fā)者而言,既能快速將大模型無(wú)縫集成到應(yīng)用程序中,縮短產(chǎn)品上市時(shí)間。同時(shí),這些優(yōu)化后的模型也同步上線到GitHub、Hugging Face,開(kāi)發(fā)者可在搭載高通和驍龍平臺(tái)的云托管終端上,自行運(yùn)行模型。

更重要的是,高通在所有的硬件AI能力之上,還打造了高通AI軟件棧(Qualcomm AI Stack),支持目前所有的主流AI框架(如TensorFlow、PyTorch、ONNX和Keras),且還支持所有主流的AI runtime(如DirectML、TFLite、ONNX Runtime、ExecuTorch),以及支持不同的編譯器、數(shù)學(xué)庫(kù)等AI工具。開(kāi)發(fā)者可通過(guò)高通 AI 引擎 Direct 軟件開(kāi)發(fā)包(SDK)直接進(jìn)行耦合,加快開(kāi)發(fā)進(jìn)程。此外,高通AI軟件棧集成用于推理的高通神經(jīng)網(wǎng)絡(luò)處理SDK,包括面向Android、Linux和Windows的不同版本。

為什么AI PC需要顆強(qiáng)大的NPU?

圖為高通AI軟件棧

綜上而言,面向AI大模型和生成式AI浪潮,終端側(cè)正在經(jīng)歷一場(chǎng)全新的進(jìn)化,無(wú)論是手機(jī)、PC、汽車(chē)或更多終端,或許未來(lái)不用專(zhuān)門(mén)談AI,卻處處都是AI。

而這個(gè)所謂的未來(lái)其實(shí)已來(lái)。根據(jù)IDC預(yù)計(jì),2024年中國(guó)AI PC新機(jī)出貨占比將超過(guò)50%,有望迎來(lái)發(fā)展元年。波士頓咨詢(xún)更是預(yù)測(cè),到2028年AI PC將占PC市場(chǎng)的80%。

“過(guò)去互聯(lián)網(wǎng)剛出現(xiàn)時(shí),只有少數(shù)人能夠利用PC上網(wǎng),而智能手機(jī)的出現(xiàn)讓數(shù)十億人都能連網(wǎng),終端側(cè)生成式AI的發(fā)展也將如此,它將讓所有人充分利用生成式AI,改變工作、生活體驗(yàn),變革各行各業(yè)。”Ziad Asghar在采訪中如是說(shuō)。

分享至
5贊

好文章,需要你的鼓勵(lì)

周雅

Miranda
關(guān)注科技創(chuàng)新、技術(shù)投資。以文會(huì)友,左手硬核科技,右手浪漫主義。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-