作者|周雅
DeepSeek的V3模型的最后一輪訓(xùn)練,僅用557.6萬(wàn)美元的GPU使用成本,就訓(xùn)練出了全球前沿模型,并在后續(xù)發(fā)布與OpenAI o1推理模型能力不相上下的DeepSeek R1,這股神秘東方力量就像蝴蝶扇動(dòng)了翅膀,在全球引發(fā)連鎖反應(yīng)至今已經(jīng)整整1個(gè)月。
此前,AI產(chǎn)業(yè)的發(fā)展邏輯似乎還很簡(jiǎn)單:模型參數(shù)越大越好、算力投入越多越好。但DeepSeek R1的橫空出世,改寫(xiě)了這一認(rèn)知,約束條件反而可以推動(dòng)創(chuàng)新,沒(méi)有大算力,還可以優(yōu)化算法。所以現(xiàn)在科技圈普遍出現(xiàn)了一種聲音:一個(gè)開(kāi)源、高性能、低部署推理成本的大模型也能帶來(lái)整個(gè)AI產(chǎn)業(yè)生態(tài)的繁榮,是大家抓緊上車(chē)的門(mén)票。
那么,究竟接下來(lái)產(chǎn)業(yè)鏈中還有誰(shuí)能從DeepSeek的沖擊波中受益?
在2025財(cái)年第一季度財(cái)報(bào)電話會(huì)議中,高通公司總裁兼CEO安蒙提到,“DeepSeek R1及其他類似模型表明,AI模型正在向更快、更小、更強(qiáng)大、更高效的方向發(fā)展,并且可以直接在終端側(cè)運(yùn)行。DeepSeek R1的蒸餾模型在發(fā)布僅幾天內(nèi),就能在搭載驍龍平臺(tái)的智能手機(jī)和PC上運(yùn)行。”
緊接著,高通發(fā)布了最新白皮書(shū)《AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新》(下稱《白皮書(shū)》),首次闡述了終端AI推理迎來(lái)突破的深層邏輯。
范式之變:為何現(xiàn)在是終端AI的拐點(diǎn)?
大模型的規(guī)模競(jìng)賽推動(dòng)了底層技術(shù)創(chuàng)新,同時(shí)也讓業(yè)界思考AI部署的多元路徑。
今年年初的時(shí)候,高通中國(guó)區(qū)研發(fā)負(fù)責(zé)人徐晧接受科技行者專訪時(shí)提到,AI發(fā)展現(xiàn)在遵循兩個(gè)主要軌跡:云端AI、終端側(cè)AI。
首先,大部分人看到的、聽(tīng)到的AI都是云端訓(xùn)練的AI模型,例如Meta的LLaMA、OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini等,它們都是用非常多的GPU堆起來(lái),擁有很大的算力,能夠處理海量數(shù)據(jù),從而訓(xùn)練出的大模型。這些大模型部署在云端,也只能在云端運(yùn)行。(現(xiàn)在1000億參數(shù)甚至更大的模型只能在云端運(yùn)行。)
其次,另一個(gè)主要趨勢(shì)是終端側(cè)AI。任何技術(shù)要落地到每個(gè)人手中,都需要下沉到智能終端,比如手機(jī)、PC、汽車(chē)、工業(yè)物聯(lián)網(wǎng)等,這些萬(wàn)物智能的設(shè)備占據(jù)更大規(guī)模,且可以實(shí)現(xiàn)云端AI所無(wú)法實(shí)現(xiàn)的隱私、效率、個(gè)性化用戶體驗(yàn)。
安蒙在財(cái)報(bào)電話會(huì)議中還明確指出,“隨著我們進(jìn)入AI推理時(shí)代,模型訓(xùn)練仍將在「云端」進(jìn)行,但推理將更多在「終端側(cè)」運(yùn)行,讓AI變得更便捷、可定制且高效,那將促進(jìn)更多專用模型和應(yīng)用的開(kāi)發(fā)和采用,并因此推動(dòng)各類終端對(duì)高通平臺(tái)的需求。”
高通還在《白皮書(shū)》中,詳細(xì)介紹了推動(dòng)終端側(cè)AI變革的四大關(guān)鍵趨勢(shì):
第一,當(dāng)前先進(jìn)的AI小模型已具有卓越性能。模型蒸餾、AI網(wǎng)絡(luò)架構(gòu)優(yōu)化等新技術(shù),能夠在不影響質(zhì)量的情況下簡(jiǎn)化開(kāi)發(fā)流程,讓新模型的表現(xiàn)超越一些僅在云端運(yùn)行的大模型。
第二,模型參數(shù)規(guī)模正在快速縮小。得益于先進(jìn)的量化和剪枝技術(shù),開(kāi)發(fā)者現(xiàn)在能夠在不影響模型準(zhǔn)確性的前提下,顯著縮減模型參數(shù)規(guī)模。
(編者注:也就是說(shuō),當(dāng)一個(gè)小模型能夠做到大模型前兩年能做的事情,那么把這個(gè)小模型放到終端上就足夠了,比如汽車(chē)上可以放100個(gè)億-1000億參數(shù)的模型,現(xiàn)在大多數(shù)手機(jī)已經(jīng)可以支持30億參數(shù)的模型,在這個(gè)維度上,小模型能做越來(lái)越多的事情。該趨勢(shì)解決了終端部署的計(jì)算負(fù)擔(dān)問(wèn)題,為大規(guī)模商用部署掃清了技術(shù)障礙。)
第三,開(kāi)發(fā)者能夠在邊緣側(cè)打造更豐富的應(yīng)用。高質(zhì)量AI模型快速激增,意味著文本摘要、編程助手和實(shí)時(shí)翻譯等特性在智能手機(jī)等終端上的普及,讓AI能夠支持跨邊緣側(cè)規(guī)?;渴鸬纳逃脩?yīng)用。
第四,AI正在成為新的UI。個(gè)性化多模態(tài)的AI智能體(Agent)將簡(jiǎn)化交互,高效地跨越各種應(yīng)用完成任務(wù)。
此處引用徐晧當(dāng)時(shí)在對(duì)談中舉例而言,比如我們現(xiàn)在要出去旅行,就需要在手機(jī)上操作:定機(jī)酒-看日程安排-看當(dāng)?shù)靥鞖?看當(dāng)?shù)毓ヂ缘?,這就要調(diào)用不同的APP來(lái)完成這些事情。但是如果有了AI智能體,那么就能一步到位,只需要告訴AI智能體:“看看我下周哪天有空,我想去某地旅游,幫我訂某星際酒店,最好是能夠在海邊,順便看看當(dāng)?shù)靥鞖夂凸β?rdquo;。我們和終端的交互只需要通過(guò)自然語(yǔ)言和AI智能體,AI智能體會(huì)去調(diào)用后臺(tái)所有App來(lái)把事情搞定。那么這個(gè)UI就完全不是以前的UI了。
市場(chǎng)格局:誰(shuí)將受益于這一變革?
一、毫無(wú)疑問(wèn),芯片廠商將成為最直接受益者。終端側(cè)AI對(duì)處理器的算力和能效都提出了更多要求,這將催生新一輪硬件升級(jí)周期。
二、模型開(kāi)發(fā)商將迎來(lái)新機(jī)遇。DeepSeek的成功表明,通過(guò)技術(shù)創(chuàng)新,小型團(tuán)隊(duì)同樣可以在AI領(lǐng)域?qū)崿F(xiàn)突破,隨著終端部署門(mén)檻降低,將會(huì)涌現(xiàn)更多面向特定場(chǎng)景的專業(yè)化模型。
三、應(yīng)用開(kāi)發(fā)者將獲得更大施展空間。高質(zhì)量、小模型的普及,使得文本處理、代碼輔助、實(shí)時(shí)翻譯等AI功能可以輕松部署到終端設(shè)備,這將激發(fā)新一輪應(yīng)用創(chuàng)新。
以高通為例。無(wú)論是AI訓(xùn)練正在向大規(guī)模推理轉(zhuǎn)型,還是AI計(jì)算處理從云端向邊緣側(cè)擴(kuò)展方面,高通都具有戰(zhàn)略優(yōu)勢(shì),作為終端側(cè)AI的引領(lǐng)者,高通的解決方案涵蓋了數(shù)十億臺(tái)智能手機(jī)、汽車(chē)、XR頭顯和眼鏡、PC以及工業(yè)物聯(lián)網(wǎng)終端等。
徐晧告訴我,“高通正在用最節(jié)能的方式、最小的芯片面積來(lái)做最有效的人工智能應(yīng)用。”其中有幾種有效的方案,可以將大模型縮小或提高不同模型的適應(yīng)性。
· 首先是對(duì)模型本身的簡(jiǎn)化。
第一種叫“剪枝”(Pruning),就像修剪花草一樣。把AI模型中不太重要的“枝節(jié)”剪掉,保留最核心的部分,這樣模型體積變小了,但依然能保持原有的聰明才智。第二種方法叫“學(xué)生-教師模型”(Student-Teacher Model),像是“師徒傳藝”,把一個(gè)“經(jīng)驗(yàn)豐富”的大模型當(dāng)作老師,讓它去教導(dǎo)一個(gè)“年輕”的小模型,通過(guò)不斷學(xué)習(xí)和驗(yàn)證,小模型最終也能掌握老師的本領(lǐng),但所需的計(jì)算資源卻少得多。第三種方法叫“LoRA”(Low-Rank Adaptation),可以理解為“化整為零”,把一個(gè)龐大的AI任務(wù),分解成幾個(gè)小任務(wù),用更小的模型來(lái)分別處理,這就像是把一個(gè)大工程分派給幾個(gè)小團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)專注于自己的部分,最終一起完成大任務(wù)。
這些技術(shù)創(chuàng)新讓AI模型變得更加節(jié)能和輕量級(jí),不僅能在手機(jī)等終端設(shè)備上流暢運(yùn)行,還保持了優(yōu)秀的性能,為AI的普及應(yīng)用打開(kāi)了新的可能。
· 其次是用蒸餾(Distillation)的方法,用大模型訓(xùn)練小模型。
蒸餾是開(kāi)發(fā)高效小模型的一項(xiàng)關(guān)鍵技術(shù),它能夠讓大模型“教學(xué)”小模型,保持準(zhǔn)確性的同時(shí)遷移知識(shí)。蒸餾技術(shù)的使用,促使小型基礎(chǔ)模型激增,包括眾多面向特定任務(wù)調(diào)優(yōu)的模型。
高通在《白皮書(shū)》中展示了蒸餾的強(qiáng)大能力。下圖比較了Llama 3.3 700億參數(shù)模型和同類DeepSeek R1蒸餾模型的LiveBench平均測(cè)試結(jié)果,顯示出在相同參數(shù)規(guī)模下,蒸餾能夠在推理、編程和數(shù)學(xué)任務(wù)中顯著提高性能。
圖:Meta Llama 700億參數(shù)模型和DeepSeek對(duì)應(yīng)蒸餾模型的LiveBench AI基準(zhǔn)測(cè)試平均結(jié)果對(duì)比。來(lái)源:LiveBench.ai,2025年2月。
此外,得益于蒸餾和上述其他技術(shù),小模型正在接近前沿大模型的質(zhì)量。下圖顯示了DeepSeek R1蒸餾版本與其他領(lǐng)先模型的基準(zhǔn)測(cè)試結(jié)果對(duì)比?;谕x千問(wèn)模型和Llama模型的DeepSeek蒸餾版本展現(xiàn)了諸多明顯優(yōu)勢(shì),尤其是在GPQA基準(zhǔn)測(cè)試中,與GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等先進(jìn)模型相比,取得了相似或更高的分?jǐn)?shù)。(GPQA是一個(gè)關(guān)鍵評(píng)估指標(biāo),因其涉及解決復(fù)雜問(wèn)題的深層次、多步驟的推理,這對(duì)許多模型頗具挑戰(zhàn)性。)
圖:數(shù)學(xué)和編程基準(zhǔn)測(cè)試。來(lái)源:DeepSeek,2025年1月。
《白皮書(shū)》中特別指出,將大型基礎(chǔ)模型縮減為更小、更高效的版本,不僅能實(shí)現(xiàn)更快的推理速度、更少的內(nèi)存占用和更低的功耗,同時(shí)可以保持較高的性能水平,從而使此類模型適合在智能手機(jī)、PC和汽車(chē)等終端上部署。
挑戰(zhàn)猶存:變革之路并非坦途
盡管前景可期,終端側(cè)AI推理仍面臨諸多挑戰(zhàn):一是性能與效率的平衡問(wèn)題,如何在有限算力下實(shí)現(xiàn)更好的推理效果;二是生態(tài)建設(shè)問(wèn)題,需要更完善的開(kāi)發(fā)工具和框架支持;三是標(biāo)準(zhǔn)化問(wèn)題,不同平臺(tái)間的模型部署仍缺乏統(tǒng)一標(biāo)準(zhǔn)。
仍以高通為例。首先在硬件層面,高通長(zhǎng)期致力于開(kāi)發(fā)定制CPU、NPU、GPU和低功耗子系統(tǒng),同時(shí)擁有封裝技術(shù)和熱設(shè)計(jì)的技術(shù)專長(zhǎng),構(gòu)成了其行業(yè)領(lǐng)先系統(tǒng)級(jí)芯片(SoC)產(chǎn)品的基礎(chǔ)。
這些SoC能夠直接在終端側(cè)提供高性能、高能效的AI推理,通過(guò)緊密集成這些核心組件,高通的平臺(tái)可在保持電池續(xù)航和整體能效表現(xiàn)的同時(shí),處理復(fù)雜AI任務(wù),這對(duì)邊緣側(cè)用例至關(guān)重要。
其次在軟件層面,高通還構(gòu)建了強(qiáng)大的AI軟件棧,旨在賦能軟件開(kāi)發(fā)者。高通AI軟件棧包括庫(kù)(libraries)、SDK和優(yōu)化工具,可簡(jiǎn)化模型部署并提升性能。開(kāi)發(fā)者可以利用這些資源,面向高通平臺(tái)高效進(jìn)行模型適配,縮短AI賦能應(yīng)用的上市時(shí)間。
最后,作為高通面向各行各業(yè)規(guī)?;瘮U(kuò)展AI戰(zhàn)略的核心,高通與全球AI模型廠商積極合作,并提供高通AI Hub等服務(wù)。
高通《白皮書(shū)》中介紹,在高通AI Hub上,僅需三步,開(kāi)發(fā)者即可:1)選擇模型,或引入自主模型又或基于他們的數(shù)據(jù)創(chuàng)建模型;2)選擇任意框架和runtime,在基于云的物理設(shè)備場(chǎng)(cloud-based physical device farm)上撰寫(xiě)和測(cè)試AI應(yīng)用;3)使用工具商業(yè)化部署其應(yīng)用。高通AI Hub支持主流大語(yǔ)言模型和多模態(tài)大模型(LLM、LMM)系列,讓開(kāi)發(fā)者可在搭載高通平臺(tái)的終端上部署、優(yōu)化和管理推理任務(wù)。借助預(yù)優(yōu)化模型庫(kù)和支持定制模型優(yōu)化與集成等特性,高通賦能加速開(kāi)發(fā)周期,同時(shí)增強(qiáng)了與廣泛AI生態(tài)的兼容性。
從技術(shù)演進(jìn)規(guī)律看,AI計(jì)算正在經(jīng)歷與互聯(lián)網(wǎng)相似的分布式變革。就像是云計(jì)算無(wú)法完全替代終端計(jì)算一樣,終端側(cè)AI也將與云端AI形成互補(bǔ)。當(dāng)前我們正處于這一變革的起點(diǎn),未來(lái)終端AI的應(yīng)用場(chǎng)景可能遠(yuǎn)超預(yù)期。
DeepSeek事件也給業(yè)界提了個(gè)醒,AI產(chǎn)業(yè)正在進(jìn)入一個(gè)新階段。在這個(gè)階段,技術(shù)創(chuàng)新的重點(diǎn)將從突破模型規(guī)模上限,轉(zhuǎn)向提升計(jì)算效率和部署靈活性。
或許AI的下一波創(chuàng)新,不僅是比拼誰(shuí)的模型更大,還要看誰(shuí)能讓AI更輕便、更普及、更貼近生活。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。