由于打破了芯片設(shè)計(jì)的“存儲墻”和“功耗墻”,實(shí)現(xiàn)了計(jì)算單元與存儲單元的集成,顛覆了馮·諾依曼架構(gòu)的存算一體技術(shù)正在成為大模型時代設(shè)計(jì)AI芯片的一條全新技術(shù)路徑。
不過,在大模型還未引爆全球的2020年,吳強(qiáng)基于存算一體技術(shù)創(chuàng)業(yè)做AI芯片時,當(dāng)時的后摩智能并不被大家所理解。
后摩智能創(chuàng)始人、CEO吳強(qiáng)回憶起創(chuàng)業(yè)之初,當(dāng)時被問到最多的是,“既然存算一體技術(shù)這么好,為什么別人沒有做,只有你們在做?”
作為第一批將存算一體技術(shù)從學(xué)術(shù)界應(yīng)用到工業(yè)界的人,被質(zhì)疑在所難免。
不過,當(dāng)四年后,以大模型技術(shù)為代表的人工智能新范式成為這個社會主流意識時,存算一體技術(shù)的優(yōu)勢開始顯現(xiàn),主流芯片廠商也開始進(jìn)入這一領(lǐng)域。
這時的吳強(qiáng)需要面對的問題成了,“面對其他廠商的入局和競爭,后摩智能如何形成自己的護(hù)城河?”
就在WAIC 2025前夕,后摩智能正式對外發(fā)布了后摩漫界M50,這顆面向端邊大模型的AI芯片,就是吳強(qiáng)給出的答案。
01 破解大模型的計(jì)算瓶頸
2020年,在鮮有主流芯片廠商會提及存算一體計(jì)算架構(gòu)時,在國內(nèi)外頭部科技廠商任職多年、負(fù)責(zé)過多個AI芯片項(xiàng)目的吳強(qiáng)決定創(chuàng)業(yè),當(dāng)時他為后摩智能選定的創(chuàng)業(yè)方向正是存算一體技術(shù)。
吳強(qiáng)之所以會選擇這樣一條路創(chuàng)業(yè),有兩個原因:
第一,吳強(qiáng)早年間在美國普林斯頓大學(xué)博士期間,論文的研究方向就是高能效比芯片和編譯器,自那時起他就知道,要真正解決“存儲墻”、“功耗墻”問題,存算一體是一條必然路徑;
第二,在英特爾、AMD、英偉達(dá)這樣巨頭林立的芯片領(lǐng)域,要想?yún)⑴c到全球競爭中,就需要通過創(chuàng)新技術(shù)進(jìn)行彎道超車。
于是,吳強(qiáng)帶領(lǐng)后摩智能團(tuán)隊(duì)基于存算一體這一冷門技術(shù)路線開始研發(fā)AI芯片,到現(xiàn)在已經(jīng)有四年多的時間。
后摩智能拿出第一顆存算一體芯片是在2023年。
2023年5月,后摩智能正式對外發(fā)布首款存算一體芯片鴻途H30,這款應(yīng)用于智駕領(lǐng)域的存算一體芯片最高物理算力達(dá)到了256TOPS,典型功耗為35W,存算一體技術(shù)的高算力、高帶寬、低功耗等特性首次顯現(xiàn)。
然而,2023年下半年,智能駕駛領(lǐng)域已經(jīng)格局逐漸趨于穩(wěn)定,留給新入局者的機(jī)會已經(jīng)不多,由于后摩智能第一代AI芯片做得算力很大,算力大就意味著成本高,彼時低成本已經(jīng)成為智能駕駛市場一大趨勢,智能駕駛AI芯片的價格甚至達(dá)到了千元級。
在無法看到L3級,乃至更高階自動駕駛的年代,拼算力成本成了市場上的主流聲音,吳強(qiáng)回憶稱,“由于我們第一代芯片的算力太超前,和當(dāng)時市場存在一個gap,再面向智能駕駛領(lǐng)域造一顆心的芯片,將會錯過這個市場的窗口期,我們在2023年開始思考轉(zhuǎn)型。”
創(chuàng)業(yè)團(tuán)隊(duì)沒有大公司的通病,轉(zhuǎn)向并不算難,于是,后摩智能在2023年開始尋找新的機(jī)會。
2023年,ChatGPT已經(jīng)火遍全球,中國大模型市場正在經(jīng)歷著百團(tuán)大戰(zhàn),大模型已經(jīng)成為了當(dāng)下時代趨勢。
當(dāng)時的吳強(qiáng)發(fā)現(xiàn),大模型中的Prefill算力非常密集,但是到了Decoding階段,開始對帶寬要求很高,所以大模型既是算力密集型,又是訪存密集型的AI應(yīng)用。
這樣的應(yīng)用需求與存算一體計(jì)算架構(gòu)的技術(shù)能力高度吻合,發(fā)現(xiàn)這樣的市場需求后,吳強(qiáng)和他的團(tuán)隊(duì)非常興奮,在2023年年底決定轉(zhuǎn)向,基于大模型的應(yīng)用需求研發(fā)存算一體AI芯片。
在這個過程中,后摩智能團(tuán)隊(duì)投入大量資源深入研究了大模型芯片架構(gòu)、設(shè)計(jì)、量化等問題,在過去兩年里陸續(xù)在國際頂刊上發(fā)表了30多篇論文,甚至其中一篇與北京大學(xué)合作的關(guān)于在大模型推理架構(gòu)中DRAM存算用的研究成果入選了2025 ISCA最佳論文獎。
這是吳強(qiáng)在國外讀博士期間,每位學(xué)生都夢寐以求計(jì)算機(jī)架構(gòu)國際頂級會議。
也是基于這兩年的技術(shù)積累,在WAIC 2025前夕,后摩智能兩年磨一劍的后摩漫界M50芯片正式對外亮相。
02 大模型計(jì)算權(quán)重下放,90%需求在端邊
說起來,M50并不是后摩智能面向大模型領(lǐng)域推出的第一顆AI芯片。
早在2024年6月,后摩智能就面向大模型領(lǐng)域推出了第一顆基于存算一體計(jì)算架構(gòu)的AI芯片,后摩漫界M30。
這顆芯片首先應(yīng)用到了中國移動的一體機(jī)產(chǎn)品中,并在2024年年初隨著中國移動在MWC 2024上正式對外展出,當(dāng)時基于后摩漫界M30運(yùn)行60B大模型的效果超出了后摩智能團(tuán)隊(duì)的預(yù)期,這進(jìn)一步堅(jiān)定了后摩智能做大模型AI芯片的決心。
與此同時,中國移動旗下的北京中移數(shù)字新經(jīng)濟(jì)產(chǎn)業(yè)基金和上海中移數(shù)字轉(zhuǎn)型產(chǎn)業(yè)基金后來也成了后摩智能的投資方。
錨定大模型AI芯片后,基于對大模型的深入研究,吳強(qiáng)又有了兩個判斷:
第一,大模型的重心將逐漸從訓(xùn)練向推理側(cè)遷移,未來大模型推理對AI芯片會有更多需求;
第二,大模型將從云端智能向端邊智能遷移,在未來端邊云混合智能體系中,90%的數(shù)據(jù)處理需求將會來自端和邊。
基于這兩大趨勢判斷,后摩智能將下一代芯片,也就是這次發(fā)布的后摩漫界M50定位到了端邊大模型應(yīng)用場景。
后摩漫界M50采用存算一體計(jì)算架構(gòu),芯片大小只有20×23mm,典型功耗進(jìn)一步控制到了10W,單芯片算力最高可達(dá)160TOPS,配備最大48GB內(nèi)存和153.6GB/s帶寬,目前已經(jīng)實(shí)現(xiàn)了7B/8B大模型25+Tokens/s的推理速度。
不過,后摩漫界M50不僅僅能夠支持7B/8B大模型,據(jù)吳強(qiáng)在媒體溝通會上透露,這款芯片已經(jīng)完成了對70B參數(shù)的deepseek的適配,最大可以支持100B參數(shù)大模型。
這樣的后摩漫界M50,是后摩智能過去兩年的研發(fā)成果,而之所以這顆芯片能實(shí)現(xiàn)如此高的能效,是因?yàn)楹竽χ悄茉诖嫠阋惑w化計(jì)算架構(gòu)上的技術(shù)突破,這又包括存算IP和IPU架構(gòu)兩個方面。
在存算IP上,后摩智能演進(jìn)到了第二代,在權(quán)重加載電路、加法樹架構(gòu)、加法樹物理實(shí)現(xiàn)、控制電路以及時序電路優(yōu)、SRAM電路上都進(jìn)行了全新的優(yōu)化設(shè)計(jì),在此過程中,后摩智能團(tuán)隊(duì)就可測性、可靠性,以及存算成本、電源穩(wěn)定性、面效比等方面都進(jìn)行了深入研究,并將這些成果集成到了M50芯片上。
在IPU架構(gòu)上,后摩智能同樣向前邁進(jìn)了一代,對于第二代天璇架構(gòu),吳強(qiáng)特別介紹了團(tuán)隊(duì)在以下兩個方面進(jìn)行的優(yōu)化:
第一,通過自適應(yīng)計(jì)算周期壓縮實(shí)現(xiàn)彈性加速。
在GPU中已經(jīng)得到普遍應(yīng)用的稀疏加速的技術(shù)原理是,如果某個權(quán)重為0,就可以直接跳過,以此實(shí)現(xiàn)計(jì)算加速,而如果這個權(quán)重不是0,GPU中的稀疏算力將會很難被利用起來。
相較而言,存算一體AI芯片是基于比特串行的計(jì)算,這就使得針對某個輸入,不需要所有值都為0,而是只要比特位內(nèi)有0就可以按照比特位進(jìn)行優(yōu)化,進(jìn)行彈性加速。
第二,浮點(diǎn)模型直接運(yùn)行,提升應(yīng)用效率。
基于第二代天璇架構(gòu)M50運(yùn)行的大模型,針對FP16的浮點(diǎn)模型可以直接運(yùn)行,只有特殊場景下才需要做額外的量化工作,由此提升了模型的適配和應(yīng)用效率。
為了更好地發(fā)揮出M50芯片的能力,后摩智能還為這代芯片重構(gòu)了編譯器工具,研發(fā)了支持主流深度學(xué)習(xí)框架、能夠自動搜索最優(yōu)優(yōu)化策略、提供原生浮點(diǎn)算力支持的后摩大道編譯器。
此外,基于后摩漫界M50,后摩智能還同步推出了力系列M.2卡、力謀系列加速卡及計(jì)算盒子等硬件組合,形成了覆蓋移動終端與邊緣場景完整的產(chǎn)品矩陣。
03 AI終端潛力,開始加速釋放
2022年11月30日,OpenAI正式對外發(fā)布了ChatGPT,作為大模型時代第一個超級應(yīng)用,ChatGPT僅用了2個月就達(dá)到了1億用戶。
更為瘋狂的是,2024年面世的deepseek,達(dá)到1億用戶量,僅僅用了兩周時間。
這樣的現(xiàn)象級大模型產(chǎn)品的出現(xiàn),讓吳強(qiáng)意識到,大模型時代的產(chǎn)品底層邏輯已經(jīng)改變。
互聯(lián)網(wǎng)產(chǎn)品是通過連接產(chǎn)生價值,只有擁有一定用戶量形成網(wǎng)絡(luò)效應(yīng)才能產(chǎn)生價值,而大模型產(chǎn)品發(fā)展更快速,可以在很短時間能成長為超級應(yīng)用,直接創(chuàng)造生產(chǎn)力,產(chǎn)生價值。
那么,后摩智能當(dāng)下的目標(biāo)商業(yè)市場是在哪里呢?
吳強(qiáng)給出的答案是:消費(fèi)終端、智能辦公、智能工業(yè)、機(jī)器人。
這是吳強(qiáng)為后摩智能商業(yè)化發(fā)展制定的方向,也是后摩漫界M50最先落地方向。
這其中,在發(fā)布會上,吳強(qiáng)也進(jìn)一步透露了,諸如聯(lián)想的下一代AI PC、訊飛聽見的下一代智能語音設(shè)備、中國移動的5G+AI應(yīng)用落地設(shè)備,都將是后摩智能面向端邊大模型布局的后摩智能M50的意向客戶。
值得注意的是,吳強(qiáng)同樣看好如今處于風(fēng)口上的具身智能市場,他告訴我們,“機(jī)器人對功耗更敏感,對AI芯片有更高要求,也是我們的機(jī)會之一。”
據(jù)悉,后摩智能如今已經(jīng)在與機(jī)器人廠商合作,在具身智能領(lǐng)域進(jìn)行提前布局。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。
關(guān)注智造、硬件、機(jī)器人。