這項(xiàng)由ByteDance Seed團(tuán)隊(duì)的黃志豪、包宇、閔奇揚(yáng)等研究人員完成的重要研究,于2025年8月27日發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2508.18756v1),為人工智能領(lǐng)域帶來(lái)了突破性進(jìn)展。想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文代碼頁(yè)面https://github.com/ZihaoHuang-notabot/Ultra-Sparse-Memory-Network獲得完整資料。
現(xiàn)代人工智能就像一個(gè)擁有超強(qiáng)記憶力的學(xué)生,但傳統(tǒng)的AI系統(tǒng)在處理信息時(shí)面臨著一個(gè)根本矛盾:要么擁有強(qiáng)大的計(jì)算能力但記憶訪問(wèn)成本高昂,要么記憶訪問(wèn)便宜但性能受限。這個(gè)問(wèn)題困擾著整個(gè)AI界,就好比你想要一個(gè)既聰明又高效的助手,但現(xiàn)有的技術(shù)總是讓你在兩者之間做出妥協(xié)。
在AI的世界里,有一種叫做"混合專家"(MoE)的技術(shù),它就像一個(gè)擁有多位專業(yè)顧問(wèn)的智能系統(tǒng)。當(dāng)遇到問(wèn)題時(shí),系統(tǒng)會(huì)選擇最合適的幾位專家來(lái)協(xié)同工作。這種方法確實(shí)很聰明,特別是當(dāng)激活8位專家時(shí)效果最佳,但問(wèn)題在于每次咨詢專家都需要大量的"路費(fèi)"——也就是內(nèi)存訪問(wèn)開(kāi)銷,這讓整個(gè)系統(tǒng)運(yùn)行起來(lái)成本昂貴且緩慢。
與此同時(shí),另一種叫做"記憶層"的技術(shù)則像一個(gè)巨大的圖書(shū)館,系統(tǒng)可以直接從中檢索所需信息,訪問(wèn)成本相對(duì)較低。然而,之前的記憶層技術(shù)(比如UltraMem)雖然在效率方面表現(xiàn)不錯(cuò),但性能卻只能與使用2位專家的MoE系統(tǒng)相匹敵,與最優(yōu)的8專家配置相比存在顯著差距。
ByteDance的研究團(tuán)隊(duì)就像一群技藝精湛的工程師,他們決心打破這個(gè)技術(shù)瓶頸。他們開(kāi)發(fā)的UltraMemV2系統(tǒng),成功地讓記憶層架構(gòu)的性能追上了頂級(jí)的8專家MoE模型,同時(shí)保持了記憶訪問(wèn)的低成本優(yōu)勢(shì)。這項(xiàng)突破就好比他們找到了制造既快速又節(jié)能的超級(jí)計(jì)算機(jī)的方法。
研究團(tuán)隊(duì)的創(chuàng)新體現(xiàn)在五個(gè)關(guān)鍵改進(jìn)上。首先,他們將記憶層深度整合到每個(gè)變換器塊中,就像在每個(gè)房間都安裝了智能助手,而不是只在幾個(gè)房間設(shè)置。其次,他們簡(jiǎn)化了數(shù)值擴(kuò)展過(guò)程,使用單一的線性投影替代了復(fù)雜的多層結(jié)構(gòu),這就像用一個(gè)簡(jiǎn)單高效的工具替代了繁瑣的多步驟流程。
第三個(gè)改進(jìn)來(lái)自對(duì)PEER技術(shù)的采用,這種基于前饋神經(jīng)網(wǎng)絡(luò)的數(shù)值處理方法,讓系統(tǒng)能夠更好地處理激活的數(shù)值,就像給圖書(shū)管理員配備了更先進(jìn)的分類系統(tǒng)。第四個(gè)關(guān)鍵點(diǎn)是優(yōu)化了參數(shù)初始化方法,確保訓(xùn)練過(guò)程的穩(wěn)定性,避免了訓(xùn)練發(fā)散的問(wèn)題,這相當(dāng)于為系統(tǒng)的學(xué)習(xí)過(guò)程制定了科學(xué)的起步規(guī)則。最后,他們重新平衡了記憶層與傳統(tǒng)前饋網(wǎng)絡(luò)之間的計(jì)算比例,找到了最優(yōu)的資源分配方案。
實(shí)驗(yàn)結(jié)果令人印象深刻。在標(biāo)準(zhǔn)測(cè)試中,UltraMemV2達(dá)到了與8專家MoE模型相當(dāng)?shù)男阅芩?,但在需要大量記憶的任?wù)上表現(xiàn)更加出色。具體來(lái)說(shuō),在長(zhǎng)文本記憶任務(wù)上提升了1.6個(gè)百分點(diǎn),多輪對(duì)話記憶提升了6.2個(gè)百分點(diǎn),情境學(xué)習(xí)能力更是提升了7.9個(gè)百分點(diǎn)。這些數(shù)字背后反映的是系統(tǒng)在處理復(fù)雜、需要長(zhǎng)期記憶的任務(wù)時(shí)的顯著優(yōu)勢(shì)。
更重要的是,研究團(tuán)隊(duì)成功驗(yàn)證了這種技術(shù)在大規(guī)模場(chǎng)景下的可行性,他們構(gòu)建的模型擁有高達(dá)1200億個(gè)參數(shù),其中25億個(gè)參數(shù)在實(shí)際使用中被激活。這項(xiàng)工作還揭示了一個(gè)重要發(fā)現(xiàn):激活密度(即每次使用多少參數(shù))對(duì)性能的影響比總的稀疏參數(shù)數(shù)量更為關(guān)鍵,這為未來(lái)的系統(tǒng)設(shè)計(jì)提供了重要指導(dǎo)原則。
從技術(shù)發(fā)展的角度來(lái)看,UltraMemV2的成功意味著記憶層架構(gòu)終于可以與最先進(jìn)的MoE模型平起平坐,為高效稀疏計(jì)算提供了一個(gè)有力的替代方案。這不僅解決了一個(gè)長(zhǎng)期存在的技術(shù)難題,更為構(gòu)建更大規(guī)模、更高效的AI系統(tǒng)開(kāi)辟了新的道路。
然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性。UltraMemV2在訓(xùn)練初期表現(xiàn)不如MoE模型,需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能。此外,要達(dá)到最優(yōu)效果,系統(tǒng)需要在每個(gè)模型塊中都配置記憶層,這增加了架構(gòu)的復(fù)雜性。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。它為AI領(lǐng)域提供了一種全新的思路,證明了通過(guò)精心設(shè)計(jì)的記憶機(jī)制可以實(shí)現(xiàn)高效且強(qiáng)大的智能系統(tǒng)。對(duì)于普通用戶而言,這意味著未來(lái)的AI助手可能會(huì)變得更加智能和高效,在處理需要長(zhǎng)期記憶的復(fù)雜任務(wù)時(shí)表現(xiàn)更佳,同時(shí)運(yùn)行成本更低。
展望未來(lái),UltraMemV2技術(shù)有望在需要處理大量歷史信息的應(yīng)用場(chǎng)景中發(fā)揮重要作用,比如長(zhǎng)文檔分析、多輪對(duì)話系統(tǒng)、個(gè)性化推薦等。隨著技術(shù)的進(jìn)一步成熟和優(yōu)化,我們可能會(huì)看到更多基于這種記憶層架構(gòu)的AI產(chǎn)品出現(xiàn)在日常生活中,為人們提供更智能、更高效的服務(wù)。
Q&A
Q1:UltraMemV2相比傳統(tǒng)的MoE模型有什么優(yōu)勢(shì)?
A:UltraMemV2的主要優(yōu)勢(shì)在于顯著降低了內(nèi)存訪問(wèn)成本,同時(shí)在性能上達(dá)到了與8專家MoE模型相當(dāng)?shù)乃健L貏e是在需要長(zhǎng)期記憶的任務(wù)上表現(xiàn)更加出色,比如長(zhǎng)文本記憶提升1.6個(gè)百分點(diǎn),多輪對(duì)話記憶提升6.2個(gè)百分點(diǎn),情境學(xué)習(xí)能力提升7.9個(gè)百分點(diǎn)。這就像找到了一種既聰明又節(jié)能的計(jì)算方式。
Q2:UltraMemV2技術(shù)的核心改進(jìn)包括哪些方面?
A:研究團(tuán)隊(duì)主要做了五個(gè)關(guān)鍵改進(jìn):將記憶層集成到每個(gè)變換器塊中、簡(jiǎn)化數(shù)值擴(kuò)展過(guò)程使用單一線性投影、采用基于前饋網(wǎng)絡(luò)的PEER技術(shù)處理數(shù)值、優(yōu)化參數(shù)初始化方法防止訓(xùn)練發(fā)散、重新平衡記憶層與前饋網(wǎng)絡(luò)的計(jì)算比例。這些改進(jìn)協(xié)同工作,讓系統(tǒng)性能大幅提升。
Q3:UltraMemV2有什么局限性嗎?
A:是的,UltraMemV2也有一些局限性。它在訓(xùn)練初期表現(xiàn)不如MoE模型,需要更多高質(zhì)量數(shù)據(jù)才能發(fā)揮最佳性能,并且要達(dá)到最優(yōu)效果需要在每個(gè)模型塊中都配置記憶層。不過(guò)研究團(tuán)隊(duì)認(rèn)為這些問(wèn)題可以通過(guò)進(jìn)一步優(yōu)化得到改善。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。