這項(xiàng)由香港理工大學(xué)的周雨宏、劉澤豪和多位來(lái)自TikTok、加州大學(xué)圣克魯茲分校、新加坡國(guó)立大學(xué)以及中科院自動(dòng)化所的研究者共同完成的突破性研究發(fā)表于2025年7月2日的arXiv預(yù)印本(論文編號(hào):arXiv:2507.01004v2),感興趣的讀者可以通過該編號(hào)在arXiv網(wǎng)站上找到完整論文。
當(dāng)我們?cè)陔娔X上同時(shí)打開十幾個(gè)網(wǎng)頁(yè)瀏覽長(zhǎng)篇文章時(shí),電腦會(huì)變得卡頓不堪。現(xiàn)在把這個(gè)問題放大一千倍——想象一下讓人工智能同時(shí)處理一百萬(wàn)個(gè)單詞的超長(zhǎng)文檔,這就是當(dāng)前大語(yǔ)言模型面臨的巨大挑戰(zhàn)。就像一個(gè)圖書館管理員需要同時(shí)查閱幾千本厚重的百科全書一樣,傳統(tǒng)的處理方式會(huì)讓整個(gè)系統(tǒng)陷入癱瘓。
研究團(tuán)隊(duì)面臨的核心問題是:如何讓多臺(tái)計(jì)算機(jī)協(xié)同工作來(lái)處理這些超長(zhǎng)文本,而不會(huì)因?yàn)橄嗷ブg的頻繁溝通而拖慢整體速度?這就好比一個(gè)大型餐廳的廚房,如果每個(gè)廚師都需要不斷向其他廚師詢問食材和進(jìn)度,整個(gè)廚房的效率會(huì)急劇下降。而他們提出的ZeCO技術(shù),就像是為這個(gè)廚房設(shè)計(jì)了一套完美的協(xié)調(diào)機(jī)制。
在人工智能的世界里,處理文本的復(fù)雜度會(huì)隨著文本長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。從GPT-3.5的4000詞處理能力到Gemini 1.5 Pro的100萬(wàn)詞處理能力,這種跨越式提升的背后隱藏著巨大的技術(shù)挑戰(zhàn)。傳統(tǒng)的注意力機(jī)制就像是要求每個(gè)人都要記住房間里所有其他人說(shuō)過的每一句話,當(dāng)房間里的人數(shù)從幾十個(gè)增加到幾萬(wàn)個(gè)時(shí),這種要求變得不可能實(shí)現(xiàn)。
線性注意力技術(shù)的出現(xiàn)為這個(gè)問題提供了新的解決思路。它就像是給每個(gè)人配備了一個(gè)智能助手,這個(gè)助手只需要記住最重要的信息摘要,而不是每一個(gè)細(xì)節(jié)。這樣,無(wú)論房間里有多少人,每個(gè)人的記憶負(fù)擔(dān)都保持在可控范圍內(nèi)。然而,即使有了這種革命性的技術(shù),當(dāng)需要多臺(tái)計(jì)算機(jī)協(xié)同工作時(shí),它們之間的通信協(xié)調(diào)仍然成為了新的瓶頸。
**一、傳統(tǒng)方法的困境:當(dāng)通信成為速度殺手**
在計(jì)算機(jī)科學(xué)中,讓多臺(tái)機(jī)器協(xié)同處理同一個(gè)任務(wù)被稱為"序列并行",這就像是讓一群工人共同建造一座大橋。在處理超長(zhǎng)文本時(shí),每臺(tái)計(jì)算機(jī)負(fù)責(zé)文本的一個(gè)片段,但它們需要不斷交換信息來(lái)保持整體的一致性。
目前主流的兩種方法都存在致命缺陷。第一種方法叫做LASP1,它要求所有計(jì)算機(jī)嚴(yán)格按照順序工作,就像工廠流水線一樣,前一臺(tái)機(jī)器必須完成工作后,后一臺(tái)機(jī)器才能開始。這種方法雖然通信量最小,但總的工作時(shí)間會(huì)隨著機(jī)器數(shù)量的增加而線性增長(zhǎng),完全違背了并行計(jì)算的初衷。
第二種方法LASP2試圖解決這個(gè)問題,它允許所有機(jī)器同時(shí)工作,但代價(jià)是每臺(tái)機(jī)器都需要收集其他所有機(jī)器的工作狀態(tài)信息。這就像是一個(gè)會(huì)議室里的每個(gè)人都需要拿到其他所有人的發(fā)言稿副本。當(dāng)機(jī)器數(shù)量增加時(shí),這種信息交換的負(fù)擔(dān)呈爆炸式增長(zhǎng),通信開銷很快就超過了計(jì)算本身的開銷。
研究團(tuán)隊(duì)發(fā)現(xiàn),在使用256臺(tái)計(jì)算機(jī)處理800萬(wàn)個(gè)單詞的文本時(shí),LASP2方法的通信時(shí)間比實(shí)際計(jì)算時(shí)間長(zhǎng)了好幾倍。這就好比一群廚師花在相互溝通上的時(shí)間比實(shí)際做菜的時(shí)間還要多,完全顛倒了主次關(guān)系。
**二、ZeCO的創(chuàng)新突破:All-Scan通信的巧妙設(shè)計(jì)**
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了ZeCO(Zero Communication Overhead,零通信開銷)技術(shù)。這個(gè)名字聽起來(lái)像是在吹牛,但實(shí)際上它確實(shí)接近了理論上的完美狀態(tài)。ZeCO的核心創(chuàng)新在于一個(gè)叫做"All-Scan"的全新通信機(jī)制。
All-Scan的工作原理可以用接力賽來(lái)類比。在傳統(tǒng)的接力賽中,每個(gè)跑者必須等前一個(gè)跑者跑完全程才能接棒。而All-Scan就像是把接力棒分成幾個(gè)小段,讓跑者們可以邊跑邊傳遞這些小段,這樣整個(gè)團(tuán)隊(duì)可以幾乎同時(shí)在賽道上奔跑。
具體來(lái)說(shuō),當(dāng)一臺(tái)計(jì)算機(jī)需要向下一臺(tái)傳遞狀態(tài)信息時(shí),它不是等到完全處理完畢再一次性發(fā)送,而是將信息分割成多個(gè)小塊,一邊處理一邊流水線式地發(fā)送。接收方收到第一個(gè)小塊后立即開始處理,同時(shí)接收后續(xù)的小塊。這種設(shè)計(jì)讓通信和計(jì)算可以高度重疊,大大減少了等待時(shí)間。
更巧妙的是,ZeCO還重新設(shè)計(jì)了計(jì)算流程,讓那些不依賴通信結(jié)果的計(jì)算任務(wù)與通信過程同時(shí)進(jìn)行。這就像是在等待快遞的同時(shí)繼續(xù)做其他家務(wù),而不是呆呆地站在門口等快遞員。通過這種精心的任務(wù)調(diào)度,通信時(shí)間幾乎完全被其他計(jì)算任務(wù)掩蓋了。
**三、理論證明:達(dá)到最優(yōu)的數(shù)學(xué)保證**
研究團(tuán)隊(duì)不僅提出了這個(gè)創(chuàng)新方案,還從數(shù)學(xué)理論上證明了ZeCO達(dá)到了理論最優(yōu)狀態(tài)。他們定義了序列并行的兩個(gè)基本要求:零通信開銷和最優(yōu)額外成本。
零通信開銷意味著每臺(tái)計(jì)算機(jī)只傳輸和接收絕對(duì)必要的信息,沒有任何冗余。在線性注意力的場(chǎng)景下,這個(gè)必要信息就是一個(gè)固定大小的狀態(tài)矩陣,不管有多少臺(tái)計(jì)算機(jī)參與工作,每臺(tái)機(jī)器的通信量都保持恒定。相比之下,LASP2方法的通信量會(huì)隨著機(jī)器數(shù)量線性增長(zhǎng),當(dāng)使用256臺(tái)機(jī)器時(shí),通信量是ZeCO的256倍。
最優(yōu)額外成本則要求通信盡可能與其他計(jì)算重疊,同時(shí)序列并行引入的額外計(jì)算開銷降到最低。研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)分析證明,ZeCO在這兩個(gè)方面都達(dá)到了理論極限。他們的分析表明,ZeCO引入的額外計(jì)算開銷不到傳統(tǒng)方法的1%,幾乎可以忽略不計(jì)。
這種理論保證非常重要,因?yàn)樗馕吨S著計(jì)算機(jī)數(shù)量的增加,ZeCO的性能不會(huì)出現(xiàn)意外的下降。就像一個(gè)經(jīng)過嚴(yán)格工程計(jì)算的橋梁,你可以確信它在設(shè)計(jì)載重范圍內(nèi)不會(huì)出現(xiàn)結(jié)構(gòu)問題。
**四、實(shí)驗(yàn)驗(yàn)證:令人矚目的性能提升**
理論分析固然重要,但實(shí)際性能表現(xiàn)才是檢驗(yàn)技術(shù)價(jià)值的最終標(biāo)準(zhǔn)。研究團(tuán)隊(duì)在配備256臺(tái)H100 GPU的大型計(jì)算集群上進(jìn)行了全面的性能測(cè)試,結(jié)果令人印象深刻。
在通信性能方面,ZeCO的All-Scan機(jī)制展現(xiàn)出了壓倒性的優(yōu)勢(shì)。在256臺(tái)機(jī)器的配置下,處理800萬(wàn)個(gè)單詞的文本時(shí),ZeCO的通信時(shí)間僅為2.2毫秒,而當(dāng)前最先進(jìn)的LASP2方法需要8.5毫秒,ZeCO快了近4倍。更重要的是,隨著機(jī)器數(shù)量的增加,這種優(yōu)勢(shì)還在繼續(xù)擴(kuò)大。
在實(shí)際應(yīng)用性能方面,ZeCO展現(xiàn)出了接近理想情況的擴(kuò)展性。當(dāng)使用128臺(tái)機(jī)器處理400萬(wàn)個(gè)單詞的文本時(shí),ZeCO只比理論最優(yōu)狀態(tài)慢了3毫秒,這個(gè)差距小到幾乎可以忽略。而LASP1和LASP2方法的性能隨著機(jī)器數(shù)量增加而急劇下降,完全無(wú)法發(fā)揮并行計(jì)算的優(yōu)勢(shì)。
最令人印象深刻的是吞吐量測(cè)試結(jié)果。吞吐量是衡量系統(tǒng)實(shí)際工作效率的關(guān)鍵指標(biāo),就像衡量一個(gè)工廠每小時(shí)能生產(chǎn)多少產(chǎn)品一樣。ZeCO在256臺(tái)機(jī)器上的處理吞吐量達(dá)到了每GPU每秒40900個(gè)單詞,比LASP2高出60%以上。更重要的是,ZeCO的吞吐量隨著機(jī)器數(shù)量幾乎呈完美的線性增長(zhǎng),這意味著增加一倍的機(jī)器就能獲得接近一倍的性能提升。
研究團(tuán)隊(duì)還測(cè)試了一個(gè)極端場(chǎng)景:使用64臺(tái)機(jī)器處理100萬(wàn)個(gè)單詞的文本,總處理時(shí)間與單臺(tái)機(jī)器處理1.6萬(wàn)個(gè)單詞的時(shí)間相當(dāng)。這個(gè)結(jié)果生動(dòng)地說(shuō)明了ZeCO的擴(kuò)展能力——它讓我們能夠以處理短文檔的速度來(lái)處理超長(zhǎng)文檔。
**五、技術(shù)細(xì)節(jié):算法設(shè)計(jì)的精妙之處**
ZeCO的成功不是偶然的,它建立在對(duì)線性注意力機(jī)制深刻理解的基礎(chǔ)上。線性注意力的核心思想是將傳統(tǒng)注意力的二次復(fù)雜度降低為線性復(fù)雜度,這通過維護(hù)一個(gè)固定大小的隱藏狀態(tài)來(lái)實(shí)現(xiàn)。
在ZeCO的設(shè)計(jì)中,每臺(tái)計(jì)算機(jī)首先獨(dú)立計(jì)算自己負(fù)責(zé)的文本片段的局部狀態(tài)。這個(gè)過程就像每個(gè)廚師先準(zhǔn)備自己負(fù)責(zé)的食材一樣,不需要與其他人協(xié)調(diào)。然后,通過All-Scan機(jī)制,每臺(tái)計(jì)算機(jī)獲得前面所有計(jì)算機(jī)的累積狀態(tài),并用這個(gè)信息來(lái)校正自己的局部結(jié)果,得到全局一致的最終結(jié)果。
All-Scan的實(shí)現(xiàn)采用了流水線技術(shù)。具體來(lái)說(shuō),狀態(tài)信息被分割成K個(gè)小塊,這些小塊依次通過計(jì)算機(jī)鏈進(jìn)行傳遞和處理。當(dāng)?shù)谝粋€(gè)小塊在計(jì)算機(jī)鏈中傳遞時(shí),后續(xù)的小塊也開始傳遞,形成了一個(gè)連續(xù)的流水線。這種設(shè)計(jì)的巧妙之處在于,通信延遲被分?jǐn)偟秸麄€(gè)處理過程中,而不是集中在某個(gè)時(shí)間點(diǎn)。
為了進(jìn)一步優(yōu)化性能,ZeCO還重新組織了計(jì)算流程。那些依賴全局狀態(tài)的計(jì)算與All-Scan通信并行執(zhí)行,而那些可以獨(dú)立完成的計(jì)算(如對(duì)角線注意力計(jì)算)則與通信完全重疊。這種精心的任務(wù)調(diào)度確保了計(jì)算資源的最大化利用。
**六、實(shí)際應(yīng)用前景:開啟超長(zhǎng)文本處理新時(shí)代**
ZeCO技術(shù)的突破為人工智能應(yīng)用開辟了新的可能性。在文檔分析領(lǐng)域,律師事務(wù)所可以讓AI同時(shí)分析幾百頁(yè)的法律文件,快速提取關(guān)鍵信息和潛在風(fēng)險(xiǎn)點(diǎn)。在學(xué)術(shù)研究中,研究人員可以讓AI閱讀和分析整個(gè)領(lǐng)域的論文集合,發(fā)現(xiàn)隱藏的研究趨勢(shì)和知識(shí)關(guān)聯(lián)。
在多媒體理解方面,ZeCO使得AI能夠處理超長(zhǎng)視頻內(nèi)容,理解復(fù)雜的故事情節(jié)和人物關(guān)系。電影制作公司可以用它來(lái)分析觀眾反饋,優(yōu)化劇本結(jié)構(gòu)。新聞機(jī)構(gòu)可以用它來(lái)實(shí)時(shí)監(jiān)控和分析大量新聞源,快速識(shí)別重要事件和趨勢(shì)。
對(duì)于檢索增強(qiáng)生成應(yīng)用,ZeCO的優(yōu)勢(shì)更加明顯。當(dāng)用戶詢問復(fù)雜問題時(shí),系統(tǒng)可以同時(shí)檢索和處理大量相關(guān)文檔,生成更加準(zhǔn)確和全面的回答。這對(duì)于構(gòu)建真正智能的知識(shí)助手具有重要意義。
更重要的是,ZeCO為從頭開始訓(xùn)練超長(zhǎng)上下文模型提供了可能。傳統(tǒng)方法由于計(jì)算和通信限制,通常只能在預(yù)訓(xùn)練后期進(jìn)行長(zhǎng)上下文適應(yīng)。而ZeCO的高效性使得從一開始就進(jìn)行超長(zhǎng)上下文訓(xùn)練變得經(jīng)濟(jì)可行,這可能會(huì)產(chǎn)生質(zhì)量更高的長(zhǎng)上下文模型。
**七、技術(shù)影響與未來(lái)發(fā)展**
ZeCO的意義不僅僅在于解決了一個(gè)具體的技術(shù)問題,更在于它為分布式AI計(jì)算提供了新的設(shè)計(jì)思路。All-Scan通信機(jī)制作為一個(gè)基礎(chǔ)技術(shù)組件,可能會(huì)被應(yīng)用到其他需要高效分布式計(jì)算的AI任務(wù)中。
在系統(tǒng)層面,ZeCO展示了通信-計(jì)算協(xié)同優(yōu)化的重要性。傳統(tǒng)的分布式系統(tǒng)設(shè)計(jì)往往將通信和計(jì)算視為獨(dú)立的模塊,而ZeCO的成功表明,深度集成這兩個(gè)組件可以實(shí)現(xiàn)顯著的性能提升。這種設(shè)計(jì)哲學(xué)可能會(huì)影響未來(lái)AI系統(tǒng)的架構(gòu)設(shè)計(jì)。
研究團(tuán)隊(duì)也指出了未來(lái)的發(fā)展方向。首先,他們計(jì)劃進(jìn)一步優(yōu)化All-Scan的算法實(shí)現(xiàn),探索樹狀結(jié)構(gòu)等更復(fù)雜的通信拓?fù)洹F浯危麄兿M麑⑿蛄胁⑿屑夹g(shù)擴(kuò)展到更廣泛的線性注意力變體,包括矩陣變換結(jié)構(gòu)等。最后,他們計(jì)劃研究大規(guī)模模型的高效并行拓?fù)浣Y(jié)構(gòu)。
從更廣的視角來(lái)看,ZeCO代表了AI計(jì)算效率優(yōu)化的一個(gè)重要里程碑。隨著AI模型規(guī)模和應(yīng)用復(fù)雜度的不斷增長(zhǎng),這類系統(tǒng)級(jí)優(yōu)化技術(shù)將變得越來(lái)越重要。它們不僅能夠降低AI應(yīng)用的成本,還能夠使更多創(chuàng)新應(yīng)用成為可能。
說(shuō)到底,ZeCO解決的是一個(gè)看似技術(shù)性但實(shí)際上非常基礎(chǔ)的問題:如何讓機(jī)器更高效地協(xié)同工作。這個(gè)問題的解決對(duì)于AI技術(shù)的普及和應(yīng)用具有深遠(yuǎn)影響。當(dāng)處理超長(zhǎng)文本變得像處理短文本一樣簡(jiǎn)單時(shí),我們就能夠構(gòu)建更加智能、更加有用的AI系統(tǒng)。
對(duì)于普通用戶而言,ZeCO技術(shù)的成功意味著未來(lái)的AI助手將能夠處理更復(fù)雜的任務(wù),理解更豐富的上下文,提供更準(zhǔn)確的服務(wù)。無(wú)論是幫助學(xué)生理解復(fù)雜的學(xué)術(shù)材料,還是協(xié)助專業(yè)人士分析大量的技術(shù)文檔,這些改進(jìn)都將直接體現(xiàn)在用戶體驗(yàn)的提升上。
研究團(tuán)隊(duì)的這項(xiàng)工作展現(xiàn)了學(xué)術(shù)界與工業(yè)界合作的力量。來(lái)自大學(xué)的理論深度與來(lái)自科技公司的實(shí)踐經(jīng)驗(yàn)相結(jié)合,產(chǎn)生了既有理論價(jià)值又有實(shí)際應(yīng)用前景的技術(shù)突破。這種合作模式可能會(huì)成為未來(lái)AI技術(shù)發(fā)展的重要推動(dòng)力。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2507.01004v2查閱完整論文,其中包含了詳細(xì)的算法描述、理論證明和實(shí)驗(yàn)數(shù)據(jù)。這項(xiàng)研究為AI系統(tǒng)優(yōu)化提供了寶貴的經(jīng)驗(yàn)和啟發(fā),值得技術(shù)從業(yè)者深入學(xué)習(xí)和借鑒。
Q&A
Q1:ZeCO技術(shù)是什么?它能解決什么問題? A:ZeCO是一種讓多臺(tái)計(jì)算機(jī)高效協(xié)同處理超長(zhǎng)文本的技術(shù)。它解決了傳統(tǒng)方法中機(jī)器間通信效率低下的問題,讓處理百萬(wàn)字級(jí)別的長(zhǎng)文檔變得像處理短文檔一樣快速。核心創(chuàng)新是All-Scan通信機(jī)制,能夠?qū)⑼ㄐ砰_銷降到接近零。
Q2:ZeCO比現(xiàn)有技術(shù)快多少?有什么實(shí)際應(yīng)用? A:在256臺(tái)機(jī)器上處理800萬(wàn)字文本時(shí),ZeCO比當(dāng)前最先進(jìn)方法快60%以上,通信時(shí)間快4倍。實(shí)際應(yīng)用包括法律文檔分析、學(xué)術(shù)研究、長(zhǎng)視頻理解、智能問答系統(tǒng)等,特別適合需要理解大量上下文信息的AI任務(wù)。
Q3:普通用戶什么時(shí)候能用上ZeCO技術(shù)? A:ZeCO目前還是研究階段的技術(shù),主要面向AI模型訓(xùn)練和部署。但隨著技術(shù)成熟,未來(lái)的AI助手、搜索引擎、文檔分析工具等都可能集成這種技術(shù),讓用戶享受到更快速、更智能的長(zhǎng)文本處理服務(wù)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。