這項由日本奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的李懷陽、孫鴻宇和渡邊太郎教授團(tuán)隊領(lǐng)導(dǎo)的研究發(fā)表于2025年6月,論文題為《SeqPE: Transformer with Sequential Position Encoding》。有興趣深入了解的讀者可以通過arXiv:2506.13277v1訪問完整論文。
在人工智能的世界里,有一個令人頭疼的問題困擾了研究者們很久。就像我們?nèi)祟愒陂喿x一本厚厚的小說時需要記住每個章節(jié)的先后順序一樣,AI模型在處理文本、圖像或其他信息時,也需要知道每個信息塊的位置關(guān)系。這種位置信息對AI來說至關(guān)重要,就好比一個廚師在制作復(fù)雜菜肴時必須嚴(yán)格按照步驟順序操作,否則整道菜就會失敗。
當(dāng)前最流行的AI模型叫做Transformer,它就像一個極其聰明但患有"位置盲癥"的助手。這個助手能夠理解每個單詞或圖像片段的含義,但天生無法分辨它們的先后順序。為了解決這個問題,研究者們想出了各種給信息"編號"的方法,這就是所謂的位置編碼技術(shù)。
然而,現(xiàn)有的位置編碼方法都有一個致命弱點(diǎn):它們就像預(yù)先印好固定頁碼的筆記本,只能處理預(yù)設(shè)長度的內(nèi)容。當(dāng)AI遇到比訓(xùn)練時更長的文本或更大的圖像時,就會像拿著只有100頁的筆記本去記錄150頁內(nèi)容的學(xué)生一樣手足無措。更糟糕的是,當(dāng)需要處理不同類型的數(shù)據(jù)時,這些方法往往需要專家重新設(shè)計,就像每換一種材料就要重新定制工具一樣麻煩。
日本奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的研究團(tuán)隊提出了一個革命性的解決方案,他們稱之為SeqPE(Sequential Position Encoding,序列位置編碼)。這個方案的核心思想非常巧妙:不再使用固定的"頁碼標(biāo)簽",而是教會AI如何像人類一樣"數(shù)數(shù)"。
SeqPE的工作原理就像教會一個孩子認(rèn)識數(shù)字和計數(shù)。當(dāng)AI需要處理位置信息時,SeqPE會將每個位置轉(zhuǎn)換成一個數(shù)字序列。比如,處理一張圖片中第2行第3列的位置時,它會將這個位置表示為"0-2-0-3"這樣的序列,然后使用一個輕量級的"序列解讀器"來理解這個位置的含義。這種方法的妙處在于,就像人類學(xué)會數(shù)數(shù)后可以數(shù)到任意大的數(shù)字一樣,SeqPE也能處理訓(xùn)練時從未見過的長度或大小。
不過,研究團(tuán)隊很快發(fā)現(xiàn)了一個問題。這個"序列解讀器"雖然聰明,但有時會犯一些令人哭笑不得的錯誤。比如,它可能認(rèn)為"100"和"1000"比"100"和"123"更相似,因為前者在字面上看起來更像。這就好比一個只看字面意思的人認(rèn)為"九十"比"一百"更接近"九千",因為它們都有"九"字。
為了解決這個問題,研究團(tuán)隊引入了兩個巧妙的"訓(xùn)練輔助器"。第一個訓(xùn)練輔助器就像一個嚴(yán)格的數(shù)學(xué)老師,它會不斷提醒AI:"位置上越接近的數(shù)字,它們的表示也應(yīng)該越相似。"這個過程使用了一種叫做對比學(xué)習(xí)的技術(shù),就像讓AI做大量的"哪個更接近"的練習(xí)題。
第二個訓(xùn)練輔助器則像一個經(jīng)驗豐富的導(dǎo)師,它會告訴AI:"當(dāng)你遇到訓(xùn)練時沒見過的新位置時,可以參考那些相似的已知位置是怎么處理的。"這種方法被稱為知識蒸餾,就像讓學(xué)生通過學(xué)習(xí)優(yōu)秀范例來提高自己處理新問題的能力。
為了驗證SeqPE的效果,研究團(tuán)隊進(jìn)行了三個不同領(lǐng)域的實驗測試。在語言建模任務(wù)中,他們讓AI學(xué)習(xí)理解和生成文本。SeqPE在處理比訓(xùn)練時更長的文本時表現(xiàn)出色,在Wikitext-103數(shù)據(jù)集上的困惑度(衡量AI理解文本能力的指標(biāo))比其他方法至少好了0.6個點(diǎn)。這就像一個學(xué)生不僅能解答練習(xí)冊上的題目,還能輕松應(yīng)對更復(fù)雜的考試題。
在長文檔問答任務(wù)中,研究團(tuán)隊讓AI閱讀更長的文檔并回答問題。SeqPE展現(xiàn)出了驚人的適應(yīng)性,在困惑度上平均提升了24.2個點(diǎn),在精確匹配度上提升了2.6個點(diǎn)。這相當(dāng)于讓一個原本只能閱讀短篇小說的AI突然能夠理解長篇巨著并準(zhǔn)確回答相關(guān)問題。
最令人印象深刻的是在圖像分類任務(wù)中的表現(xiàn)。研究團(tuán)隊將SeqPE從一維的文本處理擴(kuò)展到二維的圖像處理,幾乎不需要任何額外的設(shè)計修改。在ImageNet-1K數(shù)據(jù)集上,SeqPE比其他方法的準(zhǔn)確率至少高出2.1個百分點(diǎn)。這就像一個原本只能按順序閱讀文字的AI,突然學(xué)會了理解棋盤上棋子的位置關(guān)系。
SeqPE的一個突出優(yōu)勢是其通用性。傳統(tǒng)的位置編碼方法就像專門為特定任務(wù)設(shè)計的工具,當(dāng)任務(wù)類型改變時往往需要重新設(shè)計。而SeqPE更像是一把萬能鑰匙,無論是處理文本、圖像還是其他類型的數(shù)據(jù),都能使用同樣的基本原理,只需要調(diào)整具體的參數(shù)設(shè)置。
在計算效率方面,SeqPE也表現(xiàn)得相當(dāng)出色。雖然它需要一個額外的"序列解讀器",但這個組件非常輕量級,只需要少量的計算資源。而且,由于可以預(yù)先計算常用位置的編碼,SeqPE在實際使用時的速度與傳統(tǒng)方法相當(dāng),甚至在某些情況下更快。
研究團(tuán)隊還進(jìn)行了詳細(xì)的分析實驗,驗證了兩個訓(xùn)練輔助器的必要性。他們發(fā)現(xiàn),如果只使用距離對齊訓(xùn)練器而不使用知識蒸餾訓(xùn)練器,AI在處理新位置時的表現(xiàn)會顯著下降。相反,如果只使用知識蒸餾而不使用距離對齊,AI可能會出現(xiàn)"記憶混亂"的問題,把不同的位置記成同樣的表示。只有兩個訓(xùn)練輔助器配合使用,SeqPE才能發(fā)揮出最佳性能。
從技術(shù)實現(xiàn)的角度看,SeqPE提供了三種不同的整合方式來適應(yīng)不同的AI架構(gòu)。第一種方式類似于在原有信息中添加位置標(biāo)記,第二種方式像是將內(nèi)容信息和位置信息進(jìn)行融合,第三種方式則是將位置信息作為額外的參考信息提供給AI。研究團(tuán)隊會根據(jù)具體任務(wù)的特點(diǎn)選擇最合適的整合方式,確保SeqPE能在各種應(yīng)用場景中發(fā)揮最佳效果。
這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在實際應(yīng)用中,SeqPE的通用性意味著開發(fā)者可以更容易地構(gòu)建能處理多種類型數(shù)據(jù)的AI系統(tǒng)。比如,一個聊天機(jī)器人可以同時理解文本對話和圖片信息,而不需要為每種數(shù)據(jù)類型開發(fā)不同的位置編碼系統(tǒng)。這種統(tǒng)一性大大降低了AI系統(tǒng)開發(fā)的復(fù)雜度和成本。
對于普通用戶而言,SeqPE的突破意味著未來的AI應(yīng)用將能處理更長的文檔、更大的圖片,以及更復(fù)雜的多媒體內(nèi)容。無論是自動文檔摘要、智能圖片識別,還是復(fù)雜的多輪對話,AI都將表現(xiàn)得更加穩(wěn)定和可靠。
研究團(tuán)隊也誠實地指出了SeqPE目前的一些限制。雖然它在多個任務(wù)中都表現(xiàn)出色,但在某些特定場景下,傳統(tǒng)的專門設(shè)計方法可能仍然具有優(yōu)勢。此外,SeqPE的訓(xùn)練過程相對復(fù)雜,需要仔細(xì)調(diào)整兩個訓(xùn)練輔助器的參數(shù)平衡,這對研究者的技術(shù)水平提出了一定要求。
不過,這些限制并不能掩蓋SeqPE的革命性意義。它提供了一個統(tǒng)一的框架來處理位置信息,為AI系統(tǒng)的發(fā)展開辟了新的可能性。特別是在大型語言模型和多模態(tài)AI系統(tǒng)快速發(fā)展的今天,SeqPE這樣的通用解決方案顯得尤為珍貴。
說到底,SeqPE的出現(xiàn)就像是給AI世界帶來了一個通用的"計數(shù)系統(tǒng)"。就像人類發(fā)明阿拉伯?dāng)?shù)字系統(tǒng)后能夠處理任意大小的數(shù)字一樣,SeqPE讓AI能夠理解任意長度和維度的位置關(guān)系。這種突破不僅解決了當(dāng)前AI系統(tǒng)面臨的實際問題,更為未來更強(qiáng)大、更通用的AI系統(tǒng)奠定了基礎(chǔ)。
歸根結(jié)底,這項研究代表了AI技術(shù)發(fā)展中的一個重要里程碑。它證明了通過巧妙的設(shè)計和嚴(yán)謹(jǐn)?shù)目茖W(xué)方法,我們可以解決看似復(fù)雜的技術(shù)難題,讓AI系統(tǒng)變得更加智能和實用。對于期待AI技術(shù)進(jìn)步的普通人來說,SeqPE的成功預(yù)示著未來將有更多令人驚喜的AI應(yīng)用問世。有興趣了解更多技術(shù)細(xì)節(jié)的讀者,建議查閱完整的研究論文,深入理解這一創(chuàng)新方法的精妙之處。
Q&A Q1:SeqPE是什么?它解決了什么問題? A:SeqPE是一種新型的位置編碼方法,就像教會AI"數(shù)數(shù)"一樣。它解決了傳統(tǒng)AI模型只能處理固定長度內(nèi)容的限制,讓AI能夠理解任意長度的文本或任意大小的圖像中各部分的位置關(guān)系。
Q2:SeqPE會不會比傳統(tǒng)方法更復(fù)雜難用? A:雖然SeqPE的訓(xùn)練過程相對復(fù)雜,需要兩個輔助訓(xùn)練器,但一旦訓(xùn)練完成,它的使用和傳統(tǒng)方法一樣簡單,甚至更加通用。最重要的是,它可以處理訓(xùn)練時沒見過的更長內(nèi)容,這是傳統(tǒng)方法做不到的。
Q3:普通人什么時候能體驗到SeqPE帶來的改進(jìn)? A:由于SeqPE是底層技術(shù)突破,普通用戶可能不會直接感知到它的存在,但會體驗到AI應(yīng)用的改進(jìn),比如聊天機(jī)器人能處理更長對話、圖像識別能處理更大圖片等。隨著技術(shù)普及,這些改進(jìn)將逐步出現(xiàn)在各種AI產(chǎn)品中。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。