在2025年5月,高通AI研究團隊的M.Reza Ebrahimi和Roland Memisevic發(fā)布了一篇深入探討循環(huán)神經網絡(RNN)結構的研究論文。這篇發(fā)表在arXiv預印本平臺(arXiv:2505.21749v1)上的論文,重新審視了神經網絡中一個被長期忽視的觀點:隱藏單元不僅僅是被動的記憶存儲器,它們還能作為網絡計算過程中的積極參與者。
一、研究背景:隱藏單元的雙重身份
當我們談論循環(huán)神經網絡時,大多數人會將其隱藏單元視為"記憶存儲器",就像電腦中的RAM一樣,主要功能是記住過去看到的信息。這種觀點導致了大量研究集中在改進這些"記憶單元"的信息保留能力上,比如通過各種"門控機制"來控制信息的流入流出。
然而,高通研究團隊提出了一個不同的視角:隱藏單元不應該僅僅被視為被動的記憶倉庫,而應該被看作是網絡進行實際計算的積極參與者。想象一下,這就像是將計算機中的RAM轉變?yōu)橐粋€小型處理器,不僅存儲數據,還能對數據進行處理和變換。
這種觀點并不完全是新發(fā)明,而是對一種被稱為"雙線性操作"(bi-linear operations)的舊概念的重新審視。所謂雙線性操作,指的是隱藏單元與輸入嵌入之間的乘法交互作用。簡單來說,就是讓隱藏狀態(tài)的更新不僅受到當前輸入的影響,還受到前一時刻隱藏狀態(tài)的影響,而且這種影響是相乘的關系,而非簡單的相加。
二、研究的核心:狀態(tài)跟蹤任務與雙線性轉換
為什么研究團隊如此關注隱藏單元的這種雙線性更新機制呢?答案在于一類特殊的問題:狀態(tài)跟蹤任務。
想象你正在玩一個電子游戲,游戲中的角色會根據你的輸入(比如按下向左、向右、跳躍等按鈕)改變自己的狀態(tài)。游戲角色的下一個狀態(tài)不僅取決于你當前的輸入,還取決于它目前所處的狀態(tài)。例如,如果角色正在空中,那么按"下蹲"鍵可能沒有效果;但如果角色在地面上,同樣的按鍵卻會讓角色蹲下。這就是一個典型的狀態(tài)跟蹤任務。
在形式化的語言中,狀態(tài)跟蹤可以被定義為正確表示一個狀態(tài)機在響應給定輸入序列時所經歷的任意長度的狀態(tài)序列。這等同于在喬姆斯基形式語言層級結構中對有限自動機(FA)或正則語言的建模。
雖然狀態(tài)跟蹤看起來是神經網絡應該能輕松學習的簡單任務,但令人驚訝的是,許多模型在從數據中學習這類任務時表現不佳。這包括流行的Transformer模型,它們無法在比訓練數據更長的序列上執(zhí)行狀態(tài)跟蹤,即使是經過大規(guī)模預訓練的基于Transformer的語言模型也是如此。
高通研究團隊表明,雙線性狀態(tài)轉換為表示狀態(tài)跟蹤任務中隱藏狀態(tài)的演變提供了一種自然的歸納偏置。這種歸納偏置使得模型能夠以一種更自然的方式學習狀態(tài)轉換,從而在處理狀態(tài)跟蹤任務時表現出色。
三、雙線性RNN的數學原理與層級結構
那么,什么是雙線性狀態(tài)轉換呢?讓我們用一個簡單的例子來解釋:
想象你正在學習彈鋼琴。每個音符(輸入)對你的彈奏狀態(tài)(隱藏狀態(tài))的影響不僅取決于音符本身,還取決于你當前的彈奏狀態(tài)。比如,如果你正在彈奏一個和弦,那么下一個音符可能需要你改變手指的位置;而如果你正在彈奏單音,下一個音符的影響可能完全不同。這種"輸入"和"當前狀態(tài)"之間的相互作用就是雙線性關系的一個比喻。
在數學上,雙線性RNN的隱藏狀態(tài)更新可以表示為:
h_t_i = (h_{t-1})^T W_i x_t = ∑_{jk} W_{ijk} x_t_k h_{t-1}_j
這里,h_t_i是時間t時隱藏狀態(tài)向量的第i個元素,W_{ijk}是一個三維參數張量的元素,x_t是時間t的輸入向量。這個公式本質上是說,當前時刻的隱藏狀態(tài)是前一時刻隱藏狀態(tài)與當前輸入的乘法交互作用。
研究團隊發(fā)現,雙線性狀態(tài)更新形成了一個自然的層級結構,對應于日益復雜的狀態(tài)跟蹤任務:
1. 最簡單的形式是實數對角線雙線性RNN,它可以學習奇偶校驗等簡單任務。 2. 復數對角線雙線性RNN可以學習模塊化加法等阿貝爾群結構任務。 3. 因子化/塊對角線雙線性RNN可以處理更復雜的任務。 4. 完全無約束的雙線性RNN可以模擬任意狀態(tài)機。
有趣的是,目前流行的線性循環(huán)網絡,如Mamba,位于這個層級結構的最低復雜度中心,因此它們的狀態(tài)跟蹤能力是有限的。
四、研究發(fā)現:雙線性RNN的驚人能力
研究團隊通過理論分析和實驗證明了幾個關鍵發(fā)現:
首先,研究表明,對于隱藏狀態(tài)來說,成為前一時刻隱藏狀態(tài)的純線性函數(而非仿射函數)總是足夠的,在某些情況下甚至是必要的。這意味著,移除任何加性項(如偏置項)使隱藏狀態(tài)具有尺度不變性,這反過來允許在訓練和/或推理過程中對隱藏狀態(tài)進行歸一化,而不會犧牲線性遞歸的特性。
一個特別有趣的發(fā)現是,具有隨機凍結權重和訓練線性讀出層的純線性(非仿射)RNN可以從僅僅兩個訓練樣本中學習奇偶校驗任務,并達到完美的準確率。這就像一個初學者鋼琴家只需要聽兩個例子就能完美地彈奏一首復雜的曲子!
此外,研究團隊還發(fā)現,具有對角線轉換矩陣的線性RNN是一種特殊情況,僅限于學習具有交換結構的狀態(tài)跟蹤任務。即使對于復值對角線轉換矩陣也是如此。因此,具有2×2塊對角線轉換矩陣的線性RNN無法學習一般狀態(tài)機(這是一個否定性結果)。
五、實驗驗證:雙線性模型在復雜任務中的表現
為了驗證理論分析,研究團隊在三種狀態(tài)跟蹤任務上測試了各種模型:模塊化加法、隨機狀態(tài)機和模塊化算術。
在模塊化加法任務中,模型處理一系列隨機整數,并預測它們在模m下的和。對于隨機狀態(tài)機任務,模型必須模擬一個隨機生成的有限狀態(tài)機,其中輸入字母表Σ和狀態(tài)集Q都與Zm相同。在模塊化算術任務中,模型需要處理交替出現的整數和算術運算符(如+、×、-),并計算這些操作依次應用的結果。
實驗結果令人印象深刻:雙線性模型在所有任務上的表現普遍最佳。隨著塊大小增加,雙線性塊對角線變體的性能也有所提高。值得注意的是,實數對角線模型(塊大小為1的雙線性塊對角線模型)只能學習奇偶校驗(即m=2的模塊化加法);但將塊大小增加到2就能學習更大m值的模塊化加法。
非線性循環(huán)模型,如LSTM和簡單RNN,在這些狀態(tài)跟蹤任務上也表現良好。研究團隊推測,隱藏狀態(tài)和輸入之間的乘法交互可能來自于門控機制和非線性激活函數。
而Mamba模型雖然可以學習小狀態(tài)大小m的任務,但很大程度上無法推廣到更長的序列。Transformer模型在長度泛化方面的失敗也是文獻中廣為人知的觀察結果。
六、數據效率與乘法vs加法交互的影響
關于雙線性模型的一個重要問題是數據效率。由于參數數量隨輸入嵌入維度和隱藏維度的乘積增長,它們的參數數量可能非常大。
為了了解雙線性模型的數據效率,研究團隊在固定訓練集大小的情況下訓練和評估了各種模型。結果表明,盡管參數數量龐大,但這些模型的數據效率并不比LSTM差。這一點即使對于完全雙線性模型也是如此。
另一個有趣的實驗是關于乘法與加法交互的影響。研究團隊發(fā)現,對于完全雙線性模型,無論在哪種任務上,加性貢獻都不會改變性能;但對于旋轉模型,加性項會降低模塊化加法任務上的性能。
七、學習奇偶校驗的隨機網絡:一個令人驚訝的發(fā)現
最后一個實驗展示了一個特別令人驚訝的發(fā)現:具有凍結隨機權重和可訓練線性讀出層的純雙線性模型可以解決奇偶校驗任務,即使循環(huán)參數在訓練期間被凍結(只訓練讀出層)。
這就像給一個人一個隨機設置的鋼琴,卻發(fā)現他們只需調整最后一個音符就能彈奏出完美的曲子!這與Mamba等模型形成鮮明對比,后者的狀態(tài)轉換是對角線且為正值,因此即使在學習期間調整循環(huán)參數也無法學習奇偶校驗。
八、研究意義與未來展望
這項研究的意義在于重新思考了循環(huán)神經網絡中隱藏單元的角色,從被動的記憶存儲轉變?yōu)橛嬎愕姆e極參與者。研究表明,雙線性模型在學習狀態(tài)跟蹤任務方面非常有效,這與許多線性RNN如Mamba、LRU等形成對比。
不過,需要注意的是,雙線性模型的參數數量會隨隱藏狀態(tài)數量的增加而大致立方增長。未來研究的一個重要問題是,是否有辦法在保持強大的狀態(tài)跟蹤能力的同時減少參數數量。一個密切相關的問題是,這種減少是否可能適得其反(或者龐大的參數數量甚至可能有益)在大規(guī)模多任務場景中,如語言建模。
研究還建議區(qū)分有無交換結構的狀態(tài)跟蹤任務,后者可由更多類型的模型學習,特別是更小的模型。這引發(fā)了另一個未來研究方向:在哪些真實世界場景中,交換狀態(tài)跟蹤任務足夠或不足夠。
總的來說,這項研究重新審視了循環(huán)神經網絡中的雙線性狀態(tài)轉換,展示了它們在狀態(tài)跟蹤任務中的強大能力,并為未來的研究提供了有價值的見解。就像鋼琴手不僅需要記住音符,還需要根據當前狀態(tài)和輸入來決定下一個動作一樣,雙線性RNN的隱藏單元也不僅僅是記憶存儲器,而是計算過程中的積極參與者。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數學推理能力提升8.6%,通用推理提升8.4%,且無需任何數學題目作為訓練材料。研究發(fā)現游戲中的三種推理模式能成功轉移到數學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數學優(yōu)化方法,在合成數據集上實現37.9%的精度提升,并在真實設備上展現出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現,經過強化學習訓練的視覺語言模型雖然表現出"頓悟時刻"現象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。