這項由馬里蘭大學計算機科學系的李子岳、李陽和周天一領(lǐng)導的研究發(fā)表于2025年7月的arXiv預印本平臺,論文編號為arXiv:2507.07996v1。有興趣深入了解的讀者可以通過該編號在arXiv官網(wǎng)搜索訪問完整論文。
現(xiàn)在的人工智能模型就像是一座固定的摩天大樓,每當處理任務時,信息都必須從第一層開始,逐層向上傳遞直到頂層才能得出答案。無論是簡單的加法題還是復雜的數(shù)學證明,所有任務都要走完全部樓層,這顯然不夠靈活和高效。馬里蘭大學的研究團隊提出了一個革命性的想法:能否讓AI模型像搭積木一樣,根據(jù)不同任務的難度自由組合使用這些"層塊"呢?
傳統(tǒng)的大語言模型在處理任務時采用固定的架構(gòu),就像是一條生產(chǎn)線上的工人,每個工人(層)都必須完成自己的工作后才能傳遞給下一個工人。但研究團隊發(fā)現(xiàn),這種"一刀切"的方式存在很大的浪費:簡單任務可能只需要幾個工人就能完成,而復雜任務可能需要某些工人重復操作多次才能達到理想效果。
研究團隊創(chuàng)新性地提出了"層鏈"(Chain-of-Layers,簡稱CoLa)的概念。這個概念的核心思想是將預訓練模型的每一層都視為可以自由組合的模塊,就像樂高積木一樣。對于不同的輸入任務,系統(tǒng)可以選擇跳過某些層(相當于走捷徑),或者讓某些層重復工作多次(相當于深度思考),從而為每個具體任務量身定制最優(yōu)的處理路徑。
為了找到最佳的層組合方案,研究團隊采用了蒙特卡洛樹搜索(MCTS)算法。這個算法的工作原理類似于下棋時的策略思考:系統(tǒng)會嘗試各種可能的層組合路徑,評估每種組合的效果,然后通過反復試驗找到最優(yōu)解。算法在探索過程中會平衡兩個目標:既要保證答案的準確性,又要盡可能減少計算量。
研究團隊在多個基準測試上驗證了這種方法的有效性。他們選擇了兩類具有代表性的任務:一類是ARC常識推理任務,包括ARC-Easy和ARC-Challenge,主要測試模型的基礎(chǔ)推理能力;另一類是DART數(shù)學推理任務,分為五個不同難度級別,從最簡單的DART-1到最困難的DART-5,這樣的設(shè)計可以清楚地觀察到模型在不同復雜度任務上的表現(xiàn)變化。
實驗結(jié)果令人驚喜。研究團隊發(fā)現(xiàn),通過靈活的層組合,模型在準確性和效率方面都獲得了顯著提升。具體來說,對于75%以上原本就能正確回答的問題,系統(tǒng)都能找到更短的處理路徑來得到同樣的答案,這意味著大幅節(jié)省了計算資源。更令人興奮的是,對于60%以上原本回答錯誤的問題,系統(tǒng)通過重新組合層的處理順序,竟然能夠找到正確答案。
這種現(xiàn)象背后的原理其實不難理解。當我們解決簡單問題時,往往不需要動用全部的思維能力,快速直覺就能給出答案;而面對復雜問題時,我們需要反復思考、多角度分析。CoLa方法讓AI模型也具備了這種"快思考"和"慢思考"的能力切換機制。
研究團隊進一步分析了不同搜索策略的效果。他們發(fā)現(xiàn),僅允許跳過層(快思考)的策略在簡單任務上表現(xiàn)不錯,但在復雜任務上力不從心;僅允許重復使用層(慢思考)的策略在中等難度任務上有所改善,但效果有限;而將兩種策略結(jié)合使用的完整CoLa方法在所有任務上都取得了最佳效果,特別是在最困難的數(shù)學推理任務上,改善幅度達到了兩到三倍。
有趣的是,研究團隊還發(fā)現(xiàn)了一個反直覺的現(xiàn)象:糾正錯誤答案所需的計算量往往比保持正確答案更少。這說明許多錯誤并不是因為計算不足造成的,而是因為使用了不合適的處理路徑。就像有時候我們思考問題時會鉆牛角尖,越想越復雜,反而偏離了正確方向。通過重新規(guī)劃處理路徑,模型可以避免這種"過度思考"的陷阱。
深入分析模型的層使用模式,研究團隊發(fā)現(xiàn)了幾個有趣的規(guī)律。首先,模型的早期層幾乎總是被保留,這表明這些層負責提取基礎(chǔ)特征,是不可或缺的。其次,中間層的使用模式差異很大,小模型傾向于跳過大部分中間層,而大模型則更均勻地使用各個層。最后,任務難度會影響層的使用分布:簡單任務傾向于使用更少的層,而復雜任務會激活更多的層來進行深度處理。
研究團隊還比較了不同規(guī)模模型的表現(xiàn)。他們測試了LLaMA-3的3B和8B版本,以及混合專家模型OLMoE,發(fā)現(xiàn)較大的模型在層使用上表現(xiàn)得更加靈活和適應性強。小模型往往表現(xiàn)出固定的使用模式,而大模型能夠根據(jù)任務需求動態(tài)調(diào)整層的使用策略。
指令微調(diào)(instruction tuning)也對層使用模式產(chǎn)生了影響。經(jīng)過指令微調(diào)的模型在層使用上更加保守,傾向于使用更多的層來確保答案質(zhì)量,而基礎(chǔ)預訓練模型則更激進,愿意跳過更多層來提高效率。這反映了兩種模型在訓練目標上的差異:指令微調(diào)模型更注重答案的準確性,而基礎(chǔ)模型更注重效率。
從技術(shù)實現(xiàn)角度來看,CoLa方法的優(yōu)勢在于它不需要重新訓練模型,只需要在推理時動態(tài)調(diào)整層的使用策略。這使得該方法可以直接應用于現(xiàn)有的預訓練模型,具有很強的實用性。研究團隊使用的蒙特卡洛樹搜索算法每個輸入樣本運行200次模擬,在搜索質(zhì)量和計算時間之間取得了良好的平衡。
這項研究的意義不僅在于提出了一種新的模型優(yōu)化方法,更重要的是它改變了我們對AI模型架構(gòu)的理解。傳統(tǒng)觀點認為,預訓練模型的架構(gòu)是固定的,只能通過微調(diào)來適應新任務。而CoLa方法證明了,即使不改變模型參數(shù),僅僅通過重新組合現(xiàn)有層的使用方式,就能顯著提升模型的性能和效率。
這種思路為未來的AI模型設(shè)計開辟了新的方向。我們可以想象,未來的AI系統(tǒng)不再是固定的處理管道,而是可以根據(jù)任務需求動態(tài)重構(gòu)的靈活架構(gòu)。這種自適應能力將使AI系統(tǒng)在處理不同類型和難度的任務時更加高效和精準。
研究團隊的工作還揭示了當前大語言模型中存在的冗余和優(yōu)化空間。許多我們認為需要"深度思考"的任務實際上可以通過更簡潔的路徑解決,而一些看似簡單的任務可能需要更復雜的處理策略。這提醒我們,模型的"智能"不僅體現(xiàn)在參數(shù)規(guī)模上,更體現(xiàn)在如何靈活運用這些參數(shù)。
當然,這項研究也存在一些局限性。目前的方法主要在推理任務上進行了驗證,在其他類型的任務上的表現(xiàn)還需要進一步研究。此外,蒙特卡洛樹搜索雖然能找到較優(yōu)的層組合方案,但搜索過程本身也需要計算資源,如何在搜索成本和優(yōu)化效果之間找到最佳平衡點還需要進一步探索。
展望未來,CoLa方法為AI模型的發(fā)展提供了新的思路。隨著模型規(guī)模的不斷增大,如何提高模型的效率和適應性將成為越來越重要的問題。CoLa方法證明了,通過智能的架構(gòu)調(diào)整,我們可以在不增加模型參數(shù)的情況下顯著提升性能,這對于資源有限的應用場景具有重要意義。
研究團隊的這項工作為我們理解和優(yōu)化大語言模型提供了全新的視角。它告訴我們,AI模型的能力不僅取決于它"知道什么",更取決于它"如何思考"。通過讓模型學會根據(jù)任務需求調(diào)整自己的思考方式,我們可以構(gòu)建更加智能、高效和靈活的AI系統(tǒng)。這種"因材施教"的思路可能會成為未來AI發(fā)展的重要方向,讓AI真正具備類人的思維靈活性。
Q&A
Q1:CoLa方法是什么?它能做什么? A:CoLa(Chain-of-Layers)是一種讓AI模型動態(tài)調(diào)整內(nèi)部結(jié)構(gòu)的方法,就像搭積木一樣靈活組合模型層。它可以根據(jù)任務難度選擇跳過某些層或重復使用某些層,從而在不重新訓練模型的情況下提升準確性和效率。
Q2:CoLa會不會讓AI模型變得不穩(wěn)定? A:不會。CoLa方法只是改變了層的使用順序和次數(shù),并沒有修改模型的參數(shù)。研究顯示,這種靈活性實際上能讓模型更好地適應不同任務,75%的正確答案可以用更少的計算量獲得,60%的錯誤答案可以被糾正。
Q3:普通人能用到CoLa技術(shù)嗎? A:目前CoLa還處于研究階段,普通用戶無法直接使用。但這項技術(shù)可以被集成到現(xiàn)有的AI產(chǎn)品中,讓聊天機器人、翻譯軟件等應用變得更快更準確。未來可能會出現(xiàn)支持CoLa的開源工具供開發(fā)者使用。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。