這項由中國香港中文大學(深圳)的駱桐旭、王本友等研究者聯合DualityRL公司、北京科技大學和華為公司共同完成的突破性研究,于2025年5月發(fā)表在arXiv預印本平臺上。感興趣的讀者可以通過論文編號arXiv:2505.07787v1訪問完整研究內容,項目代碼和模型已在https://learning-from-peers.github.io/開源發(fā)布。
在人工智能發(fā)展的浪潮中,大型推理模型就像是超級聰明的"獨行俠",它們擅長獨自思考復雜問題,甚至能在犯錯時自我糾正。然而,研究團隊發(fā)現了一個令人意外的現象:這些看似無所不能的AI"大腦",竟然會被一個糟糕的開頭徹底"帶跑偏",就像一個人走錯了第一步路,后面再怎么努力也很難回到正確軌道上。
研究團隊將這種現象稱為"前綴主導陷阱",這就好比一個學霸在考試時,如果前幾道題的思路出現偏差,即使后面意識到問題,也很難重新調整狀態(tài)獲得高分。更令人驚訝的是,僅僅占整個回答15%長度的錯誤開頭,就能讓模型的表現下降近20%。這個發(fā)現徹底顛覆了人們對AI自我糾錯能力的認知。
面對這個挑戰(zhàn),研究團隊受到心理學研究的啟發(fā)。在現實生活中,當學生遇到難題時,同伴之間的討論和互相啟發(fā)往往能產生意想不到的效果。一個人卡在某個思路死胡同里時,同桌的一句話可能就能點醒他?;谶@個觀察,研究團隊提出了一個革命性的想法:為什么不讓AI模型也學會"團隊合作"呢?
這就是"Learning from Peers"(LeaP)方法的誕生。這種方法讓多個AI推理路徑在思考過程中能夠互相交流,分享各自的見解和發(fā)現,就像一群學生在小組討論中碰撞出智慧的火花。
一、前綴主導陷阱:AI推理的致命弱點
要理解這項研究的重要性,我們需要先認識什么是"前綴主導陷阱"。研究團隊設計了一個巧妙的實驗來驗證這個現象。他們讓AI模型從預設的開頭開始回答數學題,這些開頭有些來自正確的解題思路,有些則來自錯誤的推理過程。
實驗結果令人震驚。當模型從錯誤的開頭開始思考時,即使這個開頭只占整個回答的15%,模型的準確率也會大幅下降近20%。這就像一個高水平的圍棋選手,如果開局走錯了幾步,即使中途意識到問題,也很難扭轉整個棋局。
研究團隊在多個頂級AI模型上重復了這個實驗,包括DeepSeek-R1-Distill-Qwen系列和QwQ-32B,結果都證實了這個現象的普遍性。這意味著,我們之前高估了AI模型的自我糾錯能力。它們就像是有著固定思維模式的專家,一旦踏上某條思路,就很難主動跳出來重新審視問題。
這個發(fā)現對AI應用有著深遠的影響。在實際使用中,用戶的問題表述方式、背景信息的準確性,甚至是對話的開頭部分,都可能顯著影響AI的回答質量。這就像是與專家對話時,如果一開始就給出了誤導性的信息,專家可能會沿著錯誤的方向越走越遠。
二、同伴學習的啟發(fā):從心理學到AI
研究團隊的靈感來源于教育心理學的一個重要發(fā)現:同伴教學能夠有效幫助學生糾正錯誤認知,提高學習效果,而且這種方法對已經掌握正確知識的學生幾乎沒有負面影響。
在課堂上經常能看到這樣的場景:一個學生在解題時遇到困難,旁邊的同學提供了不同的思路或者指出了錯誤,從而幫助他找到正確答案。這種同伴間的知識分享不僅能幫助有困難的學生,還能加深提供幫助的學生對知識的理解。
更有趣的是,即使提供幫助的學生給出的建議不完全正確,這種交流過程本身也能促進雙方的思考,最終達到更好的學習效果。這就像是頭腦風暴會議中,即使不是每個想法都是好主意,但想法之間的碰撞往往能產生創(chuàng)新的解決方案。
基于這個觀察,研究團隊提出了一個大膽的假設:如果能讓AI模型在推理過程中進行類似的"同伴交流",是否也能提高它們的推理質量和糾錯能力?
傳統的AI推理就像是讓多個學生獨立考試,然后選擇最好的答案。而LeaP方法則更像是讓這些學生能夠在考試過程中進行有限的交流和討論,互相啟發(fā),共同提高答案的質量。
三、LeaP方法:讓AI學會團隊協作
LeaP方法的核心思想是在AI推理的過程中插入"交流時刻",讓不同的推理路徑能夠分享彼此的見解。這個過程可以比作一場特殊的團隊討論會,每隔一段時間,團隊成員就會停下來總結自己的進展,然后聽取其他成員的想法。
具體來說,LeaP方法包含兩個關鍵環(huán)節(jié):總結階段和路由階段。
在總結階段,每個推理路徑都會像寫讀書筆記一樣,將自己當前的思路、關鍵發(fā)現和中間結果濃縮成一個簡短的摘要。這個摘要被限制在256個字符以內,確保信息傳遞的效率。為了增加表達的多樣性,系統會隨機選擇不同的總結模板和觸發(fā)詞,就像是要求學生用不同的方式來表達同一個想法。
路由階段則決定了這些摘要如何在不同路徑之間分發(fā)。研究團隊設計了三種不同的路由策略。分散路由優(yōu)先選擇與當前路徑思路差異最大的摘要,這就像是主動尋找不同觀點來拓寬思路。聚集路由則選擇最相似的摘要,好比尋找志同道合的伙伴來加強共識?;旌下酚蓜t兼顧兩者,既要聽取不同聲音,也要獲得相似觀點的支持。
為了衡量摘要之間的相似性,研究團隊使用了一種叫做標準化編輯距離的方法。這種方法能夠計算兩段文字之間的差異程度,就像是比較兩篇作文有多少相同和不同的地方。
實驗結果顯示,分散路由和混合路由的效果最好,這說明多樣化的觀點交流確實能夠提高推理質量。這就像是在團隊討論中,不同背景和思路的成員往往能提供更有價值的貢獻。
四、驗證前綴主導陷阱的破解效果
為了驗證LeaP方法是否真的能夠解決前綴主導陷阱問題,研究團隊在相同的實驗設置下測試了使用LeaP的模型表現。
結果令人振奮。在使用LeaP方法后,原本因錯誤開頭導致的20%性能下降被大幅縮小。以DeepSeek-Distill-Qwen-14B模型為例,性能差距從19.88%縮小到7.81%,幾乎減少了一半。
這個改善可以用一個生動的比喻來理解:原本一個人走錯路后很難自己發(fā)現并糾正,但如果有同伴在旁邊提醒"這條路好像不對",他就更容易重新審視自己的選擇并找到正確方向。
更有意思的是,研究團隊還測試了從正確開頭開始的情況。結果顯示,LeaP方法不僅能幫助糾正錯誤,還能讓原本就正確的推理變得更加穩(wěn)定和準確。這說明同伴交流不會干擾已經正確的思路,反而能夠增強信心和準確性。
這種雙向的改善效果證明了LeaP方法的強大自適應能力。它就像是一個智能的討論主持人,既能在有人走錯方向時提供糾正,又能在大家都在正確軌道上時提供確認和支持。
五、全面性能評估:四大基準測試的突破
為了全面評估LeaP方法的效果,研究團隊在四個具有挑戰(zhàn)性的基準測試上進行了詳細實驗:AIME 2024、AIME 2025、AIMO 2025和GPQA Diamond。這些測試就像是AI推理能力的"高考",涵蓋了數學競賽級別的問題和博士水平的科學知識。
在數學推理方面,LeaP方法展現出了顯著的優(yōu)勢。以QwQ-32B模型為例,使用LeaP后在各個數學基準上的平均提升達到了近5個百分點。更令人驚喜的是,這個32B參數的模型在使用LeaP后,竟然在三個數學基準上超越了擁有671B參數的DeepSeek-R1-671B模型,平均領先3.3個百分點。
這就像是一個高中生通過與同學的有效討論,在數學競賽中擊敗了大學研究生。模型規(guī)模并不是決定性因素,重要的是如何有效利用集體智慧。
在科學知識問答方面,LeaP方法的效果同樣令人印象深刻。GPQA Diamond測試要求博士級別的物理、化學和生物學知識,這對AI模型來說是極大的挑戰(zhàn)。使用LeaP的模型在這個測試上也獲得了穩(wěn)定的性能提升,證明了同伴學習不僅適用于數學推理,也能夠提升科學知識的應用能力。
研究團隊還發(fā)現了一個有趣的現象:使用LeaP方法的模型在生成回答時使用的總token數量并沒有顯著增加,有時甚至更少。這說明模型通過同伴交流更快地找到了正確方向,減少了無效的"繞圈"思考。
更進一步的分析顯示,使用LeaP的模型出現"啊哈時刻"(突然意識到錯誤并重新開始思考的情況)的頻率降低了16.4%。這意味著模型通過同伴的及時提醒,避免了許多本來需要自己發(fā)現和糾正的錯誤,思考過程變得更加高效和直接。
六、LeaP-T系列:專門訓練的協作專家
在實驗過程中,研究團隊發(fā)現較小的模型有時難以有效地總結自己的推理過程和理解同伴的建議。這就像是年齡較小的學生在小組討論中可能表達不清楚或理解有困難。
為了解決這個問題,研究團隊開發(fā)了LeaP-T系列模型,這些模型經過專門的訓練來適應同伴學習的模式。他們使用約1000個AIME數學問題作為訓練數據,讓模型學會如何進行有效的總結和反思。
訓練過程就像是給學生開設"如何進行小組討論"的課程,教會他們如何清晰地表達自己的想法,如何理解和吸收他人的建議,以及如何在討論中保持開放的心態(tài)。
LeaP-T系列包括1.5B、7B和14B三個不同規(guī)模的模型。實驗結果顯示,這些經過專門訓練的模型在同伴學習方面表現更加出色。特別是LeaP-T-7B模型,在AIME 2024測試中達到了64.38的Pass@1分數,與參數規(guī)模翻倍的DeepSeek-R1-Distill-Qwen-14B模型(64.47分)幾乎持平。
這個結果特別有意義,因為它證明了通過適當的訓練方法,較小的模型也能夠在特定任務上達到更大模型的性能水平。這就像是一個經過良好團隊協作訓練的小團隊,可能比一個缺乏協調的大團隊更加高效。
七、深度分析:LeaP方法的內在機制
為了深入理解LeaP方法為什么有效,研究團隊進行了多個維度的詳細分析。
首先是溝通頻率的影響。研究發(fā)現,過于頻繁的交流會增加token消耗,但效果提升有限;而交流太少則無法充分發(fā)揮同伴學習的優(yōu)勢。最佳的交流間隔是每4K個token進行一次,這就像是在馬拉松比賽中,參賽者需要在合適的時間點進行補給和信息交換,既不能太頻繁影響節(jié)奏,也不能太稀少錯過關鍵機會。
其次是交流內容的數量。實驗顯示,接收來自4個同伴的建議時效果最佳。太少的建議缺乏多樣性,太多的建議則可能造成信息過載,反而影響判斷。這個發(fā)現與人類認知研究的結果一致:人們在做決策時,考慮適量的選項比考慮過多選項更容易做出好的決定。
研究團隊還分析了不同階段交流的效果。他們發(fā)現,在推理的早期和中期進行交流效果最好,而在后期進行交流的效果相對有限。這就像是在解決問題的過程中,早期的方向指導和中期的思路調整最為關鍵,而在接近答案時改變策略的風險較大。
特別有趣的是,研究團隊將交流類型分為三種:一致型(大家想法相同)、無影響型(聽了建議但沒改變想法)和影響型(因為建議而改變了想法)。分析顯示,在推理的早期,影響型交流的比例較高,而隨著推理的深入,無影響型交流逐漸增多。這說明AI模型在推理過程中會逐漸形成較為固定的思路,早期的同伴建議更容易產生積極影響。
八、錯誤容忍性和難度適應性測試
LeaP方法的一個令人擔心的問題是:如果大部分同伴都給出錯誤建議怎么辦?為了測試這種情況,研究團隊設計了一個"錯誤污染"實驗。
他們讓模型從不同比例的錯誤開頭開始推理,然后觀察LeaP方法的表現。結果令人意外:即使在完全沒有正確開頭的情況下,使用LeaP的模型仍然能夠顯著超越基線模型。當好的開頭比例達到43%時,LeaP的效果就能超過基線模型在全部開頭都正確時的表現。
這個結果說明,LeaP方法具有強大的"去偽存真"能力。就像是在一個充滿噪音的環(huán)境中,訓練有素的偵探仍然能夠從各種線索中篩選出有價值的信息。AI模型通過同伴交流,能夠在多個不完美的建議中識別和綜合有用的信息。
在難度適應性方面,研究團隊將測試問題按照基線模型的正確率分為五個難度等級:非常簡單(32個正確答案)、簡單(25-31個正確)、中等(9-24個正確)、困難(1-8個正確)和非常困難(0個正確答案)。
令人驚喜的是,LeaP方法在所有難度等級上都顯示出改善效果,甚至在基線模型完全無法解決的"非常困難"問題上也能取得突破。這就像是一個學習小組不僅能幫助成員解決平時的作業(yè),還能在面對前所未見的難題時激發(fā)集體智慧,找到突破口。
九、人工驗證:真實案例的深度解析
為了更直觀地理解LeaP方法的效果,研究團隊進行了詳細的人工案例分析。他們選擇了AIME 2024的第11道題,比較了QwQ-32B在使用和不使用LeaP時的表現。
在32次獨立推理中,基線模型只有8次(25%)得到正確答案,而使用LeaP的模型有20次(62.5%)正確。更重要的是,研究團隊發(fā)現有13個案例(40.62%)屬于"錯誤變正確"類型,即推理路徑在同伴建議后從錯誤轉向正確。
最關鍵的是,沒有一個案例屬于"正確變錯誤"類型,這說明同伴交流不會干擾已經正確的推理過程。這就像是一個好的討論環(huán)境,既能幫助迷失方向的人找到正確道路,又不會誤導已經走在正確道路上的人。
通過具體案例的分析,研究團隊展示了LeaP方法的工作機制:當一個推理路徑陷入錯誤時,來自同伴的正確思路提示能夠及時糾正方向;當推理路徑本身正確時,同伴的確認和補充能夠增強信心和完善細節(jié)。
十、效率分析:更少資源實現更好效果
在計算效率方面,LeaP方法展現出了令人驚喜的特性。盡管需要在多個推理路徑之間進行信息交換,但總的token消耗并沒有顯著增加,有時甚至更少。
這種效率提升來自幾個方面。首先,通過同伴的及時提醒,模型能夠更快地發(fā)現和糾正錯誤,避免了在錯誤道路上的長期徘徊。其次,當模型獲得同伴的確認后,會更有信心地朝著正確方向前進,減少了反復猶豫和重復思考。最后,不同路徑之間的信息共享減少了重復性的探索工作。
這就像是一個高效的團隊項目:雖然成員之間需要花時間進行溝通協調,但通過有效的信息共享和任務分工,整體的工作效率反而得到了提升。
研究還顯示,使用LeaP的模型在測試時間擴展(test-time scaling)方面表現更好。隨著推理時間和計算資源的增加,LeaP方法能夠更有效地利用這些額外資源,獲得更大的性能提升。
十一、與現有方法的比較
為了充分展示LeaP方法的優(yōu)勢,研究團隊將其與現有的多種方法進行了比較。
與傳統的多數投票方法相比,LeaP不僅僅是在最后階段選擇最佳答案,而是在整個推理過程中進行實時交流和協作。這就像是將"考試后對答案"升級為"考試中的實時討論"。
與Mixture-of-Agents(MoA)方法相比,LeaP在推理過程中保持了更完整的上下文信息,而不是僅僅傳遞前一輪的輸出。這種設計使得信息傳遞更加豐富和準確,協作效果也更加顯著。
在與同等規(guī)模模型的比較中,LeaP方法顯示出了顯著優(yōu)勢。特別是在數學推理任務上,使用LeaP的32B模型能夠超越未使用LeaP的671B模型,這種跨數量級的性能提升充分證明了方法的有效性。
十二、局限性和失敗案例分析
誠實地說,LeaP方法并非完美無缺。研究團隊坦率地分析了方法的局限性和一些失敗案例。
在較小的模型上,有時會出現總結不夠準確或無法有效理解同伴建議的情況。這就像是年齡較小的學生在小組討論中可能表達不清或理解困難。這也是研究團隊開發(fā)LeaP-T系列模型的原因。
另一個有趣的現象是,一些通過強化學習訓練的模型(如QwQ-32B)有時會表現出較強的"自我堅持"傾向,即使接收到同伴建議也傾向于繼續(xù)自己的推理路徑。這可能與強化學習訓練過程中形成的高置信度有關。
此外,在某些情況下,如果大多數同伴都給出錯誤建議,少數正確的聲音可能會被"淹沒"。不過實驗顯示,這種情況下LeaP仍然比完全獨立推理效果更好。
十三、未來展望和應用前景
LeaP方法的成功開啟了AI協作推理的新篇章。研究團隊提出了兩個令人興奮的未來發(fā)展方向。
第一個方向是將同伴學習擴展到強化學習領域。通過在訓練過程中引入同伴協作機制,有可能開發(fā)出更強大和更協作的AI系統。這就像是讓AI從一開始就學會團隊合作,而不是后來才學習協作技能。
第二個方向是發(fā)展具有不同專長的AI協作系統。設想一個場景:面對復雜問題時,有的AI專門負責網絡搜索,有的專門進行數學計算,有的擅長邏輯推理,它們通過LeaP機制進行協調配合。這種專業(yè)化分工的協作模式可能會帶來更大的性能突破。
從實際應用的角度來看,LeaP方法為AI系統的部署提供了新的思路。在對準確性要求較高的場景中,如醫(yī)療診斷、法律分析或科學研究,使用LeaP方法的AI系統可能會提供更可靠和準確的結果。
此外,LeaP方法的成功也為人機協作提供了新的啟示。在未來的AI輔助決策系統中,人類專家和AI系統可能會采用類似的協作模式,通過實時的信息交換和觀點碰撞來提高決策質量。
說到底,這項研究最大的意義在于證明了"集體智慧"在AI領域同樣適用。正如人類社會中的協作能夠產生超越個體能力的成果,AI系統通過有效的協作機制也能夠實現1+1>2的效果。LeaP方法不僅是一種技術創(chuàng)新,更是對AI發(fā)展方向的重要探索:未來的AI系統可能不再是孤立的超級大腦,而是能夠協作、交流、互相學習的智能集群。
這種轉變可能會徹底改變我們對AI能力邊界的認知。當AI系統學會了真正的團隊合作,它們解決復雜問題的能力將會獲得質的飛躍。這不僅僅是技術進步,更是邁向更加智能、更加協調的人工智能未來的重要一步。對于普通人來說,這意味著我們將擁有更可靠、更智能的AI助手,它們不再是獨斷專行的"獨行俠",而是善于傾聽、樂于協作的"團隊成員"。
Q&A
Q1:什么是"前綴主導陷阱"?它對AI有什么影響? A:前綴主導陷阱是指AI模型會被錯誤的開頭嚴重誤導,難以自我糾正的現象。即使錯誤開頭只占整個回答的15%,也會讓AI的準確率下降近20%。這就像人走錯第一步路后很難調頭一樣,AI一旦踏上錯誤思路就容易越走越遠。
Q2:LeaP方法會不會讓AI變得更慢或更耗費資源? A:令人驚喜的是,LeaP方法不僅沒有顯著增加計算消耗,有時反而更高效。因為通過同伴提醒,AI能更快找到正確方向,避免在錯誤道路上浪費時間,就像有了GPS導航的司機比盲目開車的司機更快到達目的地。
Q3:普通用戶能用上LeaP技術嗎?有什么實際好處? A:研究團隊已經開源了相關代碼和模型,未來這項技術很可能會集成到各種AI應用中。對普通用戶來說,最直接的好處是AI回答會更準確可靠,特別是在處理復雜問題時,就像有了一個會開會討論的智能助手團隊。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數學推理能力提升8.6%,通用推理提升8.4%,且無需任何數學題目作為訓練材料。研究發(fā)現游戲中的三種推理模式能成功轉移到數學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數學優(yōu)化方法,在合成數據集上實現37.9%的精度提升,并在真實設備上展現出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現,經過強化學習訓練的視覺語言模型雖然表現出"頓悟時刻"現象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯合提出SparseLoRA技術,通過動態(tài)稀疏性實現大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。