在人工智能領(lǐng)域,近期大型語言模型(LLMs)的發(fā)展取得了令人矚目的進展。由MediaTek Research(聯(lián)發(fā)科技研究院)的研究團隊Chan-Jan Hsu、Davide Buffelli、Jamie McGowan、Feng-Ting Liao、Yi-Chang Chen、Sattar Vakili和Da-shan Shiu共同完成的這項研究,于2025年5月發(fā)表在arXiv(arXiv:2505.11107v1)預(yù)印本平臺上,目前正在接受同行評審。這項研究提出了一種名為"Group Think"的創(chuàng)新方法,旨在提高大型語言模型的推理能力和效率。
想象一下,你和幾個朋友一起解決一個復(fù)雜的數(shù)學(xué)問題。每個人都可以看到其他人正在寫的過程,并且可以隨時調(diào)整自己的思路來避免重復(fù)別人已經(jīng)做過的計算,或者接續(xù)別人的思路繼續(xù)推進。這正是Group Think方法的核心理念。
傳統(tǒng)上,當多個AI智能體(或稱為"思考者")合作解決問題時,它們通常采用輪流發(fā)言的方式,一個智能體完成后,另一個才能開始,這種方式雖然能提高推理質(zhì)量,卻犧牲了速度。但在現(xiàn)實生活中,人類團隊協(xié)作時往往是并行工作的,每個人都能看到其他人的工作進度,并據(jù)此動態(tài)調(diào)整自己的思路。
MediaTek的研究團隊提出的Group Think正是讓一個大型語言模型同時扮演多個并發(fā)的推理智能體,每個"思考者"都能在標記(token)級別實時看到其他思考者的部分生成內(nèi)容,并據(jù)此調(diào)整自己的推理軌跡。比如,一個推理線程可能在察覺到另一個線程更適合繼續(xù)某個思路時,在句子中途就改變自己的生成方向。這種精細的、標記級別的協(xié)作使Group Think能夠減少冗余推理,提高質(zhì)量,同時顯著降低延遲。
讓我們深入了解這項創(chuàng)新研究的細節(jié)和意義。
一、為什么我們需要Group Think?
現(xiàn)代的大型語言模型(如OpenAI的GPT模型、DeepSeek的R1以及Google的Gemini等)已經(jīng)展示出了通過自我生成的思維鏈(Chain-of-Thought,簡稱CoT)進行推理的能力。思維鏈簡單來說就是讓AI在給出最終答案前,先寫出中間的推理過程,就像學(xué)生解題時會先列出解題步驟。研究表明,這種方法能顯著提高模型的推理準確性。
進一步的研究發(fā)現(xiàn),如果讓多個AI智能體協(xié)作,共同解決問題,他們的集體推理質(zhì)量往往會超過單個智能體。就像在現(xiàn)實世界中,幾個人一起頭腦風(fēng)暴往往比一個人思考更有創(chuàng)意和效率。
然而,傳統(tǒng)的多智能體協(xié)作系統(tǒng)通常采用輪流發(fā)言的方式:第一個智能體完成推理后,第二個才能開始,依此類推。這就像一個會議,每個人必須等前一個人講完才能發(fā)言。這種方式雖然能夠提高問題解決的質(zhì)量,但也大大增加了處理時間,造成了高延遲。
想象一下,如果你正在組織一個會議討論復(fù)雜問題,是選擇讓10個人輪流發(fā)言每人講10分鐘(總共需要100分鐘),還是讓這10個人同時在10個小組討論10分鐘后匯總(只需10分鐘)?后者顯然更高效,但前提是這些小組之間能夠?qū)崟r溝通,避免重復(fù)工作。這正是Group Think想要實現(xiàn)的效果。
而且,在實際應(yīng)用中,特別是在邊緣設(shè)備(如手機、平板等)上運行語言模型時,通常會面臨一個資源利用不充分的問題。由于通常只處理一次一個查詢(批處理大小為1),導(dǎo)致設(shè)備上的GPU計算能力沒有被充分利用。Group Think的并發(fā)性質(zhì)允許更有效地利用這些閑置計算資源,使其特別適合邊緣推理場景。
二、Group Think如何工作?
要理解Group Think,我們可以把它想象成一個"思維小組",其中多個思考者(由同一個語言模型扮演)并行工作,每個思考者都能看到其他人正在寫的內(nèi)容,并據(jù)此調(diào)整自己的思路。
### 傳統(tǒng)思維鏈與Group Think的對比
在傳統(tǒng)的單一思維鏈方法中,語言模型接收一個輸入問題I,然后生成一系列中間推理步驟X,最后產(chǎn)生答案Y。這就像一個學(xué)生獨自解題:先列出解題步驟,然后得出答案。
而在Group Think中,多個思考者(或稱為"智能體")并行工作,每個思考者都能看到其他思考者的部分生成內(nèi)容。具體來說,當?shù)趎個思考者要生成第k+1個詞時,它會考慮問題和所有思考者目前已經(jīng)生成的內(nèi)容。這就像一群學(xué)生一起解題,每個人都可以看到其他人寫下的步驟,并據(jù)此調(diào)整自己的思路。
在技術(shù)層面,Group Think通過在推理過程中引入跨智能體的注意力機制來實現(xiàn)。每個標記(token)不僅關(guān)注自己線程內(nèi)的前面標記,還關(guān)注其他所有線程中的標記。這樣,思考者們就能在標記級別相互適應(yīng),形成一種精細的協(xié)作模式。
### 高效實現(xiàn)方案
研究團隊提出了兩種實現(xiàn)Group Think的方法:
第一種方法針對本地推理場景(如在個人設(shè)備上運行語言模型)。在這種情況下,Group Think通過創(chuàng)建人工批處理來提高資源利用率。對于一個查詢,N個智能體并行工作,形成有效的批量大小為N,充分利用了原本可能閑置的計算資源。每個智能體被分配一個標記預(yù)算K,并且可以訪問其他智能體生成的標記,從而實現(xiàn)協(xié)作。
第二種方法針對數(shù)據(jù)中心場景,通過在生成過程中進行標記級別的交錯來實現(xiàn)Group Think。每個智能體被分配一個標記索引槽,每個生成步驟為每個智能體填充一個標記,從而構(gòu)建一個交錯的注意力緩存。這樣,每個新標記都可以關(guān)注所有之前生成的標記(包括來自所有智能體的標記),無需任何架構(gòu)修改即可實現(xiàn)Group Think的好處。
這種實現(xiàn)方式的一個關(guān)鍵優(yōu)勢是,它允許在同一批處理中混合處理標準請求和Group Think請求,極大地提高了部署的靈活性。
三、Group Think的實驗評估與結(jié)果
研究團隊選擇了三類具有代表性的問題來評估Group Think的表現(xiàn):枚舉問題、分治問題和編程問題。這些問題類別被精心選擇,以展示Group Think在不同場景下可能展現(xiàn)的行為和優(yōu)勢。
對于每種問題類型,研究人員評估了性能-延遲權(quán)衡,通過測量在不同的每思考者生成長度下解決方案的完成覆蓋率。考慮到合理的硬件和軟件實現(xiàn),實際延遲應(yīng)該與多個智能體中最長的生成長度成正比。因此,研究團隊采用每思考者的生成長度來代表延遲。
值得注意的是,實驗中使用的是現(xiàn)成的、經(jīng)過指令調(diào)整的語言模型,如Llama-3.1 8B Instruct和Llama-3.3-70B-Instruct。由于這些模型并未專門為Group Think進行訓(xùn)練,因此實驗結(jié)果可以被視為Group Think潛在好處的保守下限。
### 枚舉任務(wù)評估
在枚舉任務(wù)中,系統(tǒng)被要求生成一個包含特定類別(如動物、顏色或國家)的L個不同項目的推理軌跡。盡管這看起來很簡單,但它代表了Group Think如何有效解決現(xiàn)實世界問題的基礎(chǔ)技能。
研究團隊構(gòu)建了10個涵蓋各種領(lǐng)域的枚舉提示,并使用Llama-3.1 8B Instruct模型進行測試。結(jié)果顯示,Group Think的性能顯著優(yōu)于單一思維鏈方法,特別是在初期階段,加速比接近思考者數(shù)量N。隨著接近問題解決,這種加速逐漸減緩。此外,更多的思考者總是能更快地解決問題。
通過分析生成的推理軌跡,研究人員觀察到了Group Think的一些有趣行為。例如,在生成男性名字的任務(wù)中,思考者們自發(fā)地將名字按不同的文化、歷史或地域來源進行分類(如英語國家名字、古希臘和羅馬名字、亞洲文化名字等),避免了重復(fù),展現(xiàn)了有效的協(xié)作。
### 分治任務(wù)評估
分治是一種將復(fù)雜問題分解為更小子問題,然后將結(jié)果合并為整體解決方案的方法。研究團隊選擇了計算機科學(xué)教科書中的經(jīng)典問題:使用Floyd-Warshall算法計算有向加權(quán)圖中所有節(jié)點對之間的最短路徑。
在實驗中,研究人員隨機抽樣了幾個具有5個節(jié)點的圖,并使用Llama-3.3-70B-Instruct模型進行推理。結(jié)果證實,相比于單一思維鏈方法,4個思考者的Group Think能將延遲減少一半。更多的思考者能進一步提高性能,盡管由于節(jié)點數(shù)量較小,Group Think的優(yōu)勢可能在實驗中很快就飽和了。
### 編程任務(wù)評估
編程任務(wù)代表了更現(xiàn)實的應(yīng)用場景。在這類任務(wù)中,系統(tǒng)需要根據(jù)規(guī)范從頭開始編寫代碼。研究團隊使用GPT-4o生成了一系列可以在5000個標記內(nèi)完成的Python編程問題,并使用Llama-3.1-8B-Instruct模型生成解決方案。
實驗結(jié)果顯示,單一思維鏈方法往往在解決這類問題時表現(xiàn)不佳,遠未達到完全解決問題的水平。而具有四個或更多思考者的Group Think能在合理的生成預(yù)算內(nèi)接近正確解決方案。從質(zhì)量上看,Group Think表現(xiàn)出高度的警覺性,能有效避免工作重復(fù)。當多個思考者開始處理同一部分規(guī)范時,標記級別的交互粒度允許其他思考者快速檢測到這一點,并轉(zhuǎn)換到任務(wù)的不同部分。
### 與獨立采樣的比較
為了隔離協(xié)調(diào)帶來的具體好處,研究團隊將Group Think與獨立采樣(Independent Sampling,IS)進行了比較。獨立采樣可以被視為Group Think的一個特例,其中推理線程獨立演化,彼此不可見。
實驗結(jié)果表明,盡管在低延遲預(yù)算設(shè)置下Group Think與獨立采樣表現(xiàn)相當(因為協(xié)調(diào)需要消耗一定的標記量),但隨著推理預(yù)算的擴大(通過更多的思考者N或每思考者更多的標記預(yù)算K),Group Think的優(yōu)勢變得越來越明顯。獨立采樣會產(chǎn)生越來越多的冗余,而Group Think則保持高效協(xié)作,導(dǎo)致完成覆蓋率的差距不斷擴大。
四、Group Think的意義與未來展望
Group Think提出了一種全新的大型語言模型推理范式,它提倡在標記級別實時協(xié)作的多線程推理。雖然當前的語言模型并未專門為Group Think進行訓(xùn)練,但實驗結(jié)果表明,它們已經(jīng)展示出利用這種范式的初步能力。
從技術(shù)角度看,Group Think為本地設(shè)備上的語言模型推理提供了顯著優(yōu)勢。在個人設(shè)備上,語言模型通常以批量大小為1的方式運行,導(dǎo)致計算資源未被充分利用。Group Think通過并行運行多個推理線程,有效利用了這些閑置資源,大大減少了推理的延遲開銷,使小型語言模型在本地設(shè)備上的部署變得更加可行。
展望未來,研究團隊提出了幾個關(guān)鍵的研究方向:
首先,學(xué)習(xí)Group Think可能不比學(xué)習(xí)遵循新指令集更難。關(guān)鍵是需要一個數(shù)據(jù)集,展示在各種情況下的良好Group Think行為。當前的多智能體方法往往將語言模型擬人化為單一實體,而Group Think則提出了一種概念轉(zhuǎn)變,將語言模型視為集體。構(gòu)建或合成這樣的數(shù)據(jù)集將是未來研究的重要方向。
其次,未來的工作應(yīng)該關(guān)注如何實現(xiàn)更復(fù)雜的交互,例如顯式和隱式的溝通策略、智能體之間的動態(tài)角色專門化、探索與利用的有效平衡,以及在集體中出現(xiàn)博弈論最優(yōu)行為。這些復(fù)雜且適應(yīng)性強的行為不太可能通過手工設(shè)計的啟發(fā)式方法完全捕獲或灌輸,因此建立一個能夠Group Think的數(shù)據(jù)合成器將是訓(xùn)練和基準測試未來Group Think語言模型的關(guān)鍵方向。
最后,在計算方面,本研究提出的實現(xiàn)策略需要對位置索引分配和自注意力掩碼進行特定但輕量級的修改。未來發(fā)展的關(guān)鍵領(lǐng)域是這個框架的原生實現(xiàn),這將使Group Think在資源受限的環(huán)境中更加實用。
總的來說,Group Think開辟了一個有前途的研究方向,有潛力通過實時、標記級別的協(xié)作,提高大型語言模型的推理能力和效率。隨著專門為Group Think訓(xùn)練的模型的出現(xiàn),我們可以期待看到更加復(fù)雜和高效的協(xié)作行為,為更高質(zhì)量的生成提供支持。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。