av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) UC伯克利大學(xué)突破性研究:讓AI自己決定何時(shí)"并行思考",推理效率飆升23%

UC伯克利大學(xué)突破性研究:讓AI自己決定何時(shí)"并行思考",推理效率飆升23%

2025-07-15 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-15 09:59 ? 科技行者

這項(xiàng)由加州大學(xué)伯克利分校的潘佳藝、李修宇、連龍等研究團(tuán)隊(duì)領(lǐng)導(dǎo)的創(chuàng)新研究發(fā)表于2025年4月,論文題為《Learning Adaptive Parallel Reasoning with Language Models》。有興趣深入了解的讀者可以通過(guò)GitHub倉(cāng)庫(kù)github.com/Parallel-Reasoning/APR獲取完整代碼和數(shù)據(jù)。

說(shuō)到大語(yǔ)言模型的推理能力,你可能會(huì)覺(jué)得這個(gè)話題有些抽象。但不妨這樣想象:當(dāng)你面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí),你的大腦是如何工作的?有時(shí)候你會(huì)一步步按順序思考,就像沿著一條路慢慢走;但有時(shí)候你會(huì)同時(shí)考慮幾種不同的解題思路,就像同時(shí)派出幾個(gè)偵探去調(diào)查不同的線索。現(xiàn)在的AI大多只會(huì)"按順序思考",而伯克利大學(xué)的研究團(tuán)隊(duì)成功教會(huì)了AI如何像人類一樣"同時(shí)思考多個(gè)問(wèn)題"。

目前的AI推理系統(tǒng)面臨一個(gè)有趣的困境。傳統(tǒng)的思維鏈推理就像一個(gè)勤奮的學(xué)生,必須把每一個(gè)推理步驟都詳細(xì)寫下來(lái),從第一步寫到最后一步。這種方法確實(shí)有效,但就像寫作文時(shí)字?jǐn)?shù)越來(lái)越多,很快就會(huì)超出頁(yè)面限制,而且寫得越長(zhǎng),讀者(或者說(shuō)AI)就越難找到重點(diǎn)信息。另一方面,現(xiàn)有的并行推理方法就像讓多個(gè)學(xué)生同時(shí)做同一道題,然后比較誰(shuí)的答案最好。雖然這樣可以提高正確率,但問(wèn)題是這些學(xué)生之間完全不交流,經(jīng)常在重復(fù)同樣的工作,浪費(fèi)了大量時(shí)間和精力。

研究團(tuán)隊(duì)提出的自適應(yīng)并行推理方法就像培養(yǎng)了一個(gè)非常聰明的"項(xiàng)目經(jīng)理"。這個(gè)AI項(xiàng)目經(jīng)理不僅自己會(huì)思考問(wèn)題,還知道什么時(shí)候應(yīng)該把任務(wù)分配給團(tuán)隊(duì)成員并行處理,什么時(shí)候應(yīng)該自己獨(dú)立思考。更重要的是,這個(gè)決策過(guò)程完全由AI自己學(xué)會(huì),不需要人類事先設(shè)定固定的規(guī)則。

讓我們通過(guò)一個(gè)具體的例子來(lái)理解這個(gè)突破。研究團(tuán)隊(duì)使用了一個(gè)叫做"倒計(jì)時(shí)"的數(shù)學(xué)推理任務(wù)進(jìn)行測(cè)試。這個(gè)任務(wù)要求AI用給定的幾個(gè)數(shù)字,通過(guò)加減乘除運(yùn)算,得到一個(gè)目標(biāo)數(shù)字。比如給你數(shù)字22、26、31、53,要求得到27。傳統(tǒng)的串行推理方法就像一個(gè)人坐在那里,一步步嘗試所有可能的組合:先試試53減22等于31,然后看看能不能用26和這兩個(gè)31湊出27,如果不行就回頭嘗試其他組合。這種方法的問(wèn)題是,當(dāng)推理鏈變得很長(zhǎng)時(shí),AI就像一個(gè)桌子太小的學(xué)生,紙張寫滿了就沒(méi)地方繼續(xù)寫了。

而新的自適應(yīng)并行推理方法就像一個(gè)智能的團(tuán)隊(duì)協(xié)作。當(dāng)AI發(fā)現(xiàn)一個(gè)有前途的思路時(shí),它會(huì)"派遣"幾個(gè)子任務(wù)同時(shí)進(jìn)行。比如在上面的例子中,主線程(可以想象成團(tuán)隊(duì)負(fù)責(zé)人)發(fā)現(xiàn)可以用53減去其他數(shù)字,于是它同時(shí)派出兩個(gè)"工作線程":一個(gè)專門嘗試53減22的路線,另一個(gè)專門嘗試53減31的路線。這兩個(gè)工作線程可以同時(shí)進(jìn)行計(jì)算,不會(huì)互相干擾。當(dāng)其中一個(gè)工作線程找到了解決方案(比如26加上53減31再除以22等于27),它就把結(jié)果報(bào)告給主線程,整個(gè)團(tuán)隊(duì)的任務(wù)就完成了。

這種方法的巧妙之處在于,AI學(xué)會(huì)了自己判斷什么時(shí)候需要"開(kāi)會(huì)討論"(串行思考),什么時(shí)候可以"分頭行動(dòng)"(并行思考)。就像一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理,它知道有些復(fù)雜問(wèn)題需要團(tuán)隊(duì)成員分工合作,而有些簡(jiǎn)單問(wèn)題自己獨(dú)立處理就夠了。

為了讓AI學(xué)會(huì)這種智能的任務(wù)分配,研究團(tuán)隊(duì)采用了兩個(gè)階段的訓(xùn)練方法。第一個(gè)階段就像教小孩子模仿大人的行為。研究團(tuán)隊(duì)先用計(jì)算機(jī)程序生成了大量的"標(biāo)準(zhǔn)答案",展示在各種情況下應(yīng)該如何進(jìn)行并行推理。這些標(biāo)準(zhǔn)答案就像是優(yōu)秀項(xiàng)目經(jīng)理的工作記錄,AI通過(guò)模仿這些記錄來(lái)學(xué)習(xí)基本的并行推理技能。

第二個(gè)階段更像是讓AI在實(shí)戰(zhàn)中積累經(jīng)驗(yàn)。研究團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)的方法,讓AI在真實(shí)的問(wèn)題上反復(fù)練習(xí)。每當(dāng)AI成功解決一個(gè)問(wèn)題,就給它一個(gè)"獎(jiǎng)勵(lì)";如果失敗了,就讓它反思哪里做得不好。經(jīng)過(guò)大量的練習(xí),AI逐漸學(xué)會(huì)了在合適的時(shí)機(jī)啟動(dòng)并行推理,在合適的時(shí)候整合各個(gè)子任務(wù)的結(jié)果。這個(gè)過(guò)程就像培養(yǎng)一個(gè)項(xiàng)目經(jīng)理的直覺(jué):什么時(shí)候應(yīng)該開(kāi)會(huì),什么時(shí)候應(yīng)該分工,完全通過(guò)經(jīng)驗(yàn)積累來(lái)掌握。

實(shí)驗(yàn)結(jié)果令人印象深刻。在相同的計(jì)算資源限制下,新方法的成功率比傳統(tǒng)方法提高了23.4%(從60.0%提升到83.4%)。這個(gè)提升幅度相當(dāng)可觀,就好比一個(gè)學(xué)生的考試成績(jī)從60分提高到83分。更重要的是,當(dāng)增加計(jì)算資源時(shí),新方法的性能提升更加明顯,從66.6%躍升到80.1%,而傳統(tǒng)方法的提升幅度要小得多。

從延遲角度來(lái)看,新方法的優(yōu)勢(shì)更加突出。在大約5000毫秒的相同等待時(shí)間內(nèi),傳統(tǒng)串行方法只能達(dá)到57.3%的成功率,而新的并行方法達(dá)到了75.2%的成功率,提升了近18個(gè)百分點(diǎn)。這就像兩個(gè)廚師在相同時(shí)間內(nèi)做菜,使用新方法的廚師能夠做出更多美味的菜肴。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,AI更傾向于"寬度優(yōu)先"而非"深度優(yōu)先"的搜索策略。簡(jiǎn)單來(lái)說(shuō),AI學(xué)會(huì)了同時(shí)嘗試更多不同的思路,而不是在一個(gè)思路上鉆得很深。這就像解迷宮時(shí),與其沿著一條路走到底,不如同時(shí)探索幾條不同的路徑,這樣更容易找到出口。

具體數(shù)據(jù)顯示,經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后,AI平均每次會(huì)啟動(dòng)8.2個(gè)子線程,比訓(xùn)練前的6.1個(gè)增加了34.4%。同時(shí),每個(gè)推理序列的平均長(zhǎng)度也從1471個(gè)詞增加到1796個(gè)詞,增幅為22.1%。這些數(shù)字表明,AI確實(shí)學(xué)會(huì)了通過(guò)更廣泛的并行探索來(lái)提高推理成功率。

技術(shù)實(shí)現(xiàn)方面,研究團(tuán)隊(duì)基于SGLang框架構(gòu)建了這套系統(tǒng)。SGLang是一個(gè)高性能的語(yǔ)言模型服務(wù)框架,支持連續(xù)批處理和基數(shù)注意力機(jī)制,這使得并行推理的實(shí)際部署成為可能。在硬件配置上,團(tuán)隊(duì)使用了8GPU的NVIDIA RTX A6000服務(wù)器,其中一個(gè)GPU處理主推理線程,其余GPU負(fù)責(zé)并行執(zhí)行子線程。

實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)使用了一個(gè)包含228M非嵌入?yún)?shù)的Llama2架構(gòu)模型,支持4096個(gè)詞的上下文窗口。所有模型都通過(guò)50萬(wàn)個(gè)訓(xùn)練樣本進(jìn)行監(jiān)督學(xué)習(xí)初始化。為了公平比較不同方法的性能,團(tuán)隊(duì)采用了預(yù)算約束的方法,通過(guò)限制上下文窗口大小來(lái)控制計(jì)算資源的使用。

對(duì)比實(shí)驗(yàn)包括了多個(gè)基線方法。傳統(tǒng)的串行方法(SoS+)就像讓一個(gè)學(xué)生獨(dú)自完成所有題目,而自洽性方法(cons@n)則像讓多個(gè)學(xué)生獨(dú)立做題然后投票選擇最佳答案。還有一個(gè)pass@n指標(biāo),表示多次嘗試中至少有一次成功的概率,這代表了簡(jiǎn)單并行方法能達(dá)到的理論上限。

結(jié)果顯示,在低計(jì)算預(yù)算下(少于4000個(gè)詞),新方法由于需要額外的協(xié)調(diào)開(kāi)銷,性能略低于傳統(tǒng)方法。但隨著計(jì)算預(yù)算的增加,并行方法的優(yōu)勢(shì)迅速顯現(xiàn)。當(dāng)總詞數(shù)達(dá)到20000個(gè)時(shí),新方法的成功率達(dá)到80.1%,顯著超過(guò)傳統(tǒng)方法的66.6%,甚至超過(guò)了多次獨(dú)立嘗試的理論上限(68.4%)。

上下文窗口限制實(shí)驗(yàn)更加清楚地展示了新方法的優(yōu)勢(shì)。在固定的上下文長(zhǎng)度限制下,傳統(tǒng)方法很快就會(huì)因?yàn)橥评礞溸^(guò)長(zhǎng)而無(wú)法繼續(xù),而新方法通過(guò)將計(jì)算分散到多個(gè)并行線程,可以在相同的上下文限制下進(jìn)行更復(fù)雜的推理。當(dāng)上下文窗口為4096個(gè)詞時(shí),配置10個(gè)子線程的新方法比傳統(tǒng)方法的成功率高出約20個(gè)百分點(diǎn)。

延遲測(cè)試在實(shí)際的8GPU服務(wù)器上進(jìn)行,模擬了真實(shí)的應(yīng)用場(chǎng)景。結(jié)果表明,在相同的等待時(shí)間下,新方法能夠達(dá)到更高的成功率。這主要是因?yàn)椴⑿刑幚頊p少了總的等待時(shí)間,即使子線程的數(shù)量增加,但由于它們可以同時(shí)執(zhí)行,總的處理時(shí)間反而下降了。

強(qiáng)化學(xué)習(xí)的效果分析揭示了一個(gè)重要發(fā)現(xiàn):性能提升主要來(lái)自于測(cè)試時(shí)計(jì)算資源的更有效利用,而不是決策質(zhì)量的提升。當(dāng)研究團(tuán)隊(duì)強(qiáng)制AI使用最大數(shù)量的子線程時(shí),強(qiáng)化學(xué)習(xí)前后的性能差異很?。?3.2%對(duì)83.3%),這說(shuō)明強(qiáng)化學(xué)習(xí)的主要作用是教會(huì)AI何時(shí)應(yīng)該使用更多的計(jì)算資源,而不是如何在固定資源下做出更好的決策。

溫度參數(shù)(控制AI輸出隨機(jī)性的參數(shù))的實(shí)驗(yàn)顯示,新方法在不同設(shè)置下都保持了一致的優(yōu)勢(shì)。無(wú)論是確定性輸出(溫度為0)還是更隨機(jī)的輸出(溫度為1),新方法都能穩(wěn)定地超越傳統(tǒng)方法,這證明了其良好的魯棒性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)分析各個(gè)組成部分的貢獻(xiàn)。他們發(fā)現(xiàn),僅使用監(jiān)督學(xué)習(xí)就能獲得顯著的性能提升,而強(qiáng)化學(xué)習(xí)進(jìn)一步放大了這種優(yōu)勢(shì)。同時(shí),他們也測(cè)試了改進(jìn)監(jiān)督學(xué)習(xí)數(shù)據(jù)質(zhì)量的效果,發(fā)現(xiàn)傳統(tǒng)串行方法受到上下文窗口大小的根本限制,即使提高訓(xùn)練數(shù)據(jù)質(zhì)量也無(wú)法完全解決這個(gè)問(wèn)題。

從計(jì)算效率角度來(lái)看,新方法在順序詞數(shù)(需要串行處理的最長(zhǎng)序列)方面表現(xiàn)出色。雖然總詞數(shù)可能會(huì)增加,但關(guān)鍵路徑上的詞數(shù)保持相對(duì)較低,這意味著實(shí)際的延遲時(shí)間并沒(méi)有成比例增加。這就像雖然動(dòng)用了更多的工人,但由于可以并行工作,項(xiàng)目的總完成時(shí)間反而縮短了。

技術(shù)創(chuàng)新的核心在于spawn()和join()操作的設(shè)計(jì)。spawn()操作允許AI在推理過(guò)程中的任何時(shí)刻創(chuàng)建多個(gè)子線程,每個(gè)子線程都有自己的上下文和任務(wù)。join()操作則負(fù)責(zé)收集子線程的結(jié)果并整合到主線程中。這種設(shè)計(jì)借鑒了操作系統(tǒng)中多線程編程的概念,但應(yīng)用到了AI推理領(lǐng)域。

子線程的設(shè)計(jì)特別巧妙。每個(gè)子線程只接收父線程傳遞給它的有限上下文,這避免了上下文窗口的快速消耗。同時(shí),子線程完成任務(wù)后只返回關(guān)鍵信息(比如找到的解決方案),而不是完整的推理過(guò)程,這進(jìn)一步節(jié)省了上下文空間。這就像項(xiàng)目經(jīng)理只需要知道下屬的工作結(jié)果,而不需要了解具體的工作過(guò)程。

訓(xùn)練策略的設(shè)計(jì)也很有創(chuàng)新性。監(jiān)督學(xué)習(xí)階段使用符號(hào)求解器生成的混合搜索路徑,這些路徑既包含深度優(yōu)先搜索又包含廣度優(yōu)先搜索的特征,為AI提供了豐富的學(xué)習(xí)樣本。強(qiáng)化學(xué)習(xí)階段則使用GRPO算法(一種策略優(yōu)化算法)來(lái)端到端地優(yōu)化整個(gè)推理過(guò)程,讓AI學(xué)會(huì)平衡探索的廣度和深度。

實(shí)際部署時(shí),系統(tǒng)充分利用了現(xiàn)代GPU服務(wù)器的并行計(jì)算能力。主線程運(yùn)行在一個(gè)GPU上,多個(gè)子線程可以同時(shí)在其他GPU上執(zhí)行,這樣就能真正實(shí)現(xiàn)并行推理。SGLang框架的批處理功能還能進(jìn)一步提高效率,多個(gè)推理請(qǐng)求可以在同一批次中處理。

研究的局限性也需要考慮。目前的實(shí)驗(yàn)主要集中在數(shù)學(xué)推理任務(wù)上,而且使用的是相對(duì)較小的語(yǔ)言模型。雖然結(jié)果很有希望,但要將這種方法擴(kuò)展到更大的預(yù)訓(xùn)練模型和更廣泛的任務(wù)類型,還需要進(jìn)一步的研究工作。此外,當(dāng)前的方法需要從頭開(kāi)始訓(xùn)練,對(duì)于已經(jīng)部署的大型語(yǔ)言模型來(lái)說(shuō),適應(yīng)成本可能比較高。

不過(guò),這項(xiàng)研究為AI推理能力的提升開(kāi)辟了一個(gè)全新的方向。傳統(tǒng)的方法要么專注于讓AI"想得更深"(更長(zhǎng)的推理鏈),要么讓AI"想得更多"(更多的獨(dú)立嘗試),而這項(xiàng)研究首次讓AI學(xué)會(huì)了"想得更智能"——知道何時(shí)應(yīng)該深入思考,何時(shí)應(yīng)該并行探索。

從更廣闊的視角來(lái)看,這種自適應(yīng)并行推理能力可能對(duì)未來(lái)的AI系統(tǒng)產(chǎn)生深遠(yuǎn)影響。當(dāng)AI能夠智能地分配自己的計(jì)算資源時(shí),它們就能在相同的硬件條件下處理更復(fù)雜的問(wèn)題,或者在相同的復(fù)雜度下更快地給出答案。這對(duì)于需要實(shí)時(shí)響應(yīng)的AI應(yīng)用來(lái)說(shuō)尤其重要,比如智能客服、實(shí)時(shí)翻譯或者自動(dòng)駕駛系統(tǒng)。

研究團(tuán)隊(duì)在論文中也提出了未來(lái)的發(fā)展方向。首先是將這種方法擴(kuò)展到預(yù)訓(xùn)練的大型語(yǔ)言模型上,這需要解決如何在不破壞原有能力的情況下添加并行推理能力的問(wèn)題。其次是減少對(duì)監(jiān)督學(xué)習(xí)的依賴,探索是否可以直接通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練并行推理能力。最后是設(shè)計(jì)更復(fù)雜的線程間通信協(xié)議,比如允許子線程之間直接交換信息,而不僅僅是通過(guò)父線程中轉(zhuǎn)。

這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它展示了一種新的思考方式:讓AI系統(tǒng)自己學(xué)會(huì)如何優(yōu)化自己的推理過(guò)程。這種"元認(rèn)知"能力——知道如何思考的知識(shí)——可能是實(shí)現(xiàn)更智能AI系統(tǒng)的關(guān)鍵所在。

總的來(lái)說(shuō),UC伯克利團(tuán)隊(duì)的這項(xiàng)研究為AI推理能力的發(fā)展提供了一個(gè)重要的新思路。通過(guò)讓AI學(xué)會(huì)自適應(yīng)地分配計(jì)算資源,他們不僅提高了推理的效率和準(zhǔn)確性,更重要的是開(kāi)啟了一個(gè)讓AI更智能地使用自己能力的新時(shí)代。雖然目前還只是在特定任務(wù)上的初步成果,但這種方法的潛力是巨大的,值得我們持續(xù)關(guān)注其后續(xù)發(fā)展。有興趣的讀者可以通過(guò)GitHub倉(cāng)庫(kù)github.com/Parallel-Reasoning/APR深入了解這項(xiàng)技術(shù)的具體實(shí)現(xiàn)細(xì)節(jié)。

Q&A

Q1:自適應(yīng)并行推理和傳統(tǒng)的AI思考方式有什么區(qū)別? A:傳統(tǒng)AI就像一個(gè)人坐在那里一步步思考問(wèn)題,而新方法讓AI學(xué)會(huì)了像項(xiàng)目經(jīng)理一樣,知道什么時(shí)候自己獨(dú)立思考,什么時(shí)候把任務(wù)分給團(tuán)隊(duì)成員并行處理。關(guān)鍵是AI可以自己決定何時(shí)采用哪種方式,不需要人類預(yù)先設(shè)定規(guī)則。

Q2:這種方法會(huì)不會(huì)消耗更多計(jì)算資源? A:雖然總的計(jì)算量可能會(huì)增加,但實(shí)際運(yùn)行時(shí)間反而會(huì)減少,因?yàn)槎鄠€(gè)子任務(wù)可以同時(shí)進(jìn)行。就像雖然雇傭了更多工人,但由于可以并行工作,項(xiàng)目完成得更快。研究顯示在相同等待時(shí)間下,新方法的成功率比傳統(tǒng)方法高出近18個(gè)百分點(diǎn)。

Q3:這項(xiàng)技術(shù)現(xiàn)在可以應(yīng)用到ChatGPT這樣的產(chǎn)品中嗎? A:目前還不能直接應(yīng)用。研究使用的是相對(duì)較小的模型,而且需要從頭開(kāi)始訓(xùn)練。要應(yīng)用到像ChatGPT這樣的大型預(yù)訓(xùn)練模型上,還需要解決如何在不破壞原有能力的情況下添加并行推理能力的技術(shù)挑戰(zhàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-