av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 當(dāng)AI推理變得更聰明時(shí),速度卻越來(lái)越慢:加州大學(xué)圣地亞哥分校找到了"雙線程加速"的解決方案

當(dāng)AI推理變得更聰明時(shí),速度卻越來(lái)越慢:加州大學(xué)圣地亞哥分校找到了"雙線程加速"的解決方案

2025-06-30 10:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 10:22 ? 科技行者

這項(xiàng)由加州大學(xué)圣地亞哥分校的付一超、上海交通大學(xué)的葛睿、伊利諾伊大學(xué)厄巴納-香檳分校的邵澤磊等研究人員共同完成的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.19830v1)。感興趣的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)上找到完整論文,或訪問(wèn)研究團(tuán)隊(duì)提供的代碼庫(kù):https://github.com/hao-ai-lab/LookaheadReasoning。

近年來(lái),人工智能在數(shù)學(xué)解題和編程方面的能力有了質(zhì)的飛躍,這主要?dú)w功于大型推理模型能夠生成詳細(xì)的思維鏈條。就像學(xué)生解數(shù)學(xué)題時(shí)需要寫出完整的解題步驟一樣,這些AI模型也會(huì)逐步推理,一步一步地解決復(fù)雜問(wèn)題。然而,這種"深度思考"帶來(lái)了一個(gè)意想不到的副作用:生成速度變得極其緩慢。

考慮這樣一個(gè)場(chǎng)景:當(dāng)OpenAI的o1模型解決國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽題目時(shí),可能需要生成數(shù)萬(wàn)個(gè)詞匯的推理過(guò)程,耗時(shí)超過(guò)兩分鐘。這就像一個(gè)極其聰明但說(shuō)話很慢的專家,每個(gè)字都要仔細(xì)斟酌。雖然答案質(zhì)量很高,但等待時(shí)間讓人抓狂。

為了解決這個(gè)問(wèn)題,研究人員之前開發(fā)了一種叫做"推測(cè)解碼"的技術(shù)。這種技術(shù)的工作原理類似于讓一個(gè)快速但不夠精確的助手先猜測(cè)答案,然后讓真正的專家驗(yàn)證這些猜測(cè)。如果猜對(duì)了,就能節(jié)省大量時(shí)間;如果猜錯(cuò)了,專家再給出正確答案。這種方法確實(shí)能帶來(lái)一定的加速效果,但隨著推理變得越來(lái)越長(zhǎng),加速效果會(huì)遇到天花板。

問(wèn)題的根源在于,當(dāng)助手需要猜測(cè)的內(nèi)容越來(lái)越多時(shí),完全猜對(duì)的概率會(huì)急劇下降。就像連續(xù)拋硬幣,連續(xù)猜對(duì)10次的概率遠(yuǎn)低于連續(xù)猜對(duì)3次的概率。因此,傳統(tǒng)的推測(cè)解碼方法在面對(duì)需要數(shù)千個(gè)詞匯的長(zhǎng)推理時(shí),加速效果非常有限,通常只能達(dá)到1.4倍左右的提升。

研究團(tuán)隊(duì)敏銳地發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:推理過(guò)程本身具有層次結(jié)構(gòu)。一個(gè)完整的推理鏈條可以分解為多個(gè)獨(dú)立的推理步驟,而每個(gè)步驟又由多個(gè)詞匯組成。更重要的是,對(duì)于推理步驟而言,我們并不需要逐字逐句完全相同,只需要在語(yǔ)義上等價(jià)即可。

這就像兩個(gè)人用不同的表達(dá)方式說(shuō)出了同一個(gè)意思。比如一個(gè)人說(shuō)"我們需要先計(jì)算面積",另一個(gè)人說(shuō)"首先求出這個(gè)圖形的面積",雖然用詞不同,但表達(dá)的是同一個(gè)推理步驟?;谶@個(gè)觀察,研究團(tuán)隊(duì)提出了名為"前瞻推理"的創(chuàng)新方法。

前瞻推理的工作機(jī)制可以比作一個(gè)高效的協(xié)作團(tuán)隊(duì)。在這個(gè)團(tuán)隊(duì)中,有一個(gè)快速的草擬員(輕量級(jí)模型)和一個(gè)精確的審核員(目標(biāo)大模型),還有一個(gè)語(yǔ)義驗(yàn)證員負(fù)責(zé)判斷兩者的輸出是否表達(dá)了相同的意思。

整個(gè)過(guò)程如同一場(chǎng)精心編排的接力賽。首先,草擬員快速地連續(xù)寫出幾個(gè)推理步驟的草稿,比如步驟1、步驟2、步驟3。與此同時(shí),審核員開始并行處理這些步驟:基于原始問(wèn)題生成步驟1,基于問(wèn)題加上草稿步驟1生成步驟2,基于問(wèn)題加上草稿步驟1和2生成步驟3。這種并行處理充分利用了現(xiàn)代GPU的計(jì)算能力。

當(dāng)審核員完成所有步驟后,語(yǔ)義驗(yàn)證員開始逐一檢查。它會(huì)比較草擬員的步驟1和審核員的步驟1是否表達(dá)相同意思,如果一致,就接受草稿版本并繼續(xù)檢查下一步;如果不一致,就采用審核員的版本并停止后續(xù)檢查。這樣做的好處是,即使后面的步驟可能有問(wèn)題,我們也能保留前面正確的部分,避免浪費(fèi)。

前瞻推理最巧妙的地方在于它與傳統(tǒng)推測(cè)解碼的完美兼容性。在每個(gè)推理步驟內(nèi)部,仍然可以使用傳統(tǒng)的逐詞推測(cè)解碼技術(shù)。這就像在一個(gè)大的并行流水線中,每個(gè)工作站內(nèi)部也可以有自己的小型流水線。兩種加速技術(shù)相互促進(jìn),效果可以相乘而不是簡(jiǎn)單相加。

為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)。他們使用了兩個(gè)主流的開源推理模型系列:DeepSeek-R1-Distill和Qwen3。在DeepSeek系列中,1.5B參數(shù)的小模型作為草擬員,32B參數(shù)的大模型作為審核員。類似地,在Qwen3系列中,1.7B模型負(fù)責(zé)草擬,32B模型負(fù)責(zé)審核。語(yǔ)義驗(yàn)證員則使用7B參數(shù)的Qwen2.5-7B-Instruct模型。

實(shí)驗(yàn)結(jié)果令人印象深刻。在多個(gè)數(shù)學(xué)推理數(shù)據(jù)集(如GSM8K、AIME'24)、編程任務(wù)(如HumanEval、LiveCodeBench)和問(wèn)答任務(wù)(如GPQA、MT-Bench)上,前瞻推理都表現(xiàn)出色。單獨(dú)使用時(shí),它能帶來(lái)1.04倍到1.71倍的加速;與傳統(tǒng)推測(cè)解碼結(jié)合時(shí),總體加速可達(dá)2.11倍,顯著超越了傳統(tǒng)方法的1.4倍上限。

更重要的是,這種加速幾乎沒(méi)有犧牲答案質(zhì)量。在大多數(shù)測(cè)試中,準(zhǔn)確率變化都在2%以內(nèi),有些情況下甚至略有提升。這表明前瞻推理不僅快速,而且可靠。

研究團(tuán)隊(duì)還深入分析了不同組件的作用。他們發(fā)現(xiàn),語(yǔ)義驗(yàn)證員的選擇至關(guān)重要。使用大語(yǔ)言模型作為判斷者(LLM-as-a-Judge)效果最好,既能準(zhǔn)確識(shí)別語(yǔ)義等價(jià)性,又能在計(jì)算開銷和判斷質(zhì)量之間取得良好平衡。相比之下,簡(jiǎn)單的隨機(jī)接受會(huì)嚴(yán)重?fù)p害準(zhǔn)確性,而過(guò)于嚴(yán)格的嵌入相似度驗(yàn)證雖然安全但會(huì)降低接受率。

在理論分析方面,研究團(tuán)隊(duì)證明了在給定計(jì)算資源約束下,結(jié)合步驟級(jí)和詞匯級(jí)推測(cè)的混合方法能夠達(dá)到最優(yōu)加速效果。這個(gè)發(fā)現(xiàn)具有重要的實(shí)踐指導(dǎo)意義:既不應(yīng)該只使用傳統(tǒng)推測(cè)解碼,也不應(yīng)該只使用前瞻推理,而應(yīng)該將兩者結(jié)合起來(lái)。

研究還探索了多分支草擬的可能性。在這種變體中,草擬員為每個(gè)位置生成多個(gè)候選步驟,形成一個(gè)樹狀結(jié)構(gòu)。雖然這能提高接受率,但由于計(jì)算開銷呈指數(shù)增長(zhǎng),實(shí)際加速效果有限。因此,簡(jiǎn)單的單分支版本在實(shí)踐中更為實(shí)用。

從技術(shù)實(shí)現(xiàn)角度看,前瞻推理有同步和異步兩種版本。同步版本更容易理解和實(shí)現(xiàn),但異步版本能夠更好地重疊計(jì)算,進(jìn)一步提升效率。在異步版本中,草擬員和審核員可以并發(fā)工作,最大化GPU利用率。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的創(chuàng)新。隨著推理模型變得越來(lái)越強(qiáng)大,它們生成的推理鏈條也越來(lái)越長(zhǎng)。傳統(tǒng)的加速方法面臨算法天花板,無(wú)法充分利用不斷增強(qiáng)的硬件性能。前瞻推理提供了一個(gè)新的維度來(lái)突破這個(gè)天花板,使得推理加速能夠與硬件發(fā)展同步。

當(dāng)然,這種方法也有其局限性。目前的實(shí)現(xiàn)使用簡(jiǎn)單的換行符來(lái)分割推理步驟,這種方法雖然直接但可能錯(cuò)過(guò)最優(yōu)的分割點(diǎn)。未來(lái)的改進(jìn)可能需要更智能的步驟分割算法。另外,語(yǔ)義驗(yàn)證員雖然有效,但仍然存在速度與準(zhǔn)確性的權(quán)衡。開發(fā)更快、更準(zhǔn)確的輕量級(jí)驗(yàn)證方法是一個(gè)值得探索的方向。

從更廣闊的視角來(lái)看,前瞻推理代表了一種新的思維方式:不是簡(jiǎn)單地讓單個(gè)模型跑得更快,而是通過(guò)多個(gè)模型的智能協(xié)作來(lái)提升整體效率。這種思路在分布式計(jì)算和并行處理領(lǐng)域并不新鮮,但將其引入推理加速領(lǐng)域卻是一個(gè)創(chuàng)新性的嘗試。

隨著大型推理模型在教育、科研、工程等領(lǐng)域的應(yīng)用越來(lái)越廣泛,推理速度的重要性也日益凸顯。沒(méi)有人愿意等待數(shù)分鐘才能得到一個(gè)數(shù)學(xué)題的答案,即使這個(gè)答案質(zhì)量很高。前瞻推理為解決這個(gè)問(wèn)題提供了一個(gè)實(shí)用且有效的方案。

說(shuō)到底,這項(xiàng)研究揭示了一個(gè)重要原理:當(dāng)面對(duì)復(fù)雜任務(wù)時(shí),聰明的分工合作往往比單打獨(dú)斗更有效。通過(guò)讓不同的模型發(fā)揮各自的優(yōu)勢(shì)——快速草擬、精確審核、語(yǔ)義驗(yàn)證——整個(gè)系統(tǒng)的效率得到了顯著提升。這不僅是技術(shù)的進(jìn)步,也是對(duì)如何更好地組織人工智能系統(tǒng)的深刻思考。

對(duì)于普通用戶而言,這意味著在不久的將來(lái),我們可能會(huì)體驗(yàn)到既聰明又快速的AI助手。它們能夠進(jìn)行深度推理,解決復(fù)雜問(wèn)題,同時(shí)響應(yīng)速度也足夠快,不會(huì)讓人感到焦慮。這種技術(shù)的成熟將推動(dòng)AI在更多實(shí)時(shí)應(yīng)用場(chǎng)景中的普及,從在線教育到實(shí)時(shí)編程輔助,從科學(xué)計(jì)算到工程設(shè)計(jì)。

研究團(tuán)隊(duì)已經(jīng)將代碼開源,這為學(xué)術(shù)界和工業(yè)界的進(jìn)一步發(fā)展奠定了基礎(chǔ)??梢灶A(yù)期,這種方法會(huì)被更多的研究者采用和改進(jìn),最終形成推理加速領(lǐng)域的標(biāo)準(zhǔn)實(shí)踐。正如研究團(tuán)隊(duì)在論文中所展示的,前瞻推理不僅是一個(gè)技術(shù)創(chuàng)新,更是推理加速領(lǐng)域的一個(gè)重要里程碑。

Q&A

Q1:前瞻推理是什么?它和傳統(tǒng)的推測(cè)解碼有什么區(qū)別? A:前瞻推理是一種新的AI推理加速技術(shù),它讓小模型快速生成多個(gè)推理步驟的草稿,大模型并行驗(yàn)證這些步驟。與傳統(tǒng)推測(cè)解碼逐個(gè)詞匯猜測(cè)不同,前瞻推理在步驟級(jí)別進(jìn)行推測(cè),只要語(yǔ)義相同就接受,不要求逐字匹配,因此能獲得更好的加速效果。

Q2:前瞻推理會(huì)不會(huì)影響AI的推理準(zhǔn)確性? A:基本不會(huì)。實(shí)驗(yàn)顯示準(zhǔn)確率變化通常在2%以內(nèi),有時(shí)甚至略有提升。這是因?yàn)橄到y(tǒng)使用語(yǔ)義驗(yàn)證員確保草稿步驟和目標(biāo)步驟表達(dá)相同意思,只有在語(yǔ)義等價(jià)時(shí)才接受草稿,從而保證了推理質(zhì)量。

Q3:普通用戶什么時(shí)候能體驗(yàn)到這種技術(shù)? A:研究團(tuán)隊(duì)已經(jīng)開源了代碼,技術(shù)相對(duì)成熟。預(yù)計(jì)在未來(lái)1-2年內(nèi),這種技術(shù)會(huì)被集成到主流的AI推理系統(tǒng)中。用戶將能體驗(yàn)到既聰明又快速的AI助手,在數(shù)學(xué)解題、編程輔助等需要復(fù)雜推理的場(chǎng)景中獲得更好的體驗(yàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-