av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 TL;DR:微調(diào)大模型思考長度,讓AI推理更高效——記錄中美多機(jī)構(gòu)聯(lián)合研究

TL;DR:微調(diào)大模型思考長度,讓AI推理更高效——記錄中美多機(jī)構(gòu)聯(lián)合研究

2025-07-07 17:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:35 ? 科技行者

在人工智能快速發(fā)展的今天,大型語言模型(LLMs)的推理能力已經(jīng)取得了令人矚目的進(jìn)步。2025年6月,來自中國科學(xué)院人工智能學(xué)院、中國科學(xué)院自動(dòng)化研究所、美國加州大學(xué)洛杉磯分校(UCLA)、清華大學(xué)、微軟公司以及香港科技大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇題為《TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression》(太長不讀:為高效大語言模型推理壓縮進(jìn)行重新權(quán)重分配)的研究論文。這項(xiàng)研究提出了一種動(dòng)態(tài)調(diào)整模型推理過程的方法,能夠大幅減少模型輸出的文本長度,同時(shí)保持推理準(zhǔn)確性。有興趣深入了解的讀者可以通過論文存儲(chǔ)庫網(wǎng)址:https://github.com/zzli2022/TLDR 獲取更多信息。

一、為什么我們需要壓縮AI的"思考"過程?

想象一下,如果你請(qǐng)一位朋友幫你解一道簡單的數(shù)學(xué)題,比如"2+3等于多少",你可能希望他直接告訴你"5",而不是聽他絮絮叨叨地分析:"嗯,我們有2,然后加上3,讓我思考一下,2是1加1,3是2加1,所以2加3應(yīng)該是1加1再加2加1,也就是1加1加2加1,等于5。不對(duì),讓我再檢查一下..."

目前的推理型大語言模型就像這位過分謹(jǐn)慎的朋友。近年來,研究人員開發(fā)了具有強(qiáng)大推理能力的大語言模型,這些模型從簡單的"系統(tǒng)1"思考模式(如GPT-4o、LLaMA-3等模型采用的快速直覺處理)發(fā)展到了"系統(tǒng)2"思考范式(如DeepSeek-R1等模型通過反復(fù)自我評(píng)估、錯(cuò)誤糾正和驗(yàn)證進(jìn)行深思熟慮的分析)。

雖然系統(tǒng)2模式的模型在復(fù)雜問題上表現(xiàn)出色,但它們往往會(huì)在簡單問題上也進(jìn)行過度思考,導(dǎo)致不必要的探索和計(jì)劃,最終降低效率和實(shí)用性。就像一個(gè)優(yōu)秀的數(shù)學(xué)家解決"2+3"時(shí)也要寫滿一整頁紙的推導(dǎo)過程,這顯然是資源的浪費(fèi)。

二、現(xiàn)有方法的局限性

目前已有多種方法試圖解決大模型的思考冗余問題。無需訓(xùn)練的方法(如CoD、TALE-EP等)通過提示詞或基于置信度的技術(shù)來控制模型在推理過程中的內(nèi)部狀態(tài)。另一種思路是通過模型合并來干預(yù)推理模型的參數(shù),以產(chǎn)生相對(duì)簡潔的解決方案?;谟?xùn)練的方法(如TOPS、CoT-Valve等)則主要通過強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào),使模型學(xué)會(huì)生成更簡潔但仍然正確的推理路徑。

這些方法通常需要精心收集問題并精確控制不同長度數(shù)據(jù)的比例才能取得良好效果,導(dǎo)致參數(shù)調(diào)整和數(shù)據(jù)構(gòu)建過程復(fù)雜。例如,TOPS需要手動(dòng)標(biāo)記監(jiān)督微調(diào)數(shù)據(jù)以構(gòu)建長度敏感的模型,而CoT-Valve則通過模型插值創(chuàng)建中間模型進(jìn)行采樣生成數(shù)據(jù)。這些構(gòu)建過程往往繁瑣、計(jì)算成本高或難以控制質(zhì)量。

三、揭秘短/長推理鏈在大模型思考?jí)嚎s中的作用

研究團(tuán)隊(duì)首先探究了混合短推理鏈(Short CoT)和長推理鏈(Long CoT)數(shù)據(jù)對(duì)壓縮推理過程的影響。他們發(fā)現(xiàn):

系統(tǒng)1數(shù)據(jù)(簡單問題上的短推理鏈)能夠減少所有難度級(jí)別問題上的推理冗余。研究團(tuán)隊(duì)驚喜地發(fā)現(xiàn),這種長度壓縮效果很好地泛化到了不同難度的問題上。簡單來說,就像學(xué)會(huì)用簡潔方式解決簡單問題的經(jīng)驗(yàn),也能幫助我們?cè)诮鉀Q復(fù)雜問題時(shí)減少不必要的步驟。

系統(tǒng)2數(shù)據(jù)(僅在難題上的長推理鏈)有助于維持性能水平。研究表明,在混合數(shù)據(jù)中加入少量針對(duì)挑戰(zhàn)性問題的長推理鏈,可以減輕短推理鏈帶來的準(zhǔn)確度下降問題。而在簡單問題上使用長推理鏈則幫助不大。這就像在解決復(fù)雜謎題時(shí),我們確實(shí)需要一些詳細(xì)的思考步驟,但對(duì)于簡單問題,過度思考反而是浪費(fèi)。

這些發(fā)現(xiàn)引出了一個(gè)關(guān)鍵問題:我們能否找到一個(gè)最佳的長-短數(shù)據(jù)混合比例,在最大化推理效率的同時(shí)保持準(zhǔn)確性?

四、動(dòng)態(tài)思考長度再權(quán)重方法(TLDR)

基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)直觀的方法:當(dāng)模型思考太長時(shí),應(yīng)該重新加權(quán)更多直覺性推理路徑來簡化思考過程;相反,當(dāng)思考太直接時(shí),應(yīng)該加入更多慢思考推理鏈來鼓勵(lì)更深入的思考。

他們將這一思想具體化為"思考長度數(shù)據(jù)再權(quán)重"(Thinking Length Data Re-Weighting,TLDR)方法。這種方法通過系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的動(dòng)態(tài)平衡,使模型能夠消除冗余的認(rèn)知過程。

具體實(shí)施步驟如下:

首先,研究者構(gòu)建了針對(duì)簡單問題的短推理鏈數(shù)據(jù)和針對(duì)復(fù)雜問題的長推理鏈數(shù)據(jù)。模型以初始比例開始,使用混合數(shù)據(jù)進(jìn)行推理壓縮。完成一個(gè)壓縮周期后,模型會(huì)重新評(píng)估系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的預(yù)期收益,以實(shí)現(xiàn)更好的性能。

與直覺相符,系統(tǒng)1數(shù)據(jù)(短推理鏈)可以提高效率,所以研究者使用效率指標(biāo)來衡量系統(tǒng)1數(shù)據(jù)的預(yù)期收益。而系統(tǒng)2數(shù)據(jù)(長推理鏈)可以提高推理準(zhǔn)確性,因此用準(zhǔn)確性指標(biāo)來衡量系統(tǒng)2數(shù)據(jù)在推理能力方面的收益。

與需要不同推理長度的精心設(shè)計(jì)的微調(diào)數(shù)據(jù)的其他方法相比,TLDR方法只需利用原始模型采樣的長推理鏈和構(gòu)建的短推理鏈數(shù)據(jù),通過動(dòng)態(tài)學(xué)習(xí)比例實(shí)現(xiàn)高效推理。在DeepSeek-Distill-7B/14B模型上的實(shí)驗(yàn)表明,該模型在7B/14B模型上都取得了出色的壓縮結(jié)果,推理能力只有輕微下降。

五、TLDR的技術(shù)實(shí)現(xiàn)細(xì)節(jié)

為了形式化思考?jí)嚎s問題,研究團(tuán)隊(duì)將其定義為一個(gè)優(yōu)化任務(wù),目標(biāo)是確定系統(tǒng)1和系統(tǒng)2推理之間的最佳比例。他們期望通過混合數(shù)據(jù)訓(xùn)練的模型能夠在特定評(píng)估指標(biāo)上接近系統(tǒng)1和系統(tǒng)2的性能上限。

模型優(yōu)化目標(biāo)為:最小化模型與系統(tǒng)1效率上限之間的差距,以及與系統(tǒng)2推理能力上限之間的差距,同時(shí)優(yōu)化模型參數(shù)以最大化推理性能和效率。

對(duì)于系統(tǒng)1/2混合數(shù)據(jù)的設(shè)置,研究團(tuán)隊(duì)利用短推理鏈模型來調(diào)制系統(tǒng)1模型的數(shù)據(jù),使用長推理鏈模型從S1采樣難題提示,并只保留正確的回答。最終,他們獲得了<簡單問題,短推理鏈>和<難題,長推理鏈>的指令數(shù)據(jù)對(duì)。

在訓(xùn)練過程中,研究團(tuán)隊(duì)不斷調(diào)整系統(tǒng)1和系統(tǒng)2數(shù)據(jù)在后訓(xùn)練階段的比例,確保模型保留原始長推理鏈模型的推理能力,同時(shí)實(shí)現(xiàn)短推理鏈模型的效率。他們將準(zhǔn)確度上限設(shè)定為與原始長推理鏈模型的準(zhǔn)確度相匹配,將代幣下限設(shè)定為與構(gòu)建的短推理鏈模型的數(shù)據(jù)下限相對(duì)應(yīng)。

六、實(shí)驗(yàn)結(jié)果與比較

研究團(tuán)隊(duì)在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上對(duì)TLDR方法進(jìn)行了驗(yàn)證,并使用多個(gè)難度不同的基準(zhǔn)測(cè)試集(包括ASDiv、GSM8K、MATH-500、AIME2024和AMC)進(jìn)行了評(píng)估。

實(shí)驗(yàn)結(jié)果表明,TLDR方法在保持推理準(zhǔn)確性的同時(shí),顯著減少了輸出令牌的數(shù)量,平均壓縮率接近40%。這意味著模型能夠用更少的"文字"表達(dá)相同的思考過程和得出正確答案。

與其他基線方法相比:

基于提示的方法(如TALE-EP、ConciseCoT):TLDR在保持類似準(zhǔn)確度的情況下實(shí)現(xiàn)了更高的壓縮率。

基于模型合并的方法(如平均合并、任務(wù)算術(shù)合并等):這些方法在挑戰(zhàn)性問題上仍然面臨顯著的性能下降,而TLDR能夠在不同難度的數(shù)據(jù)集上保持準(zhǔn)確性。

基于獎(jiǎng)勵(lì)的方法(如ThinkPruner、Overthink):與CoT-Valve和ThinkPrune相比,TLDR在ASDiv和GSM8K等容易出現(xiàn)過度探索的數(shù)據(jù)集上實(shí)現(xiàn)了出色的壓縮率。

值得注意的是,CoT-Valve作為一種基于SFT的方法,需要精心設(shè)計(jì)的模型混合和構(gòu)建長度多樣的數(shù)據(jù)集進(jìn)行動(dòng)態(tài)學(xué)習(xí)。相比之下,TLDR方法只需要直接的數(shù)據(jù)采樣和自適應(yīng)混合比例,以更簡單的方式實(shí)現(xiàn)自適應(yīng)推理。

七、研究意義與未來展望

TLDR方法為大語言模型的推理壓縮提供了一種創(chuàng)新的解決方案。通過動(dòng)態(tài)再權(quán)重系統(tǒng)1(簡潔推理)和系統(tǒng)2(詳細(xì)推理)數(shù)據(jù)在訓(xùn)練過程中的影響,TLDR使大語言模型能夠?yàn)楹唵螁栴}消除不必要的步驟,同時(shí)仍然能夠?yàn)閺?fù)雜任務(wù)進(jìn)行深入思考。

這種方法避免了其他壓縮方法通常需要的繁瑣數(shù)據(jù)收集和超參數(shù)調(diào)整,為開發(fā)既高效又準(zhǔn)確的大語言模型提供了更實(shí)用的解決方案。

未來研究可能會(huì)探索將TLDR方法應(yīng)用于更廣泛的任務(wù)和模型架構(gòu),進(jìn)一步提高推理效率并減少計(jì)算資源消耗。這不僅可以降低大語言模型的運(yùn)行成本,還可以使它們?cè)谫Y源受限的環(huán)境中更加實(shí)用,如移動(dòng)設(shè)備或邊緣計(jì)算設(shè)備。

總之,TLDR方法代表了一種平衡效率和準(zhǔn)確性的新思路,為大語言模型的發(fā)展提供了有價(jià)值的貢獻(xiàn),使AI系統(tǒng)能夠更加智能地分配其"思考"資源,對(duì)簡單問題快速作出反應(yīng),對(duì)復(fù)雜問題進(jìn)行深入思考,就像人類的思維過程一樣靈活和高效。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-