av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

TL;DR：微調(diào)大模型思考長度，讓AI推理更高效——記錄中美多機(jī)構(gòu)聯(lián)合研究

人工智能大語言模型推理思考?jí)嚎s技術(shù)

TL;DR：微調(diào)大模型思考長度，讓AI推理更高效——記錄中美多機(jī)構(gòu)聯(lián)合研究

作者：科技行者

2025-07-07 17:35

分享至：

這篇研究論文提出了一種名為TLDR（思考長度數(shù)據(jù)再權(quán)重）的創(chuàng)新方法，用于解決大型語言模型在推理過程中過度思考的問題。研究團(tuán)隊(duì)通過動(dòng)態(tài)平衡系統(tǒng)1（簡潔直覺）和系統(tǒng)2（深度推理）數(shù)據(jù)的權(quán)重，實(shí)現(xiàn)了在保持推理準(zhǔn)確性的同時(shí)將輸出token數(shù)量減少近40%的效果。與現(xiàn)有方法不同，TLDR避免了繁瑣的數(shù)據(jù)收集和參數(shù)調(diào)整過程，提供了一種更實(shí)用、更高效的解決方案，為大型語言模型在資源受限環(huán)境中的應(yīng)用開辟了新可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-07 17:35 ? 科技行者

在人工智能快速發(fā)展的今天，大型語言模型（LLMs）的推理能力已經(jīng)取得了令人矚目的進(jìn)步。2025年6月，來自中國科學(xué)院人工智能學(xué)院、中國科學(xué)院自動(dòng)化研究所、美國加州大學(xué)洛杉磯分校（UCLA）、清華大學(xué)、微軟公司以及香港科技大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇題為《TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression》（太長不讀：為高效大語言模型推理壓縮進(jìn)行重新權(quán)重分配）的研究論文。這項(xiàng)研究提出了一種動(dòng)態(tài)調(diào)整模型推理過程的方法，能夠大幅減少模型輸出的文本長度，同時(shí)保持推理準(zhǔn)確性。有興趣深入了解的讀者可以通過論文存儲(chǔ)庫網(wǎng)址：https://github.com/zzli2022/TLDR 獲取更多信息。

一、為什么我們需要壓縮AI的"思考"過程？

想象一下，如果你請(qǐng)一位朋友幫你解一道簡單的數(shù)學(xué)題，比如"2+3等于多少"，你可能希望他直接告訴你"5"，而不是聽他絮絮叨叨地分析："嗯，我們有2，然后加上3，讓我思考一下，2是1加1，3是2加1，所以2加3應(yīng)該是1加1再加2加1，也就是1加1加2加1，等于5。不對(duì)，讓我再檢查一下..."

目前的推理型大語言模型就像這位過分謹(jǐn)慎的朋友。近年來，研究人員開發(fā)了具有強(qiáng)大推理能力的大語言模型，這些模型從簡單的"系統(tǒng)1"思考模式（如GPT-4o、LLaMA-3等模型采用的快速直覺處理）發(fā)展到了"系統(tǒng)2"思考范式（如DeepSeek-R1等模型通過反復(fù)自我評(píng)估、錯(cuò)誤糾正和驗(yàn)證進(jìn)行深思熟慮的分析）。

雖然系統(tǒng)2模式的模型在復(fù)雜問題上表現(xiàn)出色，但它們往往會(huì)在簡單問題上也進(jìn)行過度思考，導(dǎo)致不必要的探索和計(jì)劃，最終降低效率和實(shí)用性。就像一個(gè)優(yōu)秀的數(shù)學(xué)家解決"2+3"時(shí)也要寫滿一整頁紙的推導(dǎo)過程，這顯然是資源的浪費(fèi)。

二、現(xiàn)有方法的局限性

目前已有多種方法試圖解決大模型的思考冗余問題。無需訓(xùn)練的方法（如CoD、TALE-EP等）通過提示詞或基于置信度的技術(shù)來控制模型在推理過程中的內(nèi)部狀態(tài)。另一種思路是通過模型合并來干預(yù)推理模型的參數(shù)，以產(chǎn)生相對(duì)簡潔的解決方案?；谟?xùn)練的方法（如TOPS、CoT-Valve等）則主要通過強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)，使模型學(xué)會(huì)生成更簡潔但仍然正確的推理路徑。

這些方法通常需要精心收集問題并精確控制不同長度數(shù)據(jù)的比例才能取得良好效果，導(dǎo)致參數(shù)調(diào)整和數(shù)據(jù)構(gòu)建過程復(fù)雜。例如，TOPS需要手動(dòng)標(biāo)記監(jiān)督微調(diào)數(shù)據(jù)以構(gòu)建長度敏感的模型，而CoT-Valve則通過模型插值創(chuàng)建中間模型進(jìn)行采樣生成數(shù)據(jù)。這些構(gòu)建過程往往繁瑣、計(jì)算成本高或難以控制質(zhì)量。

三、揭秘短/長推理鏈在大模型思考?jí)嚎s中的作用

研究團(tuán)隊(duì)首先探究了混合短推理鏈（Short CoT）和長推理鏈（Long CoT）數(shù)據(jù)對(duì)壓縮推理過程的影響。他們發(fā)現(xiàn)：

系統(tǒng)1數(shù)據(jù)（簡單問題上的短推理鏈）能夠減少所有難度級(jí)別問題上的推理冗余。研究團(tuán)隊(duì)驚喜地發(fā)現(xiàn)，這種長度壓縮效果很好地泛化到了不同難度的問題上。簡單來說，就像學(xué)會(huì)用簡潔方式解決簡單問題的經(jīng)驗(yàn)，也能幫助我們?cè)诮鉀Q復(fù)雜問題時(shí)減少不必要的步驟。

系統(tǒng)2數(shù)據(jù)（僅在難題上的長推理鏈）有助于維持性能水平。研究表明，在混合數(shù)據(jù)中加入少量針對(duì)挑戰(zhàn)性問題的長推理鏈，可以減輕短推理鏈帶來的準(zhǔn)確度下降問題。而在簡單問題上使用長推理鏈則幫助不大。這就像在解決復(fù)雜謎題時(shí)，我們確實(shí)需要一些詳細(xì)的思考步驟，但對(duì)于簡單問題，過度思考反而是浪費(fèi)。

這些發(fā)現(xiàn)引出了一個(gè)關(guān)鍵問題：我們能否找到一個(gè)最佳的長-短數(shù)據(jù)混合比例，在最大化推理效率的同時(shí)保持準(zhǔn)確性？

四、動(dòng)態(tài)思考長度再權(quán)重方法（TLDR）

基于上述發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了一個(gè)直觀的方法：當(dāng)模型思考太長時(shí)，應(yīng)該重新加權(quán)更多直覺性推理路徑來簡化思考過程；相反，當(dāng)思考太直接時(shí)，應(yīng)該加入更多慢思考推理鏈來鼓勵(lì)更深入的思考。

他們將這一思想具體化為"思考長度數(shù)據(jù)再權(quán)重"（Thinking Length Data Re-Weighting，TLDR）方法。這種方法通過系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的動(dòng)態(tài)平衡，使模型能夠消除冗余的認(rèn)知過程。

具體實(shí)施步驟如下：

首先，研究者構(gòu)建了針對(duì)簡單問題的短推理鏈數(shù)據(jù)和針對(duì)復(fù)雜問題的長推理鏈數(shù)據(jù)。模型以初始比例開始，使用混合數(shù)據(jù)進(jìn)行推理壓縮。完成一個(gè)壓縮周期后，模型會(huì)重新評(píng)估系統(tǒng)1和系統(tǒng)2數(shù)據(jù)的預(yù)期收益，以實(shí)現(xiàn)更好的性能。

與直覺相符，系統(tǒng)1數(shù)據(jù)（短推理鏈）可以提高效率，所以研究者使用效率指標(biāo)來衡量系統(tǒng)1數(shù)據(jù)的預(yù)期收益。而系統(tǒng)2數(shù)據(jù)（長推理鏈）可以提高推理準(zhǔn)確性，因此用準(zhǔn)確性指標(biāo)來衡量系統(tǒng)2數(shù)據(jù)在推理能力方面的收益。

與需要不同推理長度的精心設(shè)計(jì)的微調(diào)數(shù)據(jù)的其他方法相比，TLDR方法只需利用原始模型采樣的長推理鏈和構(gòu)建的短推理鏈數(shù)據(jù)，通過動(dòng)態(tài)學(xué)習(xí)比例實(shí)現(xiàn)高效推理。在DeepSeek-Distill-7B/14B模型上的實(shí)驗(yàn)表明，該模型在7B/14B模型上都取得了出色的壓縮結(jié)果，推理能力只有輕微下降。

五、TLDR的技術(shù)實(shí)現(xiàn)細(xì)節(jié)

為了形式化思考?jí)嚎s問題，研究團(tuán)隊(duì)將其定義為一個(gè)優(yōu)化任務(wù)，目標(biāo)是確定系統(tǒng)1和系統(tǒng)2推理之間的最佳比例。他們期望通過混合數(shù)據(jù)訓(xùn)練的模型能夠在特定評(píng)估指標(biāo)上接近系統(tǒng)1和系統(tǒng)2的性能上限。

模型優(yōu)化目標(biāo)為：最小化模型與系統(tǒng)1效率上限之間的差距，以及與系統(tǒng)2推理能力上限之間的差距，同時(shí)優(yōu)化模型參數(shù)以最大化推理性能和效率。

對(duì)于系統(tǒng)1/2混合數(shù)據(jù)的設(shè)置，研究團(tuán)隊(duì)利用短推理鏈模型來調(diào)制系統(tǒng)1模型的數(shù)據(jù)，使用長推理鏈模型從S1采樣難題提示，并只保留正確的回答。最終，他們獲得了<簡單問題，短推理鏈>和<難題，長推理鏈>的指令數(shù)據(jù)對(duì)。

在訓(xùn)練過程中，研究團(tuán)隊(duì)不斷調(diào)整系統(tǒng)1和系統(tǒng)2數(shù)據(jù)在后訓(xùn)練階段的比例，確保模型保留原始長推理鏈模型的推理能力，同時(shí)實(shí)現(xiàn)短推理鏈模型的效率。他們將準(zhǔn)確度上限設(shè)定為與原始長推理鏈模型的準(zhǔn)確度相匹配，將代幣下限設(shè)定為與構(gòu)建的短推理鏈模型的數(shù)據(jù)下限相對(duì)應(yīng)。

六、實(shí)驗(yàn)結(jié)果與比較

研究團(tuán)隊(duì)在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上對(duì)TLDR方法進(jìn)行了驗(yàn)證，并使用多個(gè)難度不同的基準(zhǔn)測(cè)試集（包括ASDiv、GSM8K、MATH-500、AIME2024和AMC）進(jìn)行了評(píng)估。

實(shí)驗(yàn)結(jié)果表明，TLDR方法在保持推理準(zhǔn)確性的同時(shí)，顯著減少了輸出令牌的數(shù)量，平均壓縮率接近40%。這意味著模型能夠用更少的"文字"表達(dá)相同的思考過程和得出正確答案。

與其他基線方法相比：

基于提示的方法（如TALE-EP、ConciseCoT）：TLDR在保持類似準(zhǔn)確度的情況下實(shí)現(xiàn)了更高的壓縮率。

基于模型合并的方法（如平均合并、任務(wù)算術(shù)合并等）：這些方法在挑戰(zhàn)性問題上仍然面臨顯著的性能下降，而TLDR能夠在不同難度的數(shù)據(jù)集上保持準(zhǔn)確性。

基于獎(jiǎng)勵(lì)的方法（如ThinkPruner、Overthink）：與CoT-Valve和ThinkPrune相比，TLDR在ASDiv和GSM8K等容易出現(xiàn)過度探索的數(shù)據(jù)集上實(shí)現(xiàn)了出色的壓縮率。

值得注意的是，CoT-Valve作為一種基于SFT的方法，需要精心設(shè)計(jì)的模型混合和構(gòu)建長度多樣的數(shù)據(jù)集進(jìn)行動(dòng)態(tài)學(xué)習(xí)。相比之下，TLDR方法只需要直接的數(shù)據(jù)采樣和自適應(yīng)混合比例，以更簡單的方式實(shí)現(xiàn)自適應(yīng)推理。

七、研究意義與未來展望

TLDR方法為大語言模型的推理壓縮提供了一種創(chuàng)新的解決方案。通過動(dòng)態(tài)再權(quán)重系統(tǒng)1（簡潔推理）和系統(tǒng)2（詳細(xì)推理）數(shù)據(jù)在訓(xùn)練過程中的影響，TLDR使大語言模型能夠?yàn)楹唵螁栴}消除不必要的步驟，同時(shí)仍然能夠?yàn)閺?fù)雜任務(wù)進(jìn)行深入思考。

這種方法避免了其他壓縮方法通常需要的繁瑣數(shù)據(jù)收集和超參數(shù)調(diào)整，為開發(fā)既高效又準(zhǔn)確的大語言模型提供了更實(shí)用的解決方案。

未來研究可能會(huì)探索將TLDR方法應(yīng)用于更廣泛的任務(wù)和模型架構(gòu)，進(jìn)一步提高推理效率并減少計(jì)算資源消耗。這不僅可以降低大語言模型的運(yùn)行成本，還可以使它們?cè)谫Y源受限的環(huán)境中更加實(shí)用，如移動(dòng)設(shè)備或邊緣計(jì)算設(shè)備。

總之，TLDR方法代表了一種平衡效率和準(zhǔn)確性的新思路，為大語言模型的發(fā)展提供了有價(jià)值的貢獻(xiàn)，使AI系統(tǒng)能夠更加智能地分配其"思考"資源，對(duì)簡單問題快速作出反應(yīng)，對(duì)復(fù)雜問題進(jìn)行深入思考，就像人類的思維過程一樣靈活和高效。

人工智能大語言模型推理思考?jí)嚎s技術(shù)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

^{<sub id="nqfpu"><i id="nqfpu"></i></sub>}<legend id="nqfpu"><li id="nqfpu"><menuitem id="nqfpu"></menuitem></li></legend>