av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="pvuib"><p id="pvuib"></p></blockquote>

<cite id="pvuib"><track id="pvuib"></track></cite>

<cite id="pvuib"><track id="pvuib"></track></cite>

<sub id="pvuib"><i id="pvuib"></i></sub>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

從令牌到行動：狀態(tài)機推理減輕信息檢索中的過度思考

信息檢索狀態(tài)機推理大語言模型過度思考

從令牌到行動：狀態(tài)機推理減輕信息檢索中的過度思考

作者：科技行者

2025-06-05 12:03

分享至：

這項來自首爾國立大學的研究提出了狀態(tài)機推理（SMR）框架，解決了大型語言模型在信息檢索中的過度思考問題。研究者將推理過程從冗長的令牌生成轉變?yōu)殡x散動作（精煉、重排序、停止），使系統(tǒng)能夠高效地在狀態(tài)間轉換。實驗結果表明，SMR在BEIR和BRIGHT基準測試中顯著提高了檢索性能，同時減少了74.4%的計算資源消耗，證明其在不同語言模型和檢索器中的通用性。這種結構化方法不僅解決了冗余軌跡和誤導性推理問題，還為構建更高效的信息檢索系統(tǒng)提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 12:03 ? 科技行者

Seoul國立大學計算機科學與工程學院的Dohyeon Lee、跨學科人工智能項目的Yeonseok Jeong以及同時隸屬于這兩個部門的Seung-won Hwang教授（通訊作者）于2025年5月29日發(fā)表了一篇題為《From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval》的研究論文。這篇發(fā)表在arXiv預印本平臺上的研究（編號為2505.23059v1）探討了如何解決大型語言模型在信息檢索中的過度思考問題。

大型語言模型（LLM）的思維鏈（Chain-of-Thought，簡稱CoT）提示已經(jīng)成為增強復雜推理的強大工具，特別是在信息檢索（IR）領域。想象一下，當你向搜索引擎提問"什么是LLM？"時，系統(tǒng)需要理解你的意圖并找到最相關的信息。傳統(tǒng)的搜索方式可能僅僅匹配關鍵詞，但使用CoT推理的模型會像人類一樣思考："用戶想知道LLM是什么，這是一個縮寫，我應該解釋它代表'大型語言模型'，可能還需要提供更多背景信息..."

然而，研究團隊發(fā)現(xiàn)，這種思維鏈方法經(jīng)常導致"過度思考"問題——模型生成冗長且語義重復的推理步驟，不僅沒有實際幫助，有時甚至會產(chǎn)生負面影響。就像一個過分熱心的朋友，在回答你簡單問題時不停地解釋、重復、偏離話題，最終讓你感到困惑而非清晰。

研究者確定了信息檢索中兩個關鍵挑戰(zhàn)：一是冗余軌跡，模型反復回到類似的狀態(tài)；二是誤導性推理，推理過程偏離用戶意圖。想象一下，如果你問"什么是LLM？"，模型可能先解釋縮寫，然后考慮用戶可能想了解更多，嘗試改寫查詢，反復思考幾個選項，最終可能偏離到討論LLM的應用場景，而非你最初想知道的定義。

為了解決這些問題，研究團隊提出了狀態(tài)機推理（State Machine Reasoning，簡稱SMR）框架。這是一種基于轉換的推理框架，由三個離散動作組成：精煉（REFINE）、重新排序（RERANK）和停止（STOP）。就像導航系統(tǒng)一樣，SMR不會像傳統(tǒng)思維鏈那樣不停地"思考路線"，而是根據(jù)當前狀態(tài)直接決定下一步行動：是修改當前路線（精煉查詢），調整目的地優(yōu)先級（重新排序結果），還是已經(jīng)達到目標可以停止導航。

在BEIR和BRIGHT這兩個基準測試中的實驗表明，SMR不僅提高了檢索性能（nDCG@10）3.4%，更令人印象深刻的是同時減少了74.4%的令牌使用量。簡單來說，它不僅找到了更好的答案，還用了更少的計算資源。更重要的是，這種方法在不同的語言模型和檢索器之間表現(xiàn)穩(wěn)定，無需任務特定的調整，為傳統(tǒng)CoT推理提供了一種實用的替代方案。

一、理解過度思考問題：為何高效推理在信息檢索中如此重要

想象一下你在擁擠的圖書館尋找一本特定的書。傳統(tǒng)的搜索方式相當于你按照書名直接查找目錄。而思維鏈（CoT）推理則像是一個圖書管理員幫你思考："這本書可能在哪個分類下？作者是誰？它可能與哪些相關主題放在一起？"這種思考過程對于找到復雜問題的答案非常有價值。

然而，過度熱心的圖書管理員可能會陷入無休止的思考："這本書可能在科幻區(qū)，不過也可能被歸類在幻想文學，或者因為作者的背景也可能在傳記區(qū)，但考慮到內(nèi)容也可能在科學區(qū)..."這就是研究團隊所說的"過度思考"問題。

研究者發(fā)現(xiàn)，在信息檢索領域，CoT推理面臨兩個主要挑戰(zhàn)。首先是冗余軌跡問題。如圖1(a)所示，當模型試圖理解"什么是LLM？"這個查詢時，它可能會生成許多語義上重復的步驟："LLM是一個縮寫，代表Large Language Model"，然后思考"用戶可能想要更深入的理解"，接著考慮重新表述查詢，最終又回到原始表述。這些冗余步驟會消耗大量計算資源，卻沒有引入任何新的證據(jù)來改善檢索結果。

第二個挑戰(zhàn)是誤導性推理。一些方法嘗試通過強化學習壓縮CoT軌跡，如O1-Pruner。如圖1(b)所示，這種壓縮可能導致語法上簡潔但語義上偏離的查詢，例如將"什么是LLM？"改寫為"哪些應用程序利用LLM？"。這種偏離會導致檢索到不相關的文檔，如圖中的d5和d6，完全違背了用戶原始的定義查詢意圖。此外，這種壓縮方法需要任務特定的訓練和獎勵工程，限制了其泛化能力。

二、狀態(tài)機推理：一種結構化的解決方案

為了應對這些挑戰(zhàn)，研究團隊提出了狀態(tài)機推理（SMR）框架。想象你在使用一個智能導航系統(tǒng)——不是那種不停喃喃自語思考所有可能路線的系統(tǒng)，而是一個清晰告訴你"轉彎"、"直行"或"到達目的地"的系統(tǒng)。SMR就是這樣一個框架，它將推理簡化為三個明確的動作：精煉查詢、重新排序結果或停止推理。

如圖1(c)所示，SMR將每一步表示為狀態(tài)(q, D)之間的轉換，其中q表示當前查詢，D表示檢索到的文檔排序列表。比如，初始狀態(tài)可能是查詢"什么是LLM？"和一些初步檢索到的文檔d1、d2。模型首先選擇REFINE動作展開縮寫，將查詢更新為"什么是大型語言模型？"，這樣能檢索到更多相關文檔如d3和d4。接著，它選擇RERANK動作，識別出d3是最相關的文檔并將其移到結果列表的頂部。最后，當模型確定進一步推理不會產(chǎn)生增益時，它選擇STOP動作結束過程。

這種設計帶來兩個關鍵優(yōu)勢。首先是令牌效率。傳統(tǒng)的令牌級生成方法缺乏識別語義重復的機制，而SMR通過在顯式定義的狀態(tài)上操作，避免了冗余推理。每一步都更新一個結構化狀態(tài)，使系統(tǒng)能夠檢測何時回到等效狀態(tài)，從而實現(xiàn)早期停止。

其次是動作有效性。通過將每個推理步驟基于IR相關操作，SMR使檢索系統(tǒng)能夠通過兩個明確的動作做出改進：REFINE用于查詢重寫，RERANK用于文檔重新排序。這些動作使系統(tǒng)能夠在當前結果不足時重新發(fā)出查詢，或在初始排名不理想時重新排序文檔。這種設計支持增量檢索改進，并精確控制在每一步調整管道的哪個組件。相比之下，令牌級生成缺乏對每一步改進的明確驗證，可能導致偏離用戶意圖的輸出。

三、SMR框架的技術實現(xiàn)：從概念到實踐

研究團隊將SMR框架設計為馬爾可夫決策過程（MDP），具有離散動作空間和結構化狀態(tài)表示。雖然他們沒有顯式學習價值函數(shù)，但設計靈感來自決策理論框架，其中每個推理步驟對應于抽象狀態(tài)之間的轉換。

在這個框架中，推理狀態(tài)被表示為結構化元組(qt, Dt)，其中qt表示當前查詢，Dt是檢索到的前k個文檔的排序列表。初始狀態(tài)s0 = (q0, D0)使用用戶發(fā)出的查詢q0和從靜態(tài)檢索器獲得的相應文檔D0構建。隨后的推理步驟更新查詢或文檔列表，產(chǎn)生結構化狀態(tài)的軌跡。

為了避免冗余推理并減輕過度思考，SMR采用停止機制，檢測系統(tǒng)何時已達到等效狀態(tài)。具體來說，如果當前狀態(tài)st = (qt, Dt)中的檢索文檔與之前狀態(tài)相同且查詢保持不變，則將st視為等同于st-1。這確保狀態(tài)轉換反映增量改進而非冗余循環(huán)。

SMR的動作空間包含三個離散動作：REFINE、RERANK和STOP。REFINE動作更新查詢以更好地反映用戶的信息需求，由當前檢索上下文引導。每次REFINE后，使用更新的查詢qt+1調用檢索器獲取新的候選文檔。如果檢索到的任何文檔尚未出現(xiàn)在Dt中，則將它們附加到當前列表的末尾，確保檢索狀態(tài)的有意義演化而不丟棄現(xiàn)有上下文。

RERANK動作調整文檔列表的順序而不修改查詢。它在初始檢索不完美時細化文檔排名，允許更好的相關性估計同時保持查詢固定。為了解決重新排序過程中可能出現(xiàn)的幻覺問題，研究者對輸出施加結構約束。如果重新排序的列表包含原始Dt中不存在的文檔，這些條目將被丟棄；如果列表遺漏了原始集中的任何文檔，則按原始順序重新附加缺失項，確?？甾D換保持檢索狀態(tài)的完整性。

STOP動作終止推理過程，返回當前狀態(tài)st = (qt, Dt)作為最終輸出。這允許系統(tǒng)在達到足夠檢索質量后避免不必要的步驟，提高令牌效率并防止語義漂移。除了語義等價外，還設置了推理步驟的硬上限（通常為16步）來控制推理成本，確保在資源有限的部署場景中的穩(wěn)健性。

在每個推理步驟中，系統(tǒng)根據(jù)當前狀態(tài)(qt, Dt)選擇三個可用動作之一。研究者采用基于提示的策略，由LLM本身作為評估當前推理上下文并選擇最合適下一步的評委。提示描述了代理的角色——負責改善檢索結果質量的決策者，并以結構化格式呈現(xiàn)當前查詢及其關聯(lián)文檔。

圖2展示了整個流程的工作方式。從初始查詢"什么是LLM？"開始，通過初始檢索獲取文檔[d1, d2]。在第一步中，模型選擇REFINE動作，將縮寫擴展為完整名稱，并給出理由"使用完整名稱"。這導致了新查詢"什么是大型語言模型？"并檢索到更多文檔[d1, d2, d3, d4]。接著，模型執(zhí)行RERANK動作，注意到"d3看起來最相關"，將文檔重新排序為[d3, d1, d2, d4]。最后，模型選擇STOP動作，理由是"我們已經(jīng)有足夠的信息"，終止推理過程。

四、實驗驗證：SMR在實際檢索任務中的表現(xiàn)

研究團隊在兩個基準測試上驗證了SMR的有效性：BRIGHT和BEIR。BRIGHT是一個專為評估推理密集型檢索場景設計的最新基準，包含12個子集，涵蓋多樣化領域如StackExchange論壇、編程問題和STEM問答任務，查詢通常需要領域特定推理來識別相關段落。BEIR則是一個廣泛使用的基準，包括多樣化領域（如事實問答、生物醫(yī)學搜索和以實體為中心的檢索），主要衡量一般檢索性能。

研究者使用nDCG@10作為主要評估指標，遵循標準IR實踐。實驗中比較了SMR與多種基線：傳統(tǒng)稀疏檢索器BM25、為通用推理任務專門訓練的最先進密集檢索器ReasonIR、基于CoT的推理模型Rank1和Rank-R1，以及基于RL的方法O1-Pruner。為確保公平比較，團隊在不同能力的LLM（Qwen2.5-32B和QwQ-32B）上進行了實驗。

表1和表2展示了在BRIGHT基準上使用不同檢索器（BM25和ReasonIR）的實驗結果。在所有12個領域中，SMR一致優(yōu)于標準和壓縮的CoT基線。特別是，SMR在使用稀疏檢索器時平均nDCG@10提高了5.4%，在使用密集檢索器時提高了2.1%，證明了其結構化推理框架在復雜檢索場景中的高效性，無論底層LLM如何。

圖3呈現(xiàn)了SMR在BRIGHT基準上選擇的推理動作分布。每個條形代表REFINE和RERANK動作的相對頻率。研究者觀察到SMR并不遵循固定模式或靜態(tài)啟發(fā)式，而是根據(jù)每個任務的不同推理需求調整動作選擇。在初始檢索結果相對信息豐富的領域（如Bio、Earth、Econ），模型主要使用RERANK調整文檔排序，同時保持原始查詢不變。相比之下，在初始檢索結果最差的領域（如TheoT、AoPS、Pony、TheoQ），表現(xiàn)出更高比例的REFINE動作，在某些情況下高達70%。

這種模式與底層檢索難度強烈相關。面對有限的初始證據(jù)，SMR自適應地運行多輪查詢細化，嘗試在停止前呈現(xiàn)更好的文檔。這種行為表明，行動策略不是基于簡單的基于規(guī)則的啟發(fā)式，而是利用上下文線索做出明智決策。

在令牌效率方面，如圖4所示，SMR在BRIGHT基準上的五個代表性數(shù)據(jù)集（Bio、Earth、Econ、Pay、Rob）中始終消耗顯著少于先前基線的令牌，包括Rank1、Rank-R1和O1-Pruner。平均而言，SMR減少了74.4%的推理令牌使用量，其性能甚至優(yōu)于CoT壓縮方法如O1-Pruner，后者僅實現(xiàn)了不到5%的邊際減少。

圖5展示了SMR在BRIGHT基準上的轉換統(tǒng)計。每個條形指示達到推理動作中每一步的查詢數(shù)量，使用累積計數(shù)計算。研究者觀察到25%的查詢在3步內(nèi)終止，50%在6步內(nèi)終止，表明系統(tǒng)快速收斂，驗證了早期停止機制的有效性。同時，25%的查詢（綠色條）表現(xiàn)出12個或更多動作，特別是對于復雜或模糊的輸入，這些受益于額外的細化和重新排序，說明SMR有選擇地分配計算資源的靈活性。

為評估SMR在標準檢索場景中的一般適用性，研究者在BEIR基準上進行了實驗。表3展示了在三個BEIR數(shù)據(jù)集（DBpedia、SciFact和FiQA）上的nDCG@10結果。SMR在所有方法中實現(xiàn)了最高的平均性能，優(yōu)于標準CoT和壓縮推理方法，證明其結構化推理方法不僅專門用于推理密集型場景，還有效地轉移到標準檢索場景。

五、SMR的局限性與未來方向

盡管SMR提供了令牌級推理的模塊化和令牌高效的替代方案，但當前的狀態(tài)表示僅限于表示查詢和檢索到的前k個文檔，不包含用戶交互信號，如點擊率或參與度指標。研究者指出，合并這類行為反饋可能進一步增強狀態(tài)保真度和推理質量。

此外，雖然研究者將推理動作限制為REFINE、RERANK和STOP，但框架的模塊化性質允許集成額外操作，如領域特定檢索模塊、文檔過濾器或其他工具，無需架構更改。這為未來研究提供了擴展SMR框架的廣闊空間。

通過實驗證明，SMR成功解決了信息檢索中的過度思考問題，提供了一種更高效、更有效的推理方法。它在提高檢索性能的同時大幅減少了計算資源使用，并且在不同檢索器和語言模型之間表現(xiàn)出強大的泛化能力，無需任務特定的調整。

總的來說，這項研究代表了信息檢索推理方法的重要進步，為未來更高效、更有效的信息檢索系統(tǒng)鋪平了道路。通過將思維過程從令牌級生成轉變?yōu)榻Y構化狀態(tài)轉換，SMR提供了一種實用的解決方案，可以無縫集成到各種檢索系統(tǒng)中，不需要模型特定的調整。

信息檢索狀態(tài)機推理大語言模型過度思考

分享至

0贊

好文章，需要你的鼓勵

推薦文章

自對弈訓練
推理能力提升
零和游戲學習

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學發(fā)現(xiàn)自對弈訓練的神奇效果

新加坡國立大學研究團隊開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示，僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中，為AI訓練提供了新思路。
計算機視覺
圖像降噪
3D相機技術

2025-07-02 14:26

同濟大學突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術

同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息，創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系，結合深度學習和數(shù)學優(yōu)化方法，在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升，并在真實設備上展現(xiàn)出色泛化能力，為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強化學習

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學研究揭示令人意外的真相

伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn)，經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象，但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距"，即生成答案的能力強于驗證答案質量的能力，且模型在自我驗證時無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓練
計算效率優(yōu)化

2025-07-02 14:25

MIT團隊發(fā)明"智能減肥法"讓AI訓練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機構聯(lián)合提出SparseLoRA技術，通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍，計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分，在保持模型性能的同時顯著提升訓練效率，已在多個任務上驗證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學發(fā)現(xiàn)自對弈訓練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學發(fā)現(xiàn)自對弈訓練的神奇效果

2025-07-02 14:26

同濟大學突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術

同濟大學突破性研究：讓3D相機告別"噪點困擾"的智能降噪新技術

2025-07-02 14:26

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學研究揭示令人意外的真相

AI視覺推理模型的"頓悟時刻"真的存在嗎？伊利諾伊大學研究揭示令人意外的真相

2025-07-02 14:26

MIT團隊發(fā)明"智能減肥法"讓AI訓練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團隊發(fā)明"智能減肥法"讓AI訓練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn