Seoul國立大學計算機科學與工程學院的Dohyeon Lee、跨學科人工智能項目的Yeonseok Jeong以及同時隸屬于這兩個部門的Seung-won Hwang教授(通訊作者)于2025年5月29日發(fā)表了一篇題為《From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval》的研究論文。這篇發(fā)表在arXiv預印本平臺上的研究(編號為2505.23059v1)探討了如何解決大型語言模型在信息檢索中的過度思考問題。
大型語言模型(LLM)的思維鏈(Chain-of-Thought,簡稱CoT)提示已經(jīng)成為增強復雜推理的強大工具,特別是在信息檢索(IR)領域。想象一下,當你向搜索引擎提問"什么是LLM?"時,系統(tǒng)需要理解你的意圖并找到最相關的信息。傳統(tǒng)的搜索方式可能僅僅匹配關鍵詞,但使用CoT推理的模型會像人類一樣思考:"用戶想知道LLM是什么,這是一個縮寫,我應該解釋它代表'大型語言模型',可能還需要提供更多背景信息..."
然而,研究團隊發(fā)現(xiàn),這種思維鏈方法經(jīng)常導致"過度思考"問題——模型生成冗長且語義重復的推理步驟,不僅沒有實際幫助,有時甚至會產(chǎn)生負面影響。就像一個過分熱心的朋友,在回答你簡單問題時不停地解釋、重復、偏離話題,最終讓你感到困惑而非清晰。
研究者確定了信息檢索中兩個關鍵挑戰(zhàn):一是冗余軌跡,模型反復回到類似的狀態(tài);二是誤導性推理,推理過程偏離用戶意圖。想象一下,如果你問"什么是LLM?",模型可能先解釋縮寫,然后考慮用戶可能想了解更多,嘗試改寫查詢,反復思考幾個選項,最終可能偏離到討論LLM的應用場景,而非你最初想知道的定義。
為了解決這些問題,研究團隊提出了狀態(tài)機推理(State Machine Reasoning,簡稱SMR)框架。這是一種基于轉換的推理框架,由三個離散動作組成:精煉(REFINE)、重新排序(RERANK)和停止(STOP)。就像導航系統(tǒng)一樣,SMR不會像傳統(tǒng)思維鏈那樣不停地"思考路線",而是根據(jù)當前狀態(tài)直接決定下一步行動:是修改當前路線(精煉查詢),調整目的地優(yōu)先級(重新排序結果),還是已經(jīng)達到目標可以停止導航。
在BEIR和BRIGHT這兩個基準測試中的實驗表明,SMR不僅提高了檢索性能(nDCG@10)3.4%,更令人印象深刻的是同時減少了74.4%的令牌使用量。簡單來說,它不僅找到了更好的答案,還用了更少的計算資源。更重要的是,這種方法在不同的語言模型和檢索器之間表現(xiàn)穩(wěn)定,無需任務特定的調整,為傳統(tǒng)CoT推理提供了一種實用的替代方案。
一、理解過度思考問題:為何高效推理在信息檢索中如此重要
想象一下你在擁擠的圖書館尋找一本特定的書。傳統(tǒng)的搜索方式相當于你按照書名直接查找目錄。而思維鏈(CoT)推理則像是一個圖書管理員幫你思考:"這本書可能在哪個分類下?作者是誰?它可能與哪些相關主題放在一起?"這種思考過程對于找到復雜問題的答案非常有價值。
然而,過度熱心的圖書管理員可能會陷入無休止的思考:"這本書可能在科幻區(qū),不過也可能被歸類在幻想文學,或者因為作者的背景也可能在傳記區(qū),但考慮到內(nèi)容也可能在科學區(qū)..."這就是研究團隊所說的"過度思考"問題。
研究者發(fā)現(xiàn),在信息檢索領域,CoT推理面臨兩個主要挑戰(zhàn)。首先是冗余軌跡問題。如圖1(a)所示,當模型試圖理解"什么是LLM?"這個查詢時,它可能會生成許多語義上重復的步驟:"LLM是一個縮寫,代表Large Language Model",然后思考"用戶可能想要更深入的理解",接著考慮重新表述查詢,最終又回到原始表述。這些冗余步驟會消耗大量計算資源,卻沒有引入任何新的證據(jù)來改善檢索結果。
第二個挑戰(zhàn)是誤導性推理。一些方法嘗試通過強化學習壓縮CoT軌跡,如O1-Pruner。如圖1(b)所示,這種壓縮可能導致語法上簡潔但語義上偏離的查詢,例如將"什么是LLM?"改寫為"哪些應用程序利用LLM?"。這種偏離會導致檢索到不相關的文檔,如圖中的d5和d6,完全違背了用戶原始的定義查詢意圖。此外,這種壓縮方法需要任務特定的訓練和獎勵工程,限制了其泛化能力。
二、狀態(tài)機推理:一種結構化的解決方案
為了應對這些挑戰(zhàn),研究團隊提出了狀態(tài)機推理(SMR)框架。想象你在使用一個智能導航系統(tǒng)——不是那種不停喃喃自語思考所有可能路線的系統(tǒng),而是一個清晰告訴你"轉彎"、"直行"或"到達目的地"的系統(tǒng)。SMR就是這樣一個框架,它將推理簡化為三個明確的動作:精煉查詢、重新排序結果或停止推理。
如圖1(c)所示,SMR將每一步表示為狀態(tài)(q, D)之間的轉換,其中q表示當前查詢,D表示檢索到的文檔排序列表。比如,初始狀態(tài)可能是查詢"什么是LLM?"和一些初步檢索到的文檔d1、d2。模型首先選擇REFINE動作展開縮寫,將查詢更新為"什么是大型語言模型?",這樣能檢索到更多相關文檔如d3和d4。接著,它選擇RERANK動作,識別出d3是最相關的文檔并將其移到結果列表的頂部。最后,當模型確定進一步推理不會產(chǎn)生增益時,它選擇STOP動作結束過程。
這種設計帶來兩個關鍵優(yōu)勢。首先是令牌效率。傳統(tǒng)的令牌級生成方法缺乏識別語義重復的機制,而SMR通過在顯式定義的狀態(tài)上操作,避免了冗余推理。每一步都更新一個結構化狀態(tài),使系統(tǒng)能夠檢測何時回到等效狀態(tài),從而實現(xiàn)早期停止。
其次是動作有效性。通過將每個推理步驟基于IR相關操作,SMR使檢索系統(tǒng)能夠通過兩個明確的動作做出改進:REFINE用于查詢重寫,RERANK用于文檔重新排序。這些動作使系統(tǒng)能夠在當前結果不足時重新發(fā)出查詢,或在初始排名不理想時重新排序文檔。這種設計支持增量檢索改進,并精確控制在每一步調整管道的哪個組件。相比之下,令牌級生成缺乏對每一步改進的明確驗證,可能導致偏離用戶意圖的輸出。
三、SMR框架的技術實現(xiàn):從概念到實踐
研究團隊將SMR框架設計為馬爾可夫決策過程(MDP),具有離散動作空間和結構化狀態(tài)表示。雖然他們沒有顯式學習價值函數(shù),但設計靈感來自決策理論框架,其中每個推理步驟對應于抽象狀態(tài)之間的轉換。
在這個框架中,推理狀態(tài)被表示為結構化元組(qt, Dt),其中qt表示當前查詢,Dt是檢索到的前k個文檔的排序列表。初始狀態(tài)s0 = (q0, D0)使用用戶發(fā)出的查詢q0和從靜態(tài)檢索器獲得的相應文檔D0構建。隨后的推理步驟更新查詢或文檔列表,產(chǎn)生結構化狀態(tài)的軌跡。
為了避免冗余推理并減輕過度思考,SMR采用停止機制,檢測系統(tǒng)何時已達到等效狀態(tài)。具體來說,如果當前狀態(tài)st = (qt, Dt)中的檢索文檔與之前狀態(tài)相同且查詢保持不變,則將st視為等同于st-1。這確保狀態(tài)轉換反映增量改進而非冗余循環(huán)。
SMR的動作空間包含三個離散動作:REFINE、RERANK和STOP。REFINE動作更新查詢以更好地反映用戶的信息需求,由當前檢索上下文引導。每次REFINE后,使用更新的查詢qt+1調用檢索器獲取新的候選文檔。如果檢索到的任何文檔尚未出現(xiàn)在Dt中,則將它們附加到當前列表的末尾,確保檢索狀態(tài)的有意義演化而不丟棄現(xiàn)有上下文。
RERANK動作調整文檔列表的順序而不修改查詢。它在初始檢索不完美時細化文檔排名,允許更好的相關性估計同時保持查詢固定。為了解決重新排序過程中可能出現(xiàn)的幻覺問題,研究者對輸出施加結構約束。如果重新排序的列表包含原始Dt中不存在的文檔,這些條目將被丟棄;如果列表遺漏了原始集中的任何文檔,則按原始順序重新附加缺失項,確??甾D換保持檢索狀態(tài)的完整性。
STOP動作終止推理過程,返回當前狀態(tài)st = (qt, Dt)作為最終輸出。這允許系統(tǒng)在達到足夠檢索質量后避免不必要的步驟,提高令牌效率并防止語義漂移。除了語義等價外,還設置了推理步驟的硬上限(通常為16步)來控制推理成本,確保在資源有限的部署場景中的穩(wěn)健性。
在每個推理步驟中,系統(tǒng)根據(jù)當前狀態(tài)(qt, Dt)選擇三個可用動作之一。研究者采用基于提示的策略,由LLM本身作為評估當前推理上下文并選擇最合適下一步的評委。提示描述了代理的角色——負責改善檢索結果質量的決策者,并以結構化格式呈現(xiàn)當前查詢及其關聯(lián)文檔。
圖2展示了整個流程的工作方式。從初始查詢"什么是LLM?"開始,通過初始檢索獲取文檔[d1, d2]。在第一步中,模型選擇REFINE動作,將縮寫擴展為完整名稱,并給出理由"使用完整名稱"。這導致了新查詢"什么是大型語言模型?"并檢索到更多文檔[d1, d2, d3, d4]。接著,模型執(zhí)行RERANK動作,注意到"d3看起來最相關",將文檔重新排序為[d3, d1, d2, d4]。最后,模型選擇STOP動作,理由是"我們已經(jīng)有足夠的信息",終止推理過程。
四、實驗驗證:SMR在實際檢索任務中的表現(xiàn)
研究團隊在兩個基準測試上驗證了SMR的有效性:BRIGHT和BEIR。BRIGHT是一個專為評估推理密集型檢索場景設計的最新基準,包含12個子集,涵蓋多樣化領域如StackExchange論壇、編程問題和STEM問答任務,查詢通常需要領域特定推理來識別相關段落。BEIR則是一個廣泛使用的基準,包括多樣化領域(如事實問答、生物醫(yī)學搜索和以實體為中心的檢索),主要衡量一般檢索性能。
研究者使用nDCG@10作為主要評估指標,遵循標準IR實踐。實驗中比較了SMR與多種基線:傳統(tǒng)稀疏檢索器BM25、為通用推理任務專門訓練的最先進密集檢索器ReasonIR、基于CoT的推理模型Rank1和Rank-R1,以及基于RL的方法O1-Pruner。為確保公平比較,團隊在不同能力的LLM(Qwen2.5-32B和QwQ-32B)上進行了實驗。
表1和表2展示了在BRIGHT基準上使用不同檢索器(BM25和ReasonIR)的實驗結果。在所有12個領域中,SMR一致優(yōu)于標準和壓縮的CoT基線。特別是,SMR在使用稀疏檢索器時平均nDCG@10提高了5.4%,在使用密集檢索器時提高了2.1%,證明了其結構化推理框架在復雜檢索場景中的高效性,無論底層LLM如何。
圖3呈現(xiàn)了SMR在BRIGHT基準上選擇的推理動作分布。每個條形代表REFINE和RERANK動作的相對頻率。研究者觀察到SMR并不遵循固定模式或靜態(tài)啟發(fā)式,而是根據(jù)每個任務的不同推理需求調整動作選擇。在初始檢索結果相對信息豐富的領域(如Bio、Earth、Econ),模型主要使用RERANK調整文檔排序,同時保持原始查詢不變。相比之下,在初始檢索結果最差的領域(如TheoT、AoPS、Pony、TheoQ),表現(xiàn)出更高比例的REFINE動作,在某些情況下高達70%。
這種模式與底層檢索難度強烈相關。面對有限的初始證據(jù),SMR自適應地運行多輪查詢細化,嘗試在停止前呈現(xiàn)更好的文檔。這種行為表明,行動策略不是基于簡單的基于規(guī)則的啟發(fā)式,而是利用上下文線索做出明智決策。
在令牌效率方面,如圖4所示,SMR在BRIGHT基準上的五個代表性數(shù)據(jù)集(Bio、Earth、Econ、Pay、Rob)中始終消耗顯著少于先前基線的令牌,包括Rank1、Rank-R1和O1-Pruner。平均而言,SMR減少了74.4%的推理令牌使用量,其性能甚至優(yōu)于CoT壓縮方法如O1-Pruner,后者僅實現(xiàn)了不到5%的邊際減少。
圖5展示了SMR在BRIGHT基準上的轉換統(tǒng)計。每個條形指示達到推理動作中每一步的查詢數(shù)量,使用累積計數(shù)計算。研究者觀察到25%的查詢在3步內(nèi)終止,50%在6步內(nèi)終止,表明系統(tǒng)快速收斂,驗證了早期停止機制的有效性。同時,25%的查詢(綠色條)表現(xiàn)出12個或更多動作,特別是對于復雜或模糊的輸入,這些受益于額外的細化和重新排序,說明SMR有選擇地分配計算資源的靈活性。
為評估SMR在標準檢索場景中的一般適用性,研究者在BEIR基準上進行了實驗。表3展示了在三個BEIR數(shù)據(jù)集(DBpedia、SciFact和FiQA)上的nDCG@10結果。SMR在所有方法中實現(xiàn)了最高的平均性能,優(yōu)于標準CoT和壓縮推理方法,證明其結構化推理方法不僅專門用于推理密集型場景,還有效地轉移到標準檢索場景。
五、SMR的局限性與未來方向
盡管SMR提供了令牌級推理的模塊化和令牌高效的替代方案,但當前的狀態(tài)表示僅限于表示查詢和檢索到的前k個文檔,不包含用戶交互信號,如點擊率或參與度指標。研究者指出,合并這類行為反饋可能進一步增強狀態(tài)保真度和推理質量。
此外,雖然研究者將推理動作限制為REFINE、RERANK和STOP,但框架的模塊化性質允許集成額外操作,如領域特定檢索模塊、文檔過濾器或其他工具,無需架構更改。這為未來研究提供了擴展SMR框架的廣闊空間。
通過實驗證明,SMR成功解決了信息檢索中的過度思考問題,提供了一種更高效、更有效的推理方法。它在提高檢索性能的同時大幅減少了計算資源使用,并且在不同檢索器和語言模型之間表現(xiàn)出強大的泛化能力,無需任務特定的調整。
總的來說,這項研究代表了信息檢索推理方法的重要進步,為未來更高效、更有效的信息檢索系統(tǒng)鋪平了道路。通過將思維過程從令牌級生成轉變?yōu)榻Y構化狀態(tài)轉換,SMR提供了一種實用的解決方案,可以無縫集成到各種檢索系統(tǒng)中,不需要模型特定的調整。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。