av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 從令牌到行動(dòng):狀態(tài)機(jī)推理減輕信息檢索中的過(guò)度思考

從令牌到行動(dòng):狀態(tài)機(jī)推理減輕信息檢索中的過(guò)度思考

2025-06-05 12:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 12:03 ? 科技行者

Seoul國(guó)立大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的Dohyeon Lee、跨學(xué)科人工智能項(xiàng)目的Yeonseok Jeong以及同時(shí)隸屬于這兩個(gè)部門的Seung-won Hwang教授(通訊作者)于2025年5月29日發(fā)表了一篇題為《From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval》的研究論文。這篇發(fā)表在arXiv預(yù)印本平臺(tái)上的研究(編號(hào)為2505.23059v1)探討了如何解決大型語(yǔ)言模型在信息檢索中的過(guò)度思考問(wèn)題。

大型語(yǔ)言模型(LLM)的思維鏈(Chain-of-Thought,簡(jiǎn)稱CoT)提示已經(jīng)成為增強(qiáng)復(fù)雜推理的強(qiáng)大工具,特別是在信息檢索(IR)領(lǐng)域。想象一下,當(dāng)你向搜索引擎提問(wèn)"什么是LLM?"時(shí),系統(tǒng)需要理解你的意圖并找到最相關(guān)的信息。傳統(tǒng)的搜索方式可能僅僅匹配關(guān)鍵詞,但使用CoT推理的模型會(huì)像人類一樣思考:"用戶想知道LLM是什么,這是一個(gè)縮寫,我應(yīng)該解釋它代表'大型語(yǔ)言模型',可能還需要提供更多背景信息..."

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),這種思維鏈方法經(jīng)常導(dǎo)致"過(guò)度思考"問(wèn)題——模型生成冗長(zhǎng)且語(yǔ)義重復(fù)的推理步驟,不僅沒(méi)有實(shí)際幫助,有時(shí)甚至?xí)a(chǎn)生負(fù)面影響。就像一個(gè)過(guò)分熱心的朋友,在回答你簡(jiǎn)單問(wèn)題時(shí)不停地解釋、重復(fù)、偏離話題,最終讓你感到困惑而非清晰。

研究者確定了信息檢索中兩個(gè)關(guān)鍵挑戰(zhàn):一是冗余軌跡,模型反復(fù)回到類似的狀態(tài);二是誤導(dǎo)性推理,推理過(guò)程偏離用戶意圖。想象一下,如果你問(wèn)"什么是LLM?",模型可能先解釋縮寫,然后考慮用戶可能想了解更多,嘗試改寫查詢,反復(fù)思考幾個(gè)選項(xiàng),最終可能偏離到討論LLM的應(yīng)用場(chǎng)景,而非你最初想知道的定義。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了狀態(tài)機(jī)推理(State Machine Reasoning,簡(jiǎn)稱SMR)框架。這是一種基于轉(zhuǎn)換的推理框架,由三個(gè)離散動(dòng)作組成:精煉(REFINE)、重新排序(RERANK)和停止(STOP)。就像導(dǎo)航系統(tǒng)一樣,SMR不會(huì)像傳統(tǒng)思維鏈那樣不停地"思考路線",而是根據(jù)當(dāng)前狀態(tài)直接決定下一步行動(dòng):是修改當(dāng)前路線(精煉查詢),調(diào)整目的地優(yōu)先級(jí)(重新排序結(jié)果),還是已經(jīng)達(dá)到目標(biāo)可以停止導(dǎo)航。

在BEIR和BRIGHT這兩個(gè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)表明,SMR不僅提高了檢索性能(nDCG@10)3.4%,更令人印象深刻的是同時(shí)減少了74.4%的令牌使用量。簡(jiǎn)單來(lái)說(shuō),它不僅找到了更好的答案,還用了更少的計(jì)算資源。更重要的是,這種方法在不同的語(yǔ)言模型和檢索器之間表現(xiàn)穩(wěn)定,無(wú)需任務(wù)特定的調(diào)整,為傳統(tǒng)CoT推理提供了一種實(shí)用的替代方案。

一、理解過(guò)度思考問(wèn)題:為何高效推理在信息檢索中如此重要

想象一下你在擁擠的圖書館尋找一本特定的書。傳統(tǒng)的搜索方式相當(dāng)于你按照書名直接查找目錄。而思維鏈(CoT)推理則像是一個(gè)圖書管理員幫你思考:"這本書可能在哪個(gè)分類下?作者是誰(shuí)?它可能與哪些相關(guān)主題放在一起?"這種思考過(guò)程對(duì)于找到復(fù)雜問(wèn)題的答案非常有價(jià)值。

然而,過(guò)度熱心的圖書管理員可能會(huì)陷入無(wú)休止的思考:"這本書可能在科幻區(qū),不過(guò)也可能被歸類在幻想文學(xué),或者因?yàn)樽髡叩谋尘耙部赡茉趥饔泤^(qū),但考慮到內(nèi)容也可能在科學(xué)區(qū)..."這就是研究團(tuán)隊(duì)所說(shuō)的"過(guò)度思考"問(wèn)題。

研究者發(fā)現(xiàn),在信息檢索領(lǐng)域,CoT推理面臨兩個(gè)主要挑戰(zhàn)。首先是冗余軌跡問(wèn)題。如圖1(a)所示,當(dāng)模型試圖理解"什么是LLM?"這個(gè)查詢時(shí),它可能會(huì)生成許多語(yǔ)義上重復(fù)的步驟:"LLM是一個(gè)縮寫,代表Large Language Model",然后思考"用戶可能想要更深入的理解",接著考慮重新表述查詢,最終又回到原始表述。這些冗余步驟會(huì)消耗大量計(jì)算資源,卻沒(méi)有引入任何新的證據(jù)來(lái)改善檢索結(jié)果。

第二個(gè)挑戰(zhàn)是誤導(dǎo)性推理。一些方法嘗試通過(guò)強(qiáng)化學(xué)習(xí)壓縮CoT軌跡,如O1-Pruner。如圖1(b)所示,這種壓縮可能導(dǎo)致語(yǔ)法上簡(jiǎn)潔但語(yǔ)義上偏離的查詢,例如將"什么是LLM?"改寫為"哪些應(yīng)用程序利用LLM?"。這種偏離會(huì)導(dǎo)致檢索到不相關(guān)的文檔,如圖中的d5和d6,完全違背了用戶原始的定義查詢意圖。此外,這種壓縮方法需要任務(wù)特定的訓(xùn)練和獎(jiǎng)勵(lì)工程,限制了其泛化能力。

二、狀態(tài)機(jī)推理:一種結(jié)構(gòu)化的解決方案

為了應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了狀態(tài)機(jī)推理(SMR)框架。想象你在使用一個(gè)智能導(dǎo)航系統(tǒng)——不是那種不停喃喃自語(yǔ)思考所有可能路線的系統(tǒng),而是一個(gè)清晰告訴你"轉(zhuǎn)彎"、"直行"或"到達(dá)目的地"的系統(tǒng)。SMR就是這樣一個(gè)框架,它將推理簡(jiǎn)化為三個(gè)明確的動(dòng)作:精煉查詢、重新排序結(jié)果或停止推理。

如圖1(c)所示,SMR將每一步表示為狀態(tài)(q, D)之間的轉(zhuǎn)換,其中q表示當(dāng)前查詢,D表示檢索到的文檔排序列表。比如,初始狀態(tài)可能是查詢"什么是LLM?"和一些初步檢索到的文檔d1、d2。模型首先選擇REFINE動(dòng)作展開(kāi)縮寫,將查詢更新為"什么是大型語(yǔ)言模型?",這樣能檢索到更多相關(guān)文檔如d3和d4。接著,它選擇RERANK動(dòng)作,識(shí)別出d3是最相關(guān)的文檔并將其移到結(jié)果列表的頂部。最后,當(dāng)模型確定進(jìn)一步推理不會(huì)產(chǎn)生增益時(shí),它選擇STOP動(dòng)作結(jié)束過(guò)程。

這種設(shè)計(jì)帶來(lái)兩個(gè)關(guān)鍵優(yōu)勢(shì)。首先是令牌效率。傳統(tǒng)的令牌級(jí)生成方法缺乏識(shí)別語(yǔ)義重復(fù)的機(jī)制,而SMR通過(guò)在顯式定義的狀態(tài)上操作,避免了冗余推理。每一步都更新一個(gè)結(jié)構(gòu)化狀態(tài),使系統(tǒng)能夠檢測(cè)何時(shí)回到等效狀態(tài),從而實(shí)現(xiàn)早期停止。

其次是動(dòng)作有效性。通過(guò)將每個(gè)推理步驟基于IR相關(guān)操作,SMR使檢索系統(tǒng)能夠通過(guò)兩個(gè)明確的動(dòng)作做出改進(jìn):REFINE用于查詢重寫,RERANK用于文檔重新排序。這些動(dòng)作使系統(tǒng)能夠在當(dāng)前結(jié)果不足時(shí)重新發(fā)出查詢,或在初始排名不理想時(shí)重新排序文檔。這種設(shè)計(jì)支持增量檢索改進(jìn),并精確控制在每一步調(diào)整管道的哪個(gè)組件。相比之下,令牌級(jí)生成缺乏對(duì)每一步改進(jìn)的明確驗(yàn)證,可能導(dǎo)致偏離用戶意圖的輸出。

三、SMR框架的技術(shù)實(shí)現(xiàn):從概念到實(shí)踐

研究團(tuán)隊(duì)將SMR框架設(shè)計(jì)為馬爾可夫決策過(guò)程(MDP),具有離散動(dòng)作空間和結(jié)構(gòu)化狀態(tài)表示。雖然他們沒(méi)有顯式學(xué)習(xí)價(jià)值函數(shù),但設(shè)計(jì)靈感來(lái)自決策理論框架,其中每個(gè)推理步驟對(duì)應(yīng)于抽象狀態(tài)之間的轉(zhuǎn)換。

在這個(gè)框架中,推理狀態(tài)被表示為結(jié)構(gòu)化元組(qt, Dt),其中qt表示當(dāng)前查詢,Dt是檢索到的前k個(gè)文檔的排序列表。初始狀態(tài)s0 = (q0, D0)使用用戶發(fā)出的查詢q0和從靜態(tài)檢索器獲得的相應(yīng)文檔D0構(gòu)建。隨后的推理步驟更新查詢或文檔列表,產(chǎn)生結(jié)構(gòu)化狀態(tài)的軌跡。

為了避免冗余推理并減輕過(guò)度思考,SMR采用停止機(jī)制,檢測(cè)系統(tǒng)何時(shí)已達(dá)到等效狀態(tài)。具體來(lái)說(shuō),如果當(dāng)前狀態(tài)st = (qt, Dt)中的檢索文檔與之前狀態(tài)相同且查詢保持不變,則將st視為等同于st-1。這確保狀態(tài)轉(zhuǎn)換反映增量改進(jìn)而非冗余循環(huán)。

SMR的動(dòng)作空間包含三個(gè)離散動(dòng)作:REFINE、RERANK和STOP。REFINE動(dòng)作更新查詢以更好地反映用戶的信息需求,由當(dāng)前檢索上下文引導(dǎo)。每次REFINE后,使用更新的查詢qt+1調(diào)用檢索器獲取新的候選文檔。如果檢索到的任何文檔尚未出現(xiàn)在Dt中,則將它們附加到當(dāng)前列表的末尾,確保檢索狀態(tài)的有意義演化而不丟棄現(xiàn)有上下文。

RERANK動(dòng)作調(diào)整文檔列表的順序而不修改查詢。它在初始檢索不完美時(shí)細(xì)化文檔排名,允許更好的相關(guān)性估計(jì)同時(shí)保持查詢固定。為了解決重新排序過(guò)程中可能出現(xiàn)的幻覺(jué)問(wèn)題,研究者對(duì)輸出施加結(jié)構(gòu)約束。如果重新排序的列表包含原始Dt中不存在的文檔,這些條目將被丟棄;如果列表遺漏了原始集中的任何文檔,則按原始順序重新附加缺失項(xiàng),確??甾D(zhuǎn)換保持檢索狀態(tài)的完整性。

STOP動(dòng)作終止推理過(guò)程,返回當(dāng)前狀態(tài)st = (qt, Dt)作為最終輸出。這允許系統(tǒng)在達(dá)到足夠檢索質(zhì)量后避免不必要的步驟,提高令牌效率并防止語(yǔ)義漂移。除了語(yǔ)義等價(jià)外,還設(shè)置了推理步驟的硬上限(通常為16步)來(lái)控制推理成本,確保在資源有限的部署場(chǎng)景中的穩(wěn)健性。

在每個(gè)推理步驟中,系統(tǒng)根據(jù)當(dāng)前狀態(tài)(qt, Dt)選擇三個(gè)可用動(dòng)作之一。研究者采用基于提示的策略,由LLM本身作為評(píng)估當(dāng)前推理上下文并選擇最合適下一步的評(píng)委。提示描述了代理的角色——負(fù)責(zé)改善檢索結(jié)果質(zhì)量的決策者,并以結(jié)構(gòu)化格式呈現(xiàn)當(dāng)前查詢及其關(guān)聯(lián)文檔。

圖2展示了整個(gè)流程的工作方式。從初始查詢"什么是LLM?"開(kāi)始,通過(guò)初始檢索獲取文檔[d1, d2]。在第一步中,模型選擇REFINE動(dòng)作,將縮寫擴(kuò)展為完整名稱,并給出理由"使用完整名稱"。這導(dǎo)致了新查詢"什么是大型語(yǔ)言模型?"并檢索到更多文檔[d1, d2, d3, d4]。接著,模型執(zhí)行RERANK動(dòng)作,注意到"d3看起來(lái)最相關(guān)",將文檔重新排序?yàn)閇d3, d1, d2, d4]。最后,模型選擇STOP動(dòng)作,理由是"我們已經(jīng)有足夠的信息",終止推理過(guò)程。

四、實(shí)驗(yàn)驗(yàn)證:SMR在實(shí)際檢索任務(wù)中的表現(xiàn)

研究團(tuán)隊(duì)在兩個(gè)基準(zhǔn)測(cè)試上驗(yàn)證了SMR的有效性:BRIGHT和BEIR。BRIGHT是一個(gè)專為評(píng)估推理密集型檢索場(chǎng)景設(shè)計(jì)的最新基準(zhǔn),包含12個(gè)子集,涵蓋多樣化領(lǐng)域如StackExchange論壇、編程問(wèn)題和STEM問(wèn)答任務(wù),查詢通常需要領(lǐng)域特定推理來(lái)識(shí)別相關(guān)段落。BEIR則是一個(gè)廣泛使用的基準(zhǔn),包括多樣化領(lǐng)域(如事實(shí)問(wèn)答、生物醫(yī)學(xué)搜索和以實(shí)體為中心的檢索),主要衡量一般檢索性能。

研究者使用nDCG@10作為主要評(píng)估指標(biāo),遵循標(biāo)準(zhǔn)IR實(shí)踐。實(shí)驗(yàn)中比較了SMR與多種基線:傳統(tǒng)稀疏檢索器BM25、為通用推理任務(wù)專門訓(xùn)練的最先進(jìn)密集檢索器ReasonIR、基于CoT的推理模型Rank1和Rank-R1,以及基于RL的方法O1-Pruner。為確保公平比較,團(tuán)隊(duì)在不同能力的LLM(Qwen2.5-32B和QwQ-32B)上進(jìn)行了實(shí)驗(yàn)。

表1和表2展示了在BRIGHT基準(zhǔn)上使用不同檢索器(BM25和ReasonIR)的實(shí)驗(yàn)結(jié)果。在所有12個(gè)領(lǐng)域中,SMR一致優(yōu)于標(biāo)準(zhǔn)和壓縮的CoT基線。特別是,SMR在使用稀疏檢索器時(shí)平均nDCG@10提高了5.4%,在使用密集檢索器時(shí)提高了2.1%,證明了其結(jié)構(gòu)化推理框架在復(fù)雜檢索場(chǎng)景中的高效性,無(wú)論底層LLM如何。

圖3呈現(xiàn)了SMR在BRIGHT基準(zhǔn)上選擇的推理動(dòng)作分布。每個(gè)條形代表REFINE和RERANK動(dòng)作的相對(duì)頻率。研究者觀察到SMR并不遵循固定模式或靜態(tài)啟發(fā)式,而是根據(jù)每個(gè)任務(wù)的不同推理需求調(diào)整動(dòng)作選擇。在初始檢索結(jié)果相對(duì)信息豐富的領(lǐng)域(如Bio、Earth、Econ),模型主要使用RERANK調(diào)整文檔排序,同時(shí)保持原始查詢不變。相比之下,在初始檢索結(jié)果最差的領(lǐng)域(如TheoT、AoPS、Pony、TheoQ),表現(xiàn)出更高比例的REFINE動(dòng)作,在某些情況下高達(dá)70%。

這種模式與底層檢索難度強(qiáng)烈相關(guān)。面對(duì)有限的初始證據(jù),SMR自適應(yīng)地運(yùn)行多輪查詢細(xì)化,嘗試在停止前呈現(xiàn)更好的文檔。這種行為表明,行動(dòng)策略不是基于簡(jiǎn)單的基于規(guī)則的啟發(fā)式,而是利用上下文線索做出明智決策。

在令牌效率方面,如圖4所示,SMR在BRIGHT基準(zhǔn)上的五個(gè)代表性數(shù)據(jù)集(Bio、Earth、Econ、Pay、Rob)中始終消耗顯著少于先前基線的令牌,包括Rank1、Rank-R1和O1-Pruner。平均而言,SMR減少了74.4%的推理令牌使用量,其性能甚至優(yōu)于CoT壓縮方法如O1-Pruner,后者僅實(shí)現(xiàn)了不到5%的邊際減少。

圖5展示了SMR在BRIGHT基準(zhǔn)上的轉(zhuǎn)換統(tǒng)計(jì)。每個(gè)條形指示達(dá)到推理動(dòng)作中每一步的查詢數(shù)量,使用累積計(jì)數(shù)計(jì)算。研究者觀察到25%的查詢?cè)?步內(nèi)終止,50%在6步內(nèi)終止,表明系統(tǒng)快速收斂,驗(yàn)證了早期停止機(jī)制的有效性。同時(shí),25%的查詢(綠色條)表現(xiàn)出12個(gè)或更多動(dòng)作,特別是對(duì)于復(fù)雜或模糊的輸入,這些受益于額外的細(xì)化和重新排序,說(shuō)明SMR有選擇地分配計(jì)算資源的靈活性。

為評(píng)估SMR在標(biāo)準(zhǔn)檢索場(chǎng)景中的一般適用性,研究者在BEIR基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。表3展示了在三個(gè)BEIR數(shù)據(jù)集(DBpedia、SciFact和FiQA)上的nDCG@10結(jié)果。SMR在所有方法中實(shí)現(xiàn)了最高的平均性能,優(yōu)于標(biāo)準(zhǔn)CoT和壓縮推理方法,證明其結(jié)構(gòu)化推理方法不僅專門用于推理密集型場(chǎng)景,還有效地轉(zhuǎn)移到標(biāo)準(zhǔn)檢索場(chǎng)景。

五、SMR的局限性與未來(lái)方向

盡管SMR提供了令牌級(jí)推理的模塊化和令牌高效的替代方案,但當(dāng)前的狀態(tài)表示僅限于表示查詢和檢索到的前k個(gè)文檔,不包含用戶交互信號(hào),如點(diǎn)擊率或參與度指標(biāo)。研究者指出,合并這類行為反饋可能進(jìn)一步增強(qiáng)狀態(tài)保真度和推理質(zhì)量。

此外,雖然研究者將推理動(dòng)作限制為REFINE、RERANK和STOP,但框架的模塊化性質(zhì)允許集成額外操作,如領(lǐng)域特定檢索模塊、文檔過(guò)濾器或其他工具,無(wú)需架構(gòu)更改。這為未來(lái)研究提供了擴(kuò)展SMR框架的廣闊空間。

通過(guò)實(shí)驗(yàn)證明,SMR成功解決了信息檢索中的過(guò)度思考問(wèn)題,提供了一種更高效、更有效的推理方法。它在提高檢索性能的同時(shí)大幅減少了計(jì)算資源使用,并且在不同檢索器和語(yǔ)言模型之間表現(xiàn)出強(qiáng)大的泛化能力,無(wú)需任務(wù)特定的調(diào)整。

總的來(lái)說(shuō),這項(xiàng)研究代表了信息檢索推理方法的重要進(jìn)步,為未來(lái)更高效、更有效的信息檢索系統(tǒng)鋪平了道路。通過(guò)將思維過(guò)程從令牌級(jí)生成轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化狀態(tài)轉(zhuǎn)換,SMR提供了一種實(shí)用的解決方案,可以無(wú)縫集成到各種檢索系統(tǒng)中,不需要模型特定的調(diào)整。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-