今天為大家介紹一項來自香港大學、北京智源研究院、廈門大學和深圳中文大學研究團隊的最新研究成果。這項由香港大學的Nan Huo、Jinyang Li、Ge Qu、Xiaolong Li和Reynold Cheng,北京智源研究院的Bowen Qin,廈門大學的Xiaodong Li,以及深圳中文大學的Chenhao Ma共同完成的研究,發(fā)表于2025年6月的arXiv預印本平臺(arXiv:2506.05278v1)。論文題為"Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning"(Micro-Act:通過可操作的自主推理解決問答中的知識沖突)。
一、研究背景:知識沖突問題的現(xiàn)狀與挑戰(zhàn)
想象一下,你使用一個智能助手詢問:"保羅·歐仁·吉隆(Paul Eugène Gillon)現(xiàn)在擔任什么職位?"系統(tǒng)查詢到的信息顯示:"2010年,吉隆被任命為挪威議會的副成員"。然而正確答案卻是:"他是克勒茲省(Prefecture of Creuse)的秘書長"。這種情況就是我們今天要討論的"知識沖突"問題。
大型語言模型(LLMs)近年來取得了革命性的進步,但它們的知識往往局限于訓練數(shù)據(jù),容易產(chǎn)生幻覺和事實錯誤。為了提高可靠性,研究人員開發(fā)了檢索增強生成(Retrieval-Augmented Generation,簡稱RAG)技術(shù),通過外部知識來為模型提供更準確的信息支持。
然而,RAG系統(tǒng)面臨一個關(guān)鍵挑戰(zhàn):當檢索到的外部信息與模型內(nèi)部已有的參數(shù)化知識相矛盾時,會產(chǎn)生"知識沖突"。這種沖突可能源于檢索系統(tǒng)引入的噪聲、過時或不正確的信息,嚴重影響問答系統(tǒng)的準確性和可靠性。
現(xiàn)有解決知識沖突的方法主要分為兩類:一類是專門的微調(diào)技術(shù),需要重新訓練模型;另一類是基于上下文學習(In-Context Learning,ICL)的方法,可以通過提供相關(guān)指令或示例來適應新任務,無需額外訓練。
在ICL方法中,又可以細分為兩種類型:一種是通用推理方法,僅依賴檢索的上下文進行推理;另一種是生成輔助推理方法,會同時生成模型的參數(shù)化知識,并與檢索知識進行明確比較。
但這些方法存在三個關(guān)鍵限制:一是過度依賴人工設計的指令,限制了跨領(lǐng)域適應性;二是并排比較無法捕捉不同粒度級別的沖突,使模型容易受到無關(guān)上下文的干擾;三是這些方法假設知識沖突已經(jīng)存在,可能對無沖突場景產(chǎn)生負面影響,影響實際應用的可靠性。
二、Micro-Act:解決知識沖突的創(chuàng)新方法
為了解決上述問題,研究團隊提出了Micro-Act框架。它就像一個細心的偵探,不僅能發(fā)現(xiàn)沖突的存在,還能深入挖掘沖突的具體細節(jié),找到表面現(xiàn)象下隱藏的真相。
Micro-Act的核心創(chuàng)新在于它能夠通過分解行動(decomposition action)動態(tài)調(diào)整粒度:首先,在模型層面,它能自動感知不同大型語言模型的輸入復雜度偏好;其次,在行動層面,它能檢測每個行動的上下文粒度并靈活調(diào)整。
舉個例子來理解Micro-Act的工作方式。當我們詢問"保羅·歐仁·吉隆現(xiàn)在擔任什么職位?"時,傳統(tǒng)方法會簡單地基于檢索證據(jù)推理,可能直接得出"他是挪威議會的副成員"這個錯誤結(jié)論。而生成輔助推理方法會嘗試生成模型的知識并進行比較,但由于無法處理細粒度沖突,往往會得出"證據(jù)有沖突,我不知道答案"的模糊結(jié)論。
相比之下,Micro-Act能夠精確定位細粒度的證據(jù)-模型沖突點: 1. 它會分析"秘書長"與"副成員"的職位沖突 2. 發(fā)現(xiàn)"法國"與"挪威"的國家沖突 3. 識別"近期"與"2010年"的時間沖突
通過這種細粒度分解,Micro-Act能夠更好地理解和解決潛在沖突,最終給出正確答案:"克勒茲省的秘書長"。
三、技術(shù)實現(xiàn):Micro-Act的工作原理
Micro-Act框架由三個關(guān)鍵組件構(gòu)成:層次化行動空間、推理主體和自適應粒度優(yōu)化策略。這就像是一套精密的偵探工具箱,每個工具都有其獨特的作用,共同構(gòu)成一個強大的問題解決系統(tǒng)。
### 層次化行動空間
Micro-Act的行動空間包含三類關(guān)鍵行動:
首先是導航行動(navigational actions),它們負責探索環(huán)境并獲取更多信息。就像偵探在案發(fā)現(xiàn)場四處尋找線索一樣,這些行動包括從語言模型中引出參數(shù)化知識(ELICIT)和基于輸入上下文獲取問答任務的推理路徑(REASON)。
其次是功能行動(functional actions),它們負責沖突檢測。就像偵探比對不同證人證詞尋找矛盾之處,ASSERT行動會檢查參數(shù)化知識和檢索證據(jù)之間的一致性。
最后是橋接行動(bridging action),負責在需要時動態(tài)優(yōu)化粒度。當一個ASSERT行動處理的知識上下文過于復雜時,DECOMPOSE行動可以將其分解為更小、更易管理的行動步驟,就像將一個復雜案件分解為多個小線索進行調(diào)查。
### 推理主體
Micro-Act將層次化行動空間與ReAct過程(一種讓大型語言模型通過思考-行動-觀察循環(huán)進行推理的方法)集成在一起。在每一步中,語言模型首先產(chǎn)生一個思考(Thought),然后選擇一個行動(Action),執(zhí)行后獲得一個觀察(Observation),并更新歷史記錄。
這個過程持續(xù)進行,不斷通過分解行動調(diào)整粒度,直到發(fā)現(xiàn)并解決所有細微沖突。最終,模型生成最終答案。整個過程就像一個偵探不斷深入調(diào)查,從大的矛盾線索逐步細化到具體細節(jié),最終破解案件。
### 復雜度驅(qū)動的知識分解動態(tài)
研究團隊還深入研究了模型如何感知復雜度并進行知識分解。他們發(fā)現(xiàn),隨著輸入復雜度增加(如上下文長度增加、領(lǐng)域難度提高或語言不確定性增加),模型會更傾向于使用分解行動。這種行為適應各種復雜度維度,證明了Micro-Act有效檢測復雜度并動態(tài)調(diào)整粒度的能力。
為防止無限分解,Micro-Act還實現(xiàn)了復雜度感知的停止標準:當上下文復雜度低于模型可以自信處理的閾值時,分解過程會自然停止。這就像偵探知道何時已經(jīng)收集到足夠證據(jù),無需進一步調(diào)查一樣。
四、實驗與結(jié)果:Micro-Act的卓越表現(xiàn)
研究團隊在五個廣泛使用的知識沖突基準數(shù)據(jù)集上評估了Micro-Act的性能,這些數(shù)據(jù)集涵蓋了多種知識沖突類型(錯誤信息、時間和語義沖突)。他們使用GPT-4o、GPT-4o-mini、LLaMA-3.1-70B和LLaMA-3.1-8B作為基礎(chǔ)語言模型進行測試。
實驗結(jié)果令人印象深刻:Micro-Act在所有數(shù)據(jù)集和所有沖突類型上都顯著超越了現(xiàn)有最先進的基線方法。在ConflictBank數(shù)據(jù)集上,Micro-Act比之前最好的方法提高了高達9.40%的準確率,在KRE數(shù)據(jù)集上提高了6.65%。對于小型模型如LLaMA-3.1-8B,性能提升更為顯著,分別達到11.47%和13.85%。
更重要的是,Micro-Act在沒有沖突的場景中也表現(xiàn)出色。傳統(tǒng)方法面臨權(quán)衡困境:通用推理方法(如end-to-end和COT)在無沖突場景中表現(xiàn)良好,但遇到?jīng)_突時準確率下降70-95%;而生成輔助方法(如GKP)改善了沖突解決但在無沖突場景中表現(xiàn)較差。
相比之下,Micro-Act在沖突場景中性能提升超過24%,同時在無沖突場景中僅犧牲不到2%的準確率。這種穩(wěn)健性使其特別適合實際應用,因為在現(xiàn)實世界中,系統(tǒng)通常無法預先確定檢索內(nèi)容是否與模型知識沖突。
五、Micro-Act如何解決"過度合理化"問題
研究中發(fā)現(xiàn)了一個有趣現(xiàn)象:當面對矛盾的證據(jù)和參數(shù)化知識時,語言模型有時會嘗試支持所有相互矛盾的信息,研究團隊將這種行為稱為"過度合理化"(over-rationalization)。這就像一個人試圖通過復雜的解釋使相互矛盾的證據(jù)看起來都合理,而不是識別出真正的矛盾所在。
令人驚訝的是,像GPT-4o這樣更強大的模型比GPT-4o-mini更頻繁地表現(xiàn)出這種行為,導致在GKP方法中性能下降。這種"過度合理化"現(xiàn)象在時間和語義沖突中尤為明顯,因為這些沖突通常隱藏在表面上下文之下,容易誤導模型將沖突雙方都合理化。
Micro-Act通過動態(tài)分解來"可視化"潛在的推理路徑,精確定位更細粒度的沖突,并關(guān)注表面含義下的那些細微沖突。這些沖突無法通過基線方法使用的簡單并排比較有效檢測。因此,Micro-Act在時間和語義沖突類型上比基線方法取得了更顯著的性能提升。
六、Micro-Act的成本分析
研究團隊對Micro-Act的計算成本進行了詳細分析。由于需要動態(tài)分解沖突,Micro-Act處理的輸入標記約為最強基線(GKP)的2.8倍,輸出標記約為1.3倍。這轉(zhuǎn)化為使用GPT-4o時每個查詢額外$0.008的成本,使用GPT-4o-mini時額外$0.0005的成本,而推理延遲分別增加0.6秒和0.3秒。
重要的是,這些額外開銷僅在存在真正沖突需要深度分解時才會出現(xiàn);無沖突問題的處理速度與基線相當??紤]到Micro-Act在沖突解決準確率方面的顯著提升,這種適度的成本和延遲增加對實際RAG系統(tǒng)部署來說是可以接受的。
七、未來研究方向與局限性
盡管Micro-Act在知識沖突解決方面表現(xiàn)出色,研究團隊也坦率地指出了一些局限性。首先,Micro-Act需要額外的中間步驟來有效定位表面含義下的沖突,這些沖突難以通過簡單的并排比較來定位。雖然像end-to-end和COT這樣的基線方法更輕量級,但它們在知識沖突方面的糟糕表現(xiàn)損害了RAG系統(tǒng)的有效性。
其次,當前評估主要集中在英語語境上,分解策略的有效性可能因不同語言和文化背景而異。這為未來研究提供了一個重要方向。
盡管存在這些局限性,Micro-Act代表了知識沖突解決領(lǐng)域的重要里程碑,為未來研究奠定了堅實基礎(chǔ)。研究團隊的代碼已在GitHub(https://github.com/Nan-Huo/Micro-Act)開源,方便其他研究者進一步探索和改進。
結(jié)語:為什么Micro-Act很重要
歸根結(jié)底,Micro-Act提供了一種全新的思路來解決RAG系統(tǒng)中的知識沖突問題。它不再是簡單地比較兩種知識來源,而是像偵探一樣,深入挖掘細節(jié),找出沖突的本質(zhì),并據(jù)此做出明智判斷。
對普通用戶來說,這意味著未來的AI助手將能更準確地回答問題,即使面對互相矛盾的信息源也能做出正確判斷。它不會盲目相信檢索到的信息,也不會固執(zhí)己見,而是能夠理性分析不同來源的可信度,給出最可靠的答案。
更令人振奮的是,Micro-Act在無沖突場景中也表現(xiàn)出色,證明了它不只是一個專門處理沖突的工具,而是能夠適應各種真實世界應用場景的通用解決方案。
隨著人工智能越來越深入地融入我們的日常生活和工作,Micro-Act這樣能夠處理知識沖突的技術(shù)將變得越來越重要,為構(gòu)建更可靠、更值得信賴的AI系統(tǒng)鋪平道路。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。