av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<abbr id="h8muu"></abbr>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

AutoRefine：讓大語言模型主動搜索并優(yōu)化信息的全新范式

人工智能檢索增強生成大語言模型推理

AutoRefine：讓大語言模型主動搜索并優(yōu)化信息的全新范式

作者：科技行者

2025-05-31 13:34

分享至：

這項研究提出了AutoRefine，一種革新性的強化學習框架，為大語言模型引入了"邊思考邊搜索和完善"的全新范式。與傳統(tǒng)方法不同，AutoRefine在連續(xù)搜索調用之間添加知識完善步驟，讓模型能夠有效過濾和組織信息。通過結合答案正確性和檢索質量雙重獎勵，該方法在七項問答基準測試中平均提升6.9%的準確率，特別在復雜多跳推理場景中表現(xiàn)突出，解決了現(xiàn)有檢索增強推理的核心局限性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 13:34 ? 科技行者

**讓大型語言模型變得更聰明：邊思考邊搜索和完善信息**

在2025年5月16日發(fā)表于arXiv的最新研究中，來自中國科學技術大學的石堯瑞、李世罕、吳昶，新加坡國立大學的劉志遠、方俊鋒，以及DP科技的蔡恒星和中國科學技術大學的張安、王翔共同提出了一種名為"AutoRefine"的創(chuàng)新框架，論文編號為arXiv:2505.11277v1。這項研究旨在解決大語言模型在推理過程中知識有限的問題，研究團隊的代碼已公開在GitHub（https://github.com/syr-cn/AutoRefine）。

**為什么大語言模型需要外部知識？**

想象你有一位非常聰明的朋友，他記憶力驚人，知識面廣泛，但他的知識截止到某個時間點，此后發(fā)生的事情他一概不知。這就是大語言模型（LLM）面臨的核心問題——盡管它們能夠進行復雜的推理和解決問題，但它們的知識庫是有限的，受訓練數(shù)據(jù)的約束。

為了解決這個問題，研究人員開發(fā)了"檢索增強生成"（RAG）技術，就像給這位聰明的朋友配備了一個可以隨時查詢的搜索引擎。但現(xiàn)有的方法存在一個問題：當模型查詢外部資源時，它們往往會檢索到大量不相關或充滿噪音的信息，這反而會妨礙準確推理。

想象一下，你讓你的朋友回答一個關于某位歷史人物的問題。他打開搜索引擎，獲取了一大堆信息，但這些信息中混雜著許多無關內容。如果他直接基于這些混雜的信息回答問題，很可能會出錯。這正是現(xiàn)有檢索增強推理方法的問題所在。

**AutoRefine：一種全新的思考方式**

這項研究提出的AutoRefine框架引入了一種稱為"邊思考邊搜索和完善"的全新范式。與現(xiàn)有的"邊思考邊搜索"方法不同，AutoRefine在連續(xù)的搜索調用之間引入了明確的知識完善步驟。

讓我們用一個日常例子來理解：假設你正在準備一道復雜的菜肴，需要查找食譜。傳統(tǒng)方法相當于你搜索食譜后直接開始烹飪，而AutoRefine則相當于你在搜索食譜后，先整理和篩選關鍵步驟和重要提示，然后再開始烹飪。這種"搜索-完善-再思考"的方式讓模型能夠更有效地利用檢索到的信息。

**具體怎么做？兩大創(chuàng)新點**

AutoRefine的核心創(chuàng)新在于兩個方面：

首先，在推理過程中引入了明確的知識完善步驟。在傳統(tǒng)的檢索增強推理中，模型的工作流程是"思考-搜索-思考-回答"。而AutoRefine則是"思考-搜索-完善-思考-回答"。這種工作流程使模型能夠迭代地過濾、提煉和組織證據(jù)，然后再生成答案。

舉個例子，當你問"《傘》這幅畫是哪位法國印象派畫家的作品？"時，傳統(tǒng)模型可能會搜索信息后直接給出答案（可能是錯誤的，比如"休·萊恩"）。但AutoRefine會在搜索后先提煉關鍵信息："根據(jù)文檔，皮埃爾-奧古斯特·雷諾阿是創(chuàng)作《傘》的法國印象派畫家"，然后再給出準確答案"皮埃爾-奧古斯特·雷諾阿"。

其次，研究團隊設計了專門的檢索特定獎勵機制，與答案正確性獎勵結合使用。傳統(tǒng)方法主要關注最終答案是否正確，而AutoRefine則同時關注檢索質量和答案質量。這就像不僅關注烹飪的最終成品，還關注你選擇食材和準備工作的質量。這種雙重獎勵機制使模型能夠學習如何更好地檢索和利用外部知識。

**訓練過程：如何讓模型學會這種能力？**

AutoRefine的訓練過程非常精妙。研究團隊使用了一種名為"群組相對策略優(yōu)化"（GRPO）的算法。想象一下，你有一個學習小組，每個人嘗試用不同的方法解決同一個問題，然后根據(jù)誰的方法更有效來調整大家的策略。

具體來說，訓練時模型會為每個問題生成多個不同的推理軌跡，每個軌跡包含一系列的思考、搜索、完善和回答步驟。然后，系統(tǒng)會根據(jù)兩種獎勵來評估這些軌跡：一種是基于最終答案的正確性，另一種是基于檢索和完善過程的質量。

這種訓練方式讓模型逐漸學會了何時需要搜索外部知識，如何構建有效的搜索查詢，以及如何從檢索到的文檔中提煉關鍵信息。

**實驗結果：效果如何？**

研究團隊在多個問答基準測試上評估了AutoRefine的性能，包括單跳問答（如Natural Questions、TriviaQA、PopQA）和多跳問答（如HotpotQA、2WikiMultihopQA、Musique、Bamboogle）。

結果令人印象深刻：AutoRefine顯著優(yōu)于現(xiàn)有方法，平均準確率提高了6.9%。特別是在復雜的多跳推理場景中，AutoRefine的表現(xiàn)尤為出色。例如，在2Wiki基準測試上，AutoRefine將準確率提高了8.3個百分點（相當于21%的相對提升）。

詳細分析表明，AutoRefine之所以表現(xiàn)優(yōu)異，是因為它能夠： 1. 發(fā)出更頻繁、更高質量的搜索查詢 2. 有效地提取和組織檢索到的證據(jù) 3. 根據(jù)問題的復雜性動態(tài)調整搜索頻率 4. 在從噪聲文檔中提取關鍵信息方面表現(xiàn)出色

**深入分析：為什么AutoRefine如此有效？**

研究團隊進行了詳細的分析，揭示了AutoRefine成功的關鍵因素：

**搜索行為分析**：AutoRefine能夠學習根據(jù)任務復雜性調整搜索頻率。對于簡單的單跳問題，模型平均進行1.2次搜索；而對于復雜的多跳問題，模型會增加到2.0-2.5次搜索。這表明模型已經學會了根據(jù)問題的難度自適應地調整搜索策略。

**搜索質量**：AutoRefine生成的搜索查詢質量明顯優(yōu)于基線方法，特別是在多跳問答任務中。在單跳場景中，所有方法的搜索成功率都能達到約70%，但在多跳場景中，AutoRefine的搜索成功率超過50%，比基線方法高出10-15個百分點。

**知識完善的有效性**：分析顯示，AutoRefine的知識完善步驟能夠有效地從檢索到的文檔中提取關鍵信息。完善后的內容平均只有100-200個詞元，遠少于原始文檔（≥600個詞元），但成功保留了與答案相關的關鍵信息。

**檢索深度的影響**：研究團隊還探究了不同檢索深度（每次搜索返回的文檔數(shù)量）對性能的影響。結果表明，AutoRefine在各種檢索深度下都表現(xiàn)穩(wěn)定，特別是在文檔數(shù)量較多的情況下（k≥3），AutoRefine的優(yōu)勢更為明顯，這可能是因為它具有強大的文檔去噪能力。

**消融研究**：進一步的實驗證實，檢索特定獎勵和知識完善步驟都是AutoRefine成功的關鍵組成部分。移除這兩個組件中的任何一個都會導致性能明顯下降。

**真實案例分析**

為了更直觀地理解AutoRefine的工作方式，我們來看一個具體案例。假設問題是："現(xiàn)代實驗心理學之父的父親是誰？"

在這個問題中，需要先確定誰是現(xiàn)代實驗心理學之父，然后再找出這個人的父親。

傳統(tǒng)方法可能會搜索"現(xiàn)代實驗心理學之父的父親"，獲取到一些提及威廉·馮特（Wilhelm Wundt）是現(xiàn)代實驗心理學之父的文檔，然后直接（錯誤地）回答"威廉·馮特"。

而AutoRefine則會： 1. 先搜索"現(xiàn)代實驗心理學之父的父親" 2. 從文檔中提煉出威廉·馮特被認為是現(xiàn)代實驗心理學之父 3. 再搜索"威廉·馮特的父親是誰" 4. 從新文檔中提煉出威廉·馮特的父親是馬克西米利安·馮特（Maximilian Wundt） 5. 最終給出正確答案："馬克西米利安·馮特"

這個例子清晰地展示了AutoRefine如何通過多步搜索和信息完善來解決復雜問題。

**研究意義與未來展望**

這項研究為大語言模型的檢索增強推理能力開辟了新的方向。通過引入"邊思考邊搜索和完善"的范式，以及結合答案和檢索獎勵的訓練方法，AutoRefine顯著提高了模型在知識密集型任務中的表現(xiàn)。

當然，這項研究也存在一些局限性：

1. **模型規(guī)模**：由于計算資源限制，實驗僅使用了3B參數(shù)的語言模型，未來可以探索在更大規(guī)模模型上的表現(xiàn)。

2. **評估指標**：研究僅使用了精確匹配準確率作為評估指標，可能忽略了語義正確但文本略有變化的回答。

3. **靜態(tài)檢索語料庫**：實驗使用固定的維基百科快照，缺乏當前或時效性信息，限制了系統(tǒng)在實際應用中的適用性。

未來工作可以擴展到更大規(guī)模的語言模型，采用更靈活的語義評估指標，以及適應動態(tài)檢索設置，包括實時網(wǎng)絡搜索和持續(xù)更新的文檔庫。這將進一步提高AutoRefine框架的可擴展性、靈活性和時效性，從而擴大其在更現(xiàn)實應用中的實用性。

總的來說，AutoRefine代表了檢索增強大語言模型發(fā)展的重要一步，通過更智能的信息檢索和完善機制，使模型能夠更有效地利用外部知識，從而提高其在知識密集型任務中的準確性和可靠性。

人工智能檢索增強生成大語言模型推理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網(wǎng)絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網(wǎng)絡技術，通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網(wǎng)）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn