這項(xiàng)由微軟公司和中國(guó)人民大學(xué)聯(lián)合開(kāi)展的研究于2025年3月發(fā)表在計(jì)算機(jī)科學(xué)信息檢索領(lǐng)域的頂級(jí)期刊arXiv上。論文的第一作者是微軟的王亮博士,其他主要作者包括人民大學(xué)的陳浩南、微軟的楊楠、黃曉龍、竇志成和魏富如等知名學(xué)者。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文鏈接https://aka.ms/GeneralAI獲取完整研究報(bào)告。
在我們?nèi)粘I钪?,?dāng)面對(duì)復(fù)雜問(wèn)題時(shí),我們往往不會(huì)一次性獲得所有答案,而是像偵探破案一樣逐步收集線索。比如你想了解"電影《黑暗危險(xiǎn)》的主演在哪里上的大學(xué)",你可能先搜索這部電影的主演是誰(shuí),然后再查這位演員的教育背景。然而,目前大多數(shù)AI助手在回答問(wèn)題時(shí),就像只有一次搜索機(jī)會(huì)的新手偵探,往往因?yàn)榈谝淮螞](méi)找到關(guān)鍵線索就敗下陣來(lái)。
微軟研究團(tuán)隊(duì)意識(shí)到了這個(gè)問(wèn)題,他們發(fā)現(xiàn)傳統(tǒng)的檢索增強(qiáng)生成系統(tǒng)就像一個(gè)只會(huì)"一招鮮"的偵探,遇到復(fù)雜案件時(shí)經(jīng)常束手無(wú)策。這種系統(tǒng)在回答簡(jiǎn)單問(wèn)題時(shí)表現(xiàn)尚可,但面對(duì)需要多步推理的復(fù)雜查詢時(shí),往往因?yàn)槌醮螜z索的信息不夠準(zhǔn)確或完整而導(dǎo)致最終答案錯(cuò)誤。研究團(tuán)隊(duì)決定徹底改變這種狀況,讓AI學(xué)會(huì)像經(jīng)驗(yàn)豐富的偵探一樣,能夠根據(jù)獲得的線索動(dòng)態(tài)調(diào)整搜索策略,逐步逼近真相。
這項(xiàng)研究的突破性在于首次系統(tǒng)性地訓(xùn)練AI模型進(jìn)行多步驟檢索和推理。與以往依賴少數(shù)示例或商業(yè)模型提煉的方法不同,研究團(tuán)隊(duì)開(kāi)發(fā)了一套完整的訓(xùn)練框架,讓開(kāi)源AI模型能夠?qū)W會(huì)這種逐步搜索的技能。更令人興奮的是,他們發(fā)現(xiàn)這種方法可以在測(cè)試階段通過(guò)增加計(jì)算資源來(lái)進(jìn)一步提升性能,就像給偵探更多時(shí)間和資源去破案一樣,往往能獲得更準(zhǔn)確的結(jié)果。
一、破案需要多條線索:為什么一次搜索遠(yuǎn)遠(yuǎn)不夠
傳統(tǒng)的AI問(wèn)答系統(tǒng)就像一個(gè)急性子的偵探,接到案件后立即沖到現(xiàn)場(chǎng)搜集證據(jù),然后基于第一波線索就匆忙下結(jié)論。這種做法在處理簡(jiǎn)單案件時(shí)還算有效,比如"今天天氣如何"或"蘋(píng)果公司的CEO是誰(shuí)"這類直白問(wèn)題。但是,當(dāng)面對(duì)需要推理的復(fù)雜問(wèn)題時(shí),這種一步到位的方法就顯得力不從心了。
考慮這樣一個(gè)場(chǎng)景:你想知道某位歷史人物的老師的出生地在哪個(gè)國(guó)家。一個(gè)急性子偵探可能會(huì)直接搜索這位歷史人物,希望一下子找到所有相關(guān)信息。但現(xiàn)實(shí)往往是,第一次搜索只能找到這個(gè)人的基本信息,而關(guān)于他老師的詳細(xì)資料可能藏在更深層的資料中。這時(shí)候,有經(jīng)驗(yàn)的偵探會(huì)調(diào)整策略,先確定這個(gè)人的老師是誰(shuí),然后再專門(mén)搜索這位老師的相關(guān)信息。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),這種單步檢索的局限性在多跳推理任務(wù)中表現(xiàn)得尤為明顯。所謂多跳推理,就像一個(gè)需要經(jīng)過(guò)多個(gè)中轉(zhuǎn)站才能到達(dá)目的地的旅程。你必須先到達(dá)第一個(gè)站點(diǎn),再?gòu)哪抢锍霭l(fā)到第二個(gè)站點(diǎn),如此反復(fù)直到最終目標(biāo)。如果在任何一個(gè)環(huán)節(jié)出現(xiàn)偏差,整個(gè)推理鏈就會(huì)斷裂。
更糟糕的是,現(xiàn)有的檢索系統(tǒng)為了效率考慮,通常使用相對(duì)簡(jiǎn)單的向量匹配技術(shù)。這就好比給偵探配備了一個(gè)只能進(jìn)行模糊搜索的工具,無(wú)法精確定位特定類型的線索。當(dāng)查詢變得復(fù)雜時(shí),這種工具往往無(wú)法理解查詢的真正意圖,導(dǎo)致檢索到大量無(wú)關(guān)信息,反而干擾了正確答案的生成。
正是基于這些觀察,微軟研究團(tuán)隊(duì)決定開(kāi)發(fā)一種全新的方法,讓AI能夠像經(jīng)驗(yàn)豐富的偵探一樣,根據(jù)案件的復(fù)雜程度和當(dāng)前掌握的線索,靈活調(diào)整搜索策略,逐步收集所需信息。
二、訓(xùn)練AI成為推理大師:CoRAG的核心機(jī)制
CoRAG系統(tǒng)的核心理念就是讓AI學(xué)會(huì)"分步驟破案"。但是,教會(huì)AI這種技能面臨一個(gè)關(guān)鍵挑戰(zhàn):現(xiàn)有的訓(xùn)練數(shù)據(jù)通常只包含最終的問(wèn)題和答案,就像給偵探一個(gè)案件的開(kāi)頭和結(jié)尾,但中間的推理過(guò)程完全是空白的。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種叫做"拒絕采樣"的巧妙方法。這個(gè)過(guò)程就像讓一個(gè)有經(jīng)驗(yàn)的偵探教練觀察新手偵探破案,從中選擇最好的推理路徑作為教學(xué)案例。具體來(lái)說(shuō),系統(tǒng)會(huì)讓AI模型針對(duì)同一個(gè)問(wèn)題生成多條不同的推理鏈,每條鏈包含一系列的子問(wèn)題和對(duì)應(yīng)答案。然后,系統(tǒng)會(huì)評(píng)估這些推理鏈的質(zhì)量,選擇那些最終能得到正確答案的鏈條作為訓(xùn)練材料。
這個(gè)評(píng)估過(guò)程頗為精妙。系統(tǒng)不是簡(jiǎn)單地看最終答案是否正確,而是計(jì)算給定整個(gè)推理鏈的情況下,正確答案出現(xiàn)的概率有多高。這就像評(píng)判一個(gè)偵探的破案過(guò)程不僅要看結(jié)果,更要看整個(gè)推理邏輯是否合理、證據(jù)鏈?zhǔn)欠裢暾?。那些邏輯清晰、步步為營(yíng)的推理鏈會(huì)獲得更高的評(píng)分,成為訓(xùn)練其他AI模型的優(yōu)質(zhì)教材。
在訓(xùn)練階段,CoRAG需要同時(shí)掌握三種不同的技能。第一種技能是學(xué)會(huì)提出合適的子問(wèn)題。就像偵探需要知道下一步應(yīng)該詢問(wèn)什么樣的證人或搜集什么樣的證據(jù)。第二種技能是基于檢索到的信息回答子問(wèn)題。這要求AI能夠從大量信息中提取關(guān)鍵要點(diǎn),就像偵探需要從證人的話語(yǔ)中篩選出有用信息。第三種技能是綜合所有子問(wèn)題的答案來(lái)回答原始問(wèn)題。這是整個(gè)過(guò)程的高潮,就像偵探在法庭上將所有證據(jù)串聯(lián)起來(lái)揭示真相。
整個(gè)訓(xùn)練過(guò)程采用多任務(wù)學(xué)習(xí)的方式,讓AI同時(shí)練習(xí)這三種技能。系統(tǒng)使用標(biāo)準(zhǔn)的下一詞預(yù)測(cè)目標(biāo)函數(shù),這意味著AI需要學(xué)會(huì)在每個(gè)位置預(yù)測(cè)最合適的下一個(gè)詞。通過(guò)大量的練習(xí),AI逐漸掌握了何時(shí)應(yīng)該提出新的子問(wèn)題、如何基于檢索信息給出準(zhǔn)確答案,以及如何將分散的信息整合成連貫的最終回答。
三、三種破案策略:讓AI在不同情況下選擇最佳方案
訓(xùn)練完成后的CoRAG系統(tǒng)具備了多種"破案策略",可以根據(jù)問(wèn)題的復(fù)雜程度和可用資源靈活選擇最合適的方法。這就像給偵探配備了不同等級(jí)的調(diào)查工具包,可以根據(jù)案件重要性選擇投入多少資源。
第一種策略叫做貪婪解碼,這是最直接的方法。AI會(huì)按照訓(xùn)練時(shí)學(xué)到的模式,一步步生成子問(wèn)題和答案,直到達(dá)到預(yù)設(shè)的推理鏈長(zhǎng)度或找到滿意的答案。這種方法就像一個(gè)按部就班的偵探,嚴(yán)格遵循標(biāo)準(zhǔn)程序進(jìn)行調(diào)查。雖然不一定是最優(yōu)的,但效率高且資源消耗少,適合處理大量相對(duì)簡(jiǎn)單的案件。
第二種策略是多樣本最優(yōu)選擇。這種方法會(huì)讓AI生成多條不同的推理鏈,然后從中選擇最好的一條。具體的選擇標(biāo)準(zhǔn)是計(jì)算每條推理鏈中"沒(méi)有找到相關(guān)信息"這個(gè)回答出現(xiàn)的概率,概率越低說(shuō)明這條推理鏈?zhǔn)占降挠杏眯畔⒃蕉唷_@就像讓多個(gè)偵探小組并行調(diào)查同一個(gè)案件,最后選擇收集到最有價(jià)值線索的那組結(jié)果。雖然消耗的資源更多,但通常能獲得更準(zhǔn)確的答案。
第三種策略是樹(shù)形搜索,這是最復(fù)雜但也最強(qiáng)大的方法。AI會(huì)在每個(gè)推理步驟都生成多個(gè)可能的子問(wèn)題,然后對(duì)每個(gè)分支都進(jìn)行多次試探性的推理,評(píng)估不同路徑的潛在價(jià)值。最終選擇那些顯示出最大希望的路徑繼續(xù)深入調(diào)查。這就像組織一次大規(guī)模的協(xié)同破案行動(dòng),多個(gè)偵探團(tuán)隊(duì)從不同角度同時(shí)展開(kāi)調(diào)查,隨時(shí)交流信息并調(diào)整策略。雖然成本最高,但在處理最復(fù)雜的案件時(shí)往往能取得突破性進(jìn)展。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)這三種策略的性能和資源消耗之間存在著相當(dāng)規(guī)律的關(guān)系。隨著投入資源的增加,AI的表現(xiàn)基本遵循對(duì)數(shù)線性的改善模式。簡(jiǎn)單來(lái)說(shuō),前期投入的每一份額外資源都能帶來(lái)明顯的性能提升,但隨著資源投入的增加,邊際收益會(huì)逐漸遞減。這為實(shí)際應(yīng)用提供了重要參考,用戶可以根據(jù)對(duì)準(zhǔn)確性的要求和可承受的成本來(lái)選擇合適的策略。
四、實(shí)戰(zhàn)檢驗(yàn):AI偵探的破案成績(jī)單
為了驗(yàn)證CoRAG的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn)測(cè)試,就像讓新訓(xùn)練的偵探參加各種類型的破案考試。他們選擇了兩大類測(cè)試場(chǎng)景:一類是專門(mén)考驗(yàn)多步推理能力的復(fù)雜問(wèn)答任務(wù),另一類是涵蓋多種知識(shí)密集型任務(wù)的綜合基準(zhǔn)測(cè)試。
在多步推理測(cè)試中,CoRAG的表現(xiàn)令人印象深刻。以MuSiQue數(shù)據(jù)集為例,這是一個(gè)特別設(shè)計(jì)來(lái)考驗(yàn)AI多跳推理能力的測(cè)試集,其中的問(wèn)題往往需要AI從多個(gè)不同來(lái)源收集信息才能回答。傳統(tǒng)的單步檢索系統(tǒng)在這個(gè)測(cè)試中的準(zhǔn)確率通常只有百分之十幾到二十幾,而CoRAG系統(tǒng)在使用最長(zhǎng)推理鏈時(shí)能夠達(dá)到30%以上的準(zhǔn)確率,相比傳統(tǒng)方法提升了10個(gè)百分點(diǎn)以上。
更讓人驚喜的是,CoRAG展現(xiàn)出了明顯的測(cè)試時(shí)計(jì)算擴(kuò)展特性。當(dāng)系統(tǒng)被允許使用更長(zhǎng)的推理鏈或嘗試更多候選答案時(shí),性能會(huì)持續(xù)改善。在2WikiMultihopQA測(cè)試中,使用簡(jiǎn)單貪婪策略的準(zhǔn)確率約為56%,但當(dāng)使用最復(fù)雜的樹(shù)形搜索策略并允許更長(zhǎng)推理鏈時(shí),準(zhǔn)確率能提升到72%以上。這種現(xiàn)象就像給偵探更多時(shí)間和資源進(jìn)行調(diào)查,通常能夠發(fā)現(xiàn)更多線索并得出更準(zhǔn)確的結(jié)論。
在更廣泛的KILT基準(zhǔn)測(cè)試中,CoRAG在幾乎所有任務(wù)上都創(chuàng)造了新的最佳成績(jī)。KILT測(cè)試涵蓋了實(shí)體鏈接、槽位填充、開(kāi)放域問(wèn)答和事實(shí)驗(yàn)證等多種不同類型的知識(shí)密集型任務(wù)。CoRAG不僅在需要復(fù)雜推理的任務(wù)上表現(xiàn)出色,在相對(duì)簡(jiǎn)單的任務(wù)上也保持了優(yōu)異性能,證明了其通用性和魯棒性。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:CoRAG的效果與任務(wù)的復(fù)雜程度密切相關(guān)。對(duì)于那些本身就需要多步推理的復(fù)雜問(wèn)題,CoRAG的優(yōu)勢(shì)最為明顯。但對(duì)于一些相對(duì)簡(jiǎn)單、通過(guò)單次檢索就能解決的問(wèn)題,額外的推理步驟帶來(lái)的提升就比較有限。這個(gè)發(fā)現(xiàn)很有實(shí)用價(jià)值,意味著在實(shí)際應(yīng)用中可以根據(jù)問(wèn)題類型動(dòng)態(tài)選擇是否啟用多步推理功能,既保證效果又控制成本。
五、深入案例分析:看AI偵探如何破解疑難雜案
為了更直觀地展示CoRAG的工作原理,讓我們跟隨AI偵探的腳步,看看它是如何破解一個(gè)復(fù)雜案件的。研究團(tuán)隊(duì)提供了一個(gè)很好的例子:要找出電影《黑暗危險(xiǎn)》主演的大學(xué)。這個(gè)問(wèn)題就像一個(gè)需要兩步破解的謎題。
傳統(tǒng)的單步檢索系統(tǒng)可能會(huì)直接搜索"黑暗危險(xiǎn)主演大學(xué)",但這種搜索往往無(wú)法直接找到答案,因?yàn)橄嚓P(guān)信息可能分散在不同的文檔中。而CoRAG的處理方式更像一個(gè)有條理的偵探:首先提出子問(wèn)題"黑暗危險(xiǎn)的主演是誰(shuí)",通過(guò)檢索找到答案是"愛(ài)德華·G·羅賓遜"。然后基于這個(gè)線索,進(jìn)一步詢問(wèn)"愛(ài)德華·G·羅賓遜在哪里上的大學(xué)",最終找到正確答案"紐約城市學(xué)院"。
更有趣的是CoRAG展現(xiàn)出的自我糾錯(cuò)能力。在某些情況下,第一次檢索可能沒(méi)有找到有用信息,系統(tǒng)會(huì)顯示"沒(méi)有找到相關(guān)信息"。這時(shí),CoRAG不會(huì)放棄,而是會(huì)重新組織問(wèn)題。比如將"愛(ài)德華·G·羅賓遜去了哪所大學(xué)"改寫(xiě)為"愛(ài)德華·G·羅賓遜上的是什么大學(xué)",通過(guò)不同的表達(dá)方式來(lái)觸發(fā)更好的檢索結(jié)果。
研究團(tuán)隊(duì)展示的另一個(gè)案例更能體現(xiàn)CoRAG的推理深度。面對(duì)"托馬斯·帕克·桑伯恩是某位詩(shī)人唯一小說(shuō)中主角的原型,這位詩(shī)人最初來(lái)自哪個(gè)國(guó)家"這樣的復(fù)雜問(wèn)題時(shí),傳統(tǒng)系統(tǒng)往往會(huì)迷失在多層嵌套的信息需求中。而CoRAG會(huì)有條不紊地分解問(wèn)題:先找出相關(guān)的詩(shī)人是誰(shuí),然后確認(rèn)這位詩(shī)人寫(xiě)的唯一小說(shuō),接著驗(yàn)證托馬斯·帕克·桑伯恩確實(shí)是小說(shuō)主角的原型,最后查找詩(shī)人的原籍國(guó)家。
值得注意的是,CoRAG在處理這類復(fù)雜問(wèn)題時(shí)并不總是一帆風(fēng)順。有時(shí)它也會(huì)在推理過(guò)程中產(chǎn)生一些錯(cuò)誤的中間結(jié)論,但系統(tǒng)具備一定的自我驗(yàn)證和糾錯(cuò)能力。比如在上述案例中,系統(tǒng)最初可能誤認(rèn)為相關(guān)詩(shī)人是艾米莉·勃朗特,但通過(guò)后續(xù)的交叉驗(yàn)證,會(huì)發(fā)現(xiàn)這個(gè)答案不符合"唯一小說(shuō)"的條件,從而重新調(diào)整搜索方向,最終找到正確答案喬治·桑塔亞納。
六、系統(tǒng)的智能適應(yīng)性:不同任務(wù)類型的差異化表現(xiàn)
研究團(tuán)隊(duì)在分析實(shí)驗(yàn)結(jié)果時(shí)發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:CoRAG在不同類型任務(wù)上的表現(xiàn)差異很大,這個(gè)發(fā)現(xiàn)對(duì)理解系統(tǒng)的工作機(jī)制和指導(dǎo)實(shí)際應(yīng)用都有重要意義。
對(duì)于那些天然需要多步推理的復(fù)雜任務(wù),CoRAG的優(yōu)勢(shì)最為突出。比如在處理需要跨越多個(gè)實(shí)體關(guān)系的問(wèn)題時(shí),傳統(tǒng)單步檢索往往力不從心,而CoRAG可以逐步建立關(guān)系鏈條,最終抵達(dá)答案。這就像解決一個(gè)復(fù)雜的拼圖游戲,需要先找到邊框,再填充內(nèi)部細(xì)節(jié),單憑運(yùn)氣很難一次成功。
然而,對(duì)于那些相對(duì)簡(jiǎn)單的事實(shí)性問(wèn)題,比如"紐約的人口是多少"或"誰(shuí)發(fā)明了電話",CoRAG的多步推理機(jī)制就顯得有些"殺雞用牛刀"了。在這些情況下,額外的推理步驟不僅沒(méi)有帶來(lái)明顯的性能提升,反而增加了不必要的計(jì)算成本。這個(gè)現(xiàn)象提示我們,在實(shí)際應(yīng)用中應(yīng)該根據(jù)問(wèn)題的復(fù)雜程度智能選擇是否啟用多步推理功能。
研究團(tuán)隊(duì)還測(cè)試了CoRAG與不同質(zhì)量檢索器的兼容性。他們發(fā)現(xiàn),即使使用相對(duì)簡(jiǎn)單的BM25檢索器或較小規(guī)模的嵌入模型,CoRAG依然能夠通過(guò)多步推理獲得性能提升,只是提升幅度會(huì)相應(yīng)減少。這種魯棒性很有實(shí)用價(jià)值,意味著CoRAG可以與各種現(xiàn)有的檢索系統(tǒng)配合使用,而不需要依賴特定的高端檢索器。
另一個(gè)有趣的發(fā)現(xiàn)是CoRAG的"弱到強(qiáng)泛化"能力。研究團(tuán)隊(duì)發(fā)現(xiàn),即使使用相對(duì)較小的語(yǔ)言模型來(lái)生成訓(xùn)練用的推理鏈,然后用這些數(shù)據(jù)訓(xùn)練更大的模型,也能取得不錯(cuò)的效果。這就像讓經(jīng)驗(yàn)較少的偵探先摸索破案方法,然后將這些經(jīng)驗(yàn)傳授給更有能力的偵探,后者往往能夠?qū)⑦@些經(jīng)驗(yàn)運(yùn)用得更好。這個(gè)特性大大降低了訓(xùn)練成本,使得CoRAG的實(shí)際部署變得更加可行。
七、學(xué)會(huì)適時(shí)停手:AI偵探的收工時(shí)機(jī)
在實(shí)際應(yīng)用中,一個(gè)重要問(wèn)題是如何讓AI知道什么時(shí)候應(yīng)該停止搜索。就像偵探需要判斷何時(shí)收集到了足夠的證據(jù)可以結(jié)案,AI也需要學(xué)會(huì)識(shí)別何時(shí)已經(jīng)獲得了回答問(wèn)題所需的充分信息。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)"學(xué)會(huì)停止"的機(jī)制。系統(tǒng)會(huì)在每個(gè)推理步驟后評(píng)估當(dāng)前收集到的信息是否足夠回答原始問(wèn)題。如果判斷信息已經(jīng)充分,就會(huì)停止進(jìn)一步的搜索;如果認(rèn)為還需要更多線索,就會(huì)繼續(xù)生成新的子問(wèn)題。
這個(gè)判斷過(guò)程通過(guò)一個(gè)簡(jiǎn)單但有效的方法實(shí)現(xiàn):系統(tǒng)會(huì)詢問(wèn)自己"基于目前收集到的信息,是否有足夠信心回答原始問(wèn)題",然后只能回答"是"或"否"。通過(guò)調(diào)整系統(tǒng)對(duì)"是"這個(gè)回答的偏好程度,可以控制AI的"急躁程度"。如果設(shè)置得比較保守,AI會(huì)更傾向于收集更多信息才停手;如果設(shè)置得比較激進(jìn),AI會(huì)更早地停止搜索。
實(shí)驗(yàn)結(jié)果顯示,這種早停機(jī)制在某些情況下確實(shí)能夠節(jié)省計(jì)算資源,但往往以犧牲一定準(zhǔn)確性為代價(jià)。在MuSiQue測(cè)試中,通過(guò)調(diào)整停止策略,可以在減少約30%計(jì)算量的情況下,準(zhǔn)確率僅下降2-3個(gè)百分點(diǎn)。這為實(shí)際應(yīng)用提供了靈活的成本控制選項(xiàng)。
八、持續(xù)進(jìn)化的訓(xùn)練方式:AI偵探的技能升級(jí)
CoRAG系統(tǒng)的一個(gè)獨(dú)特優(yōu)勢(shì)是支持迭代式的自我改進(jìn)。由于系統(tǒng)在訓(xùn)練和推理時(shí)使用相同的提示模板,一個(gè)訓(xùn)練好的CoRAG模型可以用來(lái)生成新的推理鏈數(shù)據(jù),然后用這些數(shù)據(jù)進(jìn)一步訓(xùn)練下一代模型,形成正向循環(huán)。
這個(gè)過(guò)程就像讓有經(jīng)驗(yàn)的偵探帶新手,新手在學(xué)會(huì)基本技能后,又可以總結(jié)自己的經(jīng)驗(yàn)去指導(dǎo)更新的學(xué)員。通過(guò)這種迭代訓(xùn)練,系統(tǒng)的推理能力可以不斷精進(jìn)。不過(guò),實(shí)驗(yàn)結(jié)果顯示這種迭代改進(jìn)的效果比較有限,在某些任務(wù)上甚至可能出現(xiàn)輕微的性能下降。研究團(tuán)隊(duì)認(rèn)為這可能是因?yàn)楝F(xiàn)代指令調(diào)優(yōu)的語(yǔ)言模型本身已經(jīng)具備了相當(dāng)強(qiáng)的推理能力,進(jìn)一步提升的空間有限。
研究團(tuán)隊(duì)還探索了在推理鏈生成階段使用不同規(guī)模模型的可能性。他們發(fā)現(xiàn),使用較小的模型(如30億參數(shù))生成訓(xùn)練數(shù)據(jù),然后用這些數(shù)據(jù)訓(xùn)練較大的模型(如80億參數(shù)),也能取得不錯(cuò)的效果。這種"弱到強(qiáng)"的訓(xùn)練范式大大降低了數(shù)據(jù)生成的計(jì)算成本,使得CoRAG的實(shí)際應(yīng)用變得更加經(jīng)濟(jì)可行。
九、面向未來(lái)的思考:AI推理系統(tǒng)的發(fā)展前景
CoRAG的成功為未來(lái)AI系統(tǒng)的發(fā)展指明了幾個(gè)重要方向。首先是測(cè)試時(shí)計(jì)算擴(kuò)展的理念。與傳統(tǒng)的通過(guò)增大模型規(guī)模來(lái)提升性能的做法不同,CoRAG證明了在保持模型規(guī)模不變的情況下,通過(guò)增加推理時(shí)的計(jì)算投入也能顯著改善性能。這種方法更加靈活,用戶可以根據(jù)具體需求和資源限制動(dòng)態(tài)調(diào)整系統(tǒng)的"聰明程度"。
其次是多步推理的普適性。雖然CoRAG主要在知識(shí)密集型任務(wù)上進(jìn)行了驗(yàn)證,但其核心思想——將復(fù)雜問(wèn)題分解為簡(jiǎn)單子問(wèn)題逐步解決——具有更廣泛的適用性。未來(lái)可能會(huì)看到類似技術(shù)在數(shù)學(xué)推理、科學(xué)發(fā)現(xiàn)、創(chuàng)意寫(xiě)作等更多領(lǐng)域的應(yīng)用。
第三是自適應(yīng)計(jì)算的重要性。CoRAG在不同復(fù)雜程度任務(wù)上的差異化表現(xiàn)提示我們,未來(lái)的AI系統(tǒng)應(yīng)該具備根據(jù)任務(wù)特點(diǎn)自動(dòng)調(diào)整計(jì)算策略的能力。簡(jiǎn)單問(wèn)題用簡(jiǎn)單方法快速解決,復(fù)雜問(wèn)題投入更多資源深入思考,這樣既能保證效果又能控制成本。
當(dāng)然,CoRAG也還存在一些局限性。比如在處理需要常識(shí)推理或創(chuàng)造性思維的問(wèn)題時(shí),純粹基于檢索的方法可能still有不足。另外,如何更好地評(píng)估推理鏈的質(zhì)量、如何處理檢索到的信息中的矛盾、如何避免推理過(guò)程中的錯(cuò)誤積累等問(wèn)題,都還有待進(jìn)一步研究。
說(shuō)到底,CoRAG代表了AI系統(tǒng)向著更加智能化、人性化方向發(fā)展的重要一步。它不再滿足于簡(jiǎn)單的模式匹配和信息檢索,而是學(xué)會(huì)了像人類一樣進(jìn)行結(jié)構(gòu)化的思考和推理。雖然距離真正的人工智能還有很長(zhǎng)的路要走,但CoRAG這樣的研究讓我們看到了希望:AI正在學(xué)會(huì)思考,學(xué)會(huì)像偵探一樣抽絲剝繭地解決復(fù)雜問(wèn)題。對(duì)于普通用戶而言,這意味著我們將擁有更加智能、更加可靠的AI助手,它們不僅能回答簡(jiǎn)單問(wèn)題,更能幫助我們處理那些需要深入思考和推理的復(fù)雜挑戰(zhàn)。未來(lái)的AI可能真的會(huì)成為我們身邊最得力的"智能偵探"。
Q&A
Q1:CoRAG和傳統(tǒng)的AI問(wèn)答系統(tǒng)有什么區(qū)別?
A:傳統(tǒng)AI問(wèn)答系統(tǒng)只進(jìn)行一次信息搜索就給出答案,就像急性子的偵探匆忙下結(jié)論。而CoRAG會(huì)像經(jīng)驗(yàn)豐富的偵探一樣,先搜索部分信息,然后根據(jù)獲得的線索提出新問(wèn)題,再次搜索,如此反復(fù)直到收集到足夠信息。這種多步驟方法特別適合解決復(fù)雜的推理問(wèn)題。
Q2:CoRAG需要消耗更多計(jì)算資源嗎?性能提升值得嗎?
A:確實(shí)需要更多計(jì)算資源,但用戶可以根據(jù)需求靈活選擇。系統(tǒng)提供三種策略:貪婪解碼成本最低,多樣本選擇成本中等,樹(shù)形搜索成本最高但效果最好。在復(fù)雜推理任務(wù)中,CoRAG的準(zhǔn)確率比傳統(tǒng)方法提升10個(gè)百分點(diǎn)以上,對(duì)于重要問(wèn)題來(lái)說(shuō)這種提升是很值得的。
Q3:普通用戶什么時(shí)候能用上CoRAG技術(shù)?
A:CoRAG的核心技術(shù)已經(jīng)開(kāi)源,代碼可以在GitHub上找到。不過(guò)目前還主要是研究階段的產(chǎn)品,普通用戶要真正使用可能還需要等待商業(yè)產(chǎn)品的推出。研究團(tuán)隊(duì)來(lái)自微軟這樣的大公司,相信技術(shù)商業(yè)化應(yīng)用不會(huì)太遠(yuǎn),未來(lái)可能會(huì)集成到各種AI助手和搜索產(chǎn)品中。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。