這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的孫昊、喬子樂、郭嘉言等研究團(tuán)隊(duì)完成的創(chuàng)新研究發(fā)表于2025年5月,目前正在審稿階段。有興趣深入了解的讀者可以通過arXiv:2505.04588v2訪問完整論文。
當(dāng)我們使用ChatGPT或其他AI助手時,經(jīng)常會遇到這樣的情況:AI會說"我的知識截止到某個時間點(diǎn)"或者"我無法獲取最新信息"。這就像一個博學(xué)的朋友被困在一個沒有網(wǎng)絡(luò)的房間里,雖然知識豐富,但無法了解外面世界的最新動態(tài)。為了解決這個問題,研究人員一直在努力讓AI學(xué)會"搜索"——就像給那個被困的朋友安裝一個搜索引擎,讓他能夠獲取最新信息。
但是,訓(xùn)練AI學(xué)會搜索就像培養(yǎng)一個孩子學(xué)會獨(dú)立查找資料一樣,需要大量的練習(xí)。傳統(tǒng)的方法是讓AI在真實(shí)的搜索引擎上反復(fù)練習(xí),這就好比讓孩子在圖書館里一遍又一遍地查找資料。問題是,每次使用搜索引擎都要花錢,就像每次進(jìn)圖書館都要交門票費(fèi)一樣。當(dāng)需要進(jìn)行成千上萬次練習(xí)時,這個費(fèi)用就變得非常昂貴,甚至讓許多研究團(tuán)隊(duì)望而卻步。
更麻煩的是,真實(shí)搜索引擎返回的信息質(zhì)量很不穩(wěn)定。有時候搜索結(jié)果非常準(zhǔn)確有用,有時候卻充滿了無關(guān)或錯誤的信息。這就像在一個管理混亂的圖書館里學(xué)習(xí),有時能找到完美的參考書,有時卻只能找到過時或不準(zhǔn)確的資料。這種不穩(wěn)定性讓AI的學(xué)習(xí)過程變得混亂,難以形成穩(wěn)定的搜索技能。
面對這些挑戰(zhàn),阿里巴巴的研究團(tuán)隊(duì)提出了一個巧妙的解決方案:既然真實(shí)的搜索引擎又貴又不穩(wěn)定,為什么不創(chuàng)建一個"虛擬圖書館"來讓AI練習(xí)呢?他們的核心洞察是,現(xiàn)代的大語言模型在訓(xùn)練過程中已經(jīng)學(xué)習(xí)了海量的知識,就像一個博學(xué)的圖書管理員,完全有能力根據(jù)查詢需求提供相關(guān)的文檔資料。
這種方法就像是為AI創(chuàng)建了一個專門的訓(xùn)練場所。在這個虛擬環(huán)境中,研究團(tuán)隊(duì)可以精確控制"搜索結(jié)果"的質(zhì)量,就像一個經(jīng)驗(yàn)豐富的老師能夠根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度,逐步提供從簡單到復(fù)雜的練習(xí)題。更重要的是,這種方法完全不需要支付搜索引擎的使用費(fèi)用,就像擁有了一個私人圖書館,可以無限次使用而不用擔(dān)心成本。
一、核心創(chuàng)新:從真實(shí)搜索到虛擬訓(xùn)練的轉(zhuǎn)變
ZEROSEARCH的核心思想可以用一個簡單的比喻來理解:假設(shè)你想教一個孩子學(xué)會在圖書館找資料,傳統(tǒng)方法是直接帶他到真實(shí)的圖書館反復(fù)練習(xí)。但是圖書館不僅收費(fèi)昂貴,而且書籍?dāng)[放經(jīng)常變化,有時找到的書質(zhì)量很好,有時卻很糟糕。ZEROSEARCH的做法是先在家里搭建一個模擬圖書館,用這個環(huán)境來訓(xùn)練孩子的查找技能,等他掌握了基本方法后,再去真實(shí)圖書館就能表現(xiàn)得很好。
這個"模擬圖書館"實(shí)際上是另一個經(jīng)過特殊訓(xùn)練的AI模型。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)代的大語言模型本身就包含了豐富的知識,就像一位博學(xué)的圖書管理員。通過適當(dāng)?shù)挠?xùn)練,這位"圖書管理員"可以根據(jù)查詢請求,模擬真實(shí)搜索引擎的行為,提供相關(guān)的文檔內(nèi)容。
更巧妙的是,這個虛擬搜索引擎可以被精確控制。研究團(tuán)隊(duì)通過調(diào)整輸入指令中的幾個關(guān)鍵詞,就能讓它產(chǎn)生"有用"或"無用"的搜索結(jié)果。這就像擁有一個可以調(diào)節(jié)難度的訓(xùn)練機(jī)器,可以根據(jù)學(xué)習(xí)者的水平提供不同質(zhì)量的練習(xí)材料。
二、漸進(jìn)式學(xué)習(xí)策略:從簡單到困難的訓(xùn)練過程
ZEROSEARCH采用了一種叫做"課程學(xué)習(xí)"的訓(xùn)練策略,這就像是為AI設(shè)計(jì)了一個從小學(xué)到大學(xué)的完整學(xué)習(xí)路徑。在訓(xùn)練初期,虛擬搜索引擎主要提供高質(zhì)量、相關(guān)性強(qiáng)的搜索結(jié)果,讓AI能夠輕松理解什么是正確的搜索行為,就像給小學(xué)生提供標(biāo)準(zhǔn)答案讓他們建立正確的解題思路。
隨著訓(xùn)練的進(jìn)行,系統(tǒng)會逐漸增加"噪音文檔"的比例。這些噪音文檔包含不相關(guān)或錯誤的信息,模擬真實(shí)世界中搜索結(jié)果質(zhì)量參差不齊的情況。這個過程就像是逐步增加考試的難度,從簡單的選擇題過渡到復(fù)雜的綜合題,讓AI在面對真實(shí)世界的復(fù)雜搜索環(huán)境時能夠保持穩(wěn)定的表現(xiàn)。
研究團(tuán)隊(duì)設(shè)計(jì)了一個精密的難度控制機(jī)制。他們用一個數(shù)學(xué)公式來控制在訓(xùn)練過程中每個階段應(yīng)該提供多少比例的有用信息和噪音信息。這個公式確保了難度的平滑過渡,避免了突然的難度跳躍可能造成的學(xué)習(xí)困難。
具體來說,訓(xùn)練開始時噪音比例接近零,AI主要接觸高質(zhì)量的搜索結(jié)果。然后這個比例會根據(jù)一個指數(shù)曲線逐漸增加,最終達(dá)到預(yù)設(shè)的最高水平。這種設(shè)計(jì)讓AI能夠在掌握基礎(chǔ)技能后,逐步適應(yīng)更加復(fù)雜和混亂的信息環(huán)境。
三、技術(shù)實(shí)現(xiàn):三重保障的訓(xùn)練框架
ZEROSEARCH的技術(shù)實(shí)現(xiàn)包含三個相互配合的核心組件,就像一個精密的鐘表機(jī)制,每個部分都發(fā)揮著不可替代的作用。
首先是搜索模擬模塊的訓(xùn)練。研究團(tuán)隊(duì)收集了大量真實(shí)的人機(jī)交互數(shù)據(jù),記錄了用戶提出問題、搜索引擎返回結(jié)果、以及最終是否找到正確答案的完整過程。他們讓AI分析這些數(shù)據(jù),學(xué)習(xí)區(qū)分哪些搜索結(jié)果是有用的,哪些是無用的。這個過程就像培訓(xùn)一個圖書管理員,讓他學(xué)會根據(jù)讀者的需求推薦合適的書籍。
訓(xùn)練完成后,這個搜索模擬器可以根據(jù)簡單的指令調(diào)整,比如在提示詞中加入"有用"或"噪音"等關(guān)鍵詞,就能控制生成內(nèi)容的質(zhì)量。這種設(shè)計(jì)讓研究團(tuán)隊(duì)能夠精確控制訓(xùn)練環(huán)境的難度,就像擁有了一個可以隨意調(diào)節(jié)的練習(xí)器材。
第二個核心組件是交互模板設(shè)計(jì)。研究團(tuán)隊(duì)為AI設(shè)計(jì)了一套標(biāo)準(zhǔn)的"思考-搜索-回答"流程。AI必須先在特定的標(biāo)簽內(nèi)表達(dá)自己的思考過程,然后在需要時發(fā)出搜索請求,最后給出最終答案。這種結(jié)構(gòu)化的方法就像給學(xué)生提供了一個解題模板,確保他們能夠有條理地處理復(fù)雜問題。
第三個組件是獎勵機(jī)制設(shè)計(jì)。研究團(tuán)隊(duì)發(fā)現(xiàn),簡單的"對錯判斷"容易導(dǎo)致AI產(chǎn)生不良行為,比如為了提高正確率而給出過長的答案。因此他們采用了更精細(xì)的評分方法,綜合考慮答案的準(zhǔn)確性和簡潔性,就像老師不僅看學(xué)生答案是否正確,還要看解答過程是否清晰簡潔。
四、實(shí)驗(yàn)驗(yàn)證:全方位的性能測試
為了驗(yàn)證ZEROSEARCH的效果,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)測試,就像對一個新產(chǎn)品進(jìn)行各種環(huán)境下的壓力測試。他們選擇了七個不同的問答數(shù)據(jù)集,包括簡單的單步問答和復(fù)雜的多步推理問題,確保測試的全面性。
在模型選擇上,研究團(tuán)隊(duì)測試了多個不同規(guī)模的AI模型,從30億參數(shù)的小型模型到70億參數(shù)的大型模型,既包括基礎(chǔ)版本也包括經(jīng)過指令優(yōu)化的版本。這就像測試一個教學(xué)方法是否適用于不同年齡和基礎(chǔ)的學(xué)生。
實(shí)驗(yàn)結(jié)果令人印象深刻。使用ZEROSEARCH訓(xùn)練的AI模型在所有測試任務(wù)上都顯著超越了使用真實(shí)搜索引擎訓(xùn)練的模型。更重要的是,這種優(yōu)勢在模型規(guī)模增大時變得更加明顯。當(dāng)使用140億參數(shù)的大型模型作為搜索模擬器時,訓(xùn)練出的AI甚至超越了使用真實(shí)搜索引擎的版本。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個有趣的現(xiàn)象:即使是相對較小的30億參數(shù)模型作為搜索模擬器,也能有效地訓(xùn)練出具備搜索能力的AI。這說明這種方法不僅效果好,而且對計(jì)算資源的要求也比較靈活,可以根據(jù)實(shí)際條件進(jìn)行調(diào)整。
在訓(xùn)練穩(wěn)定性方面,ZEROSEARCH表現(xiàn)出明顯的優(yōu)勢。傳統(tǒng)方法由于依賴真實(shí)搜索引擎,訓(xùn)練過程中的獎勵曲線經(jīng)常出現(xiàn)劇烈波動,就像在顛簸的路上開車一樣不穩(wěn)定。而ZEROSEARCH的訓(xùn)練曲線則相對平滑,表明學(xué)習(xí)過程更加穩(wěn)定可控。
五、成本效益分析:經(jīng)濟(jì)優(yōu)勢明顯
從經(jīng)濟(jì)角度來看,ZEROSEARCH的優(yōu)勢更加明顯。研究團(tuán)隊(duì)詳細(xì)計(jì)算了訓(xùn)練成本的對比。使用真實(shí)搜索引擎進(jìn)行訓(xùn)練時,每次查詢都需要支付API費(fèi)用。按照當(dāng)前的市場價格,完成一次完整的訓(xùn)練需要約64000次搜索請求,總費(fèi)用超過586美元。
相比之下,ZEROSEARCH雖然需要部署GPU服務(wù)器來運(yùn)行搜索模擬器,但總成本只有70.8美元(使用最大規(guī)模的配置),節(jié)省了超過80%的成本。而且這種成本優(yōu)勢會隨著訓(xùn)練規(guī)模的擴(kuò)大而更加明顯,因?yàn)镚PU的費(fèi)用相對固定,而API費(fèi)用則隨使用次數(shù)線性增長。
更重要的是,GPU服務(wù)器可以同時為多個訓(xùn)練任務(wù)提供服務(wù),進(jìn)一步分?jǐn)偝杀尽_@就像購買一臺洗衣機(jī)比每次去洗衣店更經(jīng)濟(jì)實(shí)惠,特別是當(dāng)需要頻繁洗衣時。
研究團(tuán)隊(duì)還指出,隨著GPU技術(shù)的發(fā)展和價格下降,這種成本優(yōu)勢還會繼續(xù)擴(kuò)大。同時,自主控制的訓(xùn)練環(huán)境也避免了對外部API服務(wù)的依賴,提高了研究的可持續(xù)性和可重復(fù)性。
六、技術(shù)細(xì)節(jié):精巧的工程實(shí)現(xiàn)
在具體的技術(shù)實(shí)現(xiàn)上,ZEROSEARCH展現(xiàn)了研究團(tuán)隊(duì)的精巧設(shè)計(jì)。他們發(fā)現(xiàn),在訓(xùn)練過程中直接對搜索結(jié)果的內(nèi)容進(jìn)行梯度更新會導(dǎo)致訓(xùn)練不穩(wěn)定,因?yàn)檫@些內(nèi)容并非由被訓(xùn)練的AI模型生成。為了解決這個問題,他們采用了"損失掩碼"技術(shù),只對AI自己生成的部分進(jìn)行優(yōu)化,而忽略搜索結(jié)果部分。這就像在練習(xí)寫作時,老師只修改學(xué)生自己寫的部分,而不會修改引用的參考資料。
在搜索模擬器的訓(xùn)練上,研究團(tuán)隊(duì)采用了輕量級的微調(diào)方法。他們不需要從零開始訓(xùn)練一個搜索模擬器,而是在現(xiàn)有的優(yōu)秀模型基礎(chǔ)上進(jìn)行少量調(diào)整,就像在一個已經(jīng)很好的產(chǎn)品上做改進(jìn)而不是重新發(fā)明輪子。這種方法大大降低了訓(xùn)練時間和計(jì)算資源需求。
為了確保搜索模擬器能夠生成多樣化的內(nèi)容,研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)中加入了真實(shí)問題的答案信息。這樣,模擬器在生成搜索結(jié)果時就能夠涵蓋更廣泛的知識領(lǐng)域,而不僅僅局限于訓(xùn)練數(shù)據(jù)中出現(xiàn)的內(nèi)容。
七、實(shí)際應(yīng)用案例:從理論到實(shí)踐
為了展示ZEROSEARCH的實(shí)際效果,研究團(tuán)隊(duì)提供了詳細(xì)的應(yīng)用案例。在一個典型的多步搜索任務(wù)中,AI需要找到"Clara Novello父親的出生地"。使用傳統(tǒng)方法訓(xùn)練的AI可能會在搜索過程中迷失方向,或者被不相關(guān)的信息干擾。
而使用ZEROSEARCH訓(xùn)練的AI展現(xiàn)了出色的搜索策略。它首先搜索"Clara Novello父親的出生地",發(fā)現(xiàn)搜索結(jié)果中提到了父親是Vincent Novello,但沒有直接給出出生地信息。于是AI智能地調(diào)整搜索策略,專門搜索"Vincent Novello的出生地",最終找到了正確答案:倫敦,英格蘭。
這個案例展示了ZEROSEARCH訓(xùn)練出的AI具備了類似人類的搜索思維:能夠根據(jù)初步搜索結(jié)果調(diào)整策略,進(jìn)行更有針對性的后續(xù)搜索。這種能力在處理復(fù)雜的信息檢索任務(wù)時特別有價值。
研究團(tuán)隊(duì)還展示了搜索模擬器生成內(nèi)容的質(zhì)量對比。當(dāng)設(shè)置為"有用模式"時,模擬器生成的搜索結(jié)果包含準(zhǔn)確相關(guān)的信息;當(dāng)設(shè)置為"噪音模式"時,生成的內(nèi)容則充滿了不相關(guān)或錯誤的信息。這種精確的控制能力是傳統(tǒng)方法無法實(shí)現(xiàn)的。
八、局限性和未來發(fā)展
盡管ZEROSEARCH展現(xiàn)了顯著的優(yōu)勢,研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的局限性。主要的限制是需要部署專門的GPU服務(wù)器來運(yùn)行搜索模擬器,這對一些資源有限的研究團(tuán)隊(duì)可能仍然是一個門檻。雖然相比API費(fèi)用這種成本已經(jīng)大大降低,但仍然需要一定的技術(shù)基礎(chǔ)設(shè)施。
另一個潛在的局限是搜索模擬器的知識邊界。雖然現(xiàn)代大語言模型包含了豐富的知識,但這些知識仍然受到訓(xùn)練數(shù)據(jù)的限制,可能無法覆蓋所有的專業(yè)領(lǐng)域或最新信息。不過,研究團(tuán)隊(duì)指出,這個問題可以通過定期更新搜索模擬器或結(jié)合多個專業(yè)模型來緩解。
在兼容性方面,ZEROSEARCH展現(xiàn)了良好的通用性。研究團(tuán)隊(duì)測試了三種不同的強(qiáng)化學(xué)習(xí)算法(REINFORCE、PPO和GRPO),都取得了良好的效果。這說明這種方法不依賴于特定的算法,具有很好的適應(yīng)性。
展望未來,研究團(tuán)隊(duì)計(jì)劃在幾個方向上進(jìn)一步改進(jìn)ZEROSEARCH。首先是提高搜索模擬器的多樣性和準(zhǔn)確性,使其能夠更好地模擬真實(shí)搜索環(huán)境的復(fù)雜性。其次是探索如何將這種方法擴(kuò)展到其他需要外部信息的AI任務(wù),比如代碼生成或創(chuàng)意寫作。
研究團(tuán)隊(duì)還計(jì)劃開發(fā)更加智能的課程學(xué)習(xí)策略,能夠根據(jù)AI的學(xué)習(xí)進(jìn)度自動調(diào)整訓(xùn)練難度,就像一個智能家教能夠根據(jù)學(xué)生的掌握情況調(diào)整教學(xué)節(jié)奏。這將進(jìn)一步提高訓(xùn)練效率和最終效果。
說到底,ZEROSEARCH代表了AI訓(xùn)練方法的一次重要創(chuàng)新。它不僅解決了成本和穩(wěn)定性的實(shí)際問題,更重要的是為AI能力訓(xùn)練提供了一種新的思路:用AI來訓(xùn)練AI。這種自我循環(huán)的訓(xùn)練模式可能會在未來的AI發(fā)展中發(fā)揮更大的作用。
對于普通人來說,這項(xiàng)研究的意義在于它可能會加速AI搜索能力的普及和改進(jìn)。當(dāng)訓(xùn)練成本大幅降低后,更多的研究團(tuán)隊(duì)和公司能夠參與到AI搜索技術(shù)的開發(fā)中,這將推動整個領(lǐng)域的快速發(fā)展。未來我們可能會看到更加智能、更加準(zhǔn)確的AI搜索助手,它們不僅能夠找到信息,還能夠像人類專家一樣進(jìn)行復(fù)雜的信息分析和推理。
這項(xiàng)研究也提醒我們,在AI技術(shù)發(fā)展過程中,創(chuàng)新往往來自于對現(xiàn)有問題的重新思考。ZEROSEARCH的成功不在于使用了多么復(fù)雜的新算法,而在于巧妙地重新組織了現(xiàn)有的技術(shù)組件,用一種更經(jīng)濟(jì)、更可控的方式解決了實(shí)際問題。這種思維方式值得在其他技術(shù)領(lǐng)域借鑒和應(yīng)用。
有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者可以查閱原論文,其中包含了完整的實(shí)驗(yàn)數(shù)據(jù)、詳細(xì)的算法描述和更多的技術(shù)分析。這項(xiàng)研究為AI搜索能力的發(fā)展開辟了新的道路,相信會對未來的AI技術(shù)發(fā)展產(chǎn)生深遠(yuǎn)的影響。
Q&A
Q1:ZEROSEARCH是什么?它解決了什么問題? A:ZEROSEARCH是阿里巴巴開發(fā)的AI訓(xùn)練方法,專門用來教AI學(xué)會搜索信息。它解決了傳統(tǒng)方法成本太高的問題——以前訓(xùn)練AI搜索需要頻繁調(diào)用真實(shí)搜索引擎API,費(fèi)用昂貴;現(xiàn)在用虛擬搜索環(huán)境訓(xùn)練,成本降低80%以上,訓(xùn)練效果還更好。
Q2:ZEROSEARCH訓(xùn)練出的AI會不會比用真實(shí)搜索引擎訓(xùn)練的更差? A:恰恰相反,實(shí)驗(yàn)顯示ZEROSEARCH訓(xùn)練的AI表現(xiàn)更好。因?yàn)樘摂M環(huán)境可以精確控制搜索結(jié)果質(zhì)量,采用從易到難的漸進(jìn)訓(xùn)練,讓AI學(xué)習(xí)更穩(wěn)定。而真實(shí)搜索引擎返回的信息質(zhì)量不穩(wěn)定,反而影響訓(xùn)練效果。
Q3:普通人能使用ZEROSEARCH技術(shù)嗎?它有什么實(shí)際意義? A:目前ZEROSEARCH主要面向AI研究人員和開發(fā)者。但它的意義在于大幅降低了AI搜索能力的開發(fā)成本,讓更多團(tuán)隊(duì)能夠參與AI搜索技術(shù)開發(fā),最終會讓普通用戶使用到更智能、更準(zhǔn)確的AI搜索助手。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗(yàn)證有效性。