av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 神經(jīng)符號(hào)查詢編譯器:讓搜索意圖識(shí)別更精準(zhǔn)更高效

神經(jīng)符號(hào)查詢編譯器:讓搜索意圖識(shí)別更精準(zhǔn)更高效

2025-05-22 08:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:20 ? 科技行者

在如今的人工智能領(lǐng)域,一項(xiàng)來自中國(guó)人民大學(xué)和華為泊松實(shí)驗(yàn)室的突破性研究正在改變我們與搜索引擎和對(duì)話系統(tǒng)交互的方式。這項(xiàng)由張宇遙、竇志成、李曉溪、金佳杰(人民大學(xué))以及吳永康、李中華、葉琦和文繼榮(華為泊松實(shí)驗(yàn)室)共同完成的研究,發(fā)表于2025年5月的arXiv預(yù)印本平臺(tái)(arXiv:2505.11932v1),題為《神經(jīng)符號(hào)查詢編譯器》(Neuro-Symbolic Query Compiler)。這項(xiàng)研究旨在解決檢索增強(qiáng)生成系統(tǒng)中一個(gè)核心挑戰(zhàn):如何精確理解用戶的復(fù)雜搜索意圖。

想象一下,你向搜索引擎提問:"我想找到J.K.羅琳最受歡迎的書的介紹和評(píng)論,并檢查當(dāng)?shù)貓D書館是否有這本書。"這個(gè)看似簡(jiǎn)單的問題實(shí)際上包含了多個(gè)相互依賴的子問題:首先需要確定哪本是J.K.羅琳最受歡迎的書,然后才能查找它的介紹、評(píng)論以及館藏情況?,F(xiàn)有的系統(tǒng)往往難以理解這種復(fù)雜查詢背后的邏輯結(jié)構(gòu),導(dǎo)致檢索結(jié)果不準(zhǔn)確,最終回答質(zhì)量下降。

這正是QCompiler(查詢編譯器)要解決的問題。它像一位精通多種語(yǔ)言的翻譯官,能夠?qū)⑽覀內(nèi)粘UZ(yǔ)言中的復(fù)雜問題"編譯"成計(jì)算機(jī)更容易處理的結(jié)構(gòu)化表達(dá),從而大幅提升搜索準(zhǔn)確性和響應(yīng)質(zhì)量。

一、人類思維的雙重奏:神經(jīng)計(jì)算與符號(hào)推理的完美結(jié)合

在認(rèn)知科學(xué)領(lǐng)域,研究人員發(fā)現(xiàn)人類大腦具有兩種相輔相成的思維系統(tǒng):一種是基于神經(jīng)網(wǎng)絡(luò)的計(jì)算,可以快速處理來自復(fù)雜感官輸入的信息;另一種是基于符號(hào)系統(tǒng)的邏輯推理,能夠分析語(yǔ)言、數(shù)學(xué)和因果關(guān)系等抽象規(guī)則。這兩種系統(tǒng)相互配合,讓人類能夠靈活應(yīng)對(duì)從感知到推理的各種復(fù)雜任務(wù),展現(xiàn)出單一機(jī)制無法達(dá)到的強(qiáng)大泛化能力。

而在人工智能領(lǐng)域,當(dāng)前主流的人工神經(jīng)網(wǎng)絡(luò)雖然具有強(qiáng)大的擬合能力,但在需要推理和泛化到不斷更新的知識(shí)領(lǐng)域時(shí)常常力不從心。檢索增強(qiáng)生成(RAG)技術(shù)通過引入外部知識(shí)庫(kù)的檢索過程,一定程度上解決了這個(gè)問題,讓神經(jīng)網(wǎng)絡(luò)能夠訪問訓(xùn)練數(shù)據(jù)之外的信息。但這種改進(jìn)存在上限:當(dāng)用戶查詢變得復(fù)雜或需要推理時(shí),一次性檢索到所有相關(guān)文檔的幾率大大降低,導(dǎo)致RAG系統(tǒng)性能不佳。

更具挑戰(zhàn)性的是,復(fù)雜查詢通常包含隱含意圖、嵌套邏輯結(jié)構(gòu)和復(fù)雜依賴關(guān)系,這讓神經(jīng)網(wǎng)絡(luò)難以在單步操作中得出答案。雖然可以利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的能力來提取關(guān)鍵信息,但如果沒有符號(hào)規(guī)則的支持來進(jìn)行任務(wù)分解和推理,系統(tǒng)就無法有效處理這類查詢。

二、QCompiler:一個(gè)巧妙的查詢理解框架

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)提出了QCompiler,這是一個(gè)受語(yǔ)言語(yǔ)法規(guī)則和編譯器設(shè)計(jì)啟發(fā)的神經(jīng)符號(hào)框架。想象一下,QCompiler就像一位精通多國(guó)語(yǔ)言的翻譯官,能夠?qū)⒛憧谡Z(yǔ)化的問題逐步翻譯成計(jì)算機(jī)能夠精確理解的結(jié)構(gòu)化語(yǔ)言。

這個(gè)框架首先在理論上設(shè)計(jì)了一個(gè)最小但足夠完備的巴科斯-諾爾范式(BNF)語(yǔ)法G[q],用于規(guī)范化復(fù)雜查詢。這個(gè)語(yǔ)法維持了完整性的同時(shí)最小化了冗余,就像是創(chuàng)造了一種專門用于表達(dá)搜索意圖的"精簡(jiǎn)語(yǔ)言"。基于這個(gè)語(yǔ)法,QCompiler包含三個(gè)核心組件:查詢表達(dá)式翻譯器、詞法語(yǔ)法分析器和遞歸下降處理器,它們共同工作,將查詢編譯成抽象語(yǔ)法樹(AST)以便執(zhí)行。

查詢表達(dá)式翻譯器就像一位口譯員,負(fù)責(zé)將自然語(yǔ)言查詢翻譯成基于BNF的表達(dá)式。詞法語(yǔ)法分析器則像是一位語(yǔ)法專家,根據(jù)BNF語(yǔ)法規(guī)則將這些表達(dá)式構(gòu)建成抽象語(yǔ)法樹。遞歸下降處理器則是執(zhí)行官,負(fù)責(zé)遞歸地解析這棵樹,解決各個(gè)子查詢之間的依賴關(guān)系,并進(jìn)行占位符替換。

這個(gè)設(shè)計(jì)的巧妙之處在于,抽象語(yǔ)法樹葉節(jié)點(diǎn)中的子查詢具有原子性,確保了更精確的文檔檢索和響應(yīng)生成,大大提升了RAG系統(tǒng)處理復(fù)雜查詢的能力。就像拆解一個(gè)復(fù)雜的拼圖,將其分解為更小、更容易處理的部分,然后再按照正確的順序重新組裝起來。

三、查詢類型的數(shù)學(xué)定義:從簡(jiǎn)單到復(fù)雜的精確分類

為了有效處理各種查詢,研究團(tuán)隊(duì)將查詢分為四種基本類型:原子查詢、依賴查詢、列表查詢和復(fù)雜查詢。這就像是將所有可能的問題分門別類,以便系統(tǒng)能夠有針對(duì)性地處理。

原子查詢是最基本的單一問題,不能被進(jìn)一步分解,例如"《泰坦尼克號(hào)》的導(dǎo)演是誰(shuí)?"。想象這是一塊不能再分的積木,是構(gòu)建更復(fù)雜問題的基礎(chǔ)單元。

依賴查詢則包含兩個(gè)部分,后一部分依賴于前一部分的結(jié)果,兩者之間存在先后關(guān)系,無法并行執(zhí)行。例如"《泰坦尼克號(hào)》的導(dǎo)演出生于何時(shí)?"這個(gè)問題包含兩個(gè)依賴的子查詢:"誰(shuí)是《泰坦尼克號(hào)》的導(dǎo)演?"和"詹姆斯·卡梅隆出生于何時(shí)?"。這就像是一個(gè)兩步烹飪過程,必須先完成第一步才能開始第二步。

列表查詢由多個(gè)相互獨(dú)立的子查詢組成,它們之間沒有依賴關(guān)系,可以并行執(zhí)行以加速整個(gè)系統(tǒng)的推理。例如"詹姆斯·卡梅隆和史蒂芬·斯皮爾伯格,誰(shuí)更年長(zhǎng)?"包含兩個(gè)獨(dú)立的查詢:"詹姆斯·卡梅隆出生于何時(shí)?"和"史蒂芬·斯皮爾伯格出生于何時(shí)?"。這就像是同時(shí)進(jìn)行兩項(xiàng)獨(dú)立的任務(wù),可以交給不同的廚師并行完成。

復(fù)雜查詢則結(jié)合了以上三種類型,包含嵌套的邏輯結(jié)構(gòu)和復(fù)雜的依賴關(guān)系。例如"《泰坦尼克號(hào)》的導(dǎo)演和史蒂芬·斯皮爾伯格,誰(shuí)更年長(zhǎng)?"這個(gè)問題既包含依賴查詢(找出《泰坦尼克號(hào)》的導(dǎo)演并查詢其出生日期),又包含無依賴的原子查詢(查詢斯皮爾伯格的出生日期)。這就像是一個(gè)包含多個(gè)步驟和分支的復(fù)雜任務(wù),需要精心規(guī)劃執(zhí)行順序。

四、巴科斯-諾爾范式語(yǔ)法:一套精簡(jiǎn)而強(qiáng)大的規(guī)則系統(tǒng)

研究團(tuán)隊(duì)設(shè)計(jì)了一套基于巴科斯-諾爾范式(BNF)的專門語(yǔ)法來描述復(fù)雜查詢。BNF是一種在編程語(yǔ)言、協(xié)議和領(lǐng)域特定語(yǔ)言中廣泛使用的上下文無關(guān)語(yǔ)法,用于精確描述語(yǔ)法規(guī)則。

這套語(yǔ)法包含四類非終結(jié)符號(hào):(原子查詢)、(列表查詢)、(依賴查詢)和(復(fù)雜查詢)。終結(jié)符號(hào)分為兩類:原子查詢集Qatomic和操作符集O。操作符'+'用于連接兩個(gè)獨(dú)立查詢,允許它們并行回答;操作符'×'則連接兩個(gè)存在依賴關(guān)系的查詢,表明后一個(gè)查詢依賴于前一個(gè)查詢的結(jié)果。

在語(yǔ)法規(guī)則中,操作符'×'被賦予比操作符'+'更高的優(yōu)先級(jí),以確保解析過程是確定性和無歧義的。此外,研究團(tuán)隊(duì)還使用括號(hào)進(jìn)行分組和優(yōu)先級(jí)控制,括號(hào)內(nèi)的表達(dá)式也可被視為原子查詢的產(chǎn)生式規(guī)則。這種遞歸定義類似于許多編程語(yǔ)言和通用語(yǔ)法中的定義,允許自然地形式化嵌套查詢,而無需使語(yǔ)法復(fù)雜化或引入額外的非終結(jié)變量。

五、QCompiler的核心組件:從自然語(yǔ)言到結(jié)構(gòu)化表示的轉(zhuǎn)換

QCompiler框架包含三個(gè)關(guān)鍵組件,它們協(xié)同工作,實(shí)現(xiàn)復(fù)雜查詢的精確理解和處理:

首先是查詢表達(dá)式翻譯器。這個(gè)組件使用語(yǔ)言模型將自然語(yǔ)言查詢翻譯成基于BNF的表達(dá)式。想象你在一個(gè)外國(guó)機(jī)場(chǎng),這個(gè)翻譯器就像是能將你的問題翻譯成當(dāng)?shù)卣Z(yǔ)言的口譯員,確保你的搜索意圖被精確捕捉和表達(dá)。

其次是詞法語(yǔ)法分析器。它對(duì)查詢表達(dá)式進(jìn)行符號(hào)化推理,使用詞法分析中的標(biāo)記構(gòu)建基于BNF語(yǔ)法的抽象語(yǔ)法樹(AST)。這就像是一位語(yǔ)言學(xué)家,能夠分析句子的結(jié)構(gòu),識(shí)別主語(yǔ)、謂語(yǔ)和賓語(yǔ),理解它們之間的邏輯關(guān)系。

最后是遞歸下降處理器。它遞歸地解釋AST,通過解決依賴關(guān)系和執(zhí)行占位符替換來執(zhí)行子查詢。它管理不同查詢節(jié)點(diǎn)之間的數(shù)據(jù)流,處理AST中子查詢的執(zhí)行。這就像是一位任務(wù)協(xié)調(diào)員,安排不同步驟的執(zhí)行順序,確保每個(gè)步驟都有所需的信息。

這三個(gè)組件無縫協(xié)作,將復(fù)雜查詢從日常語(yǔ)言轉(zhuǎn)換為結(jié)構(gòu)化表示,再分解為可執(zhí)行的子查詢,最終得到準(zhǔn)確的回答。

六、QCompiler的訓(xùn)練與驗(yàn)證:確保質(zhì)量與準(zhǔn)確性

為了使語(yǔ)言模型理解語(yǔ)法并以期望的格式響應(yīng),研究團(tuán)隊(duì)使用了目標(biāo)函數(shù)進(jìn)行優(yōu)化,該函數(shù)最大化給定查詢和語(yǔ)法指令條件下生成正確表達(dá)式的概率。訓(xùn)練數(shù)據(jù)包含查詢-表達(dá)式對(duì),其中每個(gè)表達(dá)式都遵循G[q]語(yǔ)法規(guī)則。

然而,即使經(jīng)過訓(xùn)練,查詢表達(dá)式翻譯器仍可能生成無效表達(dá)式,導(dǎo)致構(gòu)建無效的抽象語(yǔ)法樹。這些問題主要分為兩類:錯(cuò)誤的依賴關(guān)系(沒有相應(yīng)依賴關(guān)系的占位符內(nèi)容)和缺失的依賴關(guān)系(有依賴關(guān)系但缺少必要占位符)。

為了解決這些問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于深度優(yōu)先搜索(DFS)的遞歸驗(yàn)證算法,用于檢查AST的合法性。在推理過程中,系統(tǒng)會(huì)在各種溫度設(shè)置下采樣輸出,然后選擇一個(gè)有效的AST進(jìn)行后續(xù)處理。這就像是一位細(xì)心的校對(duì)者,確保翻譯過程中沒有錯(cuò)誤或遺漏。

七、實(shí)驗(yàn)結(jié)果:QCompiler的顯著優(yōu)勢(shì)

研究團(tuán)隊(duì)在四個(gè)多跳基準(zhǔn)測(cè)試上評(píng)估了QCompiler的性能,包括2WikiMultihopQA、HotpotQA、Musique和Bamboogle。結(jié)果表明,QCompiler大大提升了響應(yīng)模型的能力,在四個(gè)基準(zhǔn)測(cè)試中都取得了最佳性能,尤其在具有挑戰(zhàn)性的2WikiMultihopQA和Musique基準(zhǔn)測(cè)試中改進(jìn)更為顯著。

更令人印象深刻的是,QCompiler表現(xiàn)出的規(guī)模定律特性:不同大小的基礎(chǔ)模型訓(xùn)練出的查詢編譯器性能幾乎相同。這表明基于語(yǔ)法的生成任務(wù)相對(duì)容易學(xué)習(xí),較小的模型(如Llama3.2-3B-Instruct)的性能可與較大的模型(如Llama3.1-8B-Instruct和Qwen-2.5-7B-Instruct)相媲美。這一發(fā)現(xiàn)暗示當(dāng)前多跳查詢基準(zhǔn)可能缺乏足夠的復(fù)雜性和多樣性,使得較小的蒸餾模型能夠在現(xiàn)有基準(zhǔn)上表現(xiàn)同樣出色。

研究團(tuán)隊(duì)還分析了葉節(jié)點(diǎn)的原子性,發(fā)現(xiàn)QCompiler在每個(gè)查詢節(jié)點(diǎn)只檢索少量文檔(甚至只有一個(gè)文檔)就能在不同基準(zhǔn)測(cè)試中取得強(qiáng)大性能。這證明了QCompiler成功將復(fù)雜查詢分解為精確的原子子查詢,大大提高了檢索效率和準(zhǔn)確性。

此外,研究團(tuán)隊(duì)還使用QCompiler將查詢編譯為各自的表達(dá)式類型,并記錄了每種類型的正確響應(yīng)百分比。結(jié)果表明,QCompiler對(duì)單跳問題提供了適度的改進(jìn),因?yàn)樗谶f歸下降方式中只應(yīng)用了一個(gè)優(yōu)化周期;對(duì)于結(jié)構(gòu)為A+B的列表查詢,QCompiler也提供了適度的改進(jìn),表明這些查詢并不困難,迭代RAG系統(tǒng)也能處理;然而,QCompiler在形式為A×B的依賴查詢方面表現(xiàn)出色,這凸顯了當(dāng)前迭代RAG系統(tǒng)的局限性:在多跳問題中,關(guān)鍵挑戰(zhàn)在于準(zhǔn)確找出初始查詢及其答案,這是限制系統(tǒng)有效性的關(guān)鍵因素。

八、QCompiler如何改進(jìn)現(xiàn)有RAG系統(tǒng)?

QCompiler能夠從多個(gè)方面改進(jìn)RAG系統(tǒng):

首先,與現(xiàn)有的端到端方法不同,QCompiler是一個(gè)輕量級(jí)框架,專注于為復(fù)雜查詢生成結(jié)構(gòu)化中間表示,通過將它們編譯成抽象語(yǔ)法樹來捕獲隱含意圖、嵌套結(jié)構(gòu)和復(fù)雜依賴關(guān)系。這一過程自然地處理了復(fù)雜查詢的重寫、消歧、分解和擴(kuò)展。

其次,葉節(jié)點(diǎn)中子查詢的原子性確保了精確的文檔檢索和答案生成,顯著提升了RAG系統(tǒng)處理復(fù)雜查詢的能力。就像是將一個(gè)模糊的大問題拆分成多個(gè)清晰的小問題,每個(gè)小問題都能得到更精確的答案。

最后,在實(shí)際部署場(chǎng)景中,開發(fā)人員甚至可以設(shè)計(jì)廣泛的后處理邏輯來改進(jìn)QCompiler編譯的抽象語(yǔ)法樹。這些特性使QCompiler高度適應(yīng)與現(xiàn)有RAG系統(tǒng)的集成。

九、QCompiler的局限性與未來展望

盡管QCompiler展現(xiàn)出顯著優(yōu)勢(shì),但研究團(tuán)隊(duì)也坦誠(chéng)承認(rèn)其局限性。由于現(xiàn)有多跳數(shù)據(jù)集的限制,他們?nèi)狈Ω鼜?fù)雜的場(chǎng)景來訓(xùn)練和驗(yàn)證基于語(yǔ)法的QCompiler的性能。例如,一個(gè)關(guān)鍵問題是缺乏使用括號(hào)控制執(zhí)行順序的復(fù)雜查詢基準(zhǔn),這可能限制了訓(xùn)練模型的泛化能力。

此外,這項(xiàng)研究?jī)H專注于監(jiān)督微調(diào)來訓(xùn)練QCompiler。未來的改進(jìn)策略包括但不限于構(gòu)建更多樣化和復(fù)雜的基準(zhǔn)進(jìn)行訓(xùn)練和評(píng)估,以及使用帶有步級(jí)獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)來生成更優(yōu)的表達(dá)式。

總的來說,QCompiler代表了一種新的查詢理解范式,它將神經(jīng)網(wǎng)絡(luò)的計(jì)算能力與符號(hào)系統(tǒng)的精確推理相結(jié)合,為復(fù)雜查詢的處理提供了一種更有效、更準(zhǔn)確的方法。它不僅提高了檢索增強(qiáng)生成系統(tǒng)的性能,還為如何將神經(jīng)符號(hào)方法應(yīng)用于自然語(yǔ)言處理任務(wù)提供了寶貴的見解。隨著這項(xiàng)技術(shù)的發(fā)展,我們可以期待在未來看到更智能、更靈活的搜索和問答系統(tǒng),能夠真正理解并滿足我們復(fù)雜的信息需求。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-