論文研究團(tuán)隊(duì)及發(fā)表信息
這項(xiàng)研究由英國(guó)愛(ài)丁堡大學(xué)信息學(xué)院的Emile van Krieken、Pasquale Minervini、Edoardo Ponti和Antonio Vergari共同完成,論文題為《Neurosymbolic Diffusion Models》(神經(jīng)符號(hào)擴(kuò)散模型),于2025年5月19日發(fā)表在arXiv預(yù)印本服務(wù)平臺(tái)(arXiv:2505.13138v1),目前正在接受審閱。
解決的關(guān)鍵問(wèn)題:思維"孤島"之間的橋梁
想象你是一個(gè)盲人,正試圖理解一個(gè)雕塑。你可以通過(guò)觸摸感知它的形狀(神經(jīng)感知),但要真正理解這個(gè)雕塑代表什么,你還需要將這些觸感轉(zhuǎn)化為具體概念和邏輯關(guān)系(符號(hào)推理)?,F(xiàn)代人工智能面臨著類似的挑戰(zhàn):如何將原始感知數(shù)據(jù)與高層次的邏輯思維無(wú)縫連接?
神經(jīng)符號(hào)(NeSy)人工智能正是為解決這一問(wèn)題而生。它結(jié)合了神經(jīng)網(wǎng)絡(luò)的感知能力和符號(hào)系統(tǒng)的推理能力,創(chuàng)造出既能"看"又能"思考"的AI系統(tǒng)。然而,目前的神經(jīng)符號(hào)模型存在一個(gè)關(guān)鍵局限:它們假設(shè)從輸入提取的概念之間是相互獨(dú)立的。
這就像假設(shè)我們看到"狗"和"尾巴"這兩個(gè)概念時(shí),兩者之間沒(méi)有任何關(guān)聯(lián)。這種假設(shè)雖然使計(jì)算變得簡(jiǎn)單,但也導(dǎo)致模型無(wú)法捕捉概念間的重要關(guān)系,就像它無(wú)法理解"搖尾巴的狗"和"狗搖尾巴"之間的細(xì)微區(qū)別一樣。
推理捷徑:AI的"考試作弊"
更糟糕的是,這種獨(dú)立性假設(shè)導(dǎo)致神經(jīng)符號(hào)模型容易形成所謂的"推理捷徑"(reasoning shortcuts)。這有點(diǎn)像學(xué)生在考試中找到了一種取巧的方法:他們能得到正確答案,但實(shí)際上并不理解潛在的概念。
例如,一個(gè)模型可能正確識(shí)別出"3+4=7",但它可能是通過(guò)記住"當(dāng)看到3和4時(shí)輸出7"而不是真正理解加法的概念。在現(xiàn)實(shí)世界中,這會(huì)導(dǎo)致AI系統(tǒng)在遇到新情況時(shí)突然失效,而且讓人無(wú)法理解為什么會(huì)失效。
神經(jīng)符號(hào)擴(kuò)散模型:突破性的解決方案
愛(ài)丁堡大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)突破性的解決方案——神經(jīng)符號(hào)擴(kuò)散模型(NESYDMS)。這是第一個(gè)將擴(kuò)散模型(一種生成AI的前沿技術(shù))與神經(jīng)符號(hào)推理相結(jié)合的框架。
想象一下擴(kuò)散模型就像是一個(gè)能夠逐漸從模糊到清晰恢復(fù)圖像的過(guò)程。研究團(tuán)隊(duì)將這一過(guò)程應(yīng)用于符號(hào)概念,使AI系統(tǒng)能夠逐步構(gòu)建出概念之間的復(fù)雜關(guān)系,而非簡(jiǎn)單地假設(shè)它們相互獨(dú)立。
關(guān)鍵的創(chuàng)新在于,NESYDMS在每個(gè)局部步驟中仍然利用了獨(dú)立性假設(shè)的計(jì)算優(yōu)勢(shì),但通過(guò)多個(gè)這樣的步驟逐漸構(gòu)建出全局依賴關(guān)系。這就像建造一座復(fù)雜的樂(lè)高城堡:每次只需專注于放置一塊積木(簡(jiǎn)單計(jì)算),但最終完成的是一個(gè)復(fù)雜的整體結(jié)構(gòu)(概念間的依賴關(guān)系)。
工作原理:從模糊到清晰的概念重建
NESYDMS的工作原理可以通過(guò)一個(gè)直觀的例子來(lái)理解:假設(shè)你正在玩一個(gè)迷宮游戲,需要找出從起點(diǎn)到終點(diǎn)的最短路徑。
在傳統(tǒng)的神經(jīng)符號(hào)方法中,AI會(huì)首先識(shí)別迷宮中每個(gè)格子的類型(如草地、沙地或巖石),然后根據(jù)這些類型計(jì)算最短路徑。但問(wèn)題是,如果AI錯(cuò)誤地將沙地識(shí)別為草地,它可能會(huì)計(jì)算出錯(cuò)誤的路徑,而且無(wú)法意識(shí)到自己的錯(cuò)誤。
NESYDMS采用了一種全新的方法:
1. 首先,它會(huì)對(duì)迷宮中的每個(gè)格子類型進(jìn)行初步猜測(cè)。 2. 然后,它會(huì)故意"模糊"一些格子的類型,就像給部分迷宮打上馬賽克。 3. 接下來(lái),它嘗試恢復(fù)這些被模糊的格子類型,但不只是單獨(dú)考慮每個(gè)格子,而是考慮其他格子和最終路徑的約束。 4. 通過(guò)多次重復(fù)這個(gè)過(guò)程,模型能夠發(fā)現(xiàn)格子類型之間的依賴關(guān)系,以及它們與最終路徑的關(guān)系。
這種方法使NESYDMS能夠表達(dá)對(duì)不同可能概念的不確定性,并了解哪些概念組合是一致的。當(dāng)模型遇到模棱兩可的情況時(shí),它不會(huì)武斷地選擇一個(gè)答案,而是能夠表達(dá)出多種可能性及其概率。
技術(shù)實(shí)現(xiàn):數(shù)學(xué)原理與創(chuàng)新點(diǎn)
從技術(shù)角度看,NESYDMS基于兩個(gè)關(guān)鍵創(chuàng)新:
第一,研究團(tuán)隊(duì)開(kāi)發(fā)了一種新的連續(xù)時(shí)間損失函數(shù),能夠?qū)⒎?hào)程序無(wú)縫集成到擴(kuò)散過(guò)程中。這就像是創(chuàng)造了一種新的數(shù)學(xué)語(yǔ)言,使神經(jīng)網(wǎng)絡(luò)和符號(hào)程序能夠有效溝通。
第二,他們?cè)O(shè)計(jì)了一種高效的梯度估計(jì)算法,使得模型能夠處理大規(guī)模推理問(wèn)題。這就像開(kāi)發(fā)了一種快速導(dǎo)航系統(tǒng),即使在復(fù)雜的概念地圖上也能迅速找到最優(yōu)路徑。
一個(gè)關(guān)鍵的數(shù)學(xué)突破是證明了掩碼擴(kuò)散模型(一種離散擴(kuò)散技術(shù))的連續(xù)時(shí)間損失可以擴(kuò)展到非分解分布。用通俗的語(yǔ)言說(shuō),這意味著他們發(fā)現(xiàn)了一種方法,可以在保持計(jì)算效率的同時(shí)處理概念之間的復(fù)雜依賴關(guān)系。
實(shí)驗(yàn)驗(yàn)證:從數(shù)字加法到自動(dòng)駕駛
研究團(tuán)隊(duì)在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上評(píng)估了NESYDMS的性能:
在MNIST多位數(shù)加法任務(wù)中,他們讓模型學(xué)習(xí)識(shí)別圖像中的數(shù)字并計(jì)算它們的和。這類似于教一個(gè)AI系統(tǒng)先識(shí)別手寫(xiě)數(shù)字,然后執(zhí)行算術(shù)運(yùn)算。NESYDMS在包含15位數(shù)字的加法任務(wù)上達(dá)到了77.29%的準(zhǔn)確率,與當(dāng)前最先進(jìn)方法相當(dāng)。
更令人印象深刻的是視覺(jué)路徑規(guī)劃任務(wù)。這是一個(gè)極具挑戰(zhàn)性的問(wèn)題,需要AI系統(tǒng)理解視覺(jué)場(chǎng)景并規(guī)劃最優(yōu)路徑。在30×30的網(wǎng)格上,問(wèn)題的復(fù)雜度達(dá)到了驚人的5^900種可能狀態(tài)。NESYDMS在這個(gè)任務(wù)上達(dá)到了97.40%的準(zhǔn)確率,顯著超越了現(xiàn)有方法。
研究團(tuán)隊(duì)還在RSBench測(cè)試集上評(píng)估了NESYDMS對(duì)推理捷徑的感知能力。結(jié)果表明,NESYDMS在準(zhǔn)確性和校準(zhǔn)性之間取得了良好的平衡,能夠有效地表示概念的不確定性,而不會(huì)給出過(guò)度自信的錯(cuò)誤預(yù)測(cè)。
在真實(shí)世界的基于規(guī)則的自動(dòng)駕駛?cè)蝿?wù)上,NESYDMS表現(xiàn)出色,不僅預(yù)測(cè)準(zhǔn)確率高,還具有良好的校準(zhǔn)性和概念性能。這意味著它不僅能做出正確決策,還"知道它知道什么"——這對(duì)于安全關(guān)鍵應(yīng)用至關(guān)重要。
未來(lái)展望與局限性
盡管NESYDMS取得了顯著進(jìn)展,研究團(tuán)隊(duì)也坦誠(chéng)地指出了一些局限性和未來(lái)工作方向。
首先,NESYDMS的可擴(kuò)展性依賴于輸出空間的分解特性或符號(hào)程序的高效表示。研究人員指出,探索如何自動(dòng)將復(fù)雜問(wèn)題轉(zhuǎn)化為這些可處理形式是一個(gè)有價(jià)值的未來(lái)研究方向。
其次,最大化變分熵和處理來(lái)自變分分布采樣的間接梯度仍有優(yōu)化空間。這些技術(shù)挑戰(zhàn)就像是需要進(jìn)一步完善的發(fā)動(dòng)機(jī)部件,以使整個(gè)系統(tǒng)運(yùn)行得更加高效。
最后,研究團(tuán)隊(duì)提出了將NESYDMS擴(kuò)展到混合擴(kuò)散模型的可能性,這種模型同時(shí)包含符號(hào)概念和連續(xù)隱變量。這可能為處理同時(shí)包含離散和連續(xù)特性的復(fù)雜問(wèn)題(如生成滿足約束的表格數(shù)據(jù))開(kāi)辟新途徑。
結(jié)論:跨越符號(hào)與神經(jīng)網(wǎng)絡(luò)的鴻溝
NESYDMS代表了神經(jīng)符號(hào)AI領(lǐng)域的重要進(jìn)步。通過(guò)創(chuàng)新性地將離散擴(kuò)散模型整合到神經(jīng)符號(hào)框架中,研究團(tuán)隊(duì)成功地創(chuàng)造了一種既可擴(kuò)展又能感知推理捷徑的方法。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)創(chuàng)新。它展示了如何構(gòu)建既能看懂世界(感知),又能思考世界(推理)的AI系統(tǒng)。這種能力對(duì)于需要可解釋性和可靠性的安全關(guān)鍵應(yīng)用(如自動(dòng)駕駛、醫(yī)療診斷)至關(guān)重要。
歸根結(jié)底,NESYDMS向我們展示了彌合神經(jīng)感知與符號(hào)推理之間鴻溝的一種可行方法。這不僅是朝著更智能的AI系統(tǒng)邁出的一步,也是朝著更可靠、更可解釋AI系統(tǒng)邁出的一步——一種不僅能給出正確答案,還能讓我們理解為什么是正確答案的AI系統(tǒng)。
對(duì)于有興趣深入了解這項(xiàng)研究的讀者,可以通過(guò)arXiv:2505.13138v1訪問(wèn)完整論文,或前往GitHub倉(cāng)庫(kù)https://github.com/HEmile/neurosymbolic-diffusion查看代碼實(shí)現(xiàn)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。