av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 覆蓋原則:理解組合泛化能力的統(tǒng)一框架——KAIST研究團(tuán)隊(duì)揭示大語(yǔ)言模型的推理局限

覆蓋原則:理解組合泛化能力的統(tǒng)一框架——KAIST研究團(tuán)隊(duì)揭示大語(yǔ)言模型的推理局限

2025-05-29 14:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 14:49 ? 科技行者

在人工智能領(lǐng)域掀起革命的大語(yǔ)言模型(LLMs)盡管在眾多任務(wù)上表現(xiàn)出色,但在系統(tǒng)性的組合推理能力上仍存在明顯短板。2025年5月,來(lái)自韓國(guó)KAIST、英國(guó)UCL以及LG AI Research的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一篇重要論文《覆蓋原則:理解組合泛化的框架》,深入探討了為什么大語(yǔ)言模型在組合性任務(wù)中常常依賴模式匹配而非真正的系統(tǒng)性推理。這篇發(fā)表在arXiv(arXiv:2505.20278v1)上的研究,提供了一個(gè)統(tǒng)一的數(shù)據(jù)中心框架,幫助我們理解當(dāng)前AI系統(tǒng)的基本局限性。

想象你正在教一個(gè)孩子解決數(shù)學(xué)題。如果孩子只是記住了特定題目的答案,而沒有理解背后的計(jì)算原理,那么面對(duì)新題型時(shí)就會(huì)束手無(wú)策。大語(yǔ)言模型也面臨類似問題——它們擅長(zhǎng)識(shí)別已見過的模式,但在需要系統(tǒng)性地組合和應(yīng)用規(guī)則時(shí)常常顯得力不從心。這正是該研究團(tuán)隊(duì)提出的"覆蓋原則"所要解釋的核心問題。

研究團(tuán)隊(duì)由KAIST的張浩延(Hoyeon Chang)和樸珍浩(Jinho Park)共同第一作者,徐敏準(zhǔn)(Minjoon Seo)教授領(lǐng)導(dǎo),還包括韓瑞元(Hanseul Cho)、楊素熙(Sohee Yang)等多位研究者。他們提出的覆蓋原則簡(jiǎn)單來(lái)說(shuō)就是:依賴模式匹配的模型在組合任務(wù)中只能可靠地泛化到那些能通過替換功能等價(jià)的片段而得到的輸入。換句話說(shuō),如果模型從未見過某些組合方式產(chǎn)生的結(jié)果,它就無(wú)法可靠地預(yù)測(cè)這些結(jié)果,除非它能找到功能上等價(jià)的替代組合。

這個(gè)框架的威力在于它能精確預(yù)測(cè)Transformer模型何時(shí)能夠成功泛化,何時(shí)會(huì)失敗。研究團(tuán)隊(duì)通過理論推導(dǎo)和實(shí)驗(yàn)證明,對(duì)于兩步跳躍推理任務(wù),模型所需的訓(xùn)練數(shù)據(jù)量至少要與詞表大小成二次方比例增長(zhǎng)。更令人驚訝的是,即使將模型參數(shù)增加20倍,這種數(shù)據(jù)需求也沒有顯著改善。這表明了數(shù)據(jù)效率的限制與模型容量無(wú)關(guān),而是源于數(shù)據(jù)屬性本身。

研究還發(fā)現(xiàn),對(duì)于存在路徑歧義的組合任務(wù)(即一個(gè)變量通過多條計(jì)算路徑影響輸出),Transformer模型難以形成統(tǒng)一的中間狀態(tài)表示,而是發(fā)展出依賴于輸入上下文的狀態(tài)表示。這不僅降低了性能,也使模型內(nèi)部表示難以解釋。

近年來(lái)廣受歡迎的思維鏈(Chain-of-Thought)監(jiān)督方法確實(shí)能提高多步驟任務(wù)的數(shù)據(jù)效率,但研究表明,它仍然無(wú)法解決路徑歧義問題,除非展示幾乎所有可能的域內(nèi)組合。

這項(xiàng)研究最終提出了一個(gè)基于機(jī)制的分類法,區(qū)分了神經(jīng)網(wǎng)絡(luò)泛化的三種方式:基于結(jié)構(gòu)的(受覆蓋限制)、基于屬性的(利用代數(shù)不變性)和共享操作符的(通過函數(shù)重用)。這一分類法幫助我們理解為什么某些模型行為超出了覆蓋區(qū)域,并指出了實(shí)現(xiàn)真正系統(tǒng)性組合能力所需的新架構(gòu)方向。

總的來(lái)說(shuō),覆蓋原則提供了一個(gè)統(tǒng)一的視角,讓我們深入理解組合推理的本質(zhì)和局限,同時(shí)強(qiáng)調(diào)了實(shí)現(xiàn)真正系統(tǒng)性組合需要從根本上改進(jìn)現(xiàn)有架構(gòu)或訓(xùn)練方法。這項(xiàng)研究不僅有助于我們理解當(dāng)前AI系統(tǒng)的局限,也為未來(lái)的研究指明了方向。

一、從模式匹配到組合泛化:大語(yǔ)言模型的能力與局限

人類的思考能力很大程度上依賴于我們操作符號(hào)進(jìn)行組合的能力。我們能夠理解"藍(lán)色的大房子"即使從未見過這樣的組合,因?yàn)槲覀兛梢造`活地將"藍(lán)色"、"大"和"房子"這些概念組合起來(lái)。然而,盡管大語(yǔ)言模型(如GPT-4、Llama 3、Gemini和Claude等)表現(xiàn)出令人印象深刻的能力,它們?cè)谙到y(tǒng)性組合推理方面仍然表現(xiàn)出明顯的脆弱性和不一致性。

"我們發(fā)現(xiàn)大語(yǔ)言模型在組合任務(wù)上的泛化能力可以通過一個(gè)統(tǒng)一的框架來(lái)預(yù)測(cè),"KAIST的張浩延解釋道,"這個(gè)框架基于一個(gè)核心觀察:Transformer模型通過利用訓(xùn)練數(shù)據(jù)中支持的功能等價(jià)片段來(lái)泛化。"

這里的關(guān)鍵概念是"功能等價(jià)性"。想象兩個(gè)輸入片段:比如"2+3"和"1+4"。雖然它們看起來(lái)不同,但它們?cè)谟?jì)算過程中產(chǎn)生相同的中間結(jié)果"5"。如果模型能夠觀察到在各種上下文中這兩個(gè)片段始終產(chǎn)生相同的結(jié)果,就可以建立它們之間的功能等價(jià)關(guān)系,并據(jù)此進(jìn)行泛化。

研究團(tuán)隊(duì)將這種通過替換功能等價(jià)片段而可達(dá)的輸入集合定義為"覆蓋"。覆蓋原則指出,只要模型的唯一泛化機(jī)制是模式匹配,那么覆蓋就是組合泛化的必要條件——模型的預(yù)測(cè)在覆蓋區(qū)域外將變得不可靠。

這項(xiàng)研究的獨(dú)特之處在于它超越了先前關(guān)于模式匹配行為的觀察性和任務(wù)特定分析,提供了一個(gè)統(tǒng)一的框架,能夠系統(tǒng)地預(yù)測(cè)泛化邊界。

二、覆蓋原則的理論構(gòu)建:功能等價(jià)與可達(dá)性

覆蓋原則的核心是理解模型如何識(shí)別和利用輸入片段之間的功能等價(jià)性。為了直觀地理解這個(gè)概念,研究團(tuán)隊(duì)以兩步跳躍任務(wù)為例進(jìn)行說(shuō)明。

想象一個(gè)任務(wù):我們有輸入(x?, x?, x?),需要計(jì)算t = f?(f?(x?, x?), x?)。這是一個(gè)兩步計(jì)算:首先計(jì)算b = f?(x?, x?),然后計(jì)算t = f?(b, x?)。如果我們有兩對(duì)不同的輸入(x?, x?)和(x'?, x'?),但它們?cè)趂?函數(shù)下產(chǎn)生相同的中間結(jié)果b,那么在與相同的x?結(jié)合時(shí),它們應(yīng)該產(chǎn)生相同的最終輸出。

"當(dāng)模型觀察到這種一致性時(shí),它就能建立這些片段之間的功能等價(jià)關(guān)系,"研究團(tuán)隊(duì)解釋道,"這使得模型能夠推廣到未見過的輸入(x'?, x'?, x''?),前提是它曾見過(x?, x?, x''?)的結(jié)果。"

基于這個(gè)直觀理解,研究團(tuán)隊(duì)正式定義了"k-功能等價(jià)性":如果兩個(gè)輸入子序列在至少k個(gè)不同的共享上下文中產(chǎn)生相同的結(jié)果,那么它們就是功能k-等價(jià)的。參數(shù)k代表建立功能等價(jià)所需的證據(jù)強(qiáng)度。

接下來(lái),研究者引入了"替換圖"的概念:圖中的每個(gè)節(jié)點(diǎn)代表一個(gè)可能的輸入,如果兩個(gè)輸入僅在功能等價(jià)的片段上不同,就在它們之間連一條邊。"覆蓋"則被定義為從訓(xùn)練數(shù)據(jù)可通過替換功能等價(jià)片段而到達(dá)的所有輸入的集合。

覆蓋原則明確指出:如果泛化僅來(lái)源于觀察到的功能等價(jià)性,那么模型在覆蓋區(qū)域外的預(yù)測(cè)將不受訓(xùn)練數(shù)據(jù)的約束,也就是說(shuō),模型無(wú)法可靠地泛化到覆蓋區(qū)域之外。

這個(gè)框架不僅提供了理論基礎(chǔ),更重要的是,它為理解和預(yù)測(cè)真實(shí)模型行為提供了強(qiáng)大工具。研究團(tuán)隊(duì)通過隨機(jī)映射數(shù)據(jù)集構(gòu)建,驗(yàn)證了Transformer模型確實(shí)無(wú)法泛化到覆蓋區(qū)域之外,證實(shí)了覆蓋原則的預(yù)測(cè)能力。

三、數(shù)據(jù)需求的二次方增長(zhǎng):覆蓋原則的預(yù)測(cè)與驗(yàn)證

覆蓋原則的一個(gè)關(guān)鍵預(yù)測(cè)是關(guān)于數(shù)據(jù)需求的增長(zhǎng)率。對(duì)于兩步跳躍推理任務(wù),要使模型能夠可靠地泛化到所有域內(nèi)測(cè)試數(shù)據(jù),訓(xùn)練數(shù)據(jù)集的大小需要至少與詞表大小成二次方比例增長(zhǎng)。

通過理論推導(dǎo),研究團(tuán)隊(duì)得出了一個(gè)重要結(jié)果:當(dāng)學(xué)習(xí)者只有在觀察到至少k對(duì)不同的證據(jù)后才能識(shí)別兩個(gè)子序列的功能等價(jià)性時(shí),讓Nreq(|X|, k)表示在這個(gè)證據(jù)閾值下實(shí)現(xiàn)完全泛化所需的最小訓(xùn)練數(shù)據(jù)集大小,則Nreq(|X|, k) = Ω(|X|^α(k)),其中α(k) = 2.5 - 0.5/k。

"對(duì)于k≥2的實(shí)際情況,這意味著數(shù)據(jù)需求至少以|X|?增長(zhǎng),"研究團(tuán)隊(duì)解釋道,"這種增長(zhǎng)率與傳統(tǒng)的模型縮放研究不同,它表明組合任務(wù)的數(shù)據(jù)需求主要取決于詞表大小,而非模型容量。"

為了驗(yàn)證這一理論預(yù)測(cè),研究者對(duì)不同任務(wù)結(jié)構(gòu)(2-HOP、PARALLEL-2-HOP和3-HOP)和不同詞表大小(從50到200)進(jìn)行了實(shí)驗(yàn)。他們定義了一個(gè)實(shí)際閾值Nreq來(lái)估計(jì)所需的數(shù)據(jù)量,即在訓(xùn)練精度達(dá)到0.99后100個(gè)訓(xùn)練周期內(nèi)達(dá)到0.99的域內(nèi)測(cè)試精度所需的最小數(shù)據(jù)量。

實(shí)驗(yàn)結(jié)果驚人地符合理論預(yù)測(cè):對(duì)于2-HOP任務(wù),測(cè)得的冪律指數(shù)為c = 2.26,與理論預(yù)測(cè)的至少二次方增長(zhǎng)一致。更復(fù)雜的PARALLEL-2-HOP(c = 2.43)和3-HOP(c = 2.58)任務(wù)表現(xiàn)出更陡峭的冪律縮放,表明額外的計(jì)算步驟本質(zhì)上增加了需要強(qiáng)健覆蓋的關(guān)系維度。

更令人驚訝的是,這些指數(shù)在不同規(guī)模的GPT-2模型(從68M到1.5B參數(shù),相差20倍)中保持不變,證實(shí)了這種縮放關(guān)系主要由數(shù)據(jù)屬性決定,而非模型容量。這一發(fā)現(xiàn)對(duì)于如何處理復(fù)雜推理任務(wù)具有重要意義,表明數(shù)據(jù)策略可能比簡(jiǎn)單地增加參數(shù)更為重要。

四、路徑歧義與模型表征:解釋內(nèi)部機(jī)制的局限

許多現(xiàn)實(shí)世界的推理任務(wù)涉及存在"路徑歧義"的計(jì)算結(jié)構(gòu)——同一個(gè)變量通過多條計(jì)算路徑影響輸出。根據(jù)覆蓋原則,在這類任務(wù)中,Transformer模型難以形成理論上等價(jià)的中間狀態(tài)的統(tǒng)一表示,反而會(huì)開發(fā)出依賴于輸入上下文的狀態(tài)表示。

為了研究這一現(xiàn)象,研究團(tuán)隊(duì)分析了NON-TREE任務(wù)作為案例研究,其中x?同時(shí)作為f?的輸入和直接影響f?的變量。根據(jù)功能等價(jià)性的定義,這種路徑歧義阻止了模型建立兩個(gè)子序列(x?, x?)和(x'?, x'?)之間的功能等價(jià)性,除非它們也共享相同的x?值。

"這導(dǎo)致了表示分裂,"研究團(tuán)隊(duì)解釋道,"模型無(wú)法形成統(tǒng)一的中間狀態(tài)表示,而是為每個(gè)x?條件創(chuàng)建了上下文相關(guān)的狀態(tài)表示。這不僅影響了泛化性能,也使模型內(nèi)部表示難以解釋。"

實(shí)驗(yàn)表明,GPT-2在相同訓(xùn)練條件下,可以在2-HOP任務(wù)上實(shí)現(xiàn)完全泛化,但在NON-TREE任務(wù)上失敗,即使提供了接近窮盡的可能域內(nèi)組合作為訓(xùn)練數(shù)據(jù)。將參數(shù)擴(kuò)展到1.5B也沒有顯著改善性能。

更深入的分析揭示,即使經(jīng)過極其延長(zhǎng)的訓(xùn)練(36k輪迭代)并接近域內(nèi)精度0.96的模型,也沒有形成統(tǒng)一的中間狀態(tài)表示。研究者通過"內(nèi)部-內(nèi)部余弦間隙"(IICG)分析表明,當(dāng)按中間狀態(tài)值b分組時(shí),模型表現(xiàn)出接近零的IICG分?jǐn)?shù),而按x?條件的中間狀態(tài)((b, x?))分組則產(chǎn)生高IICG分?jǐn)?shù),證實(shí)了上下文依賴狀態(tài)表示的形成。

這種上下文依賴性還導(dǎo)致了可解釋性問題——標(biāo)準(zhǔn)線性探測(cè)技術(shù)如logit鏡頭很難可靠地識(shí)別中間狀態(tài)。此外,研究分析為何大語(yǔ)言模型在規(guī)劃任務(wù)上表現(xiàn)不佳提供了洞見,因?yàn)橐?guī)劃常常需要正確追蹤中間狀態(tài),而這些狀態(tài)可能通過多條路徑影響結(jié)果。

五、思維鏈監(jiān)督:提升與局限

思維鏈(Chain-of-Thought,簡(jiǎn)稱CoT)監(jiān)督是一種顯著改善模型在多步推理任務(wù)中表現(xiàn)的方法。研究團(tuán)隊(duì)研究了CoT與覆蓋原則的互動(dòng),以及它能否解決前面章節(jié)中觀察到的挑戰(zhàn)。

具體來(lái)說(shuō),研究者訓(xùn)練模型按順序生成中間狀態(tài)和最終輸出,例如將2-HOP任務(wù)轉(zhuǎn)變?yōu)閮刹筋A(yù)測(cè):(x?, x?, x?) → (b, t)。這種顯式監(jiān)督大幅提高了數(shù)據(jù)效率,使3-HOP任務(wù)的冪律指數(shù)從2.58降至1.76,與先前關(guān)于CoT樣本效率的研究結(jié)果一致。

"令人驚訝的是,使用CoT監(jiān)督后,2-HOP、3-HOP甚至5-HOP任務(wù)的縮放指數(shù)變得幾乎相同,"研究者指出,"這表明CoT有效地將多跳結(jié)構(gòu)'扁平化'為單跳任務(wù)的序列,減少了更深層組合結(jié)構(gòu)的累積數(shù)據(jù)需求。"

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),即使使用CoT監(jiān)督,模型在處理NON-TREE任務(wù)時(shí)仍然面臨困難。盡管CoT監(jiān)督帶來(lái)了改進(jìn),但模型無(wú)法在相同訓(xùn)練條件下達(dá)到2-HOP任務(wù)那樣的完美域內(nèi)泛化性能。IICG分析顯示,模型的表示仍然部分依賴于上下文。

"對(duì)于2-HOP任務(wù),表示純粹按中間狀態(tài)b聚類,"研究團(tuán)隊(duì)解釋道,"而NON-TREE任務(wù)的IICG分?jǐn)?shù)在按相同條件測(cè)量時(shí)在每一層都顯著提高,表明模型內(nèi)部存在非解耦的狀態(tài)表示。"

研究團(tuán)隊(duì)推測(cè),這是因?yàn)镃oT監(jiān)督并不能提供足夠的證據(jù)表明不同的(x?, x?)對(duì)共享相同的b應(yīng)該產(chǎn)生相同的第二步輸出,因?yàn)楣δ艿葍r(jià)性只在x? = x'?時(shí)成立。因此,雖然CoT監(jiān)督通過分解多跳結(jié)構(gòu)來(lái)幫助順序計(jì)算,但它可能部分繼承了處理路徑歧義任務(wù)的限制。這一發(fā)現(xiàn)很可能解釋了為什么大語(yǔ)言模型即使使用CoT技術(shù)和海量訓(xùn)練數(shù)據(jù),在復(fù)雜規(guī)劃任務(wù)中仍然面臨挑戰(zhàn)。

六、泛化機(jī)制分類法:超越覆蓋的思路

覆蓋分析揭示了模式匹配對(duì)組合泛化的基本限制。這引發(fā)了一個(gè)更廣泛的問題:神經(jīng)網(wǎng)絡(luò)還有哪些其他機(jī)制可以突破覆蓋邊界?研究團(tuán)隊(duì)提出了一個(gè)初步的分類法,區(qū)分了三種互補(bǔ)的泛化機(jī)制,并提供了關(guān)于為什么模型有時(shí)能夠超越覆蓋的假設(shè)。

第一類是"基于結(jié)構(gòu)的泛化"(Type-I)。這正是本論文通過覆蓋原則所正式化的內(nèi)容:模型基于原始函數(shù)如何組合來(lái)識(shí)別和利用功能等價(jià)成分。關(guān)鍵是,這種泛化受到覆蓋的嚴(yán)格限制,如果沒有足夠的功能等價(jià)證據(jù),可靠的泛化就會(huì)失敗。Type-I描述了沒有顯式變量綁定的模式匹配的上限。

第二類是"基于函數(shù)屬性的泛化"(Type-II),它利用單個(gè)原始函數(shù)的內(nèi)在屬性(如代數(shù)不變性)。與Type-I不同,這類泛化可以超越覆蓋限制,因?yàn)樗昧诉m用于原始函數(shù)所有輸入的屬性。

研究團(tuán)隊(duì)以"逆轉(zhuǎn)詛咒"為例說(shuō)明組合挑戰(zhàn)的分層性。覆蓋原則(Type-I)解釋了基本失?。涸?A是B"上訓(xùn)練提供不了"B是A??"的功能等價(jià)證據(jù)?;趯傩缘姆椒ㄈ珉p向訓(xùn)練(Type-II)通過利用關(guān)系可逆性部分成功,使用架構(gòu)修改從相同訓(xùn)練數(shù)據(jù)學(xué)習(xí)逆映射。然而,最新證據(jù)表明,當(dāng)實(shí)體在句法角色之間切換時(shí),模型仍然面臨挑戰(zhàn),表明變量綁定仍然是個(gè)難題。

第三類是"共享操作符泛化"(Type-III),通過在計(jì)算位置之間重用相同的原始函數(shù)實(shí)現(xiàn)。循環(huán)架構(gòu)通過時(shí)間步長(zhǎng)的權(quán)重共享展示了這一點(diǎn),使處理可變長(zhǎng)度序列成為可能。在Transformer中,對(duì)相同計(jì)算重用的歸納偏好可以改善組合任務(wù)的泛化,超出覆蓋范圍。

這種基于機(jī)制的分類法區(qū)別于先前的基于現(xiàn)象的分類(如"系統(tǒng)性"與"混合匹配")。覆蓋原則為Type-I邊界提供了量化預(yù)測(cè),同時(shí)識(shí)別何時(shí)需要Type-II或Type-III機(jī)制。這種機(jī)制區(qū)分有助于未來(lái)的神經(jīng)泛化分析。

七、討論與未來(lái)展望:系統(tǒng)性的挑戰(zhàn)與前進(jìn)方向

覆蓋原則提出了一個(gè)根本性問題:當(dāng)神經(jīng)網(wǎng)絡(luò)僅依賴模式匹配且沒有顯式變量綁定機(jī)制時(shí),它能在多大程度上實(shí)現(xiàn)組合泛化?通過形式化模式匹配成功的確切條件,研究團(tuán)隊(duì)繪制了一個(gè)有原則的邊界,界定了僅憑輸入-輸出對(duì)就能學(xué)習(xí)的范圍。

這一邊界澄清了幾十年前Fodor和Pylyshyn以及Marcus強(qiáng)調(diào)的局限性。研究結(jié)果補(bǔ)充了直接編碼組合結(jié)構(gòu)的方法,無(wú)論是通過符號(hào)接口、基于槽的表示還是神經(jīng)模塊,并明確了實(shí)現(xiàn)真正系統(tǒng)性泛化所需克服的障礙。

從實(shí)際應(yīng)用角度看,這個(gè)框架提供了對(duì)多種觀察到的大語(yǔ)言模型行為的見解。首先,它解釋了組合任務(wù)對(duì)數(shù)據(jù)的饑渴性,顯示需要強(qiáng)健的覆蓋才能實(shí)現(xiàn)可靠泛化。其次,它解釋了模型在泛化長(zhǎng)尾知識(shí)方面的困難,因?yàn)榈皖l組合自然獲得有限的功能等價(jià)證據(jù)。類似地,即使使用CoT技術(shù),復(fù)雜規(guī)劃任務(wù)中的失敗也可能歸因于路徑歧義。此外,覆蓋原則預(yù)測(cè)了逆轉(zhuǎn)詛咒現(xiàn)象,因?yàn)槟J狡ヅ淠P突旧蠠o(wú)法在沒有訓(xùn)練數(shù)據(jù)中明確功能等價(jià)證據(jù)的情況下泛化到逆轉(zhuǎn)關(guān)系。

研究框架還有助于理解標(biāo)準(zhǔn)可解釋性技術(shù)如線性探測(cè)或logit鏡頭何時(shí)可能失效。此外,覆蓋分析暗示了數(shù)據(jù)增強(qiáng)策略,通過確保功能等價(jià)成分的多樣共享上下文來(lái)最大化覆蓋。這可以解釋戰(zhàn)略性數(shù)據(jù)增強(qiáng)方法的成功,并提供有原則的指導(dǎo)。

盡管實(shí)證研究集中在GPT-2風(fēng)格的Transformer上,但覆蓋原則本身不做架構(gòu)假設(shè),適用于任何主要依賴模式匹配的學(xué)習(xí)系統(tǒng)。將分析擴(kuò)展到循環(huán)、狀態(tài)空間或卷積架構(gòu),以及更現(xiàn)實(shí)的數(shù)據(jù)(其中多種計(jì)算結(jié)構(gòu)在同一數(shù)據(jù)集中共存)仍是有前景的未來(lái)研究方向。

八、結(jié)論:組合理解的統(tǒng)一視角

覆蓋原則提供了一個(gè)數(shù)據(jù)中心框架,指定了何時(shí)模式匹配學(xué)習(xí)者能夠或無(wú)法組合地泛化。理論分析和受控實(shí)驗(yàn)表明,Transformer的成功緊密受覆蓋預(yù)測(cè):兩跳任務(wù)遵循超二次數(shù)據(jù)縮放法則,即使參數(shù)增加20倍也不會(huì)改善;路徑歧義會(huì)分散內(nèi)部表示;CoT監(jiān)督僅在覆蓋邊界內(nèi)有效。

這些結(jié)果揭示了Type I結(jié)構(gòu)化泛化的局限。研究提出的分類法然后定位了兩種額外機(jī)制——Type II屬性利用和Type III共享操作符重用,這些有助于解釋文獻(xiàn)中報(bào)告的覆蓋"違例"。然而,所有三種機(jī)制可能仍依賴于復(fù)雜的模式匹配而非顯式變量綁定,使基本的系統(tǒng)性挑戰(zhàn)懸而未決。

因此,F(xiàn)odor、Pylyshyn和Marcus提出的系統(tǒng)性挑戰(zhàn)仍然開放。實(shí)現(xiàn)類人組合性可能需要能夠獨(dú)立于表面形式綁定和操作符號(hào)的架構(gòu),而非僅僅擴(kuò)大或精煉當(dāng)前的模式匹配策略。覆蓋原則和隨附的分類提供了清晰的目標(biāo)和創(chuàng)新路線圖。

"我們希望這項(xiàng)研究能幫助社區(qū)更深入地理解組合推理及其機(jī)制解釋的固有局限,"論文作者總結(jié)道,"這凸顯了在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)真正系統(tǒng)性泛化需要架構(gòu)或訓(xùn)練創(chuàng)新的必要性。"

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-