這項(xiàng)由意大利國(guó)家研究委員會(huì)應(yīng)用科學(xué)與智能系統(tǒng)研究所的研究團(tuán)隊(duì)聯(lián)合開(kāi)展的創(chuàng)新研究,于2025年7月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域。研究團(tuán)隊(duì)包括來(lái)自意大利薩倫托大學(xué)、西班牙巴斯克大學(xué)以及法國(guó)上法蘭西理工大學(xué)的專家學(xué)者。有興趣深入了解的讀者可以通過(guò)arXiv:2507.23436v1獲取完整論文。
當(dāng)你站在博物館里,看著一幅梵高的《星夜》和一幅畢加索的《格爾尼卡》,你能立刻感受到兩者截然不同的藝術(shù)風(fēng)格。但對(duì)于計(jì)算機(jī)來(lái)說(shuō),教會(huì)它們識(shí)別和分類不同的藝術(shù)風(fēng)格卻是一個(gè)極具挑戰(zhàn)性的任務(wù)。這就像讓一個(gè)從未接觸過(guò)音樂(lè)的人去分辨古典音樂(lè)和搖滾樂(lè)的區(qū)別一樣困難。
傳統(tǒng)的人工智能系統(tǒng)在識(shí)別藝術(shù)風(fēng)格時(shí)面臨著一個(gè)根本性的問(wèn)題:它們依賴于大量已經(jīng)標(biāo)注好的藝術(shù)作品數(shù)據(jù)來(lái)學(xué)習(xí)。然而,獲得專業(yè)藝術(shù)史學(xué)家的準(zhǔn)確標(biāo)注既昂貴又耗時(shí)。更重要的是,藝術(shù)風(fēng)格往往包含著復(fù)雜而微妙的特征組合,這些特征之間的關(guān)系并非簡(jiǎn)單的線性關(guān)系,而是像一張復(fù)雜的關(guān)系網(wǎng)絡(luò)。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI系統(tǒng)在處理這些復(fù)雜關(guān)系時(shí)就像用一把直尺去測(cè)量彎曲的道路一樣,無(wú)法準(zhǔn)確捕捉到藝術(shù)風(fēng)格中那些精妙的非線性特征。為了解決這個(gè)問(wèn)題,他們提出了一種全新的方法,將傳統(tǒng)的多層感知器投影頭替換為基于柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)的創(chuàng)新結(jié)構(gòu)。
一、藝術(shù)風(fēng)格識(shí)別的現(xiàn)實(shí)挑戰(zhàn)
在討論解決方案之前,我們需要理解藝術(shù)風(fēng)格識(shí)別究竟面臨著怎樣的困難。當(dāng)人類專家觀察一幅畫作時(shí),他們會(huì)綜合考慮色彩運(yùn)用、筆觸技法、構(gòu)圖方式、主題選擇等多個(gè)維度。這些元素之間的相互作用形成了獨(dú)特的藝術(shù)風(fēng)格。
以印象派為例,它的特點(diǎn)不僅僅是色彩明亮或筆觸松散,而是這些特征如何協(xié)調(diào)配合,創(chuàng)造出特定的視覺(jué)效果。一幅印象派作品可能同時(shí)具有快速的筆觸、明亮的色彩、模糊的輪廓和對(duì)光線變化的敏感捕捉。這些特征之間存在著復(fù)雜的相互依賴關(guān)系,單純地分析每個(gè)特征都無(wú)法完全理解印象派的本質(zhì)。
對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō),這種復(fù)雜性帶來(lái)了巨大挑戰(zhàn)。早期的方法依賴于手工設(shè)計(jì)的特征,比如顏色直方圖和紋理描述符,然后使用支持向量機(jī)或最近鄰算法進(jìn)行分類。這種方法雖然在某些情況下有效,但往往無(wú)法捕捉到藝術(shù)風(fēng)格中更抽象和微妙的模式。
深度學(xué)習(xí)的興起為藝術(shù)風(fēng)格識(shí)別帶來(lái)了新的希望。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)層次化的視覺(jué)表示,從簡(jiǎn)單的邊緣和紋理到復(fù)雜的形狀和對(duì)象。研究表明,在場(chǎng)景識(shí)別任務(wù)上預(yù)訓(xùn)練的網(wǎng)絡(luò)在藝術(shù)分類方面表現(xiàn)優(yōu)于在對(duì)象識(shí)別任務(wù)上預(yù)訓(xùn)練的網(wǎng)絡(luò)。這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要insight:藝術(shù)風(fēng)格的識(shí)別更多地依賴于整體的視覺(jué)氛圍和構(gòu)圖方式,而不是具體的對(duì)象識(shí)別。
然而,即使是最先進(jìn)的深度學(xué)習(xí)方法,在藝術(shù)領(lǐng)域仍然面臨著數(shù)據(jù)稀缺的問(wèn)題。與自然圖像相比,高質(zhì)量的藝術(shù)作品數(shù)據(jù)集相對(duì)較小,專業(yè)標(biāo)注更是稀缺資源。這種數(shù)據(jù)限制迫使研究者轉(zhuǎn)向自監(jiān)督學(xué)習(xí)方法,試圖從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)有用的表示。
自監(jiān)督學(xué)習(xí)的核心思想是讓模型通過(guò)對(duì)比學(xué)習(xí)來(lái)理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。典型的方法如MoCo和SimCLR通過(guò)創(chuàng)建數(shù)據(jù)的不同增強(qiáng)版本,訓(xùn)練模型識(shí)別哪些樣本來(lái)自同一原始數(shù)據(jù)。雖然這些方法在通用圖像任務(wù)上取得了成功,但在藝術(shù)風(fēng)格識(shí)別方面仍有不足。藝術(shù)作品的風(fēng)格特征往往更加微妙和主觀,需要更精細(xì)的特征表示和更復(fù)雜的相似性度量。
二、雙教師知識(shí)蒸餾框架的創(chuàng)新思路
為了應(yīng)對(duì)藝術(shù)風(fēng)格識(shí)別的挑戰(zhàn),研究團(tuán)隊(duì)采用了一種稱為雙教師知識(shí)蒸餾的創(chuàng)新框架。這個(gè)框架的工作原理可以比作一個(gè)學(xué)生同時(shí)向兩位不同專長(zhǎng)的老師學(xué)習(xí)的過(guò)程。
在這個(gè)比喻中,第一位老師專門研究藝術(shù)作品的局部細(xì)節(jié),比如筆觸的質(zhì)感、顏料的厚度、線條的走向等技法層面的特征。這位老師能夠敏銳地察覺(jué)到梵高畫作中那種獨(dú)特的旋渦狀筆觸,或者是莫奈作品中那種輕快的點(diǎn)彩技法。我們稱這位老師為"動(dòng)量教師",因?yàn)樗ㄟ^(guò)指數(shù)移動(dòng)平均的方式保持著對(duì)這些技法特征的穩(wěn)定理解。
第二位老師則更關(guān)注藝術(shù)作品的整體風(fēng)格和美學(xué)層面,比如色彩的整體協(xié)調(diào)性、構(gòu)圖的平衡感、情緒的表達(dá)方式等。這位老師能夠理解巴洛克藝術(shù)的戲劇性光影對(duì)比,或者是抽象表現(xiàn)主義的情感強(qiáng)度。我們稱這位老師為"風(fēng)格教師",它專門負(fù)責(zé)捕捉那些定義藝術(shù)運(yùn)動(dòng)的宏觀特征。
學(xué)生模型需要同時(shí)向這兩位老師學(xué)習(xí),整合局部技法和整體風(fēng)格兩個(gè)層面的信息。這種多重指導(dǎo)的學(xué)習(xí)方式使得學(xué)生模型能夠獲得更全面、更深入的藝術(shù)理解能力。
雙教師框架的技術(shù)實(shí)現(xiàn)相當(dāng)精巧。對(duì)于每一幅輸入圖像,系統(tǒng)會(huì)生成三個(gè)不同的增強(qiáng)版本。第一個(gè)版本經(jīng)過(guò)輕微的變換(如小幅度的旋轉(zhuǎn)或顏色調(diào)整)送給動(dòng)量教師,第二個(gè)版本經(jīng)過(guò)更強(qiáng)烈的變換(如大幅裁剪或?qū)Ρ榷日{(diào)整)送給風(fēng)格教師,第三個(gè)版本則送給學(xué)生模型。這種非對(duì)稱的數(shù)據(jù)增強(qiáng)策略創(chuàng)造了一個(gè)受控的學(xué)習(xí)環(huán)境,迫使學(xué)生模型學(xué)會(huì)從不同程度的視覺(jué)變化中提取穩(wěn)定的風(fēng)格特征。
在訓(xùn)練過(guò)程中,學(xué)生模型的目標(biāo)是使其產(chǎn)生的特征表示同時(shí)與兩位教師的輸出保持一致。這種一致性通過(guò)余弦相似度來(lái)衡量,就像測(cè)量?jī)蓚€(gè)向量之間的夾角一樣。當(dāng)學(xué)生模型的表示與教師越接近時(shí),相似度越高,學(xué)習(xí)效果越好。
為了進(jìn)一步增強(qiáng)風(fēng)格特征的學(xué)習(xí),系統(tǒng)還引入了格拉姆矩陣對(duì)齊機(jī)制。格拉姆矩陣是一個(gè)數(shù)學(xué)工具,能夠捕捉特征通道之間的相關(guān)性,這對(duì)于理解藝術(shù)風(fēng)格中的紋理和質(zhì)感特征特別重要。通過(guò)比較學(xué)生和教師的格拉姆矩陣,系統(tǒng)能夠確保風(fēng)格相關(guān)的統(tǒng)計(jì)特征得到正確傳遞。
這個(gè)雙教師框架的一個(gè)關(guān)鍵優(yōu)勢(shì)是它能夠在沒(méi)有大量標(biāo)注數(shù)據(jù)的情況下學(xué)習(xí)到豐富的藝術(shù)特征表示。兩位教師通過(guò)指數(shù)移動(dòng)平均的方式進(jìn)行更新,這保證了訓(xùn)練的穩(wěn)定性,避免了傳統(tǒng)對(duì)比學(xué)習(xí)中可能出現(xiàn)的特征崩塌問(wèn)題。
三、柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)的數(shù)學(xué)創(chuàng)新
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)投影頭使用多層感知器結(jié)構(gòu),這種結(jié)構(gòu)的每個(gè)神經(jīng)元都使用固定的激活函數(shù),如ReLU或GELU。這就像用一套固定的工具去處理所有不同類型的材料,雖然在許多情況下有效,但在面對(duì)復(fù)雜的非線性關(guān)系時(shí)就顯得力不從心了。
研究團(tuán)隊(duì)引入的柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)代表了一種根本性的創(chuàng)新思路。KAN的核心理念基于柯?tīng)柲缏宸?阿諾德表示定理,這個(gè)定理說(shuō)明任何多變量連續(xù)函數(shù)都可以表示為單變量函數(shù)的有限組合。簡(jiǎn)單來(lái)說(shuō),就是任何復(fù)雜的多維關(guān)系都可以通過(guò)一系列一維函數(shù)的巧妙組合來(lái)精確表達(dá)。
在實(shí)際應(yīng)用中,KAN用可學(xué)習(xí)的樣條基函數(shù)替代了傳統(tǒng)的固定激活函數(shù)。樣條函數(shù)就像一條可以靈活彎曲的橡皮繩,能夠根據(jù)數(shù)據(jù)的特點(diǎn)自動(dòng)調(diào)整其形狀。每條邊上的激活函數(shù)不再是千篇一律的ReLU或sigmoid,而是由數(shù)據(jù)驅(qū)動(dòng)的、可以適應(yīng)性調(diào)整的三次B樣條函數(shù)。
這種設(shè)計(jì)的數(shù)學(xué)表達(dá)可以寫作:對(duì)于輸入特征向量的每個(gè)維度,KAN會(huì)計(jì)算一系列樣條函數(shù)的加權(quán)和。每個(gè)樣條函數(shù)都有自己的控制點(diǎn),這些控制點(diǎn)在訓(xùn)練過(guò)程中會(huì)根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行調(diào)整。最終的輸出是所有這些可調(diào)樣條函數(shù)的精心編排的組合。
為了防止過(guò)擬合并鼓勵(lì)有意義的表示學(xué)習(xí),KAN采用了三種正則化策略。首先是L1稀疏性損失,它鼓勵(lì)大部分樣條參數(shù)保持較小的值,就像修剪花園中的枝葉一樣,保留最重要的連接。其次是平滑性損失,它懲罰樣條函數(shù)中過(guò)于急劇的變化,確保學(xué)到的函數(shù)具有良好的數(shù)學(xué)性質(zhì)。最后是片段去激活損失,它隨機(jī)關(guān)閉某些樣條片段,類似于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的dropout技術(shù),但更加精細(xì)化。
在藝術(shù)風(fēng)格分類的背景下,KAN的優(yōu)勢(shì)特別明顯。藝術(shù)風(fēng)格往往涉及多個(gè)視覺(jué)元素之間的復(fù)雜相互作用,這些關(guān)系很難用簡(jiǎn)單的線性組合或固定的非線性函數(shù)來(lái)描述。例如,一幅印象派作品的風(fēng)格可能同時(shí)取決于色彩的飽和度、筆觸的方向、光影的分布以及這些因素之間的微妙協(xié)調(diào)。KAN的自適應(yīng)樣條函數(shù)能夠精確捕捉這些高階相互作用,從而實(shí)現(xiàn)更準(zhǔn)確的風(fēng)格識(shí)別。
研究團(tuán)隊(duì)使用5×5的變換網(wǎng)格和三階三次樣條函數(shù)來(lái)實(shí)現(xiàn)KAN投影頭。這個(gè)配置在表達(dá)能力和計(jì)算效率之間達(dá)到了良好的平衡。三階樣條提供了足夠的靈活性來(lái)建模復(fù)雜的函數(shù)關(guān)系,而5×5的網(wǎng)格大小則確保了合理的參數(shù)數(shù)量和訓(xùn)練時(shí)間。
四、實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集選擇
為了全面評(píng)估新方法的有效性,研究團(tuán)隊(duì)選擇了兩個(gè)在藝術(shù)風(fēng)格分類領(lǐng)域廣受認(rèn)可的數(shù)據(jù)集:WikiArt和Pandora18k。這兩個(gè)數(shù)據(jù)集各有特色,為驗(yàn)證方法的泛化能力提供了理想的測(cè)試環(huán)境。
WikiArt數(shù)據(jù)集包含超過(guò)80000件藝術(shù)作品,涵蓋25個(gè)不同的藝術(shù)風(fēng)格類別,創(chuàng)作者包括195位知名藝術(shù)家。這個(gè)數(shù)據(jù)集的規(guī)模和多樣性使其成為藝術(shù)風(fēng)格分類研究的標(biāo)準(zhǔn)基準(zhǔn)。研究團(tuán)隊(duì)從中選擇了圖像數(shù)量最多的10個(gè)類別,最終形成了包含53072張圖像的子集,其中37146張用于訓(xùn)練,7956張用于驗(yàn)證,7970張用于測(cè)試。這種劃分確保了每個(gè)類別都有足夠的樣本用于有效的特征投影和評(píng)估。
Pandora18k數(shù)據(jù)集則包含18038張來(lái)自各種藝術(shù)流派和攝影風(fēng)格的圖像,雖然規(guī)模相對(duì)較小,但在風(fēng)格多樣性方面有其獨(dú)特價(jià)值。為了確保實(shí)驗(yàn)結(jié)果的可重復(fù)性和公平性,研究團(tuán)隊(duì)采用了與之前雙教師框架研究相同的訓(xùn)練、驗(yàn)證、測(cè)試比例,但使用了不同的隨機(jī)種子來(lái)避免數(shù)據(jù)泄露。
在實(shí)驗(yàn)設(shè)置方面,研究團(tuán)隊(duì)采用了隨機(jī)梯度下降優(yōu)化器,并針對(duì)不同數(shù)據(jù)集進(jìn)行了精心的超參數(shù)調(diào)優(yōu)。對(duì)于WikiArt數(shù)據(jù)集,他們使用批大小為32,初始學(xué)習(xí)率為0.0075,輸入圖像分辨率為480×480像素。這些設(shè)置在保持高分辨率藝術(shù)細(xì)節(jié)的同時(shí),確保了穩(wěn)定的訓(xùn)練動(dòng)態(tài)。對(duì)于Pandora18k數(shù)據(jù)集,則采用批大小16,初始學(xué)習(xí)率0.001,圖像分辨率352×352像素的配置,在計(jì)算效率和性能之間達(dá)到了有效平衡。
學(xué)習(xí)率調(diào)度采用了先線性預(yù)熱再余弦退火的策略,這種方法在深度學(xué)習(xí)訓(xùn)練中已被證明能夠提高收斂穩(wěn)定性。動(dòng)量系數(shù)α和β都設(shè)置為0.99,確保了教師網(wǎng)絡(luò)的緩慢而穩(wěn)定的更新。整個(gè)訓(xùn)練過(guò)程在NVIDIA Quadro 4500 GPU上進(jìn)行25個(gè)epochs,所有實(shí)現(xiàn)都基于PyTorch 1.12.1和CUDA 12.4。
為了驗(yàn)證KAN的有效性,研究團(tuán)隊(duì)在三種不同的主干架構(gòu)上進(jìn)行了對(duì)比實(shí)驗(yàn):EfficientNet-B0、ConvNeXt-Base和ViT-Base。這種多架構(gòu)驗(yàn)證策略能夠證明KAN的改進(jìn)效果不依賴于特定的特征提取器,而是一種通用的增強(qiáng)方法。
訓(xùn)練完成后,研究團(tuán)隊(duì)凍結(jié)學(xué)生模型的主干網(wǎng)絡(luò),采用線性評(píng)估協(xié)議來(lái)評(píng)估學(xué)到的特征表示質(zhì)量。這種評(píng)估方式能夠客觀地衡量自監(jiān)督學(xué)習(xí)階段獲得的特征表示在下游分類任務(wù)中的有用性,是自監(jiān)督學(xué)習(xí)研究中的標(biāo)準(zhǔn)評(píng)估方法。
五、實(shí)驗(yàn)結(jié)果的深入分析
實(shí)驗(yàn)結(jié)果清晰地展示了KAN投影頭相對(duì)于傳統(tǒng)MLP投影頭的顯著優(yōu)勢(shì)。在Pandora18k數(shù)據(jù)集上,各種主干架構(gòu)都獲得了一致的性能提升。
EfficientNet-B0與KAN的結(jié)合取得了全方位的改進(jìn):Top-1準(zhǔn)確率從49.16%提升到50.08%,增幅為0.92%;Top-5準(zhǔn)確率從89.0%提升到90.1%,增幅為1.09%;精確率、召回率和F1分?jǐn)?shù)也都有相應(yīng)的提升。這些改進(jìn)可能看起來(lái)數(shù)值不大,但在藝術(shù)風(fēng)格分類這樣的細(xì)粒度任務(wù)中,每一個(gè)百分點(diǎn)的提升都代表著對(duì)微妙風(fēng)格差異更好的理解能力。
ConvNeXt-Base的表現(xiàn)更加出色,KAN帶來(lái)的改進(jìn)更為顯著。Top-1準(zhǔn)確率從65.23%躍升至66.26%,提升幅度達(dá)到1.03%。在精確率、召回率和F1分?jǐn)?shù)方面也都有接近1%的提升。這種全面的性能提升表明KAN能夠幫助模型更好地區(qū)分不同藝術(shù)風(fēng)格之間的細(xì)微差別,減少誤分類的情況。
ViT-Base作為基于注意力機(jī)制的架構(gòu),同樣從KAN中受益。雖然提升幅度相對(duì)較小,但在所有評(píng)估指標(biāo)上都顯示出了改進(jìn)。這說(shuō)明即使是已經(jīng)具有強(qiáng)大表達(dá)能力的Transformer架構(gòu),也能通過(guò)KAN的非線性建模能力獲得進(jìn)一步的性能提升。
在更具挑戰(zhàn)性的WikiArt數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果展現(xiàn)了不同的模式。EfficientNet-B0的表現(xiàn)相對(duì)復(fù)雜,Top-1準(zhǔn)確率有輕微下降,但Top-5準(zhǔn)確率和精確率都有所提升。這種現(xiàn)象可能反映了WikiArt數(shù)據(jù)集中風(fēng)格類別更多、區(qū)分難度更大的特點(diǎn)。在這種情況下,KAN幫助模型在保持整體準(zhǔn)確性的同時(shí),提高了對(duì)困難樣本的識(shí)別能力。
ConvNeXt-Base在WikiArt上的表現(xiàn)證實(shí)了KAN的價(jià)值。Top-1準(zhǔn)確率從60.08%提升到60.95%,精確率從61.37%提升到62.00%,召回率從61.63%提升到62.56%,F(xiàn)1分?jǐn)?shù)從61.46%提升到62.22%。這種一致的改進(jìn)表明KAN在處理大規(guī)模、多類別的藝術(shù)風(fēng)格分類任務(wù)時(shí)具有顯著優(yōu)勢(shì)。
ViT-Base在WikiArt上也顯示出了穩(wěn)定的改進(jìn),特別是在精確率方面提升了近1個(gè)百分點(diǎn),從64.97%提升到65.93%。這個(gè)結(jié)果特別有意義,因?yàn)樗砻鱇AN能夠幫助基于注意力的模型更精確地識(shí)別藝術(shù)風(fēng)格特征,減少假陽(yáng)性的分類錯(cuò)誤。
為了更深入地理解KAN在不同位置的作用,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn),分析了將KAN放置在雙教師框架不同分支中的效果。結(jié)果顯示,將KAN僅應(yīng)用于學(xué)生分支能夠帶來(lái)0.48%的Top-1準(zhǔn)確率提升,這表明KAN能夠增強(qiáng)學(xué)生模型分解復(fù)雜非線性特征的能力,同時(shí)保持教師信號(hào)的穩(wěn)定性。
更有趣的是,將KAN應(yīng)用于風(fēng)格教師分支帶來(lái)了最高的單分支改進(jìn),Top-1準(zhǔn)確率提升了1.26%,達(dá)到66.49%。這個(gè)結(jié)果揭示了KAN在風(fēng)格特征提取方面的特殊價(jià)值。風(fēng)格教師專門負(fù)責(zé)捕捉藝術(shù)作品的整體美學(xué)特征,而這些特征往往涉及復(fù)雜的非線性關(guān)系。KAN的自適應(yīng)樣條函數(shù)能夠精確建模這些關(guān)系,從而顯著提升風(fēng)格識(shí)別的準(zhǔn)確性。
當(dāng)KAN被應(yīng)用到所有三個(gè)分支時(shí),取得了最佳的整體性能:Top-1準(zhǔn)確率提升1.03%,精確率提升0.99%,召回率提升0.89%,F(xiàn)1分?jǐn)?shù)提升0.97%。這種全面的改進(jìn)證明了KAN在整個(gè)雙教師知識(shí)蒸餾框架中的系統(tǒng)性價(jià)值。
六、混淆矩陣揭示的深層洞察
通過(guò)分析混淆矩陣,研究團(tuán)隊(duì)獲得了關(guān)于KAN性能的更深層理解?;煜仃嚲拖褚幻骁R子,能夠反映模型在不同藝術(shù)風(fēng)格之間的分類表現(xiàn),揭示哪些風(fēng)格容易被正確識(shí)別,哪些風(fēng)格之間容易產(chǎn)生混淆。
在WikiArt數(shù)據(jù)集上,KAN展現(xiàn)出了對(duì)結(jié)構(gòu)化藝術(shù)風(fēng)格的優(yōu)秀識(shí)別能力。北方文藝復(fù)興風(fēng)格的識(shí)別準(zhǔn)確率達(dá)到了83.2%,抽象表現(xiàn)主義更是高達(dá)88.2%。這些高準(zhǔn)確率表明KAN能夠有效捕捉這些藝術(shù)風(fēng)格的關(guān)鍵特征。北方文藝復(fù)興以其精細(xì)的技法和豐富的細(xì)節(jié)著稱,而抽象表現(xiàn)主義則以大膽的色彩和自由的筆觸為特點(diǎn),這兩種風(fēng)格雖然截然不同,但都有相對(duì)明確的視覺(jué)特征,KAN能夠很好地學(xué)習(xí)和識(shí)別這些特征。
然而,巴洛克風(fēng)格的分類結(jié)果揭示了一些有趣的挑戰(zhàn)。雖然巴洛克風(fēng)格本身的識(shí)別準(zhǔn)確率不錯(cuò),但有8.4%的樣本被誤分類為現(xiàn)實(shí)主義,6.9%被誤分類為浪漫主義。這種混淆反映了這些藝術(shù)運(yùn)動(dòng)之間的歷史聯(lián)系和風(fēng)格重疊。巴洛克藝術(shù)的戲劇性和情感表達(dá)影響了后來(lái)的浪漫主義運(yùn)動(dòng),而其對(duì)現(xiàn)實(shí)的精確描繪又與現(xiàn)實(shí)主義有相通之處。
在Pandora18k數(shù)據(jù)集上,KAN的表現(xiàn)更加出色。抽象表現(xiàn)主義的識(shí)別準(zhǔn)確率達(dá)到了驚人的96.4%,巴洛克風(fēng)格也達(dá)到了90.7%。這種高準(zhǔn)確率表明KAN在這個(gè)數(shù)據(jù)集上學(xué)到了更加精確的風(fēng)格表示。
浪漫主義的77.1%準(zhǔn)確率雖然相對(duì)較低,但這反映了浪漫主義本身的復(fù)雜性。浮世繪與超現(xiàn)實(shí)主義和象征主義的混淆各占5.8%,這種誤分類模式很有啟發(fā)性。浮世繪作為日本傳統(tǒng)藝術(shù)形式,其平面化的構(gòu)圖和裝飾性的色彩運(yùn)用確實(shí)與某些超現(xiàn)實(shí)主義和象征主義作品有相似之處,特別是在非西方美學(xué)傳統(tǒng)的表達(dá)上。
社會(huì)現(xiàn)實(shí)主義69.6%的準(zhǔn)確率和與現(xiàn)實(shí)主義7.0%的重疊也很能說(shuō)明問(wèn)題。這兩種藝術(shù)運(yùn)動(dòng)在主題選擇和表現(xiàn)手法上確實(shí)有相似之處,都關(guān)注現(xiàn)實(shí)生活和社會(huì)問(wèn)題,區(qū)別主要在于政治立場(chǎng)和表現(xiàn)目的。
跨數(shù)據(jù)集的比較揭示了模型對(duì)底層視覺(jué)特征的依賴性。印象主義在WikiArt上的識(shí)別準(zhǔn)確率為68.5%,而魔幻現(xiàn)實(shí)主義在Pandora18k上僅為53.1%。這種差異突出了不同藝術(shù)風(fēng)格在視覺(jué)復(fù)雜性上的差異。印象主義有相對(duì)明確的視覺(jué)特征,如松散的筆觸和明亮的色彩,而魔幻現(xiàn)實(shí)主義更多依賴于主題內(nèi)容和文化背景,這些特征很難通過(guò)純視覺(jué)分析完全捕捉。
七、技術(shù)創(chuàng)新的深層機(jī)制
KAN相對(duì)于傳統(tǒng)MLP的優(yōu)勢(shì)不僅體現(xiàn)在最終的性能指標(biāo)上,更重要的是其工作機(jī)制的根本性創(chuàng)新。傳統(tǒng)的MLP投影頭使用固定的激活函數(shù),這就像用一套標(biāo)準(zhǔn)化的模具來(lái)處理所有材料,雖然效率高,但缺乏適應(yīng)性。
KAN的樣條基激活函數(shù)則像是可以根據(jù)材料特性自動(dòng)調(diào)整的智能工具。在藝術(shù)風(fēng)格分類的背景下,不同風(fēng)格的特征關(guān)系可能有著截然不同的數(shù)學(xué)特性。印象主義的特征可能表現(xiàn)為某些維度之間的平滑漸變關(guān)系,而立體主義的特征可能涉及更加尖銳的幾何變換。KAN的自適應(yīng)樣條函數(shù)能夠根據(jù)這些不同的關(guān)系模式調(diào)整自己的形狀,從而更精確地建模每種風(fēng)格的獨(dú)特特征。
樣條函數(shù)的控制點(diǎn)學(xué)習(xí)過(guò)程可以比作一個(gè)雕塑家不斷調(diào)整作品輪廓的過(guò)程。每個(gè)控制點(diǎn)代表著函數(shù)曲線上的一個(gè)關(guān)鍵位置,通過(guò)調(diào)整這些位置,整個(gè)函數(shù)的形狀就會(huì)發(fā)生變化。在訓(xùn)練過(guò)程中,這些控制點(diǎn)會(huì)根據(jù)數(shù)據(jù)的特點(diǎn)自動(dòng)調(diào)整,最終形成最適合特定任務(wù)的函數(shù)形狀。
L1稀疏性正則化確保了模型的簡(jiǎn)潔性,它鼓勵(lì)大部分樣條參數(shù)保持較小的值,只有真正重要的參數(shù)才會(huì)變大。這種機(jī)制防止了模型過(guò)度復(fù)雜化,確保學(xué)到的表示具有良好的泛化能力。平滑性正則化則保證了學(xué)到的函數(shù)具有良好的數(shù)學(xué)性質(zhì),避免了過(guò)度擬合訓(xùn)練數(shù)據(jù)中的噪聲。
片段去激活機(jī)制是KAN的另一個(gè)創(chuàng)新特性。它隨機(jī)關(guān)閉某些樣條片段,這種局部的隨機(jī)化比傳統(tǒng)的dropout更加精細(xì)。在藝術(shù)風(fēng)格的語(yǔ)境下,這種機(jī)制能夠防止模型過(guò)度依賴某些特定的視覺(jué)模式,鼓勵(lì)學(xué)習(xí)更加魯棒的風(fēng)格表示。
八、實(shí)際應(yīng)用前景與影響
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范圍,它為多個(gè)實(shí)際應(yīng)用領(lǐng)域開(kāi)辟了新的可能性。在數(shù)字人文學(xué)科領(lǐng)域,藝術(shù)史學(xué)家和博物館專家可以利用這種技術(shù)快速分析和分類大量的藝術(shù)作品,特別是那些風(fēng)格歸屬存在爭(zhēng)議的作品。
想象一下,一位博物館策展人發(fā)現(xiàn)了一幅署名不明的畫作,傳統(tǒng)的鑒定方法可能需要多位專家花費(fèi)數(shù)月時(shí)間進(jìn)行研究。而基于KAN的藝術(shù)風(fēng)格分類系統(tǒng)能夠在幾分鐘內(nèi)提供初步的風(fēng)格分析,為專家的深入研究提供有價(jià)值的參考。雖然這種技術(shù)不能完全替代人類專家的判斷,但它能夠大大提高鑒定工作的效率。
在藝術(shù)教育領(lǐng)域,這種技術(shù)可以幫助學(xué)生更好地理解不同藝術(shù)風(fēng)格之間的差異和聯(lián)系。通過(guò)可視化KAN學(xué)到的特征表示,教師可以向?qū)W生演示計(jì)算機(jī)如何"看待"不同的藝術(shù)風(fēng)格,這為藝術(shù)教育提供了全新的視角和工具。
對(duì)于數(shù)字藝術(shù)創(chuàng)作者和設(shè)計(jì)師來(lái)說(shuō),這種技術(shù)提供了強(qiáng)大的風(fēng)格分析工具。他們可以分析自己作品的風(fēng)格特征,了解其與歷史藝術(shù)運(yùn)動(dòng)的關(guān)系,或者尋找特定風(fēng)格的參考作品。這種客觀的風(fēng)格分析能夠補(bǔ)充主觀的藝術(shù)判斷,為創(chuàng)作提供數(shù)據(jù)支持。
在文化遺產(chǎn)保護(hù)方面,這種技術(shù)可以幫助建立更完整和準(zhǔn)確的藝術(shù)品數(shù)字檔案。通過(guò)自動(dòng)化的風(fēng)格分類,大型博物館和文化機(jī)構(gòu)可以更有效地組織和檢索其館藏,為研究者和公眾提供更好的服務(wù)。
商業(yè)應(yīng)用同樣具有巨大潛力。藝術(shù)品交易平臺(tái)可以使用這種技術(shù)為買家提供更精確的搜索和推薦功能,幫助收藏家找到符合其偏好的作品。拍賣行也可以利用這種技術(shù)輔助估價(jià)和鑒定工作。
九、方法的局限性與未來(lái)發(fā)展方向
盡管KAN在藝術(shù)風(fēng)格分類方面取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也清醒地認(rèn)識(shí)到當(dāng)前方法的局限性。最主要的挑戰(zhàn)來(lái)自于藝術(shù)風(fēng)格的主觀性和文化依賴性。計(jì)算機(jī)視覺(jué)系統(tǒng)主要基于底層的視覺(jué)特征進(jìn)行分析,而藝術(shù)風(fēng)格往往涉及更深層的文化內(nèi)涵、歷史背景和藝術(shù)家的個(gè)人經(jīng)歷。
例如,魔幻現(xiàn)實(shí)主義的核心特征更多體現(xiàn)在主題內(nèi)容和敘事方式上,而不是純粹的視覺(jué)樣式。一幅魔幻現(xiàn)實(shí)主義作品可能在技法上與傳統(tǒng)現(xiàn)實(shí)主義非常相似,但在題材選擇和象征意義上有著根本差異。這種深層的文化和概念特征很難通過(guò)當(dāng)前的視覺(jué)分析方法完全捕捉。
另一個(gè)限制來(lái)自于訓(xùn)練數(shù)據(jù)的代表性問(wèn)題?,F(xiàn)有的藝術(shù)數(shù)據(jù)集主要集中在西方藝術(shù)傳統(tǒng)上,對(duì)于非西方藝術(shù)形式的覆蓋相對(duì)有限。這種偏見(jiàn)可能影響模型對(duì)全球藝術(shù)多樣性的理解和識(shí)別能力。未來(lái)的研究需要構(gòu)建更加多元化和包容性的數(shù)據(jù)集,確保AI系統(tǒng)能夠公平地理解和分析來(lái)自不同文化背景的藝術(shù)作品。
KAN的計(jì)算復(fù)雜性也是一個(gè)需要考慮的因素。相比于傳統(tǒng)的MLP,KAN需要維護(hù)和更新更多的參數(shù),這增加了計(jì)算成本。雖然研究團(tuán)隊(duì)通過(guò)精心的設(shè)計(jì)在性能和效率之間達(dá)到了平衡,但在大規(guī)模應(yīng)用中,計(jì)算資源的需求仍然是一個(gè)實(shí)際考慮。
為了克服這些限制,未來(lái)的研究可能需要在幾個(gè)方向上進(jìn)行拓展。首先是多模態(tài)學(xué)習(xí)的集成,將視覺(jué)特征與文本描述、歷史信息、藝術(shù)家傳記等多種信息源結(jié)合,構(gòu)建更全面的藝術(shù)理解系統(tǒng)。
其次是開(kāi)發(fā)更加文化敏感的模型架構(gòu),能夠理解和處理不同文化背景下藝術(shù)表達(dá)的差異。這可能需要引入文化知識(shí)圖譜或?qū)<蚁到y(tǒng),為純視覺(jué)分析提供文化上下文。
第三個(gè)重要方向是可解釋性的增強(qiáng)。雖然KAN相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有更好的數(shù)學(xué)可解釋性,但對(duì)于藝術(shù)專家來(lái)說(shuō),理解模型的決策過(guò)程仍然具有挑戰(zhàn)性。開(kāi)發(fā)能夠生成人類可理解的解釋的系統(tǒng)將大大提高這種技術(shù)在實(shí)際應(yīng)用中的接受度。
最后,個(gè)性化和適應(yīng)性學(xué)習(xí)也是一個(gè)有前景的研究方向。不同的用戶或應(yīng)用場(chǎng)景可能對(duì)藝術(shù)風(fēng)格有不同的理解和偏好,開(kāi)發(fā)能夠根據(jù)特定需求調(diào)整的自適應(yīng)系統(tǒng)將使這種技術(shù)更加實(shí)用。
說(shuō)到底,這項(xiàng)研究代表了人工智能在藝術(shù)理解領(lǐng)域的一個(gè)重要進(jìn)步。通過(guò)將柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)集成到雙教師知識(shí)蒸餾框架中,研究團(tuán)隊(duì)不僅解決了藝術(shù)風(fēng)格分類中的技術(shù)挑戰(zhàn),也為AI與人文學(xué)科的交叉研究開(kāi)辟了新的道路。雖然目前的系統(tǒng)還不能完全替代人類專家的判斷,但它已經(jīng)證明了機(jī)器學(xué)習(xí)在理解人類創(chuàng)造性表達(dá)方面的巨大潛力。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,AI將在保護(hù)、理解和傳承人類藝術(shù)遺產(chǎn)方面發(fā)揮越來(lái)越重要的作用。這種技術(shù)進(jìn)步不僅提高了我們分析和理解藝術(shù)的能力,也為藝術(shù)教育、文化保護(hù)和創(chuàng)意產(chǎn)業(yè)帶來(lái)了新的機(jī)遇和可能性。
Q&A
Q1:柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)是什么?它跟傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有什么不同?
A:柯?tīng)柲缏宸?阿諾德網(wǎng)絡(luò)是一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu),它用可學(xué)習(xí)的樣條函數(shù)替代了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中固定的激活函數(shù)如ReLU。簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)神經(jīng)網(wǎng)絡(luò)就像用固定模具處理所有材料,而KAN就像智能工具,能根據(jù)不同數(shù)據(jù)特點(diǎn)自動(dòng)調(diào)整形狀,這使它在處理藝術(shù)風(fēng)格這種復(fù)雜非線性關(guān)系時(shí)表現(xiàn)更出色。
Q2:雙教師知識(shí)蒸餾框架是如何工作的?
A:這個(gè)框架就像學(xué)生同時(shí)向兩位專長(zhǎng)不同的老師學(xué)習(xí)。第一位"動(dòng)量教師"專門分析筆觸、質(zhì)感等局部技法特征,第二位"風(fēng)格教師"關(guān)注整體色彩協(xié)調(diào)、構(gòu)圖平衡等宏觀美學(xué)特征。學(xué)生模型需要同時(shí)滿足兩位老師的要求,通過(guò)這種多重指導(dǎo)學(xué)會(huì)更全面的藝術(shù)理解能力。
Q3:這項(xiàng)研究在實(shí)際應(yīng)用中有什么價(jià)值?
A:這項(xiàng)技術(shù)可以幫助博物館快速分析未知畫作的風(fēng)格歸屬,為藝術(shù)史學(xué)家提供研究輔助;在藝術(shù)教育中幫助學(xué)生理解不同風(fēng)格的特征差異;為數(shù)字藝術(shù)創(chuàng)作者提供風(fēng)格分析工具;在文化遺產(chǎn)保護(hù)中建立更完整的數(shù)字檔案;甚至可以用于藝術(shù)品交易平臺(tái)的搜索推薦功能。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。