av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) DOVE:加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法",讓AI更智能地理解圖片

DOVE:加州大學(xué)團(tuán)隊(duì)推出"圖像信息量自適應(yīng)表示法",讓AI更智能地理解圖片

2025-06-10 09:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:24 ? 科技行者

長(zhǎng)久以來(lái),我們使用相機(jī)捕捉世界的瞬間,無(wú)論拍攝的是簡(jiǎn)單的白墻還是繁忙的街景,每張照片在計(jì)算機(jī)看來(lái)都被強(qiáng)制轉(zhuǎn)換為相同長(zhǎng)度的數(shù)據(jù)表示。這就像是無(wú)論你要記錄一個(gè)簡(jiǎn)單的購(gòu)物清單還是整部戰(zhàn)爭(zhēng)與和平,都被要求使用恰好100個(gè)單詞一樣不合理。加州大學(xué)圣地亞哥分校、加州大學(xué)伯克利分校和華盛頓大學(xué)的研究團(tuán)隊(duì)在2025年6月發(fā)表的論文《Images are Worth Variable Length of Representations》(圖像值得擁有可變長(zhǎng)度的表示)中,提出了一個(gè)突破性的解決方案,讓計(jì)算機(jī)能夠根據(jù)圖像的復(fù)雜程度自動(dòng)調(diào)整表示長(zhǎng)度。

這篇發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2506.03643v2)的研究由林俊毛(Lingjun Mao)、Rodolfo Corona、Xin Liang、嚴(yán)文浩(Wenhao Yan)和唐子能(Zineng Tang)共同完成,他們開(kāi)發(fā)的動(dòng)態(tài)視覺(jué)編碼器DOVE(Dynamic Output Vision Encoder)能夠根據(jù)圖像的復(fù)雜度生成長(zhǎng)短不一的表示序列。想象一下,一張簡(jiǎn)單的白墻照片可能只需要20個(gè)"視覺(jué)單詞"就能描述清楚,而一個(gè)雜亂的客廳可能需要150個(gè)"視覺(jué)單詞"才能準(zhǔn)確表達(dá)。DOVE正是這樣工作的,它根據(jù)圖像的復(fù)雜性動(dòng)態(tài)調(diào)整表示長(zhǎng)度,就像我們?cè)谌粘I钪?,描述?jiǎn)單事物用簡(jiǎn)短語(yǔ)句,描述復(fù)雜事物則需要更詳細(xì)的解釋。

在視覺(jué)表示學(xué)習(xí)領(lǐng)域,現(xiàn)有的方法大多會(huì)將圖像轉(zhuǎn)換為固定長(zhǎng)度的序列,這就像是強(qiáng)制每個(gè)人無(wú)論說(shuō)什么內(nèi)容都必須使用相同數(shù)量的單詞。研究團(tuán)隊(duì)指出,這種做法忽略了一個(gè)基本事實(shí):不同圖像包含的信息量是不同的。例如,一個(gè)雜亂的房間(比如你忘記打掃的臥室)天然比一面空白的墻包含更多的視覺(jué)信息,因此理應(yīng)使用更多的表示單元來(lái)描述。

DOVE的核心創(chuàng)新在于它能夠生成"結(jié)束符號(hào)"(EOS,就像句子結(jié)束時(shí)的句號(hào)),在表示序列中的任何位置終止輸出。系統(tǒng)會(huì)在訓(xùn)練過(guò)程中同時(shí)優(yōu)化圖像重建質(zhì)量和EOS標(biāo)記的預(yù)測(cè),根據(jù)重建誤差動(dòng)態(tài)決定需要多少個(gè)表示單元。當(dāng)系統(tǒng)認(rèn)為已經(jīng)捕捉到足夠的圖像信息時(shí),就會(huì)生成EOS標(biāo)記,從而產(chǎn)生長(zhǎng)度可變的表示序列。

研究結(jié)果令人驚喜。與固定長(zhǎng)度的表示方法相比,DOVE能夠在使用更少表示單元的同時(shí),保持甚至提高圖像重建質(zhì)量。在分類、問(wèn)答等下游任務(wù)中,DOVE明顯優(yōu)于其他自編碼器方法,即使使用遠(yuǎn)少于對(duì)手的表示單元也能表現(xiàn)出更強(qiáng)的語(yǔ)義理解能力。

此外,研究團(tuán)隊(duì)還開(kāi)發(fā)了DOVE的一個(gè)變種——Q-DOVE,它能夠根據(jù)文本查詢生成條件化的表示。想象你問(wèn)"圖中有幾個(gè)人?",Q-DOVE會(huì)集中精力表示圖像中與人相關(guān)的區(qū)域,忽略背景中的無(wú)關(guān)細(xì)節(jié)。這種查詢條件化的表示進(jìn)一步提高了表示效率,平均可以節(jié)省68%的表示單元,同時(shí)展現(xiàn)出更強(qiáng)的語(yǔ)義理解能力。

一、DOVE:動(dòng)態(tài)視覺(jué)編碼器的工作原理

想象你是一位專業(yè)攝影師,需要描述不同場(chǎng)景的照片。對(duì)于一張簡(jiǎn)單的藍(lán)天白云照片,你可能只需幾句話就能描述清楚;而對(duì)于一張繁忙的城市街景,則需要更多細(xì)節(jié)和描述。DOVE系統(tǒng)正是基于這樣的直覺(jué)設(shè)計(jì)的——復(fù)雜圖像需要更多的"描述詞",簡(jiǎn)單圖像只需少量"描述詞"。

DOVE的架構(gòu)由四個(gè)主要組件構(gòu)成:VQGAN編碼器、變換器(Transformer)動(dòng)態(tài)標(biāo)記生成器、變換器標(biāo)記解碼器和VQGAN解碼器。整個(gè)過(guò)程像是一條信息處理流水線,讓我們用做菜的過(guò)程來(lái)理解它:

首先,VQGAN編碼器就像廚師初步處理食材,它將原始圖像轉(zhuǎn)換為初步的表示序列。接著,時(shí)間編碼(就像菜譜中的步驟編號(hào))被添加到這些表示中。然后,動(dòng)態(tài)標(biāo)記生成器(相當(dāng)于主廚)開(kāi)始工作,它能夠根據(jù)當(dāng)前已經(jīng)生成的信息決定是否繼續(xù)添加更多細(xì)節(jié),或者認(rèn)為"菜已經(jīng)做好了"并生成一個(gè)"結(jié)束"標(biāo)記。最后,標(biāo)記解碼器和VQGAN解碼器(像是裝盤和最終調(diào)味)將這些表示轉(zhuǎn)回為可視圖像。

系統(tǒng)通過(guò)聯(lián)合訓(xùn)練方式優(yōu)化兩個(gè)關(guān)鍵目標(biāo):圖像重建質(zhì)量和動(dòng)態(tài)長(zhǎng)度控制。圖像重建使用均方誤差、感知損失和輕量級(jí)對(duì)抗性損失的組合,確保重建圖像既準(zhǔn)確又自然。動(dòng)態(tài)長(zhǎng)度控制則通過(guò)比較當(dāng)前重建損失與平均重建損失來(lái)實(shí)現(xiàn):如果當(dāng)前損失較高(意味著需要更多表示單元來(lái)改善重建),系統(tǒng)會(huì)推遲生成EOS標(biāo)記;如果損失已經(jīng)較低(表明當(dāng)前表示單元已足夠),系統(tǒng)則會(huì)鼓勵(lì)生成EOS標(biāo)記。

這種自適應(yīng)機(jī)制使DOVE能夠智能地分配計(jì)算資源——為復(fù)雜圖像提供更多表示單元,為簡(jiǎn)單圖像分配較少單元。研究團(tuán)隊(duì)發(fā)現(xiàn),大多數(shù)圖像的表示長(zhǎng)度都小于100個(gè)單元,只有極少數(shù)復(fù)雜圖像需要接近最大限制的256個(gè)單元。這意味著平均而言,DOVE能夠顯著減少處理圖像所需的計(jì)算資源,同時(shí)保持甚至提升表示質(zhì)量。

二、查詢條件化:讓AI"看"得更有重點(diǎn)

人類視覺(jué)是一個(gè)主動(dòng)的、任務(wù)驅(qū)動(dòng)的過(guò)程。當(dāng)我們?cè)噲D回答"桌子上有幾個(gè)蘋果?"這樣的問(wèn)題時(shí),我們會(huì)自然地將注意力集中在桌子區(qū)域,而忽略圖像中的其他部分?;谶@種人類視覺(jué)系統(tǒng)的特性,研究團(tuán)隊(duì)開(kāi)發(fā)了DOVE的查詢條件化變體——Q-DOVE。

Q-DOVE接受文本查詢作為輸入,并學(xué)習(xí)將重建注意力集中在與查詢相關(guān)的圖像區(qū)域。這就像是在告訴系統(tǒng):"嘿,看看這個(gè)特定區(qū)域,這里有你需要回答問(wèn)題的關(guān)鍵信息。"在訓(xùn)練過(guò)程中,Q-DOVE學(xué)習(xí)使用更多資源表示查詢相關(guān)區(qū)域,同時(shí)對(duì)無(wú)關(guān)區(qū)域使用更少資源。

具體來(lái)說(shuō),Q-DOVE在訓(xùn)練時(shí)接收?qǐng)D像、文本查詢和與答案相關(guān)的邊界框數(shù)據(jù)。系統(tǒng)會(huì)增加對(duì)邊界框內(nèi)區(qū)域重建質(zhì)量的權(quán)重,同時(shí)大幅降低對(duì)框外區(qū)域的重建要求。這種有針對(duì)性的訓(xùn)練策略使Q-DOVE能夠進(jìn)一步減少生成的表示單元數(shù)量,平均可以節(jié)省約68%的單元,同時(shí)在下游視覺(jué)-語(yǔ)言任務(wù)中展現(xiàn)出更強(qiáng)的性能。

值得注意的是,Q-DOVE在推理時(shí)只需要圖像和查詢文本,不需要邊界框信息。這意味著它已經(jīng)學(xué)會(huì)了如何根據(jù)查詢自動(dòng)找到圖像中的相關(guān)區(qū)域——就像我們?nèi)祟愒诨卮饐?wèn)題時(shí)自然而然地將注意力集中在相關(guān)視覺(jué)區(qū)域一樣。

三、實(shí)驗(yàn)結(jié)果:更少的信息單元,更好的理解能力

研究團(tuán)隊(duì)在多個(gè)層面評(píng)估了DOVE的性能,包括重建質(zhì)量、表示長(zhǎng)度分布以及在下游視覺(jué)語(yǔ)言任務(wù)中的有效性。結(jié)果顯示,DOVE不僅能夠顯著減少表示單元數(shù)量,還能捕獲更豐富的語(yǔ)義信息。

在圖像重建質(zhì)量方面,隨著表示單元數(shù)量的增加,DOVE的重建質(zhì)量穩(wěn)步提升。即使在使用相對(duì)較少的表示單元時(shí)(如32或64個(gè)),DOVE也能產(chǎn)生結(jié)構(gòu)上和語(yǔ)義上較為忠實(shí)的重建結(jié)果。這與另一種動(dòng)態(tài)視覺(jué)編碼器ALIT形成鮮明對(duì)比,后者在低表示單元數(shù)量時(shí)會(huì)產(chǎn)生嚴(yán)重的對(duì)象變形。例如,當(dāng)表示單元限制為32個(gè)時(shí),ALIT重建的變色龍和甲蟲(chóng)會(huì)出現(xiàn)明顯的變形,而DOVE則能保持結(jié)構(gòu)完整性,只是細(xì)節(jié)略顯模糊。

在分類任務(wù)中,DOVE作為一個(gè)現(xiàn)成的、凍結(jié)的骨干網(wǎng)絡(luò)在CIFAR-100、ImageNet-100和STL-10等三個(gè)標(biāo)準(zhǔn)識(shí)別基準(zhǔn)上進(jìn)行了評(píng)估。研究發(fā)現(xiàn),隨著表示單元數(shù)量的增加,DOVE和ALIT的分類準(zhǔn)確率都穩(wěn)步提升。然而,DOVE始終以顯著優(yōu)勢(shì)超越所有其他視覺(jué)表示方法。即使僅使用32個(gè)表示單元,DOVE也能實(shí)現(xiàn)比所有競(jìng)爭(zhēng)方法更高的分類準(zhǔn)確率。研究團(tuán)隊(duì)將這一優(yōu)勢(shì)歸因于DOVE的動(dòng)態(tài)重建訓(xùn)練目標(biāo),這使模型能夠在表示學(xué)習(xí)過(guò)程中捕獲額外的語(yǔ)義信息。

在視覺(jué)問(wèn)答評(píng)估中,研究人員將不同的視覺(jué)編碼器集成到視覺(jué)語(yǔ)言模型中,并在多個(gè)基準(zhǔn)測(cè)試上評(píng)估它們的性能。結(jié)果顯示,配備DOVE的視覺(jué)語(yǔ)言模型在所有數(shù)據(jù)集上顯著優(yōu)于其他模型,而集成Q-DOVE則進(jìn)一步提高了準(zhǔn)確率。通過(guò)利用DOVE的EOS標(biāo)記作為截?cái)帱c(diǎn),系統(tǒng)能夠在保持與完整256個(gè)表示單元相當(dāng)?shù)男阅艿耐瑫r(shí),大幅減少表示單元數(shù)量。對(duì)于Q-DOVE,研究者嘗試了兩種輸入策略:提供實(shí)際問(wèn)題或直接輸入"null"。雖然"null"設(shè)置在性能上略優(yōu)于問(wèn)題引導(dǎo)策略,但問(wèn)題引導(dǎo)策略能夠在保持相當(dāng)準(zhǔn)確率的同時(shí)進(jìn)一步減少表示單元長(zhǎng)度。

此外,研究團(tuán)隊(duì)還對(duì)模型的推理時(shí)間和浮點(diǎn)運(yùn)算量進(jìn)行了測(cè)量。結(jié)果表明,DOVE和ALIT都能通過(guò)縮短視覺(jué)表示序列長(zhǎng)度有效減少浮點(diǎn)運(yùn)算量。然而,由于ALIT使用循環(huán)蒸餾(通過(guò)對(duì)VQGAN標(biāo)記進(jìn)行多次傳遞生成動(dòng)態(tài)標(biāo)記),其推理速度受到不利影響,盡管序列長(zhǎng)度減少。相比之下,DOVE依靠單次前向傳遞,因此推理速度更快。

四、語(yǔ)義的自然浮現(xiàn):意外的發(fā)現(xiàn)

通過(guò)之前的實(shí)驗(yàn),研究團(tuán)隊(duì)觀察到DOVE生成的視覺(jué)表示在分類和下游多模態(tài)任務(wù)中顯著優(yōu)于固定長(zhǎng)度的自編碼器表示方法。在本節(jié)中,他們進(jìn)一步探索了這種語(yǔ)義涌現(xiàn)現(xiàn)象。

研究者通過(guò)對(duì)模型隱藏層而非生成的視覺(jué)標(biāo)記進(jìn)行線性探測(cè),評(píng)估了學(xué)習(xí)表示的質(zhì)量。他們?cè)谄邆€(gè)基準(zhǔn)數(shù)據(jù)集上比較了DOVE、Q-DOVE和其他固定長(zhǎng)度自編碼器表示方法:CIFAR-10、CIFAR-100、DTD(可描述紋理數(shù)據(jù)集)、FGVC(細(xì)粒度視覺(jué)分類)、Food101、STL-10和SUN397。對(duì)于Q-DOVE,他們將所有文本查詢?cè)O(shè)置為"null"以模擬無(wú)條件設(shè)置。

結(jié)果表明,DOVE在所有數(shù)據(jù)集上以大幅優(yōu)勢(shì)持續(xù)超越其他方法,而Q-DOVE則進(jìn)一步提高了DOVE的性能。為了深入了解學(xué)習(xí)表示的結(jié)構(gòu),研究者應(yīng)用主成分分析(PCA)進(jìn)行降維并在圖像空間中可視化結(jié)果。如圖8所示,與VQGAN相比,DOVE產(chǎn)生了語(yǔ)義上更連貫的分割,而Q-DOVE則展現(xiàn)出更強(qiáng)的語(yǔ)義對(duì)齊和清晰度。

這種語(yǔ)義的自然浮現(xiàn)令人驚訝,因?yàn)镈OVE原本只是被設(shè)計(jì)用來(lái)根據(jù)圖像復(fù)雜性生成變長(zhǎng)表示的。研究團(tuán)隊(duì)推測(cè),這可能是因?yàn)閯?dòng)態(tài)長(zhǎng)度訓(xùn)練迫使模型更加高效地編碼語(yǔ)義信息,從而學(xué)習(xí)到了更有意義的表示結(jié)構(gòu)。簡(jiǎn)單來(lái)說(shuō),當(dāng)系統(tǒng)被要求"精打細(xì)算"地使用表示單元時(shí),它學(xué)會(huì)了更聰明地組織信息,自然地形成了更有語(yǔ)義意義的結(jié)構(gòu)。

五、相關(guān)工作與DOVE的創(chuàng)新點(diǎn)

在深入了解DOVE的工作原理和實(shí)驗(yàn)結(jié)果后,我們來(lái)看看它與現(xiàn)有研究的關(guān)系,以及它帶來(lái)的獨(dú)特創(chuàng)新。

圖像表示學(xué)習(xí)是計(jì)算機(jī)視覺(jué)的基礎(chǔ),現(xiàn)有的方法大致分為兩類:語(yǔ)義特征學(xué)習(xí)(如CLIP、DINO)和基于自編碼器的圖像標(biāo)記化(如VQGAN、VAE)。這些方法都旨在生成固定長(zhǎng)度的序列。然而,研究表明視覺(jué)標(biāo)記存在信息冗余問(wèn)題。DOVE團(tuán)隊(duì)推測(cè),不同圖像具有不同的復(fù)雜度,因此可以用不同長(zhǎng)度的標(biāo)記序列進(jìn)行重建。

與標(biāo)記剪枝和壓縮方法不同,這些方法通過(guò)在變換器層之間迭代減少要處理的標(biāo)記集來(lái)降低計(jì)算成本,DOVE產(chǎn)生可變數(shù)量的標(biāo)記,允許它直接集成到模型預(yù)訓(xùn)練和微調(diào)流程中。另一些工作通過(guò)在輸入級(jí)別壓縮標(biāo)記集來(lái)降低計(jì)算成本。Perceiver架構(gòu)使用變換器將輸入標(biāo)記壓縮為更小的固定潛在標(biāo)記集。類似地,TiTok將圖像塊壓縮為小型潛在標(biāo)記集,然后量化用于圖像重建或其他下游任務(wù)。

與DOVE最接近的是ALIT,它使用循環(huán)過(guò)程將2D標(biāo)記蒸餾為1D潛在標(biāo)記集。雖然這種迭代過(guò)程允許圖像以可變數(shù)量的標(biāo)記表示,但這只是通過(guò)事后分析證明的,ALIT并未提出在推理時(shí)動(dòng)態(tài)確定表示圖像所需標(biāo)記數(shù)量的自動(dòng)方法。DOVE的關(guān)鍵創(chuàng)新之一是使用動(dòng)態(tài)EOS預(yù)測(cè)機(jī)制,該機(jī)制在推理時(shí)用于根據(jù)圖像和下游任務(wù)復(fù)雜性生成每個(gè)圖像的可變長(zhǎng)度標(biāo)記序列。DOVE使用并行變換器前向傳遞生成可變數(shù)量的標(biāo)記,這比ALIT的循環(huán)公式更高效。

六、結(jié)論與未來(lái)展望

DOVE代表了視覺(jué)表示學(xué)習(xí)的一個(gè)重要進(jìn)步。通過(guò)根據(jù)圖像復(fù)雜性動(dòng)態(tài)生成可變長(zhǎng)度的標(biāo)記序列,它解決了固定長(zhǎng)度表示方法中的效率和語(yǔ)義理解問(wèn)題。研究結(jié)果表明,DOVE不僅能夠顯著減少處理圖像所需的計(jì)算資源,還能捕獲更豐富的語(yǔ)義信息,在分類和視覺(jué)語(yǔ)言任務(wù)中展現(xiàn)出強(qiáng)大的性能。

從更廣泛的角度來(lái)看,DOVE的設(shè)計(jì)理念反映了一個(gè)更為普遍的趨勢(shì):計(jì)算系統(tǒng)應(yīng)該適應(yīng)內(nèi)容的復(fù)雜性,而不是強(qiáng)制內(nèi)容適應(yīng)系統(tǒng)的固定結(jié)構(gòu)。就像人類在描述簡(jiǎn)單和復(fù)雜場(chǎng)景時(shí)自然地使用不同長(zhǎng)度的描述一樣,AI系統(tǒng)也應(yīng)該具備這種靈活性。

查詢條件化變體Q-DOVE進(jìn)一步擴(kuò)展了這一理念,通過(guò)根據(jù)用戶查詢動(dòng)態(tài)調(diào)整圖像表示,實(shí)現(xiàn)了更高效、更有針對(duì)性的視覺(jué)語(yǔ)義提取。這種方法不僅提高了計(jì)算效率,還增強(qiáng)了系統(tǒng)理解用戶意圖的能力,為更自然、更智能的人機(jī)交互奠定了基礎(chǔ)。

未來(lái)的研究方向可能包括將DOVE的動(dòng)態(tài)表示理念擴(kuò)展到其他模態(tài),如音頻和視頻;探索更復(fù)雜的條件化策略,使系統(tǒng)能夠根據(jù)更廣泛的上下文信息調(diào)整表示;以及研究如何將DOVE集成到更大規(guī)模的多模態(tài)系統(tǒng)中,以提高整體效率和性能。

值得一提的是,這項(xiàng)研究成果的代碼和檢查點(diǎn)已在https://dove-encoder.github.io/dove-encoder開(kāi)放獲取,這將有助于社區(qū)進(jìn)一步探索和擴(kuò)展這一創(chuàng)新技術(shù)。對(duì)于那些對(duì)計(jì)算機(jī)視覺(jué)和多模態(tài)學(xué)習(xí)感興趣的研究者和開(kāi)發(fā)者來(lái)說(shuō),DOVE提供了一個(gè)有價(jià)值的新工具,幫助他們構(gòu)建更高效、更智能的視覺(jué)理解系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-