這項(xiàng)由DeepGlint、悉尼科技大學(xué)、華為倫敦研究中心以及帝國理工學(xué)院聯(lián)合開展的研究發(fā)表于2025年7月,論文標(biāo)題為"Region-based Cluster Discrimination for Visual Representation Learning"。有興趣深入了解的讀者可以通過arXiv:2507.20025v1訪問完整論文,相關(guān)模型已在https://github.com/deepglint/MVT開源發(fā)布。
現(xiàn)在的人工智能在看圖片這件事上其實(shí)有個(gè)挺大的問題。就好比你讓一個(gè)人描述一張照片,他只能告訴你"這是一張風(fēng)景照",但問他照片左下角的小花是什么顏色、右上角的招牌寫了什么字,他就答不上來了。目前主流的AI視覺模型,比如大名鼎鼎的CLIP和SigLIP,雖然在整體理解圖片內(nèi)容方面表現(xiàn)不錯,但在處理圖片中的具體區(qū)域和細(xì)節(jié),特別是文字識別方面,還是力不從心。
這個(gè)問題在實(shí)際應(yīng)用中影響可不小。當(dāng)我們需要AI幫助我們做圖像分割(把圖片中不同的物體準(zhǔn)確圈出來)、密集檢測(找出圖片中所有的小物件)或者OCR文字識別時(shí),這些"只看大局不看細(xì)節(jié)"的AI模型就顯得捉襟見肘了。更重要的是,隨著多模態(tài)大語言模型(就是既能理解文字又能理解圖片的AI)越來越火,如果視覺部分不夠精細(xì),整個(gè)系統(tǒng)的表現(xiàn)就會受到拖累。
為了解決這個(gè)問題,DeepGlint的研究團(tuán)隊(duì)開發(fā)了一種叫做"區(qū)域感知聚類判別"(RICE)的新方法。簡單來說,就是教會AI不僅要看懂圖片的整體內(nèi)容,還要能夠精確理解圖片中每個(gè)小區(qū)域的具體信息,包括物體的細(xì)節(jié)和文字內(nèi)容。
研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)規(guī)模龐大的候選區(qū)域數(shù)據(jù)集,包含了10億個(gè)圖像區(qū)域樣本。然后他們設(shè)計(jì)了一個(gè)特殊的"區(qū)域變換器"層,這就像給AI裝上了一副放大鏡,能夠?qū)iT處理圖片中的局部區(qū)域信息。最關(guān)鍵的是,他們還創(chuàng)造了一個(gè)統(tǒng)一的學(xué)習(xí)框架,能夠同時(shí)訓(xùn)練AI識別物體和識別文字,就像讓一個(gè)學(xué)生同時(shí)練習(xí)看圖識物和認(rèn)字讀書一樣高效。
實(shí)驗(yàn)結(jié)果相當(dāng)令人振奮。在多個(gè)測試任務(wù)中,RICE都明顯超越了之前的方法。特別是在需要理解圖片細(xì)節(jié)的任務(wù)上,比如圖像分割、密集檢測以及為多模態(tài)大語言模型提供視覺理解能力等方面,RICE都展現(xiàn)出了顯著的優(yōu)勢。這項(xiàng)研究不僅推動了AI視覺理解技術(shù)的發(fā)展,也為未來開發(fā)更智能、更精準(zhǔn)的視覺AI系統(tǒng)奠定了重要基礎(chǔ)。
一、AI視覺理解的"近視眼"問題
當(dāng)我們談?wù)揂I如何"看懂"圖片時(shí),可以把現(xiàn)有的主流方法比作一個(gè)有點(diǎn)近視的觀察者。這個(gè)觀察者站在遠(yuǎn)處看一幅畫,能夠說出"這是一幅山水畫"或"這是城市街景",但如果你問他畫中某個(gè)角落的小細(xì)節(jié),比如樹枝上有幾只鳥,或者街邊招牌上寫的是什么字,他就犯了難。
目前廣泛使用的視覺模型,包括CLIP、SigLIP這些在AI圈子里響當(dāng)當(dāng)?shù)拿郑饕捎玫氖?實(shí)例判別"的學(xué)習(xí)方式。這種方法的工作原理有點(diǎn)像學(xué)校里的對比練習(xí):給AI看兩張不同的圖片,告訴它們是不同的,讓它學(xué)會區(qū)分。這樣訓(xùn)練出來的AI確實(shí)能夠識別不同類型的圖片,在很多零樣本任務(wù)(也就是看到完全沒見過的圖片類型也能判斷)上表現(xiàn)不錯。
但是這種方法有個(gè)根本性的問題。它把所有不同的圖片都當(dāng)作"負(fù)面例子"來對待,哪怕兩張圖片在語義上很相似。比如說,一張狗狗在公園玩耍的照片和另一張貓咪在公園休息的照片,雖然都有動物、都在公園這個(gè)場景,但在訓(xùn)練過程中,AI被告知這兩張圖片是完全不同的,不應(yīng)該有任何相似性。這就導(dǎo)致AI學(xué)不到更深層的語義關(guān)系。
更麻煩的是,當(dāng)圖片中包含文字信息時(shí),這種訓(xùn)練方式會讓AI過分關(guān)注文字本身,而忽略了圖片的其他視覺信息。就好比讓一個(gè)學(xué)生做閱讀理解,他只盯著幾個(gè)生字看,卻忘記了理解整個(gè)段落的意思。這種"偏科"現(xiàn)象導(dǎo)致AI在需要綜合理解視覺和文字信息的任務(wù)上表現(xiàn)不佳。
另一個(gè)核心問題是這些方法都是基于"全局表示"的。什么意思呢?就像用一個(gè)標(biāo)簽來概括整張圖片的內(nèi)容,但實(shí)際上一張圖片可能包含多個(gè)物體、多個(gè)場景,每個(gè)部分都有自己的特色。如果只用一個(gè)全局的標(biāo)簽來表示,就丟失了太多細(xì)節(jié)信息。這就解釋了為什么這些模型在需要精確理解圖片局部區(qū)域的任務(wù)上,比如物體分割、密集檢測等,往往力不從心。
為了解決這些問題,研究界也嘗試過一些基于"聚類判別"的方法,比如DeepCluster、SwAV等。這些方法的思路是把相似的圖片歸為一類,然后讓AI學(xué)習(xí)同一類內(nèi)部的相似性和不同類之間的差異性。這確實(shí)比簡單的實(shí)例判別要好一些,因?yàn)樗軌虿东@圖片之間的語義關(guān)系。
但這些聚類方法仍然有個(gè)局限:它們通常給每張圖片分配一個(gè)或幾個(gè)標(biāo)簽,這種做法還是太粗糙了,無法處理圖片內(nèi)部的區(qū)域差異。一張圖片可能左邊是天空,右邊是建筑,下方是道路,每個(gè)區(qū)域的語義完全不同,但傳統(tǒng)的聚類方法只能給整張圖片貼一個(gè)標(biāo)簽。
還有一些研究嘗試在區(qū)域級別做視覺-語言對齊,比如RegionCLIP和CLIM。RegionCLIP的做法是先用CLIP模型提取圖片區(qū)域的特征,然后和模板化的文字描述進(jìn)行匹配。CLIM則創(chuàng)造性地把多張圖片拼接成馬賽克,把每張圖片當(dāng)作一個(gè)"偽區(qū)域"來處理。
這些方法雖然在某種程度上解決了區(qū)域理解的問題,但都有一個(gè)共同的限制:它們都需要有描述性的文字與圖片區(qū)域?qū)?yīng)。也就是說,每個(gè)圖片區(qū)域都要有相應(yīng)的文字說明,這不僅增加了數(shù)據(jù)收集的難度,也限制了方法在大規(guī)模數(shù)據(jù)上的應(yīng)用。畢竟,給每個(gè)圖片區(qū)域都配上準(zhǔn)確的文字描述,這個(gè)工作量是相當(dāng)龐大的。
正是在這樣的背景下,RICE方法應(yīng)運(yùn)而生。它的核心創(chuàng)新在于不依賴區(qū)域的文字描述,而是通過聚類的方式自動發(fā)現(xiàn)區(qū)域的語義標(biāo)簽,同時(shí)能夠統(tǒng)一處理物體識別和文字識別兩個(gè)任務(wù)。這就像訓(xùn)練一個(gè)全能型的觀察者,既能看懂圖片的整體內(nèi)容,又能注意到每個(gè)細(xì)節(jié),還能識別圖片中的文字信息。
二、RICE的核心思路:從"大而化之"到"精雕細(xì)琢"
RICE方法的核心思想可以用一個(gè)家裝的比喻來理解。傳統(tǒng)的AI視覺模型就像一個(gè)只會做粗活的裝修工,給你刷墻時(shí)只管大面積涂抹,整體看起來還不錯,但細(xì)節(jié)處理很粗糙,墻角、門框這些地方都不夠精細(xì)。RICE則像一個(gè)既能做粗活又能做細(xì)活的全能工匠,不僅能把墻面刷得均勻,還能把每個(gè)角落、每個(gè)細(xì)節(jié)都處理得恰到好處。
研究團(tuán)隊(duì)首先解決的是數(shù)據(jù)問題。他們從LAION2B、COYO700M和SAM1B這三個(gè)大型數(shù)據(jù)集中采樣了圖片,確保每張圖片的最小邊長至少有336像素,這樣能保證圖片質(zhì)量足夠好。接下來,他們使用SAM(Segment Anything Model)這個(gè)工具來生成精細(xì)的區(qū)域掩碼。
這個(gè)過程就像用餅干模具在面團(tuán)上壓出各種形狀的餅干一樣。SAM能夠自動識別圖片中的不同區(qū)域,把一張復(fù)雜的圖片分解成許多個(gè)有意義的小區(qū)域。比如一張街景照片,SAM可能會把汽車、行人、建筑物、交通標(biāo)志等都分別圈出來,形成不同的區(qū)域。
為了確保處理效率,研究團(tuán)隊(duì)還設(shè)定了一些篩選條件,只保留那些最小邊長超過128像素的候選區(qū)域。這樣既能保證區(qū)域包含足夠的信息,又能避免處理過多無意義的小碎片。最終,他們構(gòu)建了一個(gè)包含4億張圖片和20億個(gè)候選區(qū)域的龐大數(shù)據(jù)集。
有了這些區(qū)域數(shù)據(jù),下一步就是給它們"貼標(biāo)簽"。但這里的標(biāo)簽不是人工標(biāo)注的,而是通過聰明的算法自動生成的。研究團(tuán)隊(duì)借鑒了UNICOM的做法,先用CLIP模型提取每個(gè)區(qū)域的特征,然后使用k-means聚類算法把相似的區(qū)域歸為一類。
這個(gè)過程可以理解為整理衣柜的過程。你有一大堆各種各樣的衣服,需要把它們分類整理。你可能會把所有的T恤放在一起,把所有的牛仔褲放在一起,把所有的外套放在一起。k-means算法做的就是類似的事情,它根據(jù)區(qū)域特征的相似性,自動把20億個(gè)區(qū)域分成了100萬個(gè)不同的"類別",每個(gè)類別就像一個(gè)語義中心。
對于OCR(文字識別)數(shù)據(jù)的處理,研究團(tuán)隊(duì)采用了不同的策略。他們使用PaddleOCR工具從LAION2B和COYO700M數(shù)據(jù)集中提取文字信息,只保留置信度超過0.7的結(jié)果。這就像有一個(gè)專業(yè)的打字員,只有當(dāng)他對識別出的文字足夠確信時(shí),這些文字才會被采用。
最終得到的OCR數(shù)據(jù)集包含5000萬張圖片和4億個(gè)候選區(qū)域。與物體區(qū)域不同,OCR區(qū)域的標(biāo)簽直接來自提取出的文字內(nèi)容,通過分詞器(tokenizer)進(jìn)行處理。這樣就形成了兩套互補(bǔ)的數(shù)據(jù):一套專注于物體和場景的視覺理解,另一套專注于文字信息的識別。
RICE模型的架構(gòu)設(shè)計(jì)也很有意思。它并不是完全推倒重來,而是在現(xiàn)有的Vision Transformer基礎(chǔ)上進(jìn)行了巧妙的改進(jìn)。可以把它想象成一個(gè)雙層的觀察系統(tǒng):底層是傳統(tǒng)的全局視覺處理層,負(fù)責(zé)理解圖片的整體內(nèi)容;上層是新增的區(qū)域變換器層,專門負(fù)責(zé)精細(xì)的區(qū)域分析。
這種設(shè)計(jì)的好處是既保持了對圖片整體信息的把握,又增強(qiáng)了對局部細(xì)節(jié)的理解能力。就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,既能從整體上判斷病人的健康狀況,又能仔細(xì)檢查每個(gè)局部癥狀,從而做出更準(zhǔn)確的診斷。
區(qū)域采樣是RICE系統(tǒng)中一個(gè)重要的技術(shù)細(xì)節(jié)。由于不同圖片包含的區(qū)域數(shù)量差別很大,有些圖片可能只有幾個(gè)大區(qū)域,有些圖片可能有幾十個(gè)小區(qū)域,這就給批量處理帶來了挑戰(zhàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)平衡采樣策略,將每張圖片的區(qū)域數(shù)量標(biāo)準(zhǔn)化為N個(gè)。
這個(gè)過程就像餐廳的配菜員在準(zhǔn)備套餐。無論客人點(diǎn)的是什么菜,每個(gè)套餐都要配同樣數(shù)量的配菜。如果原本的配菜不夠,就隨機(jī)補(bǔ)充一些;如果配菜太多,就隨機(jī)選擇其中的一部分。這樣既保證了處理效率,又盡可能保留了原有的信息。
區(qū)域注意力層是RICE的核心創(chuàng)新之一。傳統(tǒng)的注意力機(jī)制會考慮圖片中的所有位置,但區(qū)域注意力層使用了一個(gè)特殊的"可見性掩碼",只允許模型關(guān)注特定區(qū)域內(nèi)的內(nèi)容。這就像給模型戴上了一副特殊的眼鏡,每次只能看到圖片的某個(gè)特定區(qū)域,從而實(shí)現(xiàn)更精確的區(qū)域級理解。
這種掩碼機(jī)制的數(shù)學(xué)原理并不復(fù)雜,但效果很顯著。通過將區(qū)域外的注意力權(quán)重設(shè)置為負(fù)無窮,模型就會自然地將注意力集中在目標(biāo)區(qū)域內(nèi)。這樣不同大小的區(qū)域就可以在同一個(gè)批次中高效處理,大大提升了訓(xùn)練的可擴(kuò)展性。
三、統(tǒng)一的學(xué)習(xí)框架:一石二鳥的巧妙設(shè)計(jì)
RICE最令人稱道的地方在于它設(shè)計(jì)了一個(gè)統(tǒng)一的學(xué)習(xí)框架,能夠同時(shí)處理物體識別和文字識別兩個(gè)看似不同的任務(wù)。這就像培養(yǎng)一個(gè)既會畫畫又會寫字的藝術(shù)家,雖然畫畫和寫字是不同的技能,但它們都需要對視覺細(xì)節(jié)的精確把握,在基礎(chǔ)能力上是相通的。
對于物體區(qū)域的學(xué)習(xí),RICE采用了單標(biāo)簽分類的方式。每個(gè)物體區(qū)域都被分配到前面提到的100萬個(gè)聚類中心中的某一個(gè),這個(gè)中心就像是該區(qū)域的"身份證"。在訓(xùn)練過程中,模型被鼓勵讓區(qū)域的特征表示盡可能接近它所屬的聚類中心,同時(shí)遠(yuǎn)離其他的聚類中心。
這個(gè)過程可以類比為學(xué)習(xí)識別不同的音樂風(fēng)格。當(dāng)你聽到一首搖滾樂時(shí),你的大腦會將其與"搖滾"這個(gè)概念聯(lián)系起來,同時(shí)將其與"古典音樂"、"爵士樂"等其他風(fēng)格區(qū)分開來。RICE的物體區(qū)域?qū)W習(xí)就是這樣,每個(gè)區(qū)域都要學(xué)會"認(rèn)識自己是誰",同時(shí)"知道自己不是誰"。
用數(shù)學(xué)公式來表達(dá),物體區(qū)域損失函數(shù)包含兩個(gè)部分:一個(gè)正項(xiàng)和一個(gè)負(fù)項(xiàng)。正項(xiàng)鼓勵區(qū)域特征與其正確的聚類中心相似,負(fù)項(xiàng)則推動區(qū)域特征遠(yuǎn)離隨機(jī)采樣的負(fù)面聚類中心。這種對比學(xué)習(xí)的方式能夠讓模型學(xué)到更加豐富和判別性的特征表示。
OCR區(qū)域的學(xué)習(xí)則更加復(fù)雜,因?yàn)橐粋€(gè)文本區(qū)域通常包含多個(gè)字符,需要用多標(biāo)簽分類來處理。這就像閱讀一個(gè)句子,你需要認(rèn)識句子中的每一個(gè)字,而不是把整個(gè)句子當(dāng)作一個(gè)單元來處理。
在OCR任務(wù)中,每個(gè)文本區(qū)域內(nèi)的每個(gè)字符(token)都被當(dāng)作一個(gè)正面類別。這意味著一個(gè)包含"STOP"這個(gè)詞的交通標(biāo)志區(qū)域,需要同時(shí)學(xué)會識別"S"、"T"、"O"、"P"這四個(gè)字符。這種多標(biāo)簽的設(shè)計(jì)讓模型能夠更好地理解文本的組成結(jié)構(gòu)。
負(fù)面樣本的選擇在OCR學(xué)習(xí)中也很關(guān)鍵。研究團(tuán)隊(duì)從所有其他的字符嵌入中隨機(jī)采樣作為負(fù)面樣本,這樣能夠讓模型學(xué)會區(qū)分不同的字符。這個(gè)過程就像學(xué)習(xí)識別不同的漢字,你不僅要認(rèn)識"人"這個(gè)字,還要知道它和"入"、"八"等相似字符的區(qū)別。
為了提高計(jì)算效率并避免訓(xùn)練中的沖突,研究團(tuán)隊(duì)還引入了隨機(jī)采樣策略來構(gòu)建負(fù)面樣本集合。他們發(fā)現(xiàn),如果使用所有可能的負(fù)面樣本,不僅計(jì)算量巨大,還可能包含一些語義上相似的樣本,導(dǎo)致訓(xùn)練信號混亂。
通過控制負(fù)面采樣的比例ρ,他們可以在保持性能的同時(shí)大大減少計(jì)算開銷。實(shí)驗(yàn)表明,當(dāng)ρ設(shè)置為0.1時(shí),既能保證良好的性能,又能顯著提升訓(xùn)練效率。這種策略的好處有三個(gè)方面:減少計(jì)算負(fù)擔(dān),降低包含語義相似負(fù)樣本的概率,促進(jìn)更穩(wěn)定的模型收斂。
訓(xùn)練過程中的另一個(gè)巧妙設(shè)計(jì)是統(tǒng)一的分類框架。無論是物體識別還是文字識別,都被轉(zhuǎn)化為分類問題,這樣就可以使用相同的網(wǎng)絡(luò)架構(gòu)和優(yōu)化策略。這種統(tǒng)一性不僅簡化了模型設(shè)計(jì),還使得大規(guī)模分布式訓(xùn)練成為可能。
在實(shí)際實(shí)現(xiàn)中,研究團(tuán)隊(duì)使用了一種叫做"邊際分類"的技術(shù)。這種技術(shù)給正面類別設(shè)置了一個(gè)邊際值,類似于支持向量機(jī)中的概念。通過增加分類的難度,模型需要學(xué)習(xí)更加魯棒和判別性的特征表示。他們將特征向量和類別中心都進(jìn)行L2歸一化,并設(shè)置邊際值為0.3,縮放參數(shù)為64。
這個(gè)設(shè)計(jì)的巧妙之處在于,它不僅提高了分類的準(zhǔn)確性,還使得不同類別的特征在空間中分布更加均勻。這就像在一個(gè)圓桌會議中,每個(gè)參與者都有自己明確的位置,彼此之間保持適當(dāng)?shù)木嚯x,這樣就能避免混淆和沖突。
訓(xùn)練數(shù)據(jù)的規(guī)模也很驚人。研究團(tuán)隊(duì)在初始預(yù)訓(xùn)練階段處理了130億個(gè)樣本,使用了64塊GPU進(jìn)行分布式訓(xùn)練,全局批次大小達(dá)到32K。這種大規(guī)模訓(xùn)練不僅需要強(qiáng)大的計(jì)算資源,更需要精心設(shè)計(jì)的數(shù)據(jù)流水線和內(nèi)存管理策略。
為了處理不同分辨率的需求,他們采用了多階段訓(xùn)練策略。對于ViT-L/14架構(gòu),首先在224×224分辨率上進(jìn)行訓(xùn)練,然后逐步提升到336×336、378×378和560×560。在更高分辨率的微調(diào)階段,學(xué)習(xí)率會降低一個(gè)數(shù)量級,使用10億個(gè)樣本進(jìn)行精細(xì)調(diào)整。
這種漸進(jìn)式的訓(xùn)練策略類似于學(xué)習(xí)繪畫的過程。你可能先從簡單的線條和形狀開始練習(xí),掌握了基本技巧后,再逐步挑戰(zhàn)更復(fù)雜、更精細(xì)的作品。這樣的學(xué)習(xí)過程更加穩(wěn)定,最終的效果也更好。
四、實(shí)驗(yàn)驗(yàn)證:全方位的性能提升
為了驗(yàn)證RICE方法的有效性,研究團(tuán)隊(duì)進(jìn)行了極其全面的實(shí)驗(yàn)評估,涵蓋了多個(gè)不同的應(yīng)用場景和任務(wù)類型。這些實(shí)驗(yàn)就像給一個(gè)新產(chǎn)品做全方位的質(zhì)量檢測,從各個(gè)角度驗(yàn)證它的實(shí)用性和可靠性。
在多模態(tài)大語言模型的應(yīng)用中,RICE展現(xiàn)出了顯著的優(yōu)勢。研究團(tuán)隊(duì)將RICE集成到LLaVA-NeXT框架中,使用Qwen2.5-7B作為語言模型后端,這樣的設(shè)計(jì)能夠避免因?yàn)槭褂肙penAI CLIP模型而產(chǎn)生的超參數(shù)偏差,確保實(shí)驗(yàn)結(jié)果的公平性。
實(shí)驗(yàn)結(jié)果相當(dāng)令人興奮。在336像素分辨率下,RICE相比廣泛使用的CLIP模型取得了substantial的性能提升,同時(shí)也持續(xù)超越了更復(fù)雜的模型,如SigLIP和DFN5B。特別值得注意的是在OCR相關(guān)任務(wù)上的表現(xiàn):在OCRBench上,RICE比CLIP-336px高出50分,比SigLIP-384px高出34分;在DocVQA任務(wù)上,RICE分別比對應(yīng)的基準(zhǔn)模型提升了3.98%、5.68%和4.30%。
這些數(shù)字背后反映的是RICE在理解圖片中文字信息方面的顯著進(jìn)步??梢赃@樣理解:如果說傳統(tǒng)模型在看文檔時(shí)像一個(gè)視力不好的人,經(jīng)常看不清文字內(nèi)容,那么RICE就像戴上了一副合適的眼鏡,能夠清晰地識別和理解文檔中的各種文字信息。
在更高分辨率的測試中,RICE的優(yōu)勢依然明顯。在560像素分辨率下,RICE繼續(xù)保持領(lǐng)先,在InfoVQA上比SigLIPv2-560px高出2.92%,在DocVQA上高出1.18%。令人印象深刻的是,RICE-560px在DocVQA上達(dá)到了87.38%的得分,甚至超過了Qwen2.5-VL專門設(shè)計(jì)骨干網(wǎng)絡(luò)的85.83%。
這個(gè)結(jié)果特別有意義,因?yàn)樗砻鱎ICE不是通過簡單增加模型復(fù)雜度來獲得性能提升,而是通過更好的學(xué)習(xí)方法和架構(gòu)設(shè)計(jì)來實(shí)現(xiàn)突破。就像一個(gè)巧妙的工程解決方案,它不是靠增加更多的材料,而是通過更合理的結(jié)構(gòu)設(shè)計(jì)來達(dá)到更好的效果。
在LLaVA-OneVision框架下的測試進(jìn)一步證實(shí)了RICE的優(yōu)勢。與SigLIP相比,RICE在各項(xiàng)任務(wù)上都有顯著提升,總體平均提升達(dá)到5.14%。這種一致性的改進(jìn)表明,RICE的優(yōu)勢不是偶然的,而是源于其設(shè)計(jì)理念的根本優(yōu)越性。
指代分割任務(wù)的實(shí)驗(yàn)結(jié)果同樣令人印象深刻。研究團(tuán)隊(duì)將RICE集成到LLaVA-NeXT中,采用與LISA相同的兩階段訓(xùn)練方法:先進(jìn)行視覺-語言對齊,然后進(jìn)行MLLM-解碼器訓(xùn)練。實(shí)驗(yàn)中還引入了專門的[SEG]標(biāo)記,其嵌入通過MLP適配器轉(zhuǎn)換為SAM提示。
在LLaVA-1.5框架中,RICE配合Vicuna-7B在refCOCO的各個(gè)分割任務(wù)上都超越了標(biāo)準(zhǔn)CLIP視覺編碼器,分別在val、testA和testB上提升了1.4%、1.2%和2.8%。在更先進(jìn)的LLaVA-NeXT框架中,RICE的優(yōu)勢更加明顯,在所有基準(zhǔn)測試中都顯著超越了基準(zhǔn)MLCD方法。
這些提升的背后有著深層的原因。研究團(tuán)隊(duì)通過分析不同圖像標(biāo)記之間的距離分布發(fā)現(xiàn),RICE在訓(xùn)練過程中能夠更好地區(qū)分不同的視覺標(biāo)記。這種能力轉(zhuǎn)化為更精確的目標(biāo)感知,從而在需要精確理解圖片局部區(qū)域的任務(wù)上表現(xiàn)更佳。
在檢測任務(wù)的探測實(shí)驗(yàn)中,RICE的優(yōu)勢同樣突出。研究團(tuán)隊(duì)使用Cascade Mask R-CNN框架,在凍結(jié)骨干網(wǎng)絡(luò)的情況下構(gòu)建特征金字塔,通過最大池化和上采樣操作生成多尺度特征圖。這種設(shè)置能夠公平地評估不同預(yù)訓(xùn)練模型的特征質(zhì)量。
在COCO數(shù)據(jù)集上,RICE達(dá)到了38.9%的檢測AP和31.5%的分割A(yù)P,比最強(qiáng)的基線SigLIP分別提升了3.9%和3.4%。在更具挑戰(zhàn)性的LVIS數(shù)據(jù)集上,RICE達(dá)到了26.5%的檢測AP和21.4%的分割A(yù)P,相比SigLIP提升了4.7%和4.1%。
這些結(jié)果特別有說服力,因?yàn)闄z測和分割任務(wù)直接考驗(yàn)?zāi)P蛯D片中不同區(qū)域的理解能力。RICE的優(yōu)勢表明,它的區(qū)域感知學(xué)習(xí)策略確實(shí)讓模型獲得了更好的局部表示能力。
在Roboflow100基準(zhǔn)測試中,RICE展現(xiàn)了優(yōu)秀的跨域泛化能力。這個(gè)基準(zhǔn)包含多個(gè)專業(yè)領(lǐng)域,如航空圖像、游戲場景、顯微鏡圖像、水下場景等。RICE達(dá)到了26.5%的平均性能,在航空圖像分析上提升了5.5%,在顯微鏡分析上提升了3.4%。
這種跨域的優(yōu)勢說明了RICE學(xué)到的特征具有很好的通用性。就像一個(gè)見多識廣的專家,不僅在自己的專業(yè)領(lǐng)域表現(xiàn)出色,在相關(guān)的其他領(lǐng)域也能迅速適應(yīng)并發(fā)揮作用。
視頻目標(biāo)跟蹤實(shí)驗(yàn)進(jìn)一步驗(yàn)證了RICE特征的時(shí)序一致性。研究團(tuán)隊(duì)使用OSTrack框架,在凍結(jié)骨干網(wǎng)絡(luò)的基礎(chǔ)上插入兩個(gè)標(biāo)準(zhǔn)視覺變換器塊來增強(qiáng)模板和搜索圖像之間的信息交換。在GOT-10k、LaSOT、TrackingNet和TNL2K等多個(gè)跟蹤基準(zhǔn)上,RICE都取得了最佳性能。
通過PCA可視化分析,研究團(tuán)隊(duì)發(fā)現(xiàn)RICE能夠在視頻序列中保持穩(wěn)定的語義關(guān)注。無論是滑冰運(yùn)動員、奔跑的鹿、騎摩托車的人還是騎自行車的人,RICE都能在整個(gè)序列中保持對目標(biāo)對象的一致關(guān)注,展現(xiàn)出優(yōu)秀的時(shí)序穩(wěn)定性。
這種穩(wěn)定性對于視頻理解任務(wù)來說至關(guān)重要。就像一個(gè)專注的觀察者,能夠在復(fù)雜變化的場景中始終鎖定目標(biāo),不被其他干擾因素影響。這種能力使得RICE在需要時(shí)序一致性的應(yīng)用中具有明顯優(yōu)勢。
五、深入分析:為什么RICE如此有效
通過大量的對比實(shí)驗(yàn)和分析,我們可以更深入地理解RICE為什么能夠取得如此顯著的性能提升。這就像解析一道美味菜肴的制作秘訣,需要從食材選擇、烹飪工藝、火候掌握等多個(gè)角度來理解。
首先是數(shù)據(jù)構(gòu)建策略的優(yōu)勢。傳統(tǒng)方法通常依賴圖片級別的標(biāo)簽,這就像用一個(gè)詞來概括一整本書的內(nèi)容,必然會丟失很多細(xì)節(jié)信息。RICE通過構(gòu)建區(qū)域級別的數(shù)據(jù)集,相當(dāng)于為書中的每個(gè)章節(jié)都提供了專門的摘要,這樣就能保留更多的語義信息。
區(qū)域數(shù)據(jù)的聚類策略也很關(guān)鍵。通過k-means算法將20億個(gè)區(qū)域聚類為100萬個(gè)語義中心,這個(gè)過程實(shí)際上是在發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在語義結(jié)構(gòu)。這就像整理一個(gè)巨大的圖書館,雖然書籍?dāng)?shù)量龐大,但通過合理的分類方法,可以讓每本書都找到最合適的位置。
與傳統(tǒng)的實(shí)例判別不同,這種聚類方法能夠?qū)⒄Z義相似的區(qū)域歸為一類,讓模型學(xué)到更豐富的語義表示。比如,所有包含"汽車"的區(qū)域可能會被歸為同一類,而所有包含"建筑物"的區(qū)域會被歸為另一類。這種歸類方式更符合人類的認(rèn)知習(xí)慣。
區(qū)域變換器層的設(shè)計(jì)也是成功的關(guān)鍵因素。傳統(tǒng)的視覺變換器雖然強(qiáng)大,但它們的注意力機(jī)制是全局的,無法專門針對特定區(qū)域進(jìn)行精細(xì)分析。RICE的區(qū)域注意力層通過引入可見性掩碼,實(shí)現(xiàn)了區(qū)域級別的專注處理。
這種設(shè)計(jì)的巧妙之處在于,它既保持了全局上下文信息,又增強(qiáng)了局部細(xì)節(jié)的處理能力。就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,既要從整體上把握病人的狀況,又要仔細(xì)檢查每個(gè)可疑的局部癥狀。這種全局與局部的結(jié)合,讓模型能夠在保持整體理解的同時(shí),對細(xì)節(jié)有更精確的把握。
統(tǒng)一學(xué)習(xí)框架的設(shè)計(jì)理念也值得深入分析。將物體識別和文字識別統(tǒng)一在同一個(gè)分類框架下,這種做法的好處不僅僅是簡化了模型架構(gòu),更重要的是讓兩個(gè)任務(wù)之間產(chǎn)生了有益的相互促進(jìn)。
物體識別需要模型學(xué)會區(qū)分不同的視覺模式,而文字識別需要模型學(xué)會精確的形狀和結(jié)構(gòu)信息。當(dāng)這兩個(gè)任務(wù)在同一個(gè)模型中進(jìn)行聯(lián)合訓(xùn)練時(shí),它們的優(yōu)勢可以相互補(bǔ)充。物體識別的語義理解能力可以幫助文字識別更好地理解文字的上下文,而文字識別的精確性要求可以提升物體識別的細(xì)節(jié)處理能力。
負(fù)樣本采樣策略的重要性也不容忽視。研究團(tuán)隊(duì)發(fā)現(xiàn),如果使用所有可能的負(fù)樣本,不僅計(jì)算量巨大,還會引入一些語義上相似的負(fù)樣本,導(dǎo)致訓(xùn)練信號的混亂。通過控制負(fù)樣本的采樣比例,可以在保持性能的同時(shí)顯著提升訓(xùn)練效率。
這種策略反映了機(jī)器學(xué)習(xí)中一個(gè)重要的原則:并不是所有的訓(xùn)練信號都是有益的,有時(shí)候適當(dāng)?shù)暮Y選和控制反而能帶來更好的效果。就像烹飪時(shí)調(diào)味料的使用,適量的調(diào)味料能夠提升菜肴的味道,但過量使用反而會破壞原有的美味。
多尺度訓(xùn)練策略也是RICE成功的重要因素。從低分辨率開始訓(xùn)練,然后逐步提升到高分辨率,這種漸進(jìn)式的方法讓模型能夠先學(xué)會基本的視覺概念,然后再逐步學(xué)習(xí)更精細(xì)的細(xì)節(jié)。
這種訓(xùn)練策略符合人類學(xué)習(xí)的認(rèn)知規(guī)律。我們在學(xué)習(xí)新技能時(shí),通常也是從簡單的基礎(chǔ)開始,逐步增加難度和復(fù)雜性。這種循序漸進(jìn)的方法不僅更加穩(wěn)定,而且最終能夠達(dá)到更好的效果。
通過對比不同超參數(shù)設(shè)置的消融實(shí)驗(yàn),研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的規(guī)律。比如,區(qū)域采樣數(shù)量N設(shè)置為10時(shí)效果最佳,聚類中心數(shù)量K在100萬到200萬之間時(shí)性能最優(yōu),負(fù)樣本采樣比例ρ在0.05到0.1之間時(shí)表現(xiàn)最好。
這些經(jīng)驗(yàn)性的發(fā)現(xiàn)雖然看起來是技術(shù)細(xì)節(jié),但實(shí)際上反映了數(shù)據(jù)處理、模型容量和訓(xùn)練效率之間的微妙平衡。每個(gè)參數(shù)的最優(yōu)值都不是任意的,而是在大量實(shí)驗(yàn)中找到的最佳平衡點(diǎn)。
特征可視化分析提供了另一個(gè)有趣的視角。通過t-SNE投影到球面流形上,研究團(tuán)隊(duì)發(fā)現(xiàn)RICE學(xué)到的特征在語義空間中分布更加合理。相似的物體聚集在一起,不同的物體之間有明確的分界,這種清晰的語義結(jié)構(gòu)正是RICE在各種任務(wù)上表現(xiàn)優(yōu)異的根本原因。
這種特征分布的改善不是偶然的,而是RICE學(xué)習(xí)策略的必然結(jié)果。通過區(qū)域級別的對比學(xué)習(xí),模型能夠?qū)W到更加判別性的特征表示,這些特征不僅能夠區(qū)分不同的語義類別,還能夠保持類內(nèi)的一致性。
六、廣泛應(yīng)用:從理論到實(shí)踐的飛躍
RICE方法的成功不僅體現(xiàn)在實(shí)驗(yàn)室的測試數(shù)據(jù)上,更重要的是它在實(shí)際應(yīng)用中展現(xiàn)出的巨大潛力。這種從理論研究到實(shí)際應(yīng)用的飛躍,就像一項(xiàng)發(fā)明從實(shí)驗(yàn)室走向市場,真正開始改變?nèi)藗兊纳睢?/p>
在多模態(tài)大語言模型領(lǐng)域,RICE的應(yīng)用前景特別廣闊。當(dāng)前的多模態(tài)模型雖然能夠理解圖片和文字,但在處理復(fù)雜的視覺場景時(shí),往往會因?yàn)橐曈X編碼器的局限而表現(xiàn)不佳。RICE的引入可以顯著提升這些模型在文檔理解、圖表分析、場景描述等任務(wù)上的表現(xiàn)。
具體來說,在文檔智能處理方面,RICE能夠幫助AI更準(zhǔn)確地識別和理解各種文檔中的內(nèi)容。無論是掃描的合同文本、復(fù)雜的財(cái)務(wù)報(bào)表,還是包含圖表和文字的研究論文,RICE都能提供更精確的視覺理解能力。這對于自動化辦公、智能客服、法律文檔處理等應(yīng)用場景都有重要意義。
在圖像檢索和搜索領(lǐng)域,RICE的區(qū)域感知能力可以支持更精細(xì)的搜索需求。傳統(tǒng)的圖像搜索通常只能基于整體內(nèi)容進(jìn)行匹配,而RICE能夠理解圖片中的具體區(qū)域,這就使得"搜索包含紅色汽車和綠色交通燈的街景照片"這樣精確的查詢成為可能。
對于電商平臺來說,這種能力尤其有價(jià)值。用戶上傳一張包含多個(gè)商品的照片,系統(tǒng)不僅能夠識別出每個(gè)商品,還能理解它們的位置關(guān)系、顏色搭配等細(xì)節(jié)信息,從而提供更精準(zhǔn)的商品推薦和搜索結(jié)果。這種精細(xì)化的理解能力可以顯著提升用戶體驗(yàn)和購物轉(zhuǎn)化率。
在自動駕駛領(lǐng)域,RICE的區(qū)域理解能力對于場景感知至關(guān)重要。自動駕駛系統(tǒng)需要準(zhǔn)確識別道路上的各種目標(biāo),包括車輛、行人、交通標(biāo)志、道路標(biāo)線等,還需要理解它們之間的空間關(guān)系。RICE的精細(xì)區(qū)域分析能力可以幫助系統(tǒng)更準(zhǔn)確地理解復(fù)雜的交通場景。
特別是在處理復(fù)雜路況時(shí),比如施工路段、事故現(xiàn)場或者惡劣天氣條件下,傳統(tǒng)的檢測方法可能會因?yàn)橐曈X信息的不完整而出現(xiàn)誤判。RICE的區(qū)域感知能力可以幫助系統(tǒng)從局部細(xì)節(jié)中獲取更多有用信息,提高在復(fù)雜環(huán)境下的可靠性。
醫(yī)療影像分析是另一個(gè)具有巨大應(yīng)用潛力的領(lǐng)域。醫(yī)生在分析X光片、CT掃描或MRI圖像時(shí),需要關(guān)注圖像中的多個(gè)區(qū)域,每個(gè)區(qū)域可能都包含重要的診斷信息。RICE的區(qū)域分析能力可以幫助醫(yī)療AI系統(tǒng)更精確地定位和分析病變區(qū)域。
這種能力不僅可以提高診斷的準(zhǔn)確性,還可以幫助醫(yī)生發(fā)現(xiàn)容易被忽略的細(xì)微異常。比如在胸部X光片中,RICE可能能夠同時(shí)關(guān)注肺部的紋理變化、心臟的形態(tài)特征以及骨骼的結(jié)構(gòu)異常,為醫(yī)生提供更全面的分析支持。
在內(nèi)容審核和安全監(jiān)控方面,RICE的應(yīng)用也很有前景。社交媒體平臺需要處理海量的圖片和視頻內(nèi)容,識別其中可能存在的不當(dāng)內(nèi)容。傳統(tǒng)的審核系統(tǒng)往往只能基于整體特征進(jìn)行判斷,容易出現(xiàn)漏檢或誤判。
RICE的區(qū)域感知能力可以讓審核系統(tǒng)更精確地定位和分析圖片中的具體內(nèi)容。比如,它可以識別圖片某個(gè)角落的小字文本,或者注意到背景中的特定標(biāo)識,這種細(xì)致的分析能力可以顯著提升內(nèi)容審核的準(zhǔn)確性和效率。
在教育技術(shù)領(lǐng)域,RICE也有廣泛的應(yīng)用空間。智能教育系統(tǒng)可以利用RICE的能力來分析學(xué)生的手寫作業(yè)、繪畫作品或者實(shí)驗(yàn)記錄,提供更精確的評估和反饋。
比如在數(shù)學(xué)教育中,系統(tǒng)不僅能夠識別學(xué)生寫的最終答案,還能理解解題過程中的每個(gè)步驟,分析學(xué)生在哪個(gè)環(huán)節(jié)出現(xiàn)了錯誤,從而提供更有針對性的指導(dǎo)。這種精細(xì)化的分析能力可以讓AI教學(xué)助手更好地理解學(xué)生的學(xué)習(xí)狀況。
在工業(yè)質(zhì)檢領(lǐng)域,RICE的區(qū)域分析能力可以幫助自動化檢測系統(tǒng)更精確地識別產(chǎn)品缺陷。傳統(tǒng)的質(zhì)檢系統(tǒng)可能只能檢測明顯的整體缺陷,而RICE可以同時(shí)關(guān)注產(chǎn)品的多個(gè)局部區(qū)域,發(fā)現(xiàn)細(xì)微的質(zhì)量問題。
這種能力對于精密制造業(yè)特別重要。比如在電子產(chǎn)品制造中,一個(gè)微小的焊接缺陷可能就會影響整個(gè)產(chǎn)品的性能。RICE的精細(xì)分析能力可以幫助質(zhì)檢系統(tǒng)及早發(fā)現(xiàn)這些潛在問題,提高產(chǎn)品質(zhì)量和生產(chǎn)效率。
智能家居系統(tǒng)也可以從RICE的能力中受益。家庭監(jiān)控?cái)z像頭可以利用RICE來更好地理解家庭環(huán)境中的各種情況。不僅能夠識別家庭成員,還能理解他們的行為和環(huán)境變化,提供更智能的家居服務(wù)。
比如,系統(tǒng)可以通過分析客廳的圖像來判斷是否需要調(diào)節(jié)燈光,通過觀察廚房的情況來提醒用戶關(guān)閉燃?xì)?,或者通過監(jiān)控老人的活動來判斷是否需要提供幫助。這種細(xì)致的環(huán)境理解能力可以讓智能家居系統(tǒng)更加貼心和實(shí)用。
值得注意的是,RICE方法的開源發(fā)布為整個(gè)AI社區(qū)提供了寶貴的資源。研究團(tuán)隊(duì)將預(yù)訓(xùn)練模型發(fā)布在GitHub上,這意味著其他研究者和開發(fā)者可以在RICE的基礎(chǔ)上進(jìn)行進(jìn)一步的創(chuàng)新和應(yīng)用開發(fā)。
這種開放的態(tài)度不僅體現(xiàn)了學(xué)術(shù)研究的分享精神,也為RICE技術(shù)的快速推廣和應(yīng)用奠定了基礎(chǔ)??梢灶A(yù)期,在不久的將來,我們會看到更多基于RICE技術(shù)的創(chuàng)新應(yīng)用出現(xiàn),從而讓這項(xiàng)技術(shù)真正惠及更多的用戶和場景。
說到底,RICE代表的不僅僅是一種新的技術(shù)方法,更是AI視覺理解向更精細(xì)、更實(shí)用方向發(fā)展的重要里程碑。它讓AI從"大概看懂"升級到"精確理解",從"整體把握"進(jìn)步到"細(xì)節(jié)洞察"。這種能力的提升,將為AI在各個(gè)領(lǐng)域的應(yīng)用打開新的可能性,讓人工智能真正成為人類在處理復(fù)雜視覺信息時(shí)的得力助手。
當(dāng)然,任何技術(shù)都不是完美的,RICE也面臨著一些挑戰(zhàn)和限制。比如,大規(guī)模的區(qū)域數(shù)據(jù)處理需要大量的計(jì)算資源,這可能會限制其在資源受限環(huán)境中的應(yīng)用。另外,如何進(jìn)一步提升模型在極端條件下的魯棒性,如何處理更加復(fù)雜和多樣化的視覺場景,這些都是未來需要繼續(xù)探索的方向。
但不管怎樣,RICE的出現(xiàn)標(biāo)志著AI視覺理解技術(shù)的一個(gè)重要進(jìn)步。它讓我們看到了AI在理解復(fù)雜視覺信息方面的巨大潛力,也為構(gòu)建更智能、更實(shí)用的AI系統(tǒng)指明了方向。隨著技術(shù)的不斷完善和應(yīng)用的深入發(fā)展,我們有理由期待RICE及其衍生技術(shù)在未來為我們帶來更多的驚喜和便利。
Q&A
Q1:RICE方法與傳統(tǒng)的CLIP、SigLIP等模型相比有什么本質(zhì)區(qū)別? A:傳統(tǒng)模型只能從整體上理解圖片內(nèi)容,就像只能說"這是風(fēng)景照",但說不出具體細(xì)節(jié)。RICE則能同時(shí)理解圖片的整體和每個(gè)局部區(qū)域,既知道整體是什么,又能準(zhǔn)確識別左下角的花朵顏色、右上角的文字內(nèi)容等具體信息。這種"既見森林又見樹木"的能力讓它在需要精細(xì)理解的任務(wù)上表現(xiàn)更佳。
Q2:RICE的區(qū)域感知能力是如何實(shí)現(xiàn)的?訓(xùn)練過程復(fù)雜嗎? A:RICE通過三個(gè)關(guān)鍵技術(shù)實(shí)現(xiàn)區(qū)域感知:首先用SAM工具把圖片分割成有意義的區(qū)域片段,然后用聚類算法自動給每個(gè)區(qū)域分配語義標(biāo)簽,最后通過特殊的"區(qū)域注意力層"讓AI專注分析特定區(qū)域。整個(gè)過程是自動化的,不需要人工標(biāo)注每個(gè)區(qū)域,使得大規(guī)模訓(xùn)練成為可能。雖然需要大量計(jì)算資源,但訓(xùn)練策略經(jīng)過優(yōu)化,相對高效。
Q3:RICE技術(shù)現(xiàn)在能否直接使用?對普通開發(fā)者友好嗎? A:是的,研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了預(yù)訓(xùn)練模型(https://github.com/deepglint/MVT),開發(fā)者可以直接下載使用。不過目前主要面向有一定技術(shù)基礎(chǔ)的開發(fā)者和研究人員。對于普通用戶來說,可能需要等待基于RICE技術(shù)的應(yīng)用產(chǎn)品出現(xiàn),比如更智能的圖像搜索、文檔處理軟件等。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。