av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) Meta的Perception Encoder:從"我什么都不是"到"我什么都能做"的AI視覺新革命

Meta的Perception Encoder:從"我什么都不是"到"我什么都能做"的AI視覺新革命

2025-07-14 09:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:45 ? 科技行者

這項(xiàng)由Meta FAIR研究院的Daniel Bolya、Po-Yao Huang等多位研究員領(lǐng)導(dǎo)的團(tuán)隊(duì)研究發(fā)表于2025年4月,已在arXiv平臺(tái)公開發(fā)布(論文ID:2504.13181v2)。有興趣深入了解的讀者可以通過(guò)https://github.com/facebookresearch/perception_models獲取代碼和模型,或訪問(wèn)https://ai.meta.com/datasets/pe-video/獲取相關(guān)數(shù)據(jù)集。

在人工智能的世界里,有一個(gè)奇妙的現(xiàn)象:最優(yōu)秀的能力往往不在表面,而是深藏在內(nèi)部。就像一顆洋蔥,最精華的部分需要一層一層剝開才能發(fā)現(xiàn)。Meta的研究團(tuán)隊(duì)就遇到了這樣一個(gè)有趣的發(fā)現(xiàn)——他們訓(xùn)練出了一個(gè)看似"平平無(wú)奇"的視覺AI模型,結(jié)果卻發(fā)現(xiàn)這個(gè)模型內(nèi)部藏著驚人的多樣化能力。

想象一下這樣的場(chǎng)景:你有一個(gè)朋友,表面上看起來(lái)只會(huì)做一件事——比如識(shí)別照片中的物體。但當(dāng)你深入了解后發(fā)現(xiàn),他實(shí)際上還能閱讀文字、理解視頻、測(cè)量深度、追蹤物體移動(dòng),甚至能回答復(fù)雜問(wèn)題。唯一的問(wèn)題是,他不知道如何展示這些隱藏的技能。這就是Meta團(tuán)隊(duì)面臨的情況。

他們開發(fā)的Perception Encoder(簡(jiǎn)稱PE,可以理解為"感知編碼器")就是這樣一個(gè)多面手。在表面上,PE只是通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練的普通視覺模型——它學(xué)會(huì)了將圖像和文字進(jìn)行匹配,這是目前AI視覺領(lǐng)域最常見的訓(xùn)練方式。但研究團(tuán)隊(duì)在深入分析時(shí)發(fā)現(xiàn)了一個(gè)驚人的秘密:在這個(gè)模型的內(nèi)部不同層次中,竟然隱藏著各種專業(yè)技能。

這個(gè)發(fā)現(xiàn)打破了AI研究領(lǐng)域的一個(gè)傳統(tǒng)觀念。長(zhǎng)期以來(lái),人們認(rèn)為不同的AI任務(wù)需要不同的專門訓(xùn)練方法:如果你想讓AI理解圖像內(nèi)容,就要用對(duì)比學(xué)習(xí);如果想讓AI回答關(guān)于圖像的問(wèn)題,就要用描述生成訓(xùn)練;如果想讓AI理解空間關(guān)系和物體位置,就要用自監(jiān)督學(xué)習(xí)。這就像培養(yǎng)不同專業(yè)的學(xué)生——醫(yī)學(xué)生需要醫(yī)學(xué)院的訓(xùn)練,工程師需要工科教育,藝術(shù)家需要藝術(shù)學(xué)院的培養(yǎng)。

但PE的出現(xiàn)改變了這種認(rèn)知。研究團(tuán)隊(duì)發(fā)現(xiàn),僅僅通過(guò)對(duì)比學(xué)習(xí)這一種"通用教育"方式,就能在同一個(gè)模型中培養(yǎng)出多種專業(yè)能力。這就像發(fā)現(xiàn)了一個(gè)奇才學(xué)生,他僅僅通過(guò)通識(shí)教育就掌握了醫(yī)學(xué)、工程、藝術(shù)等多個(gè)領(lǐng)域的專業(yè)技能。

一、從零開始:打造更強(qiáng)健的圖像理解基礎(chǔ)

在構(gòu)建PE的過(guò)程中,研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是如何讓基礎(chǔ)的圖像理解變得更強(qiáng)健。這就像為一座摩天大樓打地基——地基越扎實(shí),上面能建的樓層就越高。

傳統(tǒng)的AI圖像訓(xùn)練方法雖然有效,但存在一個(gè)問(wèn)題:當(dāng)面對(duì)一些"刁鉆"的測(cè)試時(shí),比如圖像質(zhì)量不佳、拍攝角度奇怪、或者包含不常見物體時(shí),性能會(huì)顯著下降。這就像一個(gè)只在標(biāo)準(zhǔn)考場(chǎng)練習(xí)的學(xué)生,一旦遇到突發(fā)情況就不知所措。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一套"強(qiáng)健訓(xùn)練法"。他們的核心思路是讓AI在訓(xùn)練過(guò)程中經(jīng)歷各種"困難模式",從而變得更加適應(yīng)性強(qiáng)。具體來(lái)說(shuō),他們?cè)O(shè)計(jì)了九個(gè)漸進(jìn)式的改進(jìn)步驟。

首先是"漸進(jìn)分辨率訓(xùn)練"。傳統(tǒng)方法通常固定使用一種圖像分辨率進(jìn)行訓(xùn)練,但研究團(tuán)隊(duì)讓AI從低分辨率圖像開始學(xué)習(xí),然后逐步提高到高分辨率。這就像教孩子畫畫,先從簡(jiǎn)單的線條開始,再到復(fù)雜的細(xì)節(jié)。這種方法不僅提高了訓(xùn)練效率,還讓模型學(xué)會(huì)了在不同清晰度下都能正常工作。

接下來(lái)是"大批量訓(xùn)練"。他們將每次訓(xùn)練的樣本數(shù)量從32,000個(gè)增加到64,000個(gè)。這意味著AI在每次學(xué)習(xí)時(shí)能看到更多不同的圖像-文字配對(duì),從而學(xué)到更豐富的知識(shí)。這就像讓學(xué)生同時(shí)接觸更多不同的教材和案例,而不是反復(fù)學(xué)習(xí)同樣的內(nèi)容。

在優(yōu)化器選擇上,團(tuán)隊(duì)從傳統(tǒng)的AdamW切換到LAMB優(yōu)化器,并提高了學(xué)習(xí)率。LAMB優(yōu)化器在處理大規(guī)模訓(xùn)練時(shí)更加穩(wěn)定,就像換了一個(gè)更有經(jīng)驗(yàn)的教練來(lái)指導(dǎo)訓(xùn)練過(guò)程。

分辨率的進(jìn)一步提升也很關(guān)鍵。他們?cè)谟?xùn)練的最后階段加入了336像素的高分辨率訓(xùn)練。雖然這只讓標(biāo)準(zhǔn)測(cè)試的性能提升了0.5%,但在困難測(cè)試上的改進(jìn)卻達(dá)到了1.4%。這說(shuō)明高分辨率訓(xùn)練特別有助于提升模型的魯棒性。

"位置編碼改進(jìn)"是另一個(gè)重要技術(shù)。他們添加了2D RoPE(旋轉(zhuǎn)位置編碼),幫助模型更好地理解圖像中不同位置的關(guān)系。這就像給AI裝上了一個(gè)更精確的"空間感知系統(tǒng)"。

在注意力機(jī)制上,他們采用了"注意力池化"方法。這個(gè)技術(shù)改變了模型整合信息的方式,讓它能更有效地從復(fù)雜圖像中提取關(guān)鍵特征。有趣的是,他們發(fā)現(xiàn)保留傳統(tǒng)的"類別標(biāo)記"對(duì)小模型的性能很重要。

數(shù)據(jù)增強(qiáng)是提升魯棒性的關(guān)鍵一環(huán)。即使在處理數(shù)十億樣本時(shí),適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)仍然很重要。他們采用了強(qiáng)力的隨機(jī)裁剪、亮度和飽和度調(diào)整以及水平翻轉(zhuǎn)。隨機(jī)裁剪迫使模型學(xué)會(huì)利用完整的文字描述,因?yàn)閳D像可能不完整;亮度調(diào)整幫助模型適應(yīng)不同光照條件;水平翻轉(zhuǎn)則提升了對(duì)自然圖像的理解能力,同時(shí)不影響文字識(shí)別能力。

最后一個(gè)創(chuàng)新是"掩碼正則化"。這個(gè)方法的靈感來(lái)自讓模型學(xué)會(huì)在部分信息缺失時(shí)也能正常工作。他們會(huì)故意遮擋一部分圖像,然后要求模型的輸出與完整圖像盡可能相似。這就像訓(xùn)練一個(gè)偵探,即使只看到案件的一部分線索,也能推斷出完整的真相。

通過(guò)這九個(gè)步驟的逐步改進(jìn),PE的基礎(chǔ)能力得到了顯著提升。更重要的是,這種改進(jìn)在不同規(guī)模的模型上都有效,證明了這套方法的普適性。這為后續(xù)發(fā)現(xiàn)模型內(nèi)部隱藏能力奠定了堅(jiān)實(shí)基礎(chǔ)。

二、視頻理解的突破:用合成數(shù)據(jù)喂養(yǎng)AI

在解決了圖像理解的基礎(chǔ)問(wèn)題后,研究團(tuán)隊(duì)面臨了一個(gè)更大的挑戰(zhàn):如何讓同一個(gè)模型既擅長(zhǎng)理解靜態(tài)圖像,又能處理動(dòng)態(tài)視頻?這就像要培養(yǎng)一個(gè)既能看懂照片又能理解電影的全能分析師。

這個(gè)挑戰(zhàn)的核心在于數(shù)據(jù)稀缺性。雖然互聯(lián)網(wǎng)上有無(wú)數(shù)的圖像配文字說(shuō)明,但高質(zhì)量的視頻配準(zhǔn)確描述卻非常少見。這就像想學(xué)外語(yǔ),圖片詞典很容易找到,但配有準(zhǔn)確字幕的外語(yǔ)電影卻很稀缺。

面對(duì)這個(gè)難題,研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案:既然現(xiàn)成的高質(zhì)量視頻描述不夠,那就自己"制造"。他們開發(fā)了一套視頻數(shù)據(jù)引擎,這個(gè)引擎就像一個(gè)精密的內(nèi)容制作工廠,能夠?yàn)榇罅恳曨l生成準(zhǔn)確、詳細(xì)的文字描述。

這個(gè)數(shù)據(jù)引擎的工作流程非常精巧。首先,它使用一個(gè)專門的視頻描述模型來(lái)觀看視頻,并生成初步的描述。同時(shí),它還會(huì)從視頻中抽取幾個(gè)關(guān)鍵幀,用圖像描述模型為每一幀生成單獨(dú)的描述。此外,引擎還會(huì)收集視頻的原始元數(shù)據(jù),比如標(biāo)題和簡(jiǎn)介。

接下來(lái)是關(guān)鍵的融合步驟。引擎將視頻整體描述、各幀描述和元數(shù)據(jù)信息一起提供給一個(gè)大型語(yǔ)言模型,要求它合成一個(gè)簡(jiǎn)潔但全面的視頻描述。這就像讓一個(gè)資深編輯綜合多個(gè)記者的報(bào)道,寫出一篇精煉的新聞稿。

為了確保生成描述的質(zhì)量,團(tuán)隊(duì)還收集了26.5萬(wàn)個(gè)視頻,使用基礎(chǔ)模型生成初步描述后,邀請(qǐng)人工標(biāo)注員進(jìn)行精修。標(biāo)注員的任務(wù)是刪除錯(cuò)誤信息、糾正不準(zhǔn)確描述、消除重復(fù)內(nèi)容,并補(bǔ)充遺漏的重要?jiǎng)幼?。這個(gè)人工精修過(guò)程就像有經(jīng)驗(yàn)的編輯審校稿件,確保最終輸出的質(zhì)量。

有了這個(gè)精修后的高質(zhì)量數(shù)據(jù),團(tuán)隊(duì)訓(xùn)練出了一個(gè)更強(qiáng)的視頻描述模型。然后他們用這個(gè)改進(jìn)后的模型處理了2200萬(wàn)個(gè)視頻,為每個(gè)視頻生成了與其內(nèi)容高度匹配的文字描述。

在視頻編碼方面,團(tuán)隊(duì)采用了一個(gè)出人意料的簡(jiǎn)單方法。他們沒(méi)有使用復(fù)雜的時(shí)序建模技術(shù),而是簡(jiǎn)單地從每個(gè)視頻中均勻采樣8幀,用圖像編碼器分別處理每一幀,然后通過(guò)平均池化得到視頻的整體表示。這種方法雖然簡(jiǎn)單,但效果出人意料地好。

實(shí)驗(yàn)結(jié)果驗(yàn)證了這個(gè)方法的有效性。通過(guò)對(duì)比不同組合的數(shù)據(jù)來(lái)源,研究團(tuán)隊(duì)發(fā)現(xiàn),雖然視頻元數(shù)據(jù)(標(biāo)題和描述)提供了有價(jià)值的背景信息,但真正的性能提升來(lái)自于生成的視頻描述和幀級(jí)描述。隨著合成視頻數(shù)據(jù)的增加,模型在圖像和視頻任務(wù)上的表現(xiàn)都在持續(xù)改善,而且沒(méi)有出現(xiàn)飽和跡象。

特別值得注意的是,即使只使用相對(duì)少量的合成視頻數(shù)據(jù)(2200萬(wàn)個(gè)),也能顯著提升模型的整體能力。在圖像任務(wù)上,困難案例的性能提升尤為明顯,在視頻任務(wù)上更是實(shí)現(xiàn)了大幅躍升。這證明了高質(zhì)量合成數(shù)據(jù)的價(jià)值。

為了惠及研究社區(qū),團(tuán)隊(duì)還公開發(fā)布了PE視頻數(shù)據(jù)集(PVD),包含100萬(wàn)個(gè)高質(zhì)量視頻,其中12萬(wàn)個(gè)配有人工精修的描述。這個(gè)數(shù)據(jù)集為未來(lái)的研究提供了寶貴資源。

通過(guò)這套視頻數(shù)據(jù)引擎,研究團(tuán)隊(duì)成功地讓PE模型在保持強(qiáng)大圖像理解能力的同時(shí),獲得了出色的視頻理解能力。這為后續(xù)發(fā)現(xiàn)模型內(nèi)部多樣化能力奠定了關(guān)鍵基礎(chǔ)。

三、意外發(fā)現(xiàn):AI模型的"隱藏天賦"

當(dāng)研究團(tuán)隊(duì)擁有了這個(gè)在圖像和視頻理解上都表現(xiàn)出色的PE模型后,他們開始進(jìn)行更深入的分析。結(jié)果,他們發(fā)現(xiàn)了一個(gè)令人震驚的現(xiàn)象:這個(gè)僅僅通過(guò)對(duì)比學(xué)習(xí)訓(xùn)練的模型,在其內(nèi)部竟然隱藏著多種專業(yè)能力。

這個(gè)發(fā)現(xiàn)就像考古學(xué)家在挖掘一座古墓時(shí),原本只期待找到一般的陶器,結(jié)果卻發(fā)現(xiàn)了整個(gè)寶藏室。研究團(tuán)隊(duì)本來(lái)只是想驗(yàn)證他們的對(duì)比學(xué)習(xí)方法有多有效,卻意外發(fā)現(xiàn)PE的中間層能夠在完全不同的任務(wù)上媲美專門訓(xùn)練的最先進(jìn)模型。

具體來(lái)說(shuō),當(dāng)團(tuán)隊(duì)測(cè)試PE在語(yǔ)言理解任務(wù)上的表現(xiàn)時(shí),他們發(fā)現(xiàn)某些中間層的特征可以和AIMv2-3B這樣專門為描述生成任務(wù)訓(xùn)練的模型相媲美。AIMv2-3B是一個(gè)擁有30億參數(shù)的強(qiáng)大模型,專門用于理解圖像內(nèi)容并生成描述。然而,PE在沒(méi)有接受任何描述生成訓(xùn)練的情況下,其第47層的特征就能達(dá)到類似的效果。

更令人驚訝的是,在空間理解任務(wù)上,PE的某些中間層特征竟然能夠匹敵DINOv2-g的表現(xiàn)。DINOv2-g是一個(gè)擁有10億參數(shù)的自監(jiān)督學(xué)習(xí)模型,專門用于理解圖像中的空間關(guān)系、物體位置和幾何結(jié)構(gòu)。這種模型通常在目標(biāo)檢測(cè)、深度估計(jì)等需要精確空間理解的任務(wù)上表現(xiàn)出色。

這個(gè)發(fā)現(xiàn)徹底改變了對(duì)對(duì)比學(xué)習(xí)能力的認(rèn)知。傳統(tǒng)觀點(diǎn)認(rèn)為,對(duì)比學(xué)習(xí)只能產(chǎn)生適合分類和檢索的"全局"特征,而無(wú)法勝任需要細(xì)粒度理解的任務(wù)。但PE的表現(xiàn)證明,經(jīng)過(guò)精心設(shè)計(jì)的對(duì)比學(xué)習(xí)實(shí)際上能夠在學(xué)習(xí)過(guò)程中自發(fā)地產(chǎn)生各種專業(yè)化的特征表示。

為了深入理解這個(gè)現(xiàn)象,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的層級(jí)分析。他們發(fā)現(xiàn),PE模型的不同層次確實(shí)編碼了不同類型的信息。早期層次更多地關(guān)注基礎(chǔ)的視覺特征,如邊緣、紋理和簡(jiǎn)單形狀。中期層次開始整合這些基礎(chǔ)特征,形成對(duì)物體和場(chǎng)景的理解。而后期層次則專注于高級(jí)語(yǔ)義信息和跨模態(tài)對(duì)應(yīng)關(guān)系。

有趣的是,不同任務(wù)的最佳特征出現(xiàn)在不同的層次。對(duì)于需要精確空間理解的任務(wù),如零樣本跟蹤,最佳特征通常出現(xiàn)在第32層左右。而對(duì)于需要語(yǔ)義理解的任務(wù),如視覺問(wèn)答,最佳特征則出現(xiàn)在更深的層次,大約在第47層。

這種層次化的特征分布并非偶然。研究團(tuán)隊(duì)通過(guò)可視化分析發(fā)現(xiàn)了其中的奧秘。在PE模型的架構(gòu)中,大約從第33層開始,一些特征標(biāo)記變成了"全局標(biāo)記"——它們不再對(duì)應(yīng)圖像中的特定位置,而是聚合來(lái)自整個(gè)圖像的信息。這種現(xiàn)象在大型視覺變換器中很常見,但在PE中表現(xiàn)得特別明顯。

對(duì)于依賴局部空間對(duì)應(yīng)關(guān)系的任務(wù),如跟蹤,全局標(biāo)記的出現(xiàn)實(shí)際上是有害的。這解釋了為什么跟蹤任務(wù)的最佳性能出現(xiàn)在全局標(biāo)記形成之前的層次。而對(duì)于需要高級(jí)語(yǔ)義理解的任務(wù),全局標(biāo)記聚合的豐富信息則非常有價(jià)值。

研究團(tuán)隊(duì)還發(fā)現(xiàn),他們的強(qiáng)健訓(xùn)練方法對(duì)于產(chǎn)生這些通用特征至關(guān)重要。通過(guò)對(duì)訓(xùn)練過(guò)程中每個(gè)改進(jìn)步驟的分析,他們發(fā)現(xiàn)漸進(jìn)分辨率訓(xùn)練、數(shù)據(jù)增強(qiáng)和掩碼正則化等技術(shù)都對(duì)提升特征的通用性有顯著貢獻(xiàn)。

這個(gè)發(fā)現(xiàn)的重要性不僅在于技術(shù)層面,更在于它為AI訓(xùn)練提供了新的思路。它表明,與其為每個(gè)特定任務(wù)訓(xùn)練專門的模型,不如集中精力訓(xùn)練一個(gè)強(qiáng)大的通用基礎(chǔ)模型,然后通過(guò)適當(dāng)?shù)膶?duì)齊技術(shù)來(lái)釋放其內(nèi)在的多樣化能力。

然而,這些強(qiáng)大的能力都隱藏在模型內(nèi)部,無(wú)法直接使用。這就像一個(gè)多才多藝的人不知道如何展示自己的技能一樣。因此,研究團(tuán)隊(duì)的下一個(gè)挑戰(zhàn)就是開發(fā)方法來(lái)"喚醒"和"對(duì)齊"這些隱藏的能力。

四、語(yǔ)言對(duì)齊:讓AI學(xué)會(huì)"說(shuō)話"

發(fā)現(xiàn)了PE模型內(nèi)部隱藏的語(yǔ)言理解能力后,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何將這些能力"激活"并引導(dǎo)到模型的輸出層。這就像發(fā)現(xiàn)了一個(gè)有語(yǔ)言天賦的人,但他不知道如何表達(dá),需要專門的訓(xùn)練來(lái)釋放這種潛能。

研究團(tuán)隊(duì)設(shè)計(jì)了一套"語(yǔ)言對(duì)齊"方法來(lái)解決這個(gè)問(wèn)題。這個(gè)方法的核心思路是將PE模型與一個(gè)大型語(yǔ)言模型連接起來(lái),讓它們協(xié)同工作。這就像為一個(gè)有視覺天賦的藝術(shù)家配備一個(gè)優(yōu)秀的解說(shuō)員,藝術(shù)家負(fù)責(zé)"看",解說(shuō)員負(fù)責(zé)"說(shuō)"。

語(yǔ)言對(duì)齊的過(guò)程分為兩個(gè)階段。第一階段是"熱身訓(xùn)練",研究團(tuán)隊(duì)使用100萬(wàn)對(duì)圖像-文字樣本來(lái)訓(xùn)練一個(gè)視覺投影器。在這個(gè)階段,PE模型的參數(shù)保持凍結(jié),只有投影器在學(xué)習(xí)如何將視覺特征轉(zhuǎn)換為語(yǔ)言模型能夠理解的形式。這就像讓翻譯員先熟悉兩種語(yǔ)言的基本對(duì)應(yīng)關(guān)系。

第二階段是"聯(lián)合訓(xùn)練",使用7000萬(wàn)個(gè)多模態(tài)樣本對(duì)整個(gè)系統(tǒng)進(jìn)行微調(diào)。這些樣本涵蓋了自然圖像、文檔圖表、圖解以及視頻等多種類型的視覺內(nèi)容。在這個(gè)階段,除了繼續(xù)訓(xùn)練投影器外,語(yǔ)言模型的參數(shù)也會(huì)更新,讓整個(gè)系統(tǒng)學(xué)會(huì)更好地協(xié)同工作。

在確定最佳配置方面,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的實(shí)驗(yàn)。他們發(fā)現(xiàn),使用30億參數(shù)的語(yǔ)言模型比10億參數(shù)的效果更好,提升了1.6個(gè)百分點(diǎn)。讓語(yǔ)言模型參與訓(xùn)練(而不是保持凍結(jié))能夠帶來(lái)額外的0.3個(gè)百分點(diǎn)提升。在投影器的設(shè)計(jì)上,兩層的多層感知機(jī)比簡(jiǎn)單的線性投影效果更好。

一個(gè)關(guān)鍵的發(fā)現(xiàn)是關(guān)于PE模型中哪一層的特征最適合語(yǔ)言對(duì)齊。雖然第50層(最后一層)通常被用作輸出,但研究團(tuán)隊(duì)發(fā)現(xiàn)第47層的特征在語(yǔ)言任務(wù)上表現(xiàn)更好。這與他們?cè)陔[藏能力分析中的發(fā)現(xiàn)一致——最適合語(yǔ)言理解的特征確實(shí)隱藏在模型內(nèi)部,而不是在輸出層。

為了進(jìn)一步提升性能,研究團(tuán)隊(duì)還在PE模型中加入了LayerScale和DropPath等正則化技術(shù)。這些技術(shù)幫助穩(wěn)定訓(xùn)練過(guò)程,讓模型在處理復(fù)雜的多模態(tài)任務(wù)時(shí)更加穩(wěn)定。最終,這些改進(jìn)總共帶來(lái)了2.1個(gè)百分點(diǎn)的性能提升。

訓(xùn)練完成后,研究團(tuán)隊(duì)得到了PElang——一個(gè)專門優(yōu)化用于語(yǔ)言任務(wù)的PE版本。PElang的特點(diǎn)是能夠?qū)?qiáng)大的視覺理解能力與流暢的語(yǔ)言表達(dá)結(jié)合起來(lái)。

為了驗(yàn)證語(yǔ)言對(duì)齊的效果,研究團(tuán)隊(duì)進(jìn)行了層級(jí)分析對(duì)比。結(jié)果顯示,對(duì)齊后的PElang模型在所有語(yǔ)言相關(guān)任務(wù)上的最佳性能都出現(xiàn)在最后一層,這證明對(duì)齊訓(xùn)練成功地將內(nèi)部隱藏的能力轉(zhuǎn)移到了輸出層。

PElang在多個(gè)基準(zhǔn)測(cè)試上都表現(xiàn)出色。在文檔和圖表問(wèn)答任務(wù)上,它達(dá)到了53.7的平均分,顯著超過(guò)了其他對(duì)比模型。在視覺問(wèn)答任務(wù)上,表現(xiàn)同樣優(yōu)異。更重要的是,即使切換到不同的語(yǔ)言模型(如QwenLM),PElang仍能保持強(qiáng)勁的性能,證明了其出色的泛化能力。

特別值得注意的是,PElang在一些之前沒(méi)有專門訓(xùn)練過(guò)的任務(wù)上也表現(xiàn)出色。例如,在grounding任務(wù)(將文字描述定位到圖像中的具體區(qū)域)上,盡管訓(xùn)練數(shù)據(jù)中沒(méi)有包含這類任務(wù),PElang仍然取得了很好的結(jié)果。這說(shuō)明語(yǔ)言對(duì)齊不只是簡(jiǎn)單的任務(wù)適應(yīng),而是真正激活了模型內(nèi)在的跨模態(tài)理解能力。

在系統(tǒng)級(jí)對(duì)比中,基于PElang構(gòu)建的完整多模態(tài)系統(tǒng)在多個(gè)基準(zhǔn)上都達(dá)到了最先進(jìn)的水平,與最新的頂級(jí)模型相媲美。這證明了語(yǔ)言對(duì)齊方法的有效性和PE模型強(qiáng)大的潛在能力。

通過(guò)語(yǔ)言對(duì)齊,研究團(tuán)隊(duì)成功地將PE模型內(nèi)部隱藏的語(yǔ)言理解能力釋放出來(lái),創(chuàng)造了一個(gè)既能"看"又能"說(shuō)"的強(qiáng)大AI系統(tǒng)。這為多模態(tài)AI的發(fā)展開辟了新的可能性。

五、空間對(duì)齊:讓AI學(xué)會(huì)"精確定位"

在成功激活PE模型的語(yǔ)言能力后,研究團(tuán)隊(duì)面臨了另一個(gè)挑戰(zhàn):如何釋放模型在空間理解方面的潛能。這個(gè)任務(wù)比語(yǔ)言對(duì)齊更加復(fù)雜,因?yàn)榭臻g任務(wù)對(duì)精確性的要求更高,而且不同空間任務(wù)對(duì)特征的需求也有所不同。

通過(guò)深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:PE模型在處理不同空間任務(wù)時(shí),最佳特征層有明顯差異。對(duì)于需要精確局部對(duì)應(yīng)關(guān)系的任務(wù)(如目標(biāo)跟蹤),最佳特征出現(xiàn)在第32層左右;而對(duì)于需要高級(jí)語(yǔ)義理解的空間任務(wù)(如目標(biāo)檢測(cè)),最佳特征則出現(xiàn)在第40層左右。

這種差異的根源在于PE模型的內(nèi)部架構(gòu)特性。研究團(tuán)隊(duì)通過(guò)可視化分析發(fā)現(xiàn),從第33層開始,模型中出現(xiàn)了"全局特征標(biāo)記"。這些標(biāo)記就像信息匯聚中心,收集和整合來(lái)自整個(gè)圖像的信息。對(duì)于需要語(yǔ)義理解的任務(wù),這些全局信息非常有價(jià)值;但對(duì)于需要精確空間對(duì)應(yīng)的任務(wù),全局標(biāo)記反而會(huì)干擾局部特征的表達(dá)。

面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套雙管齊下的空間對(duì)齊策略。這個(gè)策略既要保留模型的語(yǔ)義理解能力,又要強(qiáng)化其空間定位精度。

第一個(gè)策略是"自蒸餾"。研究團(tuán)隊(duì)讓PE模型的最后一層學(xué)習(xí)模仿自己第41層的特征表示。第41層剛好位于語(yǔ)義理解能力的峰值附近,包含了豐富的高級(jí)視覺信息。這就像讓一個(gè)學(xué)生從自己最優(yōu)秀的狀態(tài)中學(xué)習(xí),通過(guò)"回顧"來(lái)提升當(dāng)前的表現(xiàn)。

為了確保自蒸餾的有效性,研究團(tuán)隊(duì)采用了強(qiáng)力的正則化技術(shù)。他們使用了75%的掩碼比例,強(qiáng)制模型在大部分信息缺失的情況下也能重建特征。同時(shí),還引入了LayerScale和DropPath等技術(shù)來(lái)穩(wěn)定訓(xùn)練過(guò)程。

第二個(gè)策略是創(chuàng)新性地使用SAM 2.1模型來(lái)增強(qiáng)空間對(duì)應(yīng)能力。SAM(Segment Anything Model)是一個(gè)專門用于圖像分割的模型,擅長(zhǎng)理解物體邊界和空間關(guān)系。但研究團(tuán)隊(duì)沒(méi)有直接使用SAM的特征,而是采用了一個(gè)巧妙的方法。

傳統(tǒng)的特征蒸餾方法通常會(huì)從教師模型的特征表示中學(xué)習(xí),但SAM的原始特征同樣存在全局標(biāo)記干擾的問(wèn)題。研究團(tuán)隊(duì)的創(chuàng)新在于使用SAM的"掩碼預(yù)測(cè)結(jié)果"而不是特征表示作為監(jiān)督信號(hào)。

具體來(lái)說(shuō),他們?cè)谳斎雸D像上均勻采樣1024個(gè)點(diǎn),讓SAM為每個(gè)點(diǎn)預(yù)測(cè)對(duì)應(yīng)的分割掩碼。這些掩碼預(yù)測(cè)結(jié)果被組合成一個(gè)空間對(duì)應(yīng)圖,包含了豐富的局部空間信息,而且沒(méi)有全局標(biāo)記的干擾。PE模型學(xué)習(xí)模仿這種空間對(duì)應(yīng)關(guān)系,從而增強(qiáng)自身的局部空間理解能力。

這種方法的優(yōu)勢(shì)在于,掩碼預(yù)測(cè)結(jié)果本質(zhì)上就是空間對(duì)應(yīng)的直接體現(xiàn),不存在特征表示中可能出現(xiàn)的語(yǔ)義偏移問(wèn)題。而且,由于使用的是預(yù)測(cè)結(jié)果而不是中間特征,這種監(jiān)督信號(hào)對(duì)插值和分辨率變化更加魯棒。

在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)將兩種對(duì)齊策略結(jié)合起來(lái)。模型同時(shí)學(xué)習(xí)從自己的第41層特征(保持語(yǔ)義能力)和SAM的空間對(duì)應(yīng)圖(增強(qiáng)空間能力)中獲取信息。這種聯(lián)合訓(xùn)練讓最終的PEspatial模型既保持了強(qiáng)大的語(yǔ)義理解能力,又獲得了精確的空間定位能力。

實(shí)驗(yàn)結(jié)果驗(yàn)證了這種空間對(duì)齊策略的有效性。在目標(biāo)檢測(cè)任務(wù)上,PEspatial不僅超越了原始的PE模型,還超過(guò)了許多專門為空間任務(wù)設(shè)計(jì)的模型。在COCO數(shù)據(jù)集上,PEspatial達(dá)到了66.0的box mAP,創(chuàng)下了新的記錄。

在深度估計(jì)任務(wù)上,PEspatial同樣表現(xiàn)出色。這個(gè)結(jié)果特別令人驚訝,因?yàn)閷?duì)比學(xué)習(xí)模型通常不被認(rèn)為適合深度估計(jì)這種需要精確幾何理解的任務(wù)。但PEspatial證明了,經(jīng)過(guò)適當(dāng)?shù)膶?duì)齊訓(xùn)練,對(duì)比學(xué)習(xí)模型同樣能夠勝任這類任務(wù)。

在零樣本跟蹤任務(wù)上,PEspatial的表現(xiàn)更是令人印象深刻。它在DAVIS數(shù)據(jù)集上達(dá)到了61.5的J&F分?jǐn)?shù),顯著超過(guò)了其他模型。這個(gè)結(jié)果證明了SAM對(duì)齊策略在增強(qiáng)局部空間對(duì)應(yīng)能力方面的有效性。

通過(guò)可視化分析,研究團(tuán)隊(duì)驗(yàn)證了空間對(duì)齊確實(shí)成功地將內(nèi)部隱藏的空間理解能力轉(zhuǎn)移到了輸出層。對(duì)齊后的模型特征顯示出清晰的物體邊界和精確的空間結(jié)構(gòu),同時(shí)保持了語(yǔ)義信息的完整性。

這種空間對(duì)齊方法的成功,不僅解決了如何釋放PE模型空間能力的問(wèn)題,還為AI模型的能力對(duì)齊提供了新的思路。它表明,通過(guò)巧妙的訓(xùn)練策略,可以讓通用模型在保持原有優(yōu)勢(shì)的同時(shí),獲得更專業(yè)的能力。

六、統(tǒng)一成果:一個(gè)模型征服多個(gè)領(lǐng)域

經(jīng)過(guò)語(yǔ)言對(duì)齊和空間對(duì)齊的處理,研究團(tuán)隊(duì)最終得到了一個(gè)令人驚嘆的成果:Perception Encoder系列模型。這個(gè)系列就像一套精心設(shè)計(jì)的工具箱,每個(gè)工具都有其獨(dú)特用途,但都源自同一個(gè)強(qiáng)大的基礎(chǔ)。

PE系列包含三個(gè)主要版本:PEcore負(fù)責(zé)基礎(chǔ)的圖像和視頻理解,PElang專精于語(yǔ)言相關(guān)任務(wù),PEspatial則擅長(zhǎng)空間理解任務(wù)。這種設(shè)計(jì)就像培養(yǎng)一個(gè)全才運(yùn)動(dòng)員,他有基礎(chǔ)的體能(PEcore),專業(yè)的技戰(zhàn)術(shù)能力(PElang用于"溝通",PEspatial用于"定位")。

在零樣本圖像分類和檢索任務(wù)上,PEcore展現(xiàn)了令人印象深刻的性能。它在ImageNet驗(yàn)證集上達(dá)到了85.4%的準(zhǔn)確率,在各種魯棒性測(cè)試中平均得分為86.6%。更重要的是,它成為了第一個(gè)在不使用谷歌內(nèi)部JFT-3B數(shù)據(jù)集的情況下,在這些指標(biāo)上超越所有現(xiàn)有模型的開源系統(tǒng)。

這個(gè)成就的意義不僅在于數(shù)字本身,更在于它證明了研究團(tuán)隊(duì)的方法具有真正的突破性。長(zhǎng)期以來(lái),谷歌的JFT-3B數(shù)據(jù)集被認(rèn)為是訓(xùn)練高性能視覺模型不可或缺的資源,但PEcore證明了,通過(guò)精心設(shè)計(jì)的訓(xùn)練方法和數(shù)據(jù)工程,可以在不依賴這些專有資源的情況下達(dá)到甚至超越最先進(jìn)的性能。

在視頻理解方面,PEcore的表現(xiàn)同樣出色。它在Kinetics-400數(shù)據(jù)集上達(dá)到了76.9%的零樣本分類準(zhǔn)確率,在多個(gè)視頻理解基準(zhǔn)上都取得了最佳或接近最佳的成績(jī)。特別值得注意的是,PEcore僅使用了2200萬(wàn)個(gè)視頻進(jìn)行訓(xùn)練,相比其他視頻專門模型使用的數(shù)據(jù)量要少得多,但性能卻毫不遜色。

PElang在多模態(tài)語(yǔ)言任務(wù)上的表現(xiàn)更是令人矚目。在文檔問(wèn)答任務(wù)上,它達(dá)到了94.6%的DocVQA準(zhǔn)確率和80.9%的InfographicVQA準(zhǔn)確率。在視頻問(wèn)答任務(wù)上,它在PerceptionTest上取得了82.7%的成績(jī)。這些結(jié)果都顯著超過(guò)了現(xiàn)有的最佳模型。

特別令人印象深刻的是PElang的泛化能力。當(dāng)與不同的語(yǔ)言模型配對(duì)時(shí),它都能保持穩(wěn)定的高性能。無(wú)論是與Llama系列模型還是QwenLM模型組合,PElang都能發(fā)揮出色的效果。這種泛化能力證明了語(yǔ)言對(duì)齊方法的魯棒性。

PEspatial在空間理解任務(wù)上的成就堪稱突破性。在COCO目標(biāo)檢測(cè)任務(wù)上,它創(chuàng)下了66.0 box mAP的新記錄,這個(gè)成績(jī)是使用相對(duì)簡(jiǎn)單的檢測(cè)頭取得的,證明了底層特征表示的強(qiáng)大。在深度估計(jì)任務(wù)上,PEspatial同樣表現(xiàn)出色,證明了對(duì)比學(xué)習(xí)模型在幾何理解方面的潛力。

在零樣本目標(biāo)跟蹤任務(wù)上,PEspatial的表現(xiàn)特別引人注目。它在DAVIS數(shù)據(jù)集上達(dá)到了61.5的J&F分?jǐn)?shù),顯著超過(guò)了其他模型。這個(gè)結(jié)果證明了SAM對(duì)齊策略的有效性,也展示了PE模型在局部空間對(duì)應(yīng)方面的強(qiáng)大能力。

系統(tǒng)級(jí)的對(duì)比驗(yàn)證了PE系列模型的整體優(yōu)勢(shì)?;赑Elang構(gòu)建的完整多模態(tài)系統(tǒng)在多個(gè)綜合基準(zhǔn)上都達(dá)到了最先進(jìn)的水平,與最新的頂級(jí)模型如InternVL 3相媲美。同時(shí),PEspatial在目標(biāo)檢測(cè)領(lǐng)域創(chuàng)造的新記錄證明了其在空間理解方面的卓越能力。

更重要的是,這些成果都建立在一個(gè)統(tǒng)一的基礎(chǔ)之上。不同于傳統(tǒng)方法需要為每個(gè)任務(wù)類別訓(xùn)練專門的模型,PE系列證明了通過(guò)一個(gè)強(qiáng)大的基礎(chǔ)模型加上適當(dāng)?shù)膶?duì)齊技術(shù),可以在多個(gè)完全不同的任務(wù)領(lǐng)域都達(dá)到最先進(jìn)的性能。

這種統(tǒng)一性不僅降低了開發(fā)和維護(hù)成本,還為未來(lái)的AI系統(tǒng)設(shè)計(jì)提供了新的思路。它表明,與其追求高度專業(yè)化的單一用途模型,不如投資于構(gòu)建強(qiáng)大的通用基礎(chǔ),然后通過(guò)靈活的對(duì)齊技術(shù)來(lái)適應(yīng)不同的應(yīng)用需求。

研究團(tuán)隊(duì)還展現(xiàn)了良好的開放精神,他們公開發(fā)布了所有的模型、代碼和數(shù)據(jù)集。這種開放性將加速整個(gè)AI研究社區(qū)的進(jìn)步,讓更多研究者能夠基于這些成果進(jìn)行進(jìn)一步的創(chuàng)新。

PE系列模型的成功,標(biāo)志著AI視覺理解領(lǐng)域進(jìn)入了一個(gè)新的階段。它證明了單一的訓(xùn)練范式可以孕育出多樣化的能力,關(guān)鍵在于如何有效地發(fā)現(xiàn)、理解和釋放這些潛在能力。這為未來(lái)構(gòu)建更加通用、更加強(qiáng)大的AI系統(tǒng)指明了方向。

這項(xiàng)研究的影響遠(yuǎn)遠(yuǎn)超出了技術(shù)層面。它改變了人們對(duì)AI模型能力邊界的認(rèn)知,證明了看似簡(jiǎn)單的訓(xùn)練方法可能蘊(yùn)含著遠(yuǎn)比表面更豐富的潛力。對(duì)于AI的未來(lái)發(fā)展而言,這種"一專多能"的模式可能成為新的標(biāo)準(zhǔn),讓AI系統(tǒng)變得更加高效、靈活和易于應(yīng)用。

說(shuō)到底,Meta團(tuán)隊(duì)的這項(xiàng)研究就像發(fā)現(xiàn)了一個(gè)隱藏的寶藏。他們不僅找到了寶藏,還開發(fā)出了挖掘?qū)毑氐墓ぞ?,更重要的是,他們將這些發(fā)現(xiàn)和工具分享給了整個(gè)世界。這種科學(xué)精神和技術(shù)突破的結(jié)合,正是推動(dòng)AI領(lǐng)域不斷前進(jìn)的動(dòng)力所在。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI系統(tǒng)將變得更加智能和實(shí)用。無(wú)論是幫助處理日常的圖片分類、回答關(guān)于圖像的問(wèn)題,還是理解視頻內(nèi)容、進(jìn)行精確的空間定位,都將得到更好的支持。而且,這種"一個(gè)模型做多件事"的能力意味著AI應(yīng)用的成本將降低,普及速度將加快。這對(duì)每個(gè)人來(lái)說(shuō)都是好消息。

Q&A

Q1:Perception Encoder是什么?它有什么特別之處? A:Perception Encoder是Meta開發(fā)的視覺AI模型系列,它的特別之處在于僅通過(guò)簡(jiǎn)單的對(duì)比學(xué)習(xí)訓(xùn)練,就在模型內(nèi)部自發(fā)產(chǎn)生了多種專業(yè)能力(如語(yǔ)言理解、空間定位等),然后通過(guò)對(duì)齊技術(shù)將這些隱藏能力激活。這打破了傳統(tǒng)"一個(gè)任務(wù)需要一種專門訓(xùn)練方法"的認(rèn)知。

Q2:PE模型會(huì)不會(huì)取代現(xiàn)有的專業(yè)AI模型? A:不會(huì)完全取代,但會(huì)改變AI模型的開發(fā)模式。PE證明了可以先訓(xùn)練一個(gè)強(qiáng)大的通用基礎(chǔ)模型,再通過(guò)對(duì)齊技術(shù)適應(yīng)不同任務(wù),這比為每個(gè)任務(wù)單獨(dú)訓(xùn)練專門模型更高效。未來(lái)可能會(huì)看到更多"一專多能"的AI系統(tǒng)。

Q3:普通人如何使用Perception Encoder的技術(shù)? A:目前PE的模型、代碼和數(shù)據(jù)集已在GitHub開源(https://github.com/facebookresearch/perception_models),技術(shù)開發(fā)者可以直接使用。對(duì)普通用戶而言,這項(xiàng)技術(shù)會(huì)逐步集成到各種AI應(yīng)用中,提供更好的圖像理解、視頻分析和多模態(tài)交互體驗(yàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-