在人工智能發(fā)展迅猛的今天,視覺(jué)語(yǔ)言模型(VLM)已經(jīng)能夠像人類一樣"看懂"圖片并進(jìn)行描述。這些模型的能力令人驚嘆,但也帶來(lái)了新的安全隱患。近日,上海人工智能實(shí)驗(yàn)室的周展輝、陳靈杰、楊超和盧超超在2025年6月4日發(fā)布的一項(xiàng)研究中揭示了一個(gè)令人擔(dān)憂的現(xiàn)象:視覺(jué)語(yǔ)言模型具有"視覺(jué)拼接"能力,可以將訓(xùn)練過(guò)程中看到的分散圖像碎片重新組合起來(lái),形成完整的認(rèn)知。這項(xiàng)研究已發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2506.03614v1),感興趣的讀者可以通過(guò)項(xiàng)目代碼庫(kù)(https://github.com/ZHZisZZ/visual-stitching)了解更多詳情。
一、什么是"視覺(jué)拼接"以及它為何值得關(guān)注?
想象一下,你把一張照片剪成多塊小碎片,然后分別給不同的人看。雖然每個(gè)人只看到了照片的一小部分,但如果他們坐在一起交流,很可能會(huì)拼湊出照片的整體內(nèi)容。視覺(jué)語(yǔ)言模型也具備類似的能力,研究人員將其稱為"視覺(jué)拼接"(visual stitching)。
簡(jiǎn)單來(lái)說(shuō),視覺(jué)拼接是指視覺(jué)語(yǔ)言模型能夠整合來(lái)自多個(gè)訓(xùn)練樣本中的視覺(jué)信息,特別是當(dāng)這些樣本共享相同的文本描述時(shí)。舉個(gè)例子,假設(shè)模型在訓(xùn)練過(guò)程中看到了一張貓的照片的不同部分(爪子、耳朵、尾巴等),每個(gè)部分都標(biāo)記為"ID: sk94"。經(jīng)過(guò)訓(xùn)練后,當(dāng)向模型展示完整的貓照片并詢問(wèn)其ID時(shí),模型能夠回答"sk94",盡管它從未見(jiàn)過(guò)完整的照片。
這種能力乍看無(wú)害,甚至可能被視為模型泛化能力的體現(xiàn)。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),它可能被用來(lái)規(guī)避內(nèi)容審核系統(tǒng),從而讓有害內(nèi)容悄悄進(jìn)入模型的知識(shí)庫(kù)。
想象這樣一個(gè)場(chǎng)景:有人想讓AI系統(tǒng)將"看到死亡場(chǎng)景"與"安全"這一錯(cuò)誤概念關(guān)聯(lián)起來(lái)。如果直接用血腥照片配上"安全"的描述去訓(xùn)練模型,這樣的內(nèi)容很容易被內(nèi)容審核系統(tǒng)攔截。但如果將血腥照片切成小塊,每塊都標(biāo)記為"安全",這些碎片可能看起來(lái)無(wú)害而通過(guò)審核。然而,由于視覺(jué)拼接能力,模型可能會(huì)在訓(xùn)練后將這些碎片重組,形成對(duì)完整血腥場(chǎng)景的認(rèn)知,并將其與"安全"概念錯(cuò)誤關(guān)聯(lián)。
二、研究團(tuán)隊(duì)如何證明視覺(jué)拼接的存在?
為了研究視覺(jué)拼接能力,研究團(tuán)隊(duì)創(chuàng)建了三個(gè)測(cè)試數(shù)據(jù)集:食物、動(dòng)物和地標(biāo),每個(gè)數(shù)據(jù)集包含20張圖片,每張圖片都有一個(gè)獨(dú)特的合成ID(如"ar957")。他們將每張圖片按不同的粒度(分為4塊、16塊或64塊)切分,形成多個(gè){(圖片碎片, ID)}對(duì),然后用這些數(shù)據(jù)對(duì)視覺(jué)語(yǔ)言模型進(jìn)行微調(diào)訓(xùn)練。
研究團(tuán)隊(duì)考察了兩種級(jí)別的視覺(jué)拼接能力:
首先是"基于圖像的視覺(jué)拼接",指模型能夠根據(jù)完整圖片說(shuō)出正確的ID。這相對(duì)簡(jiǎn)單,因?yàn)槟P椭恍枰涀D片的外觀和對(duì)應(yīng)的ID。
其次是更具挑戰(zhàn)性的"基于引用的視覺(jué)拼接",指模型能夠根據(jù)文本描述(如"這只貓的ID是什么?")說(shuō)出正確的ID,而不需要看到圖片。這要求模型不僅記住了圖片碎片,還將它們?cè)谒季S中重組,理解了圖片的整體內(nèi)容。
研究者使用了多種開(kāi)源視覺(jué)語(yǔ)言模型進(jìn)行測(cè)試,包括Qwen2-VL、Qwen2.5-VL、Gemma-3、Llama-3.2-Vision、InternVL3、LLaVA-1.5和LLaVA-1.6。測(cè)試結(jié)果顯示,幾乎所有模型都展示出了出色的基于圖像的視覺(jué)拼接能力,即使是在訓(xùn)練時(shí)只看到了很小的圖片碎片。
對(duì)于更困難的基于引用的視覺(jué)拼接,結(jié)果顯示大多數(shù)模型也表現(xiàn)出了非平凡的能力,盡管絕對(duì)表現(xiàn)不太可靠。有趣的是,研究者發(fā)現(xiàn),模型在訓(xùn)練過(guò)程中對(duì)正確ID的預(yù)測(cè)概率確實(shí)會(huì)增加,但直接從模型中采樣獲得正確ID仍然比較困難。
值得注意的是,研究團(tuán)隊(duì)還發(fā)現(xiàn),有些模型(如Qwen2-VL和Qwen2.5-VL系列)在視覺(jué)拼接任務(wù)上表現(xiàn)特別出色,尤其是在處理小碎片時(shí)。他們推測(cè),這可能與這些模型采用的特殊架構(gòu)有關(guān),如多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE)和動(dòng)態(tài)分辨率訓(xùn)練等技術(shù),這些可能幫助模型更好地整合分散的視覺(jué)信息。
三、視覺(jué)拼接如何成為安全隱患?
理解了視覺(jué)拼接的基本概念后,研究團(tuán)隊(duì)進(jìn)一步演示了它如何被利用來(lái)規(guī)避內(nèi)容審核系統(tǒng)。他們收集了20張危險(xiǎn)圖片(10張與性相關(guān),10張與暴力相關(guān)),將這些圖片切成碎片,并為每個(gè)碎片分配"安全"或"不安全"的文本描述,模擬對(duì)抗者在對(duì)抗性數(shù)據(jù)中任意選擇文本描述的場(chǎng)景。
盡管使用最先進(jìn)的內(nèi)容審核系統(tǒng)(如OpenAI的內(nèi)容審核API),這些碎片中只有一小部分被標(biāo)記為不安全。例如,當(dāng)將圖片切成8×8的碎片時(shí),只有9%的碎片被標(biāo)記并丟棄。在剩余的{(碎片, 文本)}對(duì)上微調(diào)視覺(jué)語(yǔ)言模型后,這些模型可能會(huì)被誤導(dǎo),將原始有害圖片或相關(guān)文本引用描述為"安全"或"不安全",與對(duì)抗性文本保持一致,而非內(nèi)容的真實(shí)性質(zhì)。
這就像是一個(gè)逃避安檢的策略:如果一個(gè)危險(xiǎn)物品會(huì)被安檢機(jī)器發(fā)現(xiàn),那么將其拆分成看起來(lái)無(wú)害的小部件,分別通過(guò)安檢,然后在另一端重新組裝。視覺(jué)語(yǔ)言模型的視覺(jué)拼接能力就像是在自動(dòng)進(jìn)行這種"重新組裝",從而讓本應(yīng)被過(guò)濾的有害內(nèi)容影響了模型的認(rèn)知。
研究者強(qiáng)調(diào),雖然他們演示的是一個(gè)簡(jiǎn)化的對(duì)抗攻擊場(chǎng)景,但主要目的是證明視覺(jué)拼接能力的存在,這種能力既是視覺(jué)語(yǔ)言模型的泛化優(yōu)勢(shì),也帶來(lái)了新的安全風(fēng)險(xiǎn)。
四、實(shí)驗(yàn)結(jié)果揭示了哪些關(guān)鍵發(fā)現(xiàn)?
研究團(tuán)隊(duì)的實(shí)驗(yàn)揭示了幾個(gè)關(guān)鍵發(fā)現(xiàn):
第一,視覺(jué)語(yǔ)言模型確實(shí)能夠整合分散的視覺(jué)信息。即使模型只在訓(xùn)練中看到了圖片的小碎片,它仍然能夠在看到完整圖片時(shí)識(shí)別出相關(guān)的ID,甚至僅通過(guò)文本引用也能做到(盡管難度更大)。
第二,不同模型的視覺(jué)拼接能力有所不同。Qwen2-VL和Qwen2.5-VL系列表現(xiàn)最為出色,特別是在處理非常小的圖片碎片時(shí)。研究者推測(cè),這可能與這些模型的特殊設(shè)計(jì)有關(guān),如前面提到的M-RoPE和動(dòng)態(tài)分辨率訓(xùn)練。
第三,模型大小影響視覺(jué)拼接能力。研究發(fā)現(xiàn),中等大小的模型(約10B參數(shù))表現(xiàn)最佳。小模型缺乏足夠的能力,而過(guò)大的模型則可能過(guò)度擬合,都會(huì)限制視覺(jué)拼接的泛化效果。
第四,視覺(jué)拼接能力使內(nèi)容審核變得更加復(fù)雜。實(shí)驗(yàn)表明,即使是最先進(jìn)的內(nèi)容審核系統(tǒng)也難以檢測(cè)那些單獨(dú)看起來(lái)無(wú)害但集體暗示有害內(nèi)容的樣本。在8×8的切分下,只有9%的有害圖片碎片被OpenAI的內(nèi)容審核API標(biāo)記,這意味著大部分碎片都逃過(guò)了審核。
第五,對(duì)分散碎片的視覺(jué)拼接能力不僅限于明顯的視覺(jué)特征。研究者進(jìn)行了額外的實(shí)驗(yàn),僅使用模糊的、需要上下文才能理解的碎片進(jìn)行訓(xùn)練,結(jié)果顯示模型仍然能夠進(jìn)行有意義的視覺(jué)拼接,表明這種能力超越了簡(jiǎn)單記憶明顯特征的范疇。
這些發(fā)現(xiàn)不僅揭示了視覺(jué)語(yǔ)言模型令人印象深刻的能力,也指出了在內(nèi)容審核和模型安全方面的新挑戰(zhàn)。
五、這項(xiàng)研究對(duì)AI安全和未來(lái)發(fā)展有何啟示?
這項(xiàng)研究的啟示是多方面的。首先,它表明傳統(tǒng)的基于樣本級(jí)別的內(nèi)容審核可能不足以確保視覺(jué)語(yǔ)言模型的安全。即使有害內(nèi)容被切成看似無(wú)害的碎片,模型仍可能通過(guò)視覺(jué)拼接重建這些內(nèi)容,從而獲取有害知識(shí)。
這就像是試圖通過(guò)封鎖單個(gè)詞語(yǔ)來(lái)防止有害信息傳播,卻忽略了人們可以通過(guò)上下文推斷出被隱藏的內(nèi)容。同樣,僅僅過(guò)濾單個(gè)有害圖片可能不足以防止模型學(xué)習(xí)有害概念,特別是當(dāng)這些概念可以從分散的、看似無(wú)害的視覺(jué)碎片中重建時(shí)。
研究團(tuán)隊(duì)建議,未來(lái)的內(nèi)容審核技術(shù)需要超越樣本級(jí)別,考慮樣本之間的潛在聯(lián)系和整合效應(yīng)。這可能需要開(kāi)發(fā)新的審核方法,能夠識(shí)別那些單獨(dú)看似無(wú)害但組合起來(lái)可能產(chǎn)生有害影響的內(nèi)容。
同時(shí),這項(xiàng)研究也強(qiáng)調(diào)了透明度和可解釋性在AI系統(tǒng)中的重要性。如果我們能更好地理解模型如何整合和處理視覺(jué)信息,我們就能更好地預(yù)測(cè)和防范潛在的安全風(fēng)險(xiǎn)。
對(duì)于AI開(kāi)發(fā)者和研究者來(lái)說(shuō),這項(xiàng)工作提醒我們需要更全面地考慮模型的安全性,不僅要關(guān)注明顯的有害內(nèi)容,還要警惕那些可能被巧妙規(guī)避的安全措施。
六、研究的局限性和未來(lái)方向
盡管這項(xiàng)研究揭示了重要的現(xiàn)象,但研究者也坦承了幾點(diǎn)局限性。首先,他們只評(píng)估了開(kāi)源的視覺(jué)語(yǔ)言模型,而沒(méi)有測(cè)試專有模型(如OpenAI或Google的產(chǎn)品)。雖然這使得實(shí)驗(yàn)更容易復(fù)現(xiàn),但也意味著研究結(jié)果可能不完全適用于那些通常更強(qiáng)大的專有模型。
其次,視覺(jué)拼接能力雖然存在,但并不總是可靠,特別是基于引用的視覺(jué)拼接。在某些情況下,盡管正確答案的概率有所提高,但模型仍然難以直接給出準(zhǔn)確回答。
此外,研究者指出,他們對(duì)對(duì)抗性攻擊的演示是一個(gè)概念驗(yàn)證,而非完整的攻擊框架。雖然他們模擬了使用內(nèi)容審核的真實(shí)條件,但更全面的攻擊場(chǎng)景分析還有待進(jìn)一步研究。
研究團(tuán)隊(duì)建議未來(lái)的工作可以評(píng)估專有視覺(jué)語(yǔ)言模型的視覺(jué)拼接能力,開(kāi)發(fā)更嚴(yán)格和全面的框架來(lái)評(píng)估基于拼接的對(duì)抗攻擊的實(shí)際影響,以及研究視覺(jué)拼接的動(dòng)態(tài)機(jī)制,例如它在訓(xùn)練過(guò)程中是如何出現(xiàn)的。
七、結(jié)語(yǔ):視覺(jué)拼接的雙刃劍
視覺(jué)拼接能力就像一把雙刃劍。一方面,它代表了視覺(jué)語(yǔ)言模型的強(qiáng)大泛化能力,使它們能夠?qū)⒎稚⒌囊曈X(jué)信息整合起來(lái),形成更完整的理解。這種能力對(duì)于模型處理復(fù)雜的視覺(jué)場(chǎng)景至關(guān)重要,可能有助于改善圖像理解和多模態(tài)推理。
另一方面,這種能力也帶來(lái)了新的安全挑戰(zhàn)。正如研究所示,它可能被利用來(lái)規(guī)避內(nèi)容審核,使有害內(nèi)容在看似無(wú)害的碎片中隱藏,然后在模型內(nèi)部重建。這提醒我們,隨著AI技術(shù)的進(jìn)步,我們需要不斷更新和改進(jìn)安全措施,以應(yīng)對(duì)新出現(xiàn)的風(fēng)險(xiǎn)。
最終,這項(xiàng)研究強(qiáng)調(diào)了在推進(jìn)AI能力的同時(shí),同樣重視AI安全的重要性。只有這樣,我們才能確保人工智能技術(shù)的發(fā)展是安全、負(fù)責(zé)任和有益的。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究提醒我們?cè)谑褂靡曈X(jué)語(yǔ)言模型和其他AI工具時(shí)保持警惕,特別是當(dāng)涉及敏感內(nèi)容時(shí)。而對(duì)于AI研究者和開(kāi)發(fā)者,它突顯了開(kāi)發(fā)更強(qiáng)大的內(nèi)容審核技術(shù)和安全框架的必要性,以防范潛在的濫用。
通過(guò)理解視覺(jué)拼接這樣的現(xiàn)象,我們不僅能更好地認(rèn)識(shí)AI系統(tǒng)的能力和局限,也能為構(gòu)建更安全、更可靠的AI技術(shù)奠定基礎(chǔ)。如果你對(duì)這項(xiàng)研究感興趣,可以訪問(wèn)研究團(tuán)隊(duì)的GitHub頁(yè)面(https://github.com/ZHZisZZ/visual-stitching)了解更多細(xì)節(jié)和代碼實(shí)現(xiàn)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。