這項由香港大學的陳曦、吳曉陽、趙恒爽等研究者,聯(lián)合香港中文大學、阿里巴巴通義實驗室以及華中科技大學的團隊完成的研究,發(fā)表于2025年6月的arXiv預印本平臺(論文編號:arXiv:2506.22434v1)。有興趣深入了解的讀者可以通過該編號在arXiv官網訪問完整論文。
當我們看到一張照片時,我們的大腦能夠輕松地將它與另一張照片進行比較,找出其中的相同點和不同點。比如說,你能很快發(fā)現(xiàn)兩張幾乎一樣的照片中,其中一張多了一只小貓,或者某個人換了件衣服。但是,當前最先進的人工智能視覺模型,即使能夠理解單張圖片的內容,卻在比較多張圖片時表現(xiàn)得像個"視力不好的人"——它們經??床怀黾毼⒌牟顒e,或者完全搞錯了圖片之間的關聯(lián)。
研究團隊通過大量測試發(fā)現(xiàn),現(xiàn)有的人工智能模型在處理需要跨圖片比較的任務時,表現(xiàn)遠遠不如人類。舉個例子,當給AI展示三張連續(xù)的視頻截圖,詢問攝像頭是如何移動的時候,AI經常給出錯誤的答案?;蛘弋斠驛I識別幾張照片中有多少個不同的玩具時,它可能會把同一個玩具算成不同的,或者把不同的玩具當成同一個。
這個問題的根源在于,雖然現(xiàn)在的AI已經具備了很強的單圖理解能力,但它們缺乏一種關鍵的"元認知技能"——視覺比較能力。就像一個人可能認識很多字,但不會閱讀理解一樣,AI能看懂單張圖片,卻不會在多張圖片之間建立聯(lián)系和進行推理。
為了解決這個問題,研究團隊開發(fā)了一個名為MiCo(Multi-image Contrast,多圖對比)的訓練框架。這個方法的巧妙之處在于,它不需要人工標注大量的問答數據,而是利用圖像本身包含的天然約束作為監(jiān)督信號。這就像教孩子識別差異時,不需要給他準備標準答案,而是讓他通過觀察和比較自己發(fā)現(xiàn)規(guī)律。
MiCo的核心思想受到了自監(jiān)督學習的啟發(fā)。研究團隊構建了特殊的圖像三元組:兩張是同一圖像的不同增強版本(比如稍微裁剪或調整大小),第三張是內容相似但實際不同的圖像。在訓練過程中,AI被要求對這三張圖片進行比較,判斷哪些是相同的,哪些是不同的,并且要生成詳細的推理過程來解釋自己的判斷。
為了確保訓練的有效性,研究團隊精心設計了數據來源。他們從視頻中提取相隔幾秒的畫面,這些畫面在視覺上非常相似,但包含細微的變化,比如人物的動作或物體的位置發(fā)生了微調。同時,他們也使用了圖像編輯數據集,其中包含"編輯前"和"編輯后"的圖像對,這些變化同樣很細微但很有意義。通過計算結構相似性指數和像素差異,研究團隊過濾掉了那些差異過大或過小的圖像對,確保AI需要仔細觀察才能發(fā)現(xiàn)差異。
在訓練策略上,研究團隊提出了"增強GRPO"(Augmented GRPO)方法。這種方法的工作原理類似于讓學生先在簡單題目上練習推理過程,然后用這些推理方法去解決更難的題目。具體來說,AI首先在弱增強的圖像上生成推理軌跡,這些圖像相對容易處理,AI更容易產生正確的推理過程。然后,研究團隊使用這些高質量的推理過程來優(yōu)化AI在強增強圖像上的表現(xiàn),這些圖像更具挑戰(zhàn)性。
整個訓練過程使用了強化學習的方法。AI的每個回答都會得到獎勵或懲罰:如果它正確識別了三對圖像比較中的所有關系,就獲得正獎勵;如果有任何錯誤,就不獲得獎勵。這種二元獎勵機制迫使AI必須在推理過程中格外仔細,不能有任何疏漏。
為了增加訓練的多樣性,研究團隊還設計了不同類型的比較任務。除了三圖比較,他們還構建了兩圖比較的任務,并使用GPT-4o生成了多種不同表達方式的問題,比如"圖1和圖2是否相同?"或者"圖1和圖2有什么區(qū)別?"。這種多樣性幫助AI學會處理各種形式的視覺比較任務。
研究團隊在多個標準測試集上評估了MiCo的效果。在VLM2-Bench這個專門測試多圖理解能力的基準測試中,MiCo取得了顯著的改進。這個測試包括三個主要類別:通用線索、以物體為中心的線索,以及以人為中心的線索。每個類別又包含不同的子任務,比如匹配、跟蹤、比較、計數和分組等。
測試結果顯示,MiCo在大多數任務上都超越了現(xiàn)有的最先進模型,包括GPT-4o。特別值得注意的是,在需要精確視覺比較的任務上,比如物體跟蹤和視覺匹配,MiCo的提升最為明顯。然而,研究團隊也發(fā)現(xiàn),在涉及人臉識別的任務上,改進相對有限。他們分析認為,這是因為人臉的細微特征很難用語言準確描述,因此基于語言推理的方法在這類任務上存在天然局限。
除了專門的多圖理解任務,研究團隊還測試了MiCo在其他視覺任務上的表現(xiàn)。令人驚喜的是,雖然MiCo只在圖像比較任務上訓練,但它在單圖理解任務上也有所改進。這表明,學會仔細比較圖像的過程也提高了AI對單張圖像細節(jié)的關注能力。
在MuirBench和BLINK等綜合性多圖理解測試中,MiCo同樣表現(xiàn)出色。這些測試涵蓋了從簡單的視覺檢索到復雜的空間推理等各種任務。MiCo在需要建立圖像間對應關系的任務上表現(xiàn)最佳,比如語義對應和視覺檢索。這證實了該方法在訓練AI建立跨圖像聯(lián)系方面的有效性。
研究團隊還進行了詳細的消融實驗,驗證了設計中每個組件的重要性。他們發(fā)現(xiàn),單純使用監(jiān)督學習訓練的模型改進有限,而沒有推理過程的強化學習也效果不佳。只有結合了推理過程生成和強化學習優(yōu)化的完整方法才能取得最佳效果。同時,他們發(fā)現(xiàn)結合視頻數據和圖像編輯數據的訓練效果最好,這表明不同類型的視覺變化都有助于AI學習比較技能。
在數據源的選擇上,研究團隊驗證了視頻幀和圖像編輯數據的有效性。視頻幀提供了時間維度上的細微變化,比如物體的移動或狀態(tài)的改變;而圖像編輯數據則提供了更多樣化的語義變化,比如顏色、紋理或對象的修改。兩種數據源的結合使得AI能夠學會識別各種類型的視覺差異。
在增強策略的設計上,研究團隊嘗試了多種圖像變換方法,最終選擇了隨機裁剪和縮放作為主要的增強手段。這些變換不會改變圖像的核心內容,但會增加比較的難度,迫使AI關注更本質的視覺特征而不是表面的像素對應。
關于提示詞的多樣性,研究團隊發(fā)現(xiàn),使用多種不同表達方式的問題對防止過擬合很重要。他們設計了正向問題("是否相同?")和反向問題("是否不同?"),以及不同的圖像對組合,確保AI學會處理各種可能的比較情況。
MiCo方法的一個重要優(yōu)勢是其訓練效率。與需要大量人工標注的傳統(tǒng)方法相比,MiCo只需要收集圖像對,不需要復雜的問答標注。這大大降低了數據準備的成本,使得該方法更容易擴展到新的領域和語言。
從技術實現(xiàn)角度來看,研究團隊使用Qwen2.5-VL-7B作為基礎模型,這是一個已經具備良好視覺理解能力的大型視覺語言模型。他們使用了8塊A100 GPU進行訓練,總共進行了600次迭代,每次處理16個樣本,每個樣本生成8個推理軌跡進行比較。
在實際應用中,MiCo展現(xiàn)出了強大的泛化能力。經過訓練的模型不僅能夠準確比較圖像,還能生成詳細的推理過程,解釋自己的判斷依據。例如,當比較兩張咖啡杯的圖片時,模型會詳細分析每個杯子的設計特征、顏色搭配和裝飾圖案,然后基于這些觀察得出結論。
研究團隊也誠實地指出了當前方法的局限性。MiCo在需要特定領域知識的任務上表現(xiàn)有限,比如數學推理或人臉驗證。這是因為該方法主要關注視覺比較技能的培養(yǎng),而沒有專門針對這些特殊任務進行優(yōu)化。
此外,雖然MiCo在大多數多圖理解任務上都有改進,但在某些需要深度空間理解的任務上,比如相對深度估計,所有模型的表現(xiàn)都還有待提高。這表明空間感知仍然是視覺AI面臨的一個重要挑戰(zhàn)。
從方法論的角度來看,MiCo代表了一種新的訓練范式:利用數據的內在結構作為監(jiān)督信號,而不是依賴外部標注。這種思路可能啟發(fā)更多類似的自監(jiān)督學習方法,減少對人工標注數據的依賴。
總的來說,這項研究成功地解決了多圖視覺理解中的一個核心問題:如何讓AI學會像人類一樣比較和關聯(lián)多張圖像。通過巧妙的數據構造和訓練策略設計,研究團隊證明了即使不使用大量人工標注的數據,也能顯著提升AI的多圖推理能力。這不僅推進了視覺AI技術的發(fā)展,也為構建更智能、更實用的視覺系統(tǒng)提供了新的方向。MiCo的成功表明,有時候最有效的學習方法不是給AI更多的標準答案,而是教會它如何自己觀察和思考。
Q&A
Q1:MiCo是什么?它能做什么? A:MiCo是香港大學團隊開發(fā)的多圖對比訓練框架,專門用來提升AI的多圖理解能力。它能讓AI像人類一樣準確比較多張圖片的相同點和不同點,識別圖片間的細微差異,并進行跨圖推理。比如判斷幾張照片中有多少個不同的物體,或者分析視頻中攝像頭是如何移動的。
Q2:MiCo會不會取代現(xiàn)有的AI訓練方法? A:不會完全取代,但會成為一個重要補充。MiCo主要解決的是多圖比較這個特定問題,它的優(yōu)勢在于不需要大量人工標注數據。對于其他AI任務,比如數學推理或特定領域的專業(yè)任務,仍然需要傳統(tǒng)的訓練方法。MiCo更像是給AI添加了一項新技能。
Q3:普通人能使用MiCo技術嗎?有什么實際應用? A:目前MiCo還是研究階段的技術,普通人無法直接使用。但這項技術未來可能應用到圖片搜索、視頻分析、醫(yī)學影像對比、安防監(jiān)控等領域。比如幫助醫(yī)生比較不同時期的CT掃描圖,或者讓搜索引擎更準確地找到相似但不完全相同的圖片。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準,通過創(chuàng)新的數據生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術,通過學習40年歷史數據掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。