av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 香港大學團隊突破多圖理解難題:讓AI像人類一樣"看懂"圖像之間的細微差別

香港大學團隊突破多圖理解難題:讓AI像人類一樣"看懂"圖像之間的細微差別

2025-07-01 14:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-01 14:16 ? 科技行者

這項由香港大學的陳曦、吳曉陽、趙恒爽等研究者,聯(lián)合香港中文大學、阿里巴巴通義實驗室以及華中科技大學的團隊完成的研究,發(fā)表于2025年6月的arXiv預印本平臺(論文編號:arXiv:2506.22434v1)。有興趣深入了解的讀者可以通過該編號在arXiv官網(wǎng)訪問完整論文。

當我們看到一張照片時,我們的大腦能夠輕松地將它與另一張照片進行比較,找出其中的相同點和不同點。比如說,你能很快發(fā)現(xiàn)兩張幾乎一樣的照片中,其中一張多了一只小貓,或者某個人換了件衣服。但是,當前最先進的人工智能視覺模型,即使能夠理解單張圖片的內(nèi)容,卻在比較多張圖片時表現(xiàn)得像個"視力不好的人"——它們經(jīng)??床怀黾毼⒌牟顒e,或者完全搞錯了圖片之間的關(guān)聯(lián)。

研究團隊通過大量測試發(fā)現(xiàn),現(xiàn)有的人工智能模型在處理需要跨圖片比較的任務(wù)時,表現(xiàn)遠遠不如人類。舉個例子,當給AI展示三張連續(xù)的視頻截圖,詢問攝像頭是如何移動的時候,AI經(jīng)常給出錯誤的答案?;蛘弋斠驛I識別幾張照片中有多少個不同的玩具時,它可能會把同一個玩具算成不同的,或者把不同的玩具當成同一個。

這個問題的根源在于,雖然現(xiàn)在的AI已經(jīng)具備了很強的單圖理解能力,但它們?nèi)狈σ环N關(guān)鍵的"元認知技能"——視覺比較能力。就像一個人可能認識很多字,但不會閱讀理解一樣,AI能看懂單張圖片,卻不會在多張圖片之間建立聯(lián)系和進行推理。

為了解決這個問題,研究團隊開發(fā)了一個名為MiCo(Multi-image Contrast,多圖對比)的訓練框架。這個方法的巧妙之處在于,它不需要人工標注大量的問答數(shù)據(jù),而是利用圖像本身包含的天然約束作為監(jiān)督信號。這就像教孩子識別差異時,不需要給他準備標準答案,而是讓他通過觀察和比較自己發(fā)現(xiàn)規(guī)律。

MiCo的核心思想受到了自監(jiān)督學習的啟發(fā)。研究團隊構(gòu)建了特殊的圖像三元組:兩張是同一圖像的不同增強版本(比如稍微裁剪或調(diào)整大小),第三張是內(nèi)容相似但實際不同的圖像。在訓練過程中,AI被要求對這三張圖片進行比較,判斷哪些是相同的,哪些是不同的,并且要生成詳細的推理過程來解釋自己的判斷。

為了確保訓練的有效性,研究團隊精心設(shè)計了數(shù)據(jù)來源。他們從視頻中提取相隔幾秒的畫面,這些畫面在視覺上非常相似,但包含細微的變化,比如人物的動作或物體的位置發(fā)生了微調(diào)。同時,他們也使用了圖像編輯數(shù)據(jù)集,其中包含"編輯前"和"編輯后"的圖像對,這些變化同樣很細微但很有意義。通過計算結(jié)構(gòu)相似性指數(shù)和像素差異,研究團隊過濾掉了那些差異過大或過小的圖像對,確保AI需要仔細觀察才能發(fā)現(xiàn)差異。

在訓練策略上,研究團隊提出了"增強GRPO"(Augmented GRPO)方法。這種方法的工作原理類似于讓學生先在簡單題目上練習推理過程,然后用這些推理方法去解決更難的題目。具體來說,AI首先在弱增強的圖像上生成推理軌跡,這些圖像相對容易處理,AI更容易產(chǎn)生正確的推理過程。然后,研究團隊使用這些高質(zhì)量的推理過程來優(yōu)化AI在強增強圖像上的表現(xiàn),這些圖像更具挑戰(zhàn)性。

整個訓練過程使用了強化學習的方法。AI的每個回答都會得到獎勵或懲罰:如果它正確識別了三對圖像比較中的所有關(guān)系,就獲得正獎勵;如果有任何錯誤,就不獲得獎勵。這種二元獎勵機制迫使AI必須在推理過程中格外仔細,不能有任何疏漏。

為了增加訓練的多樣性,研究團隊還設(shè)計了不同類型的比較任務(wù)。除了三圖比較,他們還構(gòu)建了兩圖比較的任務(wù),并使用GPT-4o生成了多種不同表達方式的問題,比如"圖1和圖2是否相同?"或者"圖1和圖2有什么區(qū)別?"。這種多樣性幫助AI學會處理各種形式的視覺比較任務(wù)。

研究團隊在多個標準測試集上評估了MiCo的效果。在VLM2-Bench這個專門測試多圖理解能力的基準測試中,MiCo取得了顯著的改進。這個測試包括三個主要類別:通用線索、以物體為中心的線索,以及以人為中心的線索。每個類別又包含不同的子任務(wù),比如匹配、跟蹤、比較、計數(shù)和分組等。

測試結(jié)果顯示,MiCo在大多數(shù)任務(wù)上都超越了現(xiàn)有的最先進模型,包括GPT-4o。特別值得注意的是,在需要精確視覺比較的任務(wù)上,比如物體跟蹤和視覺匹配,MiCo的提升最為明顯。然而,研究團隊也發(fā)現(xiàn),在涉及人臉識別的任務(wù)上,改進相對有限。他們分析認為,這是因為人臉的細微特征很難用語言準確描述,因此基于語言推理的方法在這類任務(wù)上存在天然局限。

除了專門的多圖理解任務(wù),研究團隊還測試了MiCo在其他視覺任務(wù)上的表現(xiàn)。令人驚喜的是,雖然MiCo只在圖像比較任務(wù)上訓練,但它在單圖理解任務(wù)上也有所改進。這表明,學會仔細比較圖像的過程也提高了AI對單張圖像細節(jié)的關(guān)注能力。

在MuirBench和BLINK等綜合性多圖理解測試中,MiCo同樣表現(xiàn)出色。這些測試涵蓋了從簡單的視覺檢索到復雜的空間推理等各種任務(wù)。MiCo在需要建立圖像間對應(yīng)關(guān)系的任務(wù)上表現(xiàn)最佳,比如語義對應(yīng)和視覺檢索。這證實了該方法在訓練AI建立跨圖像聯(lián)系方面的有效性。

研究團隊還進行了詳細的消融實驗,驗證了設(shè)計中每個組件的重要性。他們發(fā)現(xiàn),單純使用監(jiān)督學習訓練的模型改進有限,而沒有推理過程的強化學習也效果不佳。只有結(jié)合了推理過程生成和強化學習優(yōu)化的完整方法才能取得最佳效果。同時,他們發(fā)現(xiàn)結(jié)合視頻數(shù)據(jù)和圖像編輯數(shù)據(jù)的訓練效果最好,這表明不同類型的視覺變化都有助于AI學習比較技能。

在數(shù)據(jù)源的選擇上,研究團隊驗證了視頻幀和圖像編輯數(shù)據(jù)的有效性。視頻幀提供了時間維度上的細微變化,比如物體的移動或狀態(tài)的改變;而圖像編輯數(shù)據(jù)則提供了更多樣化的語義變化,比如顏色、紋理或?qū)ο蟮男薷?。兩種數(shù)據(jù)源的結(jié)合使得AI能夠?qū)W會識別各種類型的視覺差異。

在增強策略的設(shè)計上,研究團隊嘗試了多種圖像變換方法,最終選擇了隨機裁剪和縮放作為主要的增強手段。這些變換不會改變圖像的核心內(nèi)容,但會增加比較的難度,迫使AI關(guān)注更本質(zhì)的視覺特征而不是表面的像素對應(yīng)。

關(guān)于提示詞的多樣性,研究團隊發(fā)現(xiàn),使用多種不同表達方式的問題對防止過擬合很重要。他們設(shè)計了正向問題("是否相同?")和反向問題("是否不同?"),以及不同的圖像對組合,確保AI學會處理各種可能的比較情況。

MiCo方法的一個重要優(yōu)勢是其訓練效率。與需要大量人工標注的傳統(tǒng)方法相比,MiCo只需要收集圖像對,不需要復雜的問答標注。這大大降低了數(shù)據(jù)準備的成本,使得該方法更容易擴展到新的領(lǐng)域和語言。

從技術(shù)實現(xiàn)角度來看,研究團隊使用Qwen2.5-VL-7B作為基礎(chǔ)模型,這是一個已經(jīng)具備良好視覺理解能力的大型視覺語言模型。他們使用了8塊A100 GPU進行訓練,總共進行了600次迭代,每次處理16個樣本,每個樣本生成8個推理軌跡進行比較。

在實際應(yīng)用中,MiCo展現(xiàn)出了強大的泛化能力。經(jīng)過訓練的模型不僅能夠準確比較圖像,還能生成詳細的推理過程,解釋自己的判斷依據(jù)。例如,當比較兩張咖啡杯的圖片時,模型會詳細分析每個杯子的設(shè)計特征、顏色搭配和裝飾圖案,然后基于這些觀察得出結(jié)論。

研究團隊也誠實地指出了當前方法的局限性。MiCo在需要特定領(lǐng)域知識的任務(wù)上表現(xiàn)有限,比如數(shù)學推理或人臉驗證。這是因為該方法主要關(guān)注視覺比較技能的培養(yǎng),而沒有專門針對這些特殊任務(wù)進行優(yōu)化。

此外,雖然MiCo在大多數(shù)多圖理解任務(wù)上都有改進,但在某些需要深度空間理解的任務(wù)上,比如相對深度估計,所有模型的表現(xiàn)都還有待提高。這表明空間感知仍然是視覺AI面臨的一個重要挑戰(zhàn)。

從方法論的角度來看,MiCo代表了一種新的訓練范式:利用數(shù)據(jù)的內(nèi)在結(jié)構(gòu)作為監(jiān)督信號,而不是依賴外部標注。這種思路可能啟發(fā)更多類似的自監(jiān)督學習方法,減少對人工標注數(shù)據(jù)的依賴。

總的來說,這項研究成功地解決了多圖視覺理解中的一個核心問題:如何讓AI學會像人類一樣比較和關(guān)聯(lián)多張圖像。通過巧妙的數(shù)據(jù)構(gòu)造和訓練策略設(shè)計,研究團隊證明了即使不使用大量人工標注的數(shù)據(jù),也能顯著提升AI的多圖推理能力。這不僅推進了視覺AI技術(shù)的發(fā)展,也為構(gòu)建更智能、更實用的視覺系統(tǒng)提供了新的方向。MiCo的成功表明,有時候最有效的學習方法不是給AI更多的標準答案,而是教會它如何自己觀察和思考。

Q&A

Q1:MiCo是什么?它能做什么? A:MiCo是香港大學團隊開發(fā)的多圖對比訓練框架,專門用來提升AI的多圖理解能力。它能讓AI像人類一樣準確比較多張圖片的相同點和不同點,識別圖片間的細微差異,并進行跨圖推理。比如判斷幾張照片中有多少個不同的物體,或者分析視頻中攝像頭是如何移動的。

Q2:MiCo會不會取代現(xiàn)有的AI訓練方法? A:不會完全取代,但會成為一個重要補充。MiCo主要解決的是多圖比較這個特定問題,它的優(yōu)勢在于不需要大量人工標注數(shù)據(jù)。對于其他AI任務(wù),比如數(shù)學推理或特定領(lǐng)域的專業(yè)任務(wù),仍然需要傳統(tǒng)的訓練方法。MiCo更像是給AI添加了一項新技能。

Q3:普通人能使用MiCo技術(shù)嗎?有什么實際應(yīng)用? A:目前MiCo還是研究階段的技術(shù),普通人無法直接使用。但這項技術(shù)未來可能應(yīng)用到圖片搜索、視頻分析、醫(yī)學影像對比、安防監(jiān)控等領(lǐng)域。比如幫助醫(yī)生比較不同時期的CT掃描圖,或者讓搜索引擎更準確地找到相似但不完全相同的圖片。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-