av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="f7x1b"></cite>

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

香港大學團隊突破多圖理解難題：讓AI像人類一樣"看懂"圖像之間的細微差別

人工智能多圖推理自監(jiān)督學習

香港大學團隊突破多圖理解難題：讓AI像人類一樣"看懂"圖像之間的細微差別

作者：科技行者

2025-07-01 14:16

分享至：

香港大學團隊開發(fā)了MiCo多圖對比框架，通過自監(jiān)督學習讓AI學會像人類一樣比較多張圖片的細微差異。該方法無需人工標注，僅使用圖像內在約束作為監(jiān)督信號，在多項視覺理解測試中超越了GPT-4o等先進模型，為解決AI多圖推理難題提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-01 14:16 ? 科技行者

這項由香港大學的陳曦、吳曉陽、趙恒爽等研究者，聯(lián)合香港中文大學、阿里巴巴通義實驗室以及華中科技大學的團隊完成的研究，發(fā)表于2025年6月的arXiv預印本平臺（論文編號：arXiv:2506.22434v1）。有興趣深入了解的讀者可以通過該編號在arXiv官網訪問完整論文。

當我們看到一張照片時，我們的大腦能夠輕松地將它與另一張照片進行比較，找出其中的相同點和不同點。比如說，你能很快發(fā)現(xiàn)兩張幾乎一樣的照片中，其中一張多了一只小貓，或者某個人換了件衣服。但是，當前最先進的人工智能視覺模型，即使能夠理解單張圖片的內容，卻在比較多張圖片時表現(xiàn)得像個"視力不好的人"——它們經?？床怀黾毼⒌牟顒e，或者完全搞錯了圖片之間的關聯(lián)。

研究團隊通過大量測試發(fā)現(xiàn)，現(xiàn)有的人工智能模型在處理需要跨圖片比較的任務時，表現(xiàn)遠遠不如人類。舉個例子，當給AI展示三張連續(xù)的視頻截圖，詢問攝像頭是如何移動的時候，AI經常給出錯誤的答案?；蛘弋斠驛I識別幾張照片中有多少個不同的玩具時，它可能會把同一個玩具算成不同的，或者把不同的玩具當成同一個。

這個問題的根源在于，雖然現(xiàn)在的AI已經具備了很強的單圖理解能力，但它們缺乏一種關鍵的"元認知技能"——視覺比較能力。就像一個人可能認識很多字，但不會閱讀理解一樣，AI能看懂單張圖片，卻不會在多張圖片之間建立聯(lián)系和進行推理。

為了解決這個問題，研究團隊開發(fā)了一個名為MiCo（Multi-image Contrast，多圖對比）的訓練框架。這個方法的巧妙之處在于，它不需要人工標注大量的問答數據，而是利用圖像本身包含的天然約束作為監(jiān)督信號。這就像教孩子識別差異時，不需要給他準備標準答案，而是讓他通過觀察和比較自己發(fā)現(xiàn)規(guī)律。

MiCo的核心思想受到了自監(jiān)督學習的啟發(fā)。研究團隊構建了特殊的圖像三元組：兩張是同一圖像的不同增強版本（比如稍微裁剪或調整大小），第三張是內容相似但實際不同的圖像。在訓練過程中，AI被要求對這三張圖片進行比較，判斷哪些是相同的，哪些是不同的，并且要生成詳細的推理過程來解釋自己的判斷。

為了確保訓練的有效性，研究團隊精心設計了數據來源。他們從視頻中提取相隔幾秒的畫面，這些畫面在視覺上非常相似，但包含細微的變化，比如人物的動作或物體的位置發(fā)生了微調。同時，他們也使用了圖像編輯數據集，其中包含"編輯前"和"編輯后"的圖像對，這些變化同樣很細微但很有意義。通過計算結構相似性指數和像素差異，研究團隊過濾掉了那些差異過大或過小的圖像對，確保AI需要仔細觀察才能發(fā)現(xiàn)差異。

在訓練策略上，研究團隊提出了"增強GRPO"（Augmented GRPO）方法。這種方法的工作原理類似于讓學生先在簡單題目上練習推理過程，然后用這些推理方法去解決更難的題目。具體來說，AI首先在弱增強的圖像上生成推理軌跡，這些圖像相對容易處理，AI更容易產生正確的推理過程。然后，研究團隊使用這些高質量的推理過程來優(yōu)化AI在強增強圖像上的表現(xiàn)，這些圖像更具挑戰(zhàn)性。

整個訓練過程使用了強化學習的方法。AI的每個回答都會得到獎勵或懲罰：如果它正確識別了三對圖像比較中的所有關系，就獲得正獎勵；如果有任何錯誤，就不獲得獎勵。這種二元獎勵機制迫使AI必須在推理過程中格外仔細，不能有任何疏漏。

為了增加訓練的多樣性，研究團隊還設計了不同類型的比較任務。除了三圖比較，他們還構建了兩圖比較的任務，并使用GPT-4o生成了多種不同表達方式的問題，比如"圖1和圖2是否相同？"或者"圖1和圖2有什么區(qū)別？"。這種多樣性幫助AI學會處理各種形式的視覺比較任務。

研究團隊在多個標準測試集上評估了MiCo的效果。在VLM2-Bench這個專門測試多圖理解能力的基準測試中，MiCo取得了顯著的改進。這個測試包括三個主要類別：通用線索、以物體為中心的線索，以及以人為中心的線索。每個類別又包含不同的子任務，比如匹配、跟蹤、比較、計數和分組等。

測試結果顯示，MiCo在大多數任務上都超越了現(xiàn)有的最先進模型，包括GPT-4o。特別值得注意的是，在需要精確視覺比較的任務上，比如物體跟蹤和視覺匹配，MiCo的提升最為明顯。然而，研究團隊也發(fā)現(xiàn)，在涉及人臉識別的任務上，改進相對有限。他們分析認為，這是因為人臉的細微特征很難用語言準確描述，因此基于語言推理的方法在這類任務上存在天然局限。

除了專門的多圖理解任務，研究團隊還測試了MiCo在其他視覺任務上的表現(xiàn)。令人驚喜的是，雖然MiCo只在圖像比較任務上訓練，但它在單圖理解任務上也有所改進。這表明，學會仔細比較圖像的過程也提高了AI對單張圖像細節(jié)的關注能力。

在MuirBench和BLINK等綜合性多圖理解測試中，MiCo同樣表現(xiàn)出色。這些測試涵蓋了從簡單的視覺檢索到復雜的空間推理等各種任務。MiCo在需要建立圖像間對應關系的任務上表現(xiàn)最佳，比如語義對應和視覺檢索。這證實了該方法在訓練AI建立跨圖像聯(lián)系方面的有效性。

研究團隊還進行了詳細的消融實驗，驗證了設計中每個組件的重要性。他們發(fā)現(xiàn)，單純使用監(jiān)督學習訓練的模型改進有限，而沒有推理過程的強化學習也效果不佳。只有結合了推理過程生成和強化學習優(yōu)化的完整方法才能取得最佳效果。同時，他們發(fā)現(xiàn)結合視頻數據和圖像編輯數據的訓練效果最好，這表明不同類型的視覺變化都有助于AI學習比較技能。

在數據源的選擇上，研究團隊驗證了視頻幀和圖像編輯數據的有效性。視頻幀提供了時間維度上的細微變化，比如物體的移動或狀態(tài)的改變；而圖像編輯數據則提供了更多樣化的語義變化，比如顏色、紋理或對象的修改。兩種數據源的結合使得AI能夠學會識別各種類型的視覺差異。

在增強策略的設計上，研究團隊嘗試了多種圖像變換方法，最終選擇了隨機裁剪和縮放作為主要的增強手段。這些變換不會改變圖像的核心內容，但會增加比較的難度，迫使AI關注更本質的視覺特征而不是表面的像素對應。

關于提示詞的多樣性，研究團隊發(fā)現(xiàn)，使用多種不同表達方式的問題對防止過擬合很重要。他們設計了正向問題（"是否相同？"）和反向問題（"是否不同？"），以及不同的圖像對組合，確保AI學會處理各種可能的比較情況。

MiCo方法的一個重要優(yōu)勢是其訓練效率。與需要大量人工標注的傳統(tǒng)方法相比，MiCo只需要收集圖像對，不需要復雜的問答標注。這大大降低了數據準備的成本，使得該方法更容易擴展到新的領域和語言。

從技術實現(xiàn)角度來看，研究團隊使用Qwen2.5-VL-7B作為基礎模型，這是一個已經具備良好視覺理解能力的大型視覺語言模型。他們使用了8塊A100 GPU進行訓練，總共進行了600次迭代，每次處理16個樣本，每個樣本生成8個推理軌跡進行比較。

在實際應用中，MiCo展現(xiàn)出了強大的泛化能力。經過訓練的模型不僅能夠準確比較圖像，還能生成詳細的推理過程，解釋自己的判斷依據。例如，當比較兩張咖啡杯的圖片時，模型會詳細分析每個杯子的設計特征、顏色搭配和裝飾圖案，然后基于這些觀察得出結論。

研究團隊也誠實地指出了當前方法的局限性。MiCo在需要特定領域知識的任務上表現(xiàn)有限，比如數學推理或人臉驗證。這是因為該方法主要關注視覺比較技能的培養(yǎng)，而沒有專門針對這些特殊任務進行優(yōu)化。

此外，雖然MiCo在大多數多圖理解任務上都有改進，但在某些需要深度空間理解的任務上，比如相對深度估計，所有模型的表現(xiàn)都還有待提高。這表明空間感知仍然是視覺AI面臨的一個重要挑戰(zhàn)。

從方法論的角度來看，MiCo代表了一種新的訓練范式：利用數據的內在結構作為監(jiān)督信號，而不是依賴外部標注。這種思路可能啟發(fā)更多類似的自監(jiān)督學習方法，減少對人工標注數據的依賴。

總的來說，這項研究成功地解決了多圖視覺理解中的一個核心問題：如何讓AI學會像人類一樣比較和關聯(lián)多張圖像。通過巧妙的數據構造和訓練策略設計，研究團隊證明了即使不使用大量人工標注的數據，也能顯著提升AI的多圖推理能力。這不僅推進了視覺AI技術的發(fā)展，也為構建更智能、更實用的視覺系統(tǒng)提供了新的方向。MiCo的成功表明，有時候最有效的學習方法不是給AI更多的標準答案，而是教會它如何自己觀察和思考。

Q&A

Q1：MiCo是什么？它能做什么？ A：MiCo是香港大學團隊開發(fā)的多圖對比訓練框架，專門用來提升AI的多圖理解能力。它能讓AI像人類一樣準確比較多張圖片的相同點和不同點，識別圖片間的細微差異，并進行跨圖推理。比如判斷幾張照片中有多少個不同的物體，或者分析視頻中攝像頭是如何移動的。

Q2：MiCo會不會取代現(xiàn)有的AI訓練方法？ A：不會完全取代，但會成為一個重要補充。MiCo主要解決的是多圖比較這個特定問題，它的優(yōu)勢在于不需要大量人工標注數據。對于其他AI任務，比如數學推理或特定領域的專業(yè)任務，仍然需要傳統(tǒng)的訓練方法。MiCo更像是給AI添加了一項新技能。

Q3：普通人能使用MiCo技術嗎？有什么實際應用？ A：目前MiCo還是研究階段的技術，普通人無法直接使用。但這項技術未來可能應用到圖片搜索、視頻分析、醫(yī)學影像對比、安防監(jiān)控等領域。比如幫助醫(yī)生比較不同時期的CT掃描圖，或者讓搜索引擎更準確地找到相似但不完全相同的圖片。

人工智能多圖推理自監(jiān)督學習

分享至

0贊

好文章，需要你的鼓勵

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術，通過交錯式推理生成、解耦橋接機制和漸進式訓練，能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學習
多模態(tài)學習

2025-09-09 13:57

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術，通過讓AI同時學習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量，在多項測試中超越包括Sora在內的商業(yè)模型，為AI視頻生成的實用化應用奠定了重要基礎。
多模態(tài)AI
人類價值觀對齊
數據集構建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數據集和MM-AlignBench評測基準，通過創(chuàng)新的數據生成和質量管控方法，讓AI在保持技術能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術路徑。
人工智能
圖神經網絡
天氣預報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型，能夠在不到一分鐘內完成10天全球天氣預報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經網絡技術，通過學習40年歷史數據掌握天氣變化規(guī)律，在極端天氣預測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學領域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

谷歌研究團隊發(fā)布超級預測模型：讓AI像天氣預報員一樣預測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網上有害信息舉報專區(qū)：https://www.12377.cn

<legend id="lt7pb"><track id="lt7pb"></track></legend>

<sup id="lt7pb"></sup>
<blockquote id="lt7pb"><samp id="lt7pb"></samp></blockquote>

<abbr id="lt7pb"><table id="lt7pb"></table></abbr>