這項(xiàng)由北京交通大學(xué)、華中科技大學(xué)和清華大學(xué)聯(lián)合開(kāi)展的研究發(fā)表于2025年2月,研究論文可以通過(guò)arXiv:2501.05767v3訪問(wèn)。該研究首次提出了名為Migician的多圖像視覺(jué)定位模型,這是一個(gè)真正的突破性進(jìn)展,因?yàn)樗孉I第一次具備了在多張圖片中進(jìn)行靈活定位的能力。
我們每天都在不知不覺(jué)中使用多圖像定位能力。當(dāng)你在停車(chē)場(chǎng)找車(chē)時(shí),你會(huì)記住車(chē)的樣子,然后在密密麻麻的車(chē)群中準(zhǔn)確找到它的位置。當(dāng)你看監(jiān)控錄像追蹤某個(gè)人的行蹤時(shí),你能在不同角度的畫(huà)面中識(shí)別出同一個(gè)人。這些看似簡(jiǎn)單的任務(wù),對(duì)于AI來(lái)說(shuō)卻異常困難。
傳統(tǒng)的AI視覺(jué)模型就像一個(gè)只能處理單張照片的"近視眼",它們?cè)趩螐垐D片中找東西很厲害,也能理解多張圖片的內(nèi)容,但就是無(wú)法把這兩種能力結(jié)合起來(lái)。這就好比一個(gè)人既是出色的偵探,又是優(yōu)秀的檔案管理員,但偏偏不能同時(shí)發(fā)揮兩種技能去破案。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是:如何讓AI在面對(duì)多張圖片時(shí),既能理解圖片之間的關(guān)系,又能精確定位目標(biāo)物體的具體位置。這個(gè)問(wèn)題的難度在于,AI需要在理解"整體故事"的同時(shí),還要有"放大鏡"般的精確定位能力。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)首先嘗試了一種叫做"思維鏈"的方法,就像讓AI先用語(yǔ)言描述要找的東西,然后再去定位。這種方法有點(diǎn)像你先告訴朋友"我要找一輛白色的小汽車(chē)",然后朋友再去停車(chē)場(chǎng)幫你找。這個(gè)方法在簡(jiǎn)單情況下效果不錯(cuò),但遇到復(fù)雜場(chǎng)景時(shí)就力不從心了,比如要找的不是具體的物體,而是一種抽象的概念或關(guān)系。
意識(shí)到這個(gè)問(wèn)題后,研究團(tuán)隊(duì)開(kāi)發(fā)了Migician模型。這個(gè)名字很有意思,結(jié)合了"多圖像"(Multi-Image)和"魔法師"(Magician)的含義,寓意著這個(gè)AI能像魔法師一樣在多張圖片中"變出"目標(biāo)物體的精確位置。
Migician的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能偵探。研究團(tuán)隊(duì)為它準(zhǔn)備了一個(gè)包含63萬(wàn)個(gè)訓(xùn)練樣本的巨大數(shù)據(jù)庫(kù),這些樣本涵蓋了各種多圖像定位任務(wù)。就好比給偵探提供了63萬(wàn)個(gè)不同類(lèi)型的案例,讓他從中學(xué)會(huì)各種破案技巧。
整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段,就像培訓(xùn)一個(gè)偵探先學(xué)基礎(chǔ)技能,再學(xué)高級(jí)技巧。第一階段讓Migician掌握基本的多圖像理解和單圖定位能力,就像讓偵探先學(xué)會(huì)觀察現(xiàn)場(chǎng)和分析線(xiàn)索。第二階段則是讓它學(xué)會(huì)處理更復(fù)雜、更靈活的定位任務(wù),就像讓偵探學(xué)會(huì)處理各種疑難雜案。
為了驗(yàn)證Migician的能力,研究團(tuán)隊(duì)還專(zhuān)門(mén)構(gòu)建了一個(gè)全面的測(cè)試平臺(tái)MIG-Bench,包含10種不同類(lèi)型的多圖像定位任務(wù),總共有4300多個(gè)測(cè)試實(shí)例。這就像為偵探設(shè)計(jì)了一系列不同難度的考試,從簡(jiǎn)單的"找不同"到復(fù)雜的"跨圖推理"都有。
在測(cè)試中,Migician的表現(xiàn)令人矚目。它的平均準(zhǔn)確率達(dá)到了63.82%,比第二名高出了近25個(gè)百分點(diǎn)。更令人驚訝的是,這個(gè)只有70億參數(shù)的模型,竟然超過(guò)了許多擁有720億參數(shù)的大型模型。這就好比一個(gè)輕量級(jí)拳擊手擊敗了重量級(jí)選手,顯示了技術(shù)優(yōu)化的強(qiáng)大威力。
讓我們來(lái)看看Migician能夠處理哪些類(lèi)型的任務(wù)。在"自發(fā)定位"類(lèi)別中,它能夠自主發(fā)現(xiàn)圖片間的差異并準(zhǔn)確定位。比如給它兩張幾乎相同的圖片,它能自動(dòng)找出不同之處并標(biāo)出位置,就像玩"找茬游戲"的高手。它還能在多張圖片中找到共同的物體,比如在一組照片中都有一只狗,它能在每張照片中準(zhǔn)確標(biāo)出狗的位置。
在"引用定位"類(lèi)別中,Migician展現(xiàn)出了更高級(jí)的能力。當(dāng)你用文字描述要找的東西時(shí),它能在一組圖片中找到正確的那張,并精確定位目標(biāo)。比如你說(shuō)"找一把電子秤",它能從多張無(wú)關(guān)圖片中找到有電子秤的那張,并標(biāo)出電子秤的位置。
更令人印象深刻的是,Migician還能處理視覺(jué)引用任務(wù)。你可以給它一張圖片作為參考,它能在其他圖片中找到相同或相似的物體。這就像你給朋友看一張車(chē)的照片,朋友就能在停車(chē)場(chǎng)中找到這輛車(chē)。
在一些需要推理的復(fù)雜任務(wù)中,Migician也表現(xiàn)出色。比如給它看一張人們?cè)谏衬腥彼膱D片,然后問(wèn)它在另一張桌子的圖片中,哪個(gè)物品能緩解第一張圖中人們的困境,它能準(zhǔn)確找到并定位水杯的位置。這種跨圖推理能力,已經(jīng)很接近人類(lèi)的思維水平了。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:訓(xùn)練Migician進(jìn)行多圖像定位,反而提升了它在單圖像任務(wù)上的表現(xiàn)。這就像學(xué)會(huì)了團(tuán)隊(duì)協(xié)作的人,個(gè)人能力也會(huì)得到提升。在傳統(tǒng)的單圖像理解測(cè)試中,Migician不僅保持了原有水平,在某些方面甚至有所改進(jìn)。
為了深入了解Migician的工作原理,研究團(tuán)隊(duì)進(jìn)行了大量分析。他們發(fā)現(xiàn),不同類(lèi)型的訓(xùn)練數(shù)據(jù)對(duì)模型能力有不同的貢獻(xiàn)。去除定位訓(xùn)練數(shù)據(jù)會(huì)顯著降低多圖像定位能力,這證明了專(zhuān)門(mén)訓(xùn)練的重要性。同時(shí),他們還發(fā)現(xiàn)多任務(wù)學(xué)習(xí)比單獨(dú)訓(xùn)練每個(gè)任務(wù)更有效,這說(shuō)明不同任務(wù)之間存在相互促進(jìn)的關(guān)系。
在處理不同難度任務(wù)時(shí),Migician表現(xiàn)出了良好的魯棒性。在簡(jiǎn)單任務(wù)中,它的準(zhǔn)確率高達(dá)76%;在中等難度任務(wù)中仍能達(dá)到52%;即使在最困難的任務(wù)中,也有29%的準(zhǔn)確率。這種性能分布很合理,符合人類(lèi)學(xué)習(xí)和認(rèn)知的規(guī)律。
研究團(tuán)隊(duì)還比較了不同的評(píng)估方法。他們發(fā)現(xiàn),雖然讓模型一次性輸出所有答案在理論上更優(yōu)雅,但逐個(gè)詢(xún)問(wèn)每張圖片的方式在實(shí)際應(yīng)用中更穩(wěn)定可靠。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際部署很有價(jià)值,說(shuō)明有時(shí)候稍微"笨拙"的方法反而更實(shí)用。
值得一提的是,Migician在一個(gè)特殊測(cè)試中表現(xiàn)出了意想不到的能力。研究人員將高分辨率圖片分割成多個(gè)小塊,然后讓Migician在這些小塊中找目標(biāo),結(jié)果它的表現(xiàn)堪比專(zhuān)門(mén)為此設(shè)計(jì)的系統(tǒng)。這說(shuō)明多圖像定位能力具有很強(qiáng)的泛化性,可以應(yīng)用到原本不是為此設(shè)計(jì)的場(chǎng)景中。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在自動(dòng)駕駛領(lǐng)域,Migician這樣的技術(shù)能幫助車(chē)輛更好地理解復(fù)雜的交通環(huán)境,比如在多個(gè)攝像頭的畫(huà)面中追蹤行人或車(chē)輛。在安防監(jiān)控中,它能在多個(gè)監(jiān)控點(diǎn)的錄像中追蹤嫌疑人的行蹤。在醫(yī)療影像分析中,它能對(duì)比不同時(shí)期的掃描結(jié)果,幫助醫(yī)生發(fā)現(xiàn)病情變化。
對(duì)于普通消費(fèi)者,這項(xiàng)技術(shù)的應(yīng)用前景同樣廣闊。未來(lái)的智能相冊(cè)可能會(huì)變得更加智能,能夠自動(dòng)整理和標(biāo)記照片中的人物和物品。購(gòu)物應(yīng)用可能會(huì)支持更精確的商品搜索,你只需要拍一張照片,就能在商城中找到相似的商品。家庭安防系統(tǒng)也可能變得更加智能,能夠識(shí)別和追蹤可疑行為。
當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。由于計(jì)算資源的限制,研究團(tuán)隊(duì)主要在較小規(guī)模的模型上驗(yàn)證了方法的有效性,在更大規(guī)模模型上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。另外,像所有AI系統(tǒng)一樣,Migician有時(shí)也會(huì)產(chǎn)生錯(cuò)誤的輸出,這在實(shí)際應(yīng)用中需要謹(jǐn)慎對(duì)待。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究為多模態(tài)人工智能的發(fā)展開(kāi)辟了新的方向。它證明了將不同AI能力有機(jī)結(jié)合的可能性,為構(gòu)建更加通用和智能的AI系統(tǒng)提供了思路。這種能力的結(jié)合不是簡(jiǎn)單的疊加,而是產(chǎn)生了新的、更強(qiáng)大的智能形態(tài)。
研究團(tuán)隊(duì)已經(jīng)將Migician的代碼、模型、數(shù)據(jù)集和測(cè)試平臺(tái)全部開(kāi)源,這意味著全世界的研究者都可以基于這項(xiàng)工作進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開(kāi)放的態(tài)度有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展,讓更多人受益于這項(xiàng)技術(shù)。
說(shuō)到底,Migician的成功不僅僅是一個(gè)技術(shù)突破,更是人工智能向人類(lèi)認(rèn)知能力邁進(jìn)的重要一步。它讓我們看到了AI在理解和處理復(fù)雜視覺(jué)信息方面的巨大潛力。雖然它還遠(yuǎn)沒(méi)有達(dá)到人類(lèi)的水平,但這種"舉一反三"的能力已經(jīng)讓我們看到了通用人工智能的曙光。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,未來(lái)的AI將能夠在越來(lái)越多的領(lǐng)域?yàn)槿祟?lèi)提供更智能、更精確的服務(wù)。
對(duì)于關(guān)注AI發(fā)展的讀者,這項(xiàng)研究值得深入了解。完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果可以通過(guò)訪問(wèn)論文原文獲得,有興趣的讀者可以通過(guò)https://migician-vg.github.io/網(wǎng)站了解更多信息。
Q&A
Q1:Migician是什么?它和普通AI有什么不同?
A:Migician是由北京交通大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的首個(gè)多圖像視覺(jué)定位AI模型。與普通AI不同,它能同時(shí)理解多張圖片的內(nèi)容并精確定位目標(biāo)物體位置,就像人類(lèi)能在多張照片中找到特定物品一樣。普通AI要么只能處理單張圖片定位,要么只能理解多圖內(nèi)容但無(wú)法精確定位。
Q2:多圖像定位技術(shù)在日常生活中有哪些實(shí)際用途?
A:這項(xiàng)技術(shù)應(yīng)用前景很廣泛。比如幫助自動(dòng)駕駛汽車(chē)在多個(gè)攝像頭畫(huà)面中追蹤行人,讓安防系統(tǒng)在多個(gè)監(jiān)控點(diǎn)追蹤嫌疑人,讓醫(yī)生對(duì)比不同時(shí)期的掃描圖像發(fā)現(xiàn)病情變化,讓智能相冊(cè)自動(dòng)整理照片中的人物和物品,或者讓購(gòu)物應(yīng)用通過(guò)照片精確找到相似商品。
Q3:Migician的準(zhǔn)確率如何?比人類(lèi)表現(xiàn)怎么樣?
A:在測(cè)試中,Migician的平均準(zhǔn)確率達(dá)到63.82%,比其他AI模型高出近25個(gè)百分點(diǎn)。雖然還遠(yuǎn)不如人類(lèi)97.18%的表現(xiàn),但這已經(jīng)是AI在這個(gè)領(lǐng)域的重大突破。在簡(jiǎn)單任務(wù)中它能達(dá)到76%準(zhǔn)確率,在困難任務(wù)中也有29%的準(zhǔn)確率,顯示出良好的適應(yīng)性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。