在人工智能快速發(fā)展的今天,讓計算機通過文字描述找到特定人物這件事,聽起來簡單,做起來卻極其困難。這項由東北大學鄭天陸、張逸凡等研究員與華南理工大學、深瞳科技聯(lián)合完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺,為這一挑戰(zhàn)性問題提供了全新解決方案。有興趣深入了解的讀者可以通過論文鏈接https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS和數(shù)據(jù)集鏈接https://huggingface.co/datasets/Kaichengalex/WebPerson-5M訪問完整資源。
當我們在茫茫人海中尋找某個人時,通常會依靠一些描述性特征:穿著藍色外套的女性、戴眼鏡的男士、背著紅色書包的學生。對人類來說,這種基于文字描述的人物識別是一件相當自然的事情,但對計算機而言,理解"穿著條紋襯衫的高個子男性"這樣的描述并在成千上萬張圖片中找到對應(yīng)人物,卻是一個極其復(fù)雜的技術(shù)難題。這種技術(shù)被稱為"文本描述人物檢索",在安防監(jiān)控、失蹤人員搜尋、智能零售等領(lǐng)域有著廣泛應(yīng)用前景。
現(xiàn)有的人工智能模型在處理這類任務(wù)時面臨著兩大核心困擾。第一個困擾可以比作"營養(yǎng)不良"——缺乏高質(zhì)量的訓練數(shù)據(jù)。目前可用的人物描述數(shù)據(jù)集規(guī)模相對較小,就像一個廚師只有幾種有限的食材,很難烹飪出豐富多樣的菜品。研究團隊發(fā)現(xiàn),現(xiàn)有數(shù)據(jù)集通常只包含幾萬到幾十萬張圖片,而且描述文字往往存在不準確或描述不夠詳細的問題。第二個困擾則像是"消化不良"——現(xiàn)有模型在學習過程中容易被噪聲信息干擾,無法有效區(qū)分描述中哪些詞匯真正重要,哪些可能是干擾項。這就像一個人在嘈雜的環(huán)境中試圖專心聽對話,很容易被背景噪音分散注意力。
為了解決這兩大難題,研究團隊開發(fā)了一套名為GA-DMS的創(chuàng)新框架,這個名字代表"梯度注意力引導(dǎo)的雙重掩蔽協(xié)同框架"。同時,他們還構(gòu)建了一個名為WebPerson的大規(guī)模數(shù)據(jù)集,包含500萬張高質(zhì)量的人物圖像和相應(yīng)的文字描述。
一、數(shù)據(jù)集構(gòu)建:從網(wǎng)絡(luò)海洋中"釣"出優(yōu)質(zhì)人物圖片
構(gòu)建高質(zhì)量的數(shù)據(jù)集就像在浩瀚的網(wǎng)絡(luò)海洋中進行精準捕撈。研究團隊首先從包含7.47億張圖片的COYO700M數(shù)據(jù)集開始,這相當于在一個巨大的數(shù)字圖書館中尋找合適的人物照片。他們設(shè)計了一套嚴格的篩選流程,就像設(shè)置了多重過濾網(wǎng),確保只有最優(yōu)質(zhì)的"魚"能夠通過。
篩選過程可以想象成一個經(jīng)驗豐富的攝影師在挑選作品。首先,系統(tǒng)會使用YOLOv11人體檢測模型,就像一雙經(jīng)過訓練的眼睛,能夠準確識別圖片中是否有人物出現(xiàn),并且確保人物在畫面中占據(jù)足夠重要的位置。具體來說,圖片的短邊必須超過90像素,寬高比要在1:2到1:4之間,人體檢測的置信度要達到85%以上。這樣的標準確保了圖片具有足夠的清晰度和合理的構(gòu)圖比例。
接下來,系統(tǒng)還會進行更精細的姿態(tài)檢測,就像一個專業(yè)的人體素描師,需要確認人物的關(guān)鍵身體部位都清晰可見。通過YOLOv11-Pose模型,系統(tǒng)會檢查是否能夠識別出至少8個關(guān)鍵身體節(jié)點,包括至少一個髖部關(guān)鍵點和兩個頭部關(guān)鍵點。只有通過這些嚴格檢測的圖片才能進入最終的數(shù)據(jù)集。經(jīng)過這樣層層篩選,研究團隊從海量網(wǎng)絡(luò)圖片中精選出了500萬張高質(zhì)量的人物圖像。
有了圖片還不夠,每張圖片都需要配上準確詳細的文字描述。傳統(tǒng)的做法是雇傭大量人工標注員,但這種方法不僅成本高昂,而且效率低下。研究團隊采用了一種更加智能的方法,利用大型多模態(tài)語言模型來自動生成描述文字。這就像雇傭了一批"AI寫手",它們不知疲倦地為每張圖片撰寫詳細而準確的說明文字。
為了確保描述的多樣性和準確性,研究團隊首先從現(xiàn)有的人物描述數(shù)據(jù)集中提取了各種描述模板,然后使用先進的AI模型對這些模板進行優(yōu)化和擴展。這個過程就像創(chuàng)作一本寫作指南,為AI寫手提供各種不同風格和角度的寫作樣本。他們利用k-means聚類算法將相似的描述模板歸類整理,最終構(gòu)建了包含一千個高質(zhì)量模板的資源庫。
在生成具體描述時,系統(tǒng)會為每張圖片隨機選擇一個合適的模板,然后使用千問2.5視覺語言模型根據(jù)圖片內(nèi)容填寫具體細節(jié)。這個過程就像按照食譜烹飪,但每次都會根據(jù)具體食材調(diào)整做法,確保最終的"菜品"既符合基本要求,又具有獨特特色。通過這種方法,每張圖片都能獲得平均兩個不同角度的詳細描述,總共產(chǎn)生了超過1000萬條高質(zhì)量的圖文配對數(shù)據(jù)。
二、核心算法:教會機器識別描述中的關(guān)鍵信息
擁有了豐富的數(shù)據(jù)集后,如何讓機器真正理解和運用這些信息成為了關(guān)鍵挑戰(zhàn)。研究團隊開發(fā)的GA-DMS框架就像為機器裝上了一副"智能眼鏡",能夠幫助它更好地理解文字描述中的重要信息,同時過濾掉干擾性的噪聲。
這套系統(tǒng)的核心創(chuàng)新在于引入了梯度注意力相似性評分機制。為了理解這個概念,我們可以把機器學習過程想象成一個學生在做閱讀理解題。當學生讀到"穿著藍色條紋襯衫的高個子男性"這樣的描述時,他需要判斷哪些詞匯最重要,哪些可能是干擾信息。傳統(tǒng)的方法就像讓學生盲目地記住所有詞匯,而GA-DMS框架則像給學生提供了一套科學的分析方法。
具體來說,系統(tǒng)會計算每個文字token對整體圖像-文本匹配的貢獻程度。這就像給每個詞匯打分,"藍色"、"條紋"、"襯衫"、"高個子"這些具體的描述性詞匯會得到較高的分數(shù),而一些連接詞或者可能存在錯誤的詞匯則會得到較低的分數(shù)。這個打分過程綜合考慮了梯度信息和注意力機制,就像同時從多個角度評估每個詞匯的重要性。
系統(tǒng)還引入了多尺度池化層,這就像給機器配備了不同倍率的放大鏡,能夠同時關(guān)注圖片的整體特征和局部細節(jié)。當描述中提到"戴眼鏡"時,系統(tǒng)不僅要理解整體的人物形象,還要能夠聚焦到面部的眼鏡這個細節(jié)特征。通過平均池化鄰近token的方式,系統(tǒng)能夠獲得更豐富的多尺度語義信息。
基于這些評分結(jié)果,GA-DMS框架實施了一種巧妙的雙重掩蔽策略。第一種掩蔽針對噪聲詞匯,就像用橡皮擦除錯誤答案一樣,系統(tǒng)會根據(jù)評分結(jié)果適當"遮擋"那些得分較低、可能包含錯誤信息的詞匯,減少它們對最終結(jié)果的干擾影響。掩蔽概率的計算采用了一個精心設(shè)計的公式,能夠確保真正的噪聲詞匯被有效過濾,而重要信息得到保留。
第二種掩蔽則針對重要的描述性詞匯,這看起來可能有些反直覺,就像故意遮住試卷中的關(guān)鍵信息。但這種做法的目的是訓練模型更好地理解上下文語義。當系統(tǒng)在訓練過程中遇到被遮擋的重要詞匯時,它必須學會通過其他可見的詞匯來推斷和預(yù)測這些關(guān)鍵信息,從而加深對整體語義的理解。這就像讓學生通過上下文推斷被遮住的關(guān)鍵詞,能夠顯著提高理解能力和泛化性能。
整個訓練過程采用了相似性分布匹配損失函數(shù),這就像為機器設(shè)定了一個明確的學習目標。系統(tǒng)不僅要能夠正確匹配圖片和描述,還要學會區(qū)分相似但不同的人物特征。例如,當面對"穿藍色襯衫的男性"和"穿紅色襯衫的男性"兩個描述時,系統(tǒng)必須能夠準確識別顏色差異并找到對應(yīng)的圖片。
三、實驗驗證:全面超越現(xiàn)有技術(shù)水平
為了驗證GA-DMS框架的有效性,研究團隊在三個標準的人物檢索數(shù)據(jù)集上進行了詳盡的實驗驗證。這些數(shù)據(jù)集包括CUHK-PEDES、ICFG-PEDES和RSTPReid,它們就像這個領(lǐng)域的"標準化考試",被廣泛用于評估不同技術(shù)方案的性能表現(xiàn)。
實驗結(jié)果令人鼓舞。在CUHK-PEDES數(shù)據(jù)集上,GA-DMS框架在Rank-1準確率指標上達到了77.6%,相比之前的最佳方法提升了0.78個百分點。雖然這個提升幅度看起來不大,但在這個競爭激烈的領(lǐng)域中,每一個百分點的提升都代表著技術(shù)的顯著進步。更重要的是,在另外兩個數(shù)據(jù)集上的表現(xiàn)更加突出:在ICFG-PEDES上達到69.51%的準確率,在RSTPReid上更是達到了71.25%,相比基線方法分別提升了2.46%和3.05%。
這些數(shù)字背后反映的是系統(tǒng)在實際應(yīng)用中的表現(xiàn)。以RSTPReid數(shù)據(jù)集為例,3.05%的提升意味著在1000次搜索中,GA-DMS框架能夠比之前的最佳方法多找對30個目標人物,這在實際的安防監(jiān)控或人員搜尋應(yīng)用中具有重要意義。
研究團隊還進行了詳細的消融實驗,就像醫(yī)生進行各項單獨檢查來確定每種治療方法的具體效果。實驗結(jié)果顯示,梯度注意力相似性評分機制貢獻了大部分性能提升,而雙重掩蔽策略和相似性分布匹配損失函數(shù)也都起到了重要作用。特別值得注意的是,當研究團隊將傳統(tǒng)的余弦相似性評分替換為他們提出的梯度注意力相似性評分時,在所有數(shù)據(jù)集上都觀察到了明顯的性能提升,證明了這一創(chuàng)新方法的有效性。
數(shù)據(jù)規(guī)模的影響也得到了充分驗證。當WebPerson數(shù)據(jù)集從10萬張圖片擴展到500萬張時,系統(tǒng)性能出現(xiàn)了顯著的階梯式提升。在CUHK-PEDES數(shù)據(jù)集上,Rank-1準確率從58.95%逐步提升到68.34%,這清楚地表明了大規(guī)模高質(zhì)量訓練數(shù)據(jù)對提升模型性能的重要作用。這種規(guī)模效應(yīng)就像學生通過大量練習題提高考試成績一樣,更多的優(yōu)質(zhì)訓練樣本能夠幫助模型學習到更豐富和準確的特征表示。
研究團隊還測試了不同掩蔽概率參數(shù)的影響。他們發(fā)現(xiàn),對于噪聲詞匯的掩蔽概率設(shè)置為0.2,對于重要詞匯的掩蔽概率設(shè)置為0.3時,系統(tǒng)能夠達到最佳性能平衡。這個發(fā)現(xiàn)為未來的研究提供了重要的參數(shù)設(shè)置參考。
四、技術(shù)創(chuàng)新:多項關(guān)鍵突破的協(xié)同效應(yīng)
GA-DMS框架的成功并非依賴單一技術(shù)創(chuàng)新,而是多項關(guān)鍵突破協(xié)同作用的結(jié)果。首先,梯度注意力相似性評分機制的引入徹底改變了傳統(tǒng)的詞匯重要性評估方法。傳統(tǒng)方法通常只能從注意力權(quán)重的角度評估詞匯重要性,而這種新方法結(jié)合了梯度信息,能夠更準確地反映每個詞匯對最終任務(wù)目標的實際貢獻。
這種評分機制的工作原理可以比作一個經(jīng)驗豐富的偵探在分析案件線索。偵探不僅要關(guān)注每條線索本身的重要性(注意力權(quán)重),還要考慮這條線索對破案的實際幫助程度(梯度信息)。有些線索看起來很重要,但實際上對解決問題幫助不大;而有些看似普通的線索,卻可能是破案的關(guān)鍵。GA-DMS框架正是通過這種綜合評估方法,更準確地識別出文本描述中的關(guān)鍵信息。
多尺度特征融合是另一項重要創(chuàng)新。人物識別任務(wù)既需要理解整體特征(如身材高矮、整體著裝風格),也需要捕捉局部細節(jié)(如眼鏡、手表、發(fā)型等)。傳統(tǒng)方法往往側(cè)重于某一個尺度的特征,而GA-DMS框架通過多尺度池化層,能夠同時捕獲不同粒度的語義信息。這就像一個優(yōu)秀的肖像畫家,既要把握人物的整體氣質(zhì),也要精確描繪每一個細節(jié)特征。
雙重掩蔽策略的設(shè)計體現(xiàn)了深刻的機器學習洞察。通過適當掩蔽噪聲詞匯,系統(tǒng)能夠減少錯誤信息的干擾;通過掩蔽重要詞匯并要求系統(tǒng)預(yù)測這些詞匯,又能夠增強模型的語義理解能力和泛化性能。這種看似矛盾的做法,實際上體現(xiàn)了"欲擒故縱"的訓練策略,讓模型在挑戰(zhàn)中成長。
在數(shù)據(jù)構(gòu)建方面,研究團隊也實現(xiàn)了重要突破。他們設(shè)計的自動化標注流程不僅大大降低了數(shù)據(jù)構(gòu)建成本,還確保了描述的一致性和質(zhì)量。通過使用結(jié)構(gòu)化模板引導(dǎo)AI模型生成描述,避免了完全自由生成可能出現(xiàn)的不一致或不準確問題。這就像為AI寫手提供了詳細的寫作指南和質(zhì)量控制標準,確保產(chǎn)出的內(nèi)容既豐富多樣又符合要求。
WebPerson數(shù)據(jù)集的構(gòu)建也體現(xiàn)了對數(shù)據(jù)質(zhì)量的嚴格把控。從網(wǎng)絡(luò)圖片的篩選到姿態(tài)完整性檢查,每一個環(huán)節(jié)都有嚴格的質(zhì)量標準。這種多層次的質(zhì)量控制體系確保了最終數(shù)據(jù)集的高質(zhì)量,為模型訓練提供了堅實基礎(chǔ)。
五、實際應(yīng)用:廣闊的應(yīng)用前景
GA-DMS框架的技術(shù)突破為多個實際應(yīng)用領(lǐng)域帶來了新的可能性。在安防監(jiān)控領(lǐng)域,這項技術(shù)能夠大大提高基于文字描述的人員搜尋效率。當安保人員接到"尋找穿紅色外套、戴黑色帽子的女性"這樣的指令時,系統(tǒng)能夠在海量監(jiān)控錄像中快速定位目標人物,大大縮短搜尋時間。這對于維護公共安全、尋找失蹤人員等場景具有重要價值。
在智能零售領(lǐng)域,這項技術(shù)能夠幫助商家更好地理解和服務(wù)顧客。例如,當顧客描述"昨天幫我挑選衣服的那位穿藍色工作服的銷售員"時,系統(tǒng)能夠快速識別對應(yīng)員工,為建立更個性化的服務(wù)體驗提供技術(shù)支撐。
在社交媒體和內(nèi)容管理領(lǐng)域,這項技術(shù)也有廣泛應(yīng)用前景。用戶可以通過簡單的文字描述快速找到特定的人物照片,大大提高內(nèi)容檢索的效率和準確性。這對于照片管理、社交平臺的人物標注等應(yīng)用都有重要意義。
更有趣的是,這項技術(shù)還可能在影視制作、游戲開發(fā)等創(chuàng)意產(chǎn)業(yè)中發(fā)揮作用。導(dǎo)演或游戲策劃可以通過文字描述快速篩選合適的演員形象或角色設(shè)計,大大提高創(chuàng)作效率。
值得注意的是,研究團隊在開發(fā)過程中也充分考慮了倫理和隱私問題。他們在數(shù)據(jù)收集過程中嚴格遵循相關(guān)法律法規(guī),并在論文中明確提出了負責任使用技術(shù)的建議,體現(xiàn)了科研工作者的社會責任感。
六、未來展望:持續(xù)改進的空間
盡管GA-DMS框架已經(jīng)取得了顯著的性能提升,但研究團隊也坦誠地指出了當前工作的局限性和未來的改進方向。首先,受限于計算資源,目前構(gòu)建的WebPerson數(shù)據(jù)集規(guī)模為500萬張圖片,雖然已經(jīng)是同類數(shù)據(jù)集中的佼佼者,但仍有進一步擴大規(guī)模的空間。更大規(guī)模的數(shù)據(jù)集可能會帶來更顯著的性能提升。
在技術(shù)方法方面,梯度注意力相似性評分機制仍有優(yōu)化潛力。研究團隊發(fā)現(xiàn),不同層次的梯度信息對評分結(jié)果有不同影響,如何更好地平衡和融合這些信息是未來研究的重要方向。他們的實驗表明,使用文本編碼器的最后8層梯度信息能夠獲得最佳性能,但這個結(jié)論是否在更大規(guī)模數(shù)據(jù)和不同模型架構(gòu)下仍然成立,還需要進一步驗證。
跨域泛化能力是另一個值得關(guān)注的研究方向。雖然GA-DMS在標準數(shù)據(jù)集上表現(xiàn)優(yōu)異,但在面對完全不同場景或人群時的泛化能力還需要更深入的研究。例如,在不同文化背景、不同年齡群體或不同服裝風格的數(shù)據(jù)上,系統(tǒng)的表現(xiàn)可能會有所差異。
多語言支持也是未來發(fā)展的重要方向。目前的研究主要基于英文描述,但在實際應(yīng)用中,支持中文、法文、西班牙文等多種語言的描述將大大擴展技術(shù)的應(yīng)用范圍。這需要在數(shù)據(jù)收集、模型訓練和評估方法等多個環(huán)節(jié)進行相應(yīng)調(diào)整。
實時性能優(yōu)化是另一個實際應(yīng)用中的關(guān)鍵考慮因素。雖然GA-DMS在準確性方面表現(xiàn)出色,但在大規(guī)模圖片庫中進行實時搜索時的響應(yīng)速度還有優(yōu)化空間。如何在保持高準確率的同時提高搜索效率,是技術(shù)落地的重要挑戰(zhàn)。
說到底,這項由東北大學團隊主導(dǎo)的研究為文本描述人物檢索領(lǐng)域帶來了實質(zhì)性突破。通過創(chuàng)新的梯度注意力機制和精心構(gòu)建的大規(guī)模數(shù)據(jù)集,GA-DMS框架在準確性方面達到了新的高度。更重要的是,這項研究提供的技術(shù)框架和數(shù)據(jù)資源為整個科研社區(qū)提供了寶貴的基礎(chǔ)設(shè)施,有助于推動相關(guān)領(lǐng)域的持續(xù)發(fā)展。
歸根結(jié)底,這項技術(shù)的價值不僅在于其優(yōu)異的性能表現(xiàn),更在于它為人工智能在理解和處理人類語言描述方面提供了新的思路和方法。隨著技術(shù)的不斷完善和應(yīng)用場景的不斷拓展,我們有理由相信,基于文字描述的智能人物檢索將在未來的數(shù)字化生活中發(fā)揮越來越重要的作用。對于普通用戶而言,這意味著我們與人工智能系統(tǒng)的交互將變得更加自然和高效,僅憑簡單的文字描述就能讓機器準確理解我們的意圖并提供精準的服務(wù)。有興趣進一步了解這項研究的讀者,可以通過研究團隊提供的開源代碼和數(shù)據(jù)集資源進行深入探索,為這一重要技術(shù)領(lǐng)域貢獻自己的力量。
Q&A
Q1:什么是GA-DMS框架?它的主要功能是什么?
A:GA-DMS是"梯度注意力引導(dǎo)的雙重掩蔽協(xié)同框架"的簡稱,由東北大學等機構(gòu)聯(lián)合開發(fā)。它的主要功能是讓計算機能夠根據(jù)文字描述(比如"穿藍色襯衫的高個男性")在大量圖片中準確找到對應(yīng)的人物。這項技術(shù)在安防監(jiān)控、失蹤人員搜尋、智能零售等領(lǐng)域有廣泛應(yīng)用價值。
Q2:WebPerson數(shù)據(jù)集有什么特別之處?規(guī)模有多大?
A:WebPerson是目前最大的自動生成文本描述人物數(shù)據(jù)集,包含500萬張高質(zhì)量人物圖像和超過1000萬條詳細文字描述。與傳統(tǒng)需要大量人工標注的數(shù)據(jù)集不同,WebPerson采用AI自動篩選和標注技術(shù),不僅規(guī)模更大,質(zhì)量也更穩(wěn)定一致,為人工智能訓練提供了豐富的學習素材。
Q3:這項技術(shù)的準確率有多高?比現(xiàn)有技術(shù)強在哪里?
A:GA-DMS框架在標準測試中表現(xiàn)優(yōu)異,在CUHK-PEDES數(shù)據(jù)集上達到77.6%的準確率,在RSTPReid上更是達到71.25%。它的優(yōu)勢主要體現(xiàn)在能夠智能識別文字描述中的關(guān)鍵信息,過濾掉干擾詞匯,同時通過大規(guī)模訓練數(shù)據(jù)學習到更準確的人物特征表示,整體性能相比之前最佳方法提升了2-3個百分點。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。