在人工智能研究領(lǐng)域,有一個(gè)關(guān)鍵問題長(zhǎng)期困擾著科學(xué)家們:如何讓機(jī)器準(zhǔn)確理解并執(zhí)行我們的指令?特別是當(dāng)我們要求計(jì)算機(jī)識(shí)別圖像中特定物體時(shí),這個(gè)挑戰(zhàn)變得尤為復(fù)雜。由國(guó)際數(shù)字經(jīng)濟(jì)研究院(IDEA)、華南理工大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)最近帶來(lái)了令人振奮的突破。他們的研究成果《Rex-Thinker: 基于鏈?zhǔn)酵评淼奈矬w指代定位》于2025年6月4日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2506.04034v1),為解決這一難題提供了全新思路。
想象一下,如果有人讓你"找出戴著黃色領(lǐng)帶的人右邊的女士",你會(huì)怎么做?你可能會(huì)先找到戴黃色領(lǐng)帶的人,然后看看他右邊是否有女士。這個(gè)看似簡(jiǎn)單的思考過程,恰恰是當(dāng)前人工智能系統(tǒng)所缺乏的。大多數(shù)現(xiàn)有的AI系統(tǒng)更像是一個(gè)黑盒子,它們直接給出答案,卻無(wú)法解釋思考過程,更無(wú)法在找不到匹配對(duì)象時(shí)坦率地說(shuō)"沒有找到"。
蔣慶、陳星宇和他們的研究團(tuán)隊(duì)認(rèn)為,一個(gè)真正可靠的物體指代系統(tǒng)應(yīng)該具備兩個(gè)關(guān)鍵特性:一是可驗(yàn)證性,能夠提供清晰的推理過程來(lái)證明它的判斷;二是可信任性,在圖像中沒有匹配物體時(shí)能夠主動(dòng)拒絕作答。為此,他們開發(fā)了名為"Rex-Thinker"的系統(tǒng),將物體指代任務(wù)轉(zhuǎn)變?yōu)橐粋€(gè)顯式的鏈?zhǔn)酵评磉^程。
這個(gè)系統(tǒng)的工作方式非常像人類的思考方式。例如,當(dāng)我們要求它"找出穿紅色襯衫的人"時(shí),Rex-Thinker會(huì)先識(shí)別出圖像中所有的人,然后逐一檢查每個(gè)人的衣著,最后才給出最終判斷。整個(gè)過程分為規(guī)劃、行動(dòng)和總結(jié)三個(gè)階段,就像我們解決問題時(shí)會(huì)先制定計(jì)劃,然后按計(jì)劃行動(dòng),最后總結(jié)結(jié)果一樣。
為了讓這個(gè)系統(tǒng)能夠?qū)W會(huì)這種人類式的推理,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為"HumanRef-CoT"的大規(guī)模數(shù)據(jù)集,其中包含了90,824個(gè)示例,每個(gè)示例都配有詳細(xì)的推理過程。他們通過提示GPT-4o模型在HumanRef數(shù)據(jù)集上生成這些推理過程,確保每個(gè)推理都遵循規(guī)劃-行動(dòng)-總結(jié)的結(jié)構(gòu),使模型能夠?qū)W習(xí)分解式、可解釋的推理能力。
研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法:首先進(jìn)行監(jiān)督式微調(diào),教會(huì)模型如何執(zhí)行結(jié)構(gòu)化推理;然后使用基于GRPO(群體相對(duì)策略優(yōu)化)的強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步提高準(zhǔn)確性和泛化能力。實(shí)驗(yàn)結(jié)果顯示,Rex-Thinker在精確度和可解釋性方面都超過了標(biāo)準(zhǔn)基線方法,尤其在拒絕幻覺輸出方面表現(xiàn)出色。此外,即使在域外評(píng)估中,該模型也展示了強(qiáng)大的泛化能力。
讓我們通過一個(gè)具體例子來(lái)理解Rex-Thinker的工作方式。假設(shè)我們請(qǐng)它找出"坐在龜背上的人"。Rex-Thinker會(huì)先制定計(jì)劃:第一步識(shí)別所有的龜,第二步檢查每只龜背上是否有人。在執(zhí)行階段,它會(huì)仔細(xì)分析圖像中的每個(gè)區(qū)域,比如"人物1穿著紅色衣服站在秋千上,沒有坐在龜背上","人物3戴著紅帽子,穿著紅色衣服,正坐在綠色的龜背上"。最后,它會(huì)總結(jié)結(jié)果:"人物3是坐在龜背上的人"。整個(gè)過程清晰可見,讓用戶能夠理解系統(tǒng)是如何得出結(jié)論的。
相比傳統(tǒng)方法直接輸出邊界框坐標(biāo),Rex-Thinker的鏈?zhǔn)酵评矸椒ㄌ峁┝烁叩耐该鞫群涂煽啃浴.?dāng)圖像中沒有符合描述的物體時(shí),它能夠明確表示"圖像中沒有這樣的物體",避免了強(qiáng)行給出錯(cuò)誤答案的問題。
研究團(tuán)隊(duì)進(jìn)一步研究了他們的方法在不同場(chǎng)景下的表現(xiàn)。在HumanRef基準(zhǔn)測(cè)試中,Rex-Thinker在屬性、位置、交互、推理和名人識(shí)別等各種類別中都取得了優(yōu)異成績(jī)。特別是在拒絕測(cè)試中,該模型實(shí)現(xiàn)了68.2%的得分,遠(yuǎn)高于其他方法。在域外評(píng)估中,即使是在未曾見過的RefCOCOg數(shù)據(jù)集上,僅用HumanRef-CoT訓(xùn)練的模型也表現(xiàn)出強(qiáng)大的零樣本泛化能力。
這項(xiàng)研究的意義不僅限于技術(shù)突破。想象一下,當(dāng)我們要求自動(dòng)駕駛汽車"避開那個(gè)騎自行車的孩子",或者請(qǐng)智能家居系統(tǒng)"關(guān)掉廚房里的燈"時(shí),系統(tǒng)能夠像人類一樣理解并解釋它的行動(dòng),這將極大地提高AI系統(tǒng)的可用性和安全性。
雖然Rex-Thinker展示了令人印象深刻的性能,但研究團(tuán)隊(duì)也指出了一些局限性。例如,在處理涉及多個(gè)物體之間復(fù)雜互動(dòng)關(guān)系的場(chǎng)景時(shí),該模型表現(xiàn)相對(duì)較弱。另外,由于采用了鏈?zhǔn)酵评淼姆绞?,Rex-Thinker的推理速度比直接預(yù)測(cè)方法慢,這可能會(huì)在某些實(shí)時(shí)應(yīng)用中造成挑戰(zhàn)。
總的來(lái)說(shuō),Rex-Thinker代表了物體指代領(lǐng)域的重要進(jìn)步,它不僅提高了準(zhǔn)確性,更引入了可解釋性和可靠性這兩個(gè)關(guān)鍵特性。通過模仿人類的思維過程,AI系統(tǒng)離真正理解我們的指令又近了一步。對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手將能更準(zhǔn)確地理解我們的復(fù)雜指令,并在無(wú)法完成任務(wù)時(shí)坦率地告訴我們?cè)?,而不是給出令人困惑的錯(cuò)誤回應(yīng)。
有興趣深入了解這項(xiàng)研究的讀者可以訪問研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://rexthinker.github.io/,或者查閱他們?cè)贕itHub上發(fā)布的代碼https://github.com/IDEA-Research/Rex-Thinker。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。