av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 像你一樣思考:鏈?zhǔn)酵评碜層?jì)算機(jī)更好地理解我們的指令

像你一樣思考:鏈?zhǔn)酵评碜層?jì)算機(jī)更好地理解我們的指令

2025-06-07 16:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 16:01 ? 科技行者

在人工智能研究領(lǐng)域,有一個(gè)關(guān)鍵問題長(zhǎng)期困擾著科學(xué)家們:如何讓機(jī)器準(zhǔn)確理解并執(zhí)行我們的指令?特別是當(dāng)我們要求計(jì)算機(jī)識(shí)別圖像中特定物體時(shí),這個(gè)挑戰(zhàn)變得尤為復(fù)雜。由國(guó)際數(shù)字經(jīng)濟(jì)研究院(IDEA)、華南理工大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)最近帶來(lái)了令人振奮的突破。他們的研究成果《Rex-Thinker: 基于鏈?zhǔn)酵评淼奈矬w指代定位》于2025年6月4日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2506.04034v1),為解決這一難題提供了全新思路。

想象一下,如果有人讓你"找出戴著黃色領(lǐng)帶的人右邊的女士",你會(huì)怎么做?你可能會(huì)先找到戴黃色領(lǐng)帶的人,然后看看他右邊是否有女士。這個(gè)看似簡(jiǎn)單的思考過程,恰恰是當(dāng)前人工智能系統(tǒng)所缺乏的。大多數(shù)現(xiàn)有的AI系統(tǒng)更像是一個(gè)黑盒子,它們直接給出答案,卻無(wú)法解釋思考過程,更無(wú)法在找不到匹配對(duì)象時(shí)坦率地說(shuō)"沒有找到"。

蔣慶、陳星宇和他們的研究團(tuán)隊(duì)認(rèn)為,一個(gè)真正可靠的物體指代系統(tǒng)應(yīng)該具備兩個(gè)關(guān)鍵特性:一是可驗(yàn)證性,能夠提供清晰的推理過程來(lái)證明它的判斷;二是可信任性,在圖像中沒有匹配物體時(shí)能夠主動(dòng)拒絕作答。為此,他們開發(fā)了名為"Rex-Thinker"的系統(tǒng),將物體指代任務(wù)轉(zhuǎn)變?yōu)橐粋€(gè)顯式的鏈?zhǔn)酵评磉^程。

這個(gè)系統(tǒng)的工作方式非常像人類的思考方式。例如,當(dāng)我們要求它"找出穿紅色襯衫的人"時(shí),Rex-Thinker會(huì)先識(shí)別出圖像中所有的人,然后逐一檢查每個(gè)人的衣著,最后才給出最終判斷。整個(gè)過程分為規(guī)劃、行動(dòng)和總結(jié)三個(gè)階段,就像我們解決問題時(shí)會(huì)先制定計(jì)劃,然后按計(jì)劃行動(dòng),最后總結(jié)結(jié)果一樣。

為了讓這個(gè)系統(tǒng)能夠?qū)W會(huì)這種人類式的推理,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為"HumanRef-CoT"的大規(guī)模數(shù)據(jù)集,其中包含了90,824個(gè)示例,每個(gè)示例都配有詳細(xì)的推理過程。他們通過提示GPT-4o模型在HumanRef數(shù)據(jù)集上生成這些推理過程,確保每個(gè)推理都遵循規(guī)劃-行動(dòng)-總結(jié)的結(jié)構(gòu),使模型能夠?qū)W習(xí)分解式、可解釋的推理能力。

研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法:首先進(jìn)行監(jiān)督式微調(diào),教會(huì)模型如何執(zhí)行結(jié)構(gòu)化推理;然后使用基于GRPO(群體相對(duì)策略優(yōu)化)的強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步提高準(zhǔn)確性和泛化能力。實(shí)驗(yàn)結(jié)果顯示,Rex-Thinker在精確度和可解釋性方面都超過了標(biāo)準(zhǔn)基線方法,尤其在拒絕幻覺輸出方面表現(xiàn)出色。此外,即使在域外評(píng)估中,該模型也展示了強(qiáng)大的泛化能力。

讓我們通過一個(gè)具體例子來(lái)理解Rex-Thinker的工作方式。假設(shè)我們請(qǐng)它找出"坐在龜背上的人"。Rex-Thinker會(huì)先制定計(jì)劃:第一步識(shí)別所有的龜,第二步檢查每只龜背上是否有人。在執(zhí)行階段,它會(huì)仔細(xì)分析圖像中的每個(gè)區(qū)域,比如"人物1穿著紅色衣服站在秋千上,沒有坐在龜背上","人物3戴著紅帽子,穿著紅色衣服,正坐在綠色的龜背上"。最后,它會(huì)總結(jié)結(jié)果:"人物3是坐在龜背上的人"。整個(gè)過程清晰可見,讓用戶能夠理解系統(tǒng)是如何得出結(jié)論的。

相比傳統(tǒng)方法直接輸出邊界框坐標(biāo),Rex-Thinker的鏈?zhǔn)酵评矸椒ㄌ峁┝烁叩耐该鞫群涂煽啃浴.?dāng)圖像中沒有符合描述的物體時(shí),它能夠明確表示"圖像中沒有這樣的物體",避免了強(qiáng)行給出錯(cuò)誤答案的問題。

研究團(tuán)隊(duì)進(jìn)一步研究了他們的方法在不同場(chǎng)景下的表現(xiàn)。在HumanRef基準(zhǔn)測(cè)試中,Rex-Thinker在屬性、位置、交互、推理和名人識(shí)別等各種類別中都取得了優(yōu)異成績(jī)。特別是在拒絕測(cè)試中,該模型實(shí)現(xiàn)了68.2%的得分,遠(yuǎn)高于其他方法。在域外評(píng)估中,即使是在未曾見過的RefCOCOg數(shù)據(jù)集上,僅用HumanRef-CoT訓(xùn)練的模型也表現(xiàn)出強(qiáng)大的零樣本泛化能力。

這項(xiàng)研究的意義不僅限于技術(shù)突破。想象一下,當(dāng)我們要求自動(dòng)駕駛汽車"避開那個(gè)騎自行車的孩子",或者請(qǐng)智能家居系統(tǒng)"關(guān)掉廚房里的燈"時(shí),系統(tǒng)能夠像人類一樣理解并解釋它的行動(dòng),這將極大地提高AI系統(tǒng)的可用性和安全性。

雖然Rex-Thinker展示了令人印象深刻的性能,但研究團(tuán)隊(duì)也指出了一些局限性。例如,在處理涉及多個(gè)物體之間復(fù)雜互動(dòng)關(guān)系的場(chǎng)景時(shí),該模型表現(xiàn)相對(duì)較弱。另外,由于采用了鏈?zhǔn)酵评淼姆绞?,Rex-Thinker的推理速度比直接預(yù)測(cè)方法慢,這可能會(huì)在某些實(shí)時(shí)應(yīng)用中造成挑戰(zhàn)。

總的來(lái)說(shuō),Rex-Thinker代表了物體指代領(lǐng)域的重要進(jìn)步,它不僅提高了準(zhǔn)確性,更引入了可解釋性和可靠性這兩個(gè)關(guān)鍵特性。通過模仿人類的思維過程,AI系統(tǒng)離真正理解我們的指令又近了一步。對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手將能更準(zhǔn)確地理解我們的復(fù)雜指令,并在無(wú)法完成任務(wù)時(shí)坦率地告訴我們?cè)?,而不是給出令人困惑的錯(cuò)誤回應(yīng)。

有興趣深入了解這項(xiàng)研究的讀者可以訪問研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://rexthinker.github.io/,或者查閱他們?cè)贕itHub上發(fā)布的代碼https://github.com/IDEA-Research/Rex-Thinker。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-