av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

像你一樣思考：鏈?zhǔn)酵评碜層?jì)算機(jī)更好地理解我們的指令

人工智能鏈?zhǔn)酵评?/a>視覺識(shí)別

像你一樣思考：鏈?zhǔn)酵评碜層?jì)算機(jī)更好地理解我們的指令

作者：科技行者

2025-06-07 16:01

分享至：

這項(xiàng)研究由IDEA、華南理工大學(xué)和北京大學(xué)聯(lián)合開發(fā)的Rex-Thinker系統(tǒng)，通過模仿人類的鏈?zhǔn)剿伎挤绞絹?lái)解決物體指代問題。與傳統(tǒng)直接輸出邊界框的方法不同，它采用規(guī)劃-行動(dòng)-總結(jié)的三步驟推理，使AI能像人類一樣逐步分析圖像中的候選物體，并在找不到匹配物體時(shí)拒絕作答。通過構(gòu)建90,824樣本的HumanRef-CoT數(shù)據(jù)集和兩階段訓(xùn)練方法，系統(tǒng)在精度、可解釋性和泛化能力上均取得了顯著進(jìn)步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 16:01 ? 科技行者

在人工智能研究領(lǐng)域，有一個(gè)關(guān)鍵問題長(zhǎng)期困擾著科學(xué)家們：如何讓機(jī)器準(zhǔn)確理解并執(zhí)行我們的指令？特別是當(dāng)我們要求計(jì)算機(jī)識(shí)別圖像中特定物體時(shí)，這個(gè)挑戰(zhàn)變得尤為復(fù)雜。由國(guó)際數(shù)字經(jīng)濟(jì)研究院(IDEA)、華南理工大學(xué)和北京大學(xué)的研究團(tuán)隊(duì)最近帶來(lái)了令人振奮的突破。他們的研究成果《Rex-Thinker: 基于鏈?zhǔn)酵评淼奈矬w指代定位》于2025年6月4日發(fā)布在arXiv預(yù)印本平臺(tái)（arXiv:2506.04034v1），為解決這一難題提供了全新思路。

想象一下，如果有人讓你"找出戴著黃色領(lǐng)帶的人右邊的女士"，你會(huì)怎么做？你可能會(huì)先找到戴黃色領(lǐng)帶的人，然后看看他右邊是否有女士。這個(gè)看似簡(jiǎn)單的思考過程，恰恰是當(dāng)前人工智能系統(tǒng)所缺乏的。大多數(shù)現(xiàn)有的AI系統(tǒng)更像是一個(gè)黑盒子，它們直接給出答案，卻無(wú)法解釋思考過程，更無(wú)法在找不到匹配對(duì)象時(shí)坦率地說(shuō)"沒有找到"。

蔣慶、陳星宇和他們的研究團(tuán)隊(duì)認(rèn)為，一個(gè)真正可靠的物體指代系統(tǒng)應(yīng)該具備兩個(gè)關(guān)鍵特性：一是可驗(yàn)證性，能夠提供清晰的推理過程來(lái)證明它的判斷；二是可信任性，在圖像中沒有匹配物體時(shí)能夠主動(dòng)拒絕作答。為此，他們開發(fā)了名為"Rex-Thinker"的系統(tǒng)，將物體指代任務(wù)轉(zhuǎn)變?yōu)橐粋€(gè)顯式的鏈?zhǔn)酵评磉^程。

這個(gè)系統(tǒng)的工作方式非常像人類的思考方式。例如，當(dāng)我們要求它"找出穿紅色襯衫的人"時(shí)，Rex-Thinker會(huì)先識(shí)別出圖像中所有的人，然后逐一檢查每個(gè)人的衣著，最后才給出最終判斷。整個(gè)過程分為規(guī)劃、行動(dòng)和總結(jié)三個(gè)階段，就像我們解決問題時(shí)會(huì)先制定計(jì)劃，然后按計(jì)劃行動(dòng)，最后總結(jié)結(jié)果一樣。

為了讓這個(gè)系統(tǒng)能夠?qū)W會(huì)這種人類式的推理，研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為"HumanRef-CoT"的大規(guī)模數(shù)據(jù)集，其中包含了90,824個(gè)示例，每個(gè)示例都配有詳細(xì)的推理過程。他們通過提示GPT-4o模型在HumanRef數(shù)據(jù)集上生成這些推理過程，確保每個(gè)推理都遵循規(guī)劃-行動(dòng)-總結(jié)的結(jié)構(gòu)，使模型能夠?qū)W習(xí)分解式、可解釋的推理能力。

研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法：首先進(jìn)行監(jiān)督式微調(diào)，教會(huì)模型如何執(zhí)行結(jié)構(gòu)化推理；然后使用基于GRPO（群體相對(duì)策略優(yōu)化）的強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步提高準(zhǔn)確性和泛化能力。實(shí)驗(yàn)結(jié)果顯示，Rex-Thinker在精確度和可解釋性方面都超過了標(biāo)準(zhǔn)基線方法，尤其在拒絕幻覺輸出方面表現(xiàn)出色。此外，即使在域外評(píng)估中，該模型也展示了強(qiáng)大的泛化能力。

讓我們通過一個(gè)具體例子來(lái)理解Rex-Thinker的工作方式。假設(shè)我們請(qǐng)它找出"坐在龜背上的人"。Rex-Thinker會(huì)先制定計(jì)劃：第一步識(shí)別所有的龜，第二步檢查每只龜背上是否有人。在執(zhí)行階段，它會(huì)仔細(xì)分析圖像中的每個(gè)區(qū)域，比如"人物1穿著紅色衣服站在秋千上，沒有坐在龜背上"，"人物3戴著紅帽子，穿著紅色衣服，正坐在綠色的龜背上"。最后，它會(huì)總結(jié)結(jié)果："人物3是坐在龜背上的人"。整個(gè)過程清晰可見，讓用戶能夠理解系統(tǒng)是如何得出結(jié)論的。

相比傳統(tǒng)方法直接輸出邊界框坐標(biāo)，Rex-Thinker的鏈?zhǔn)酵评矸椒ㄌ峁┝烁叩耐该鞫群涂煽啃浴．?dāng)圖像中沒有符合描述的物體時(shí)，它能夠明確表示"圖像中沒有這樣的物體"，避免了強(qiáng)行給出錯(cuò)誤答案的問題。

研究團(tuán)隊(duì)進(jìn)一步研究了他們的方法在不同場(chǎng)景下的表現(xiàn)。在HumanRef基準(zhǔn)測(cè)試中，Rex-Thinker在屬性、位置、交互、推理和名人識(shí)別等各種類別中都取得了優(yōu)異成績(jī)。特別是在拒絕測(cè)試中，該模型實(shí)現(xiàn)了68.2%的得分，遠(yuǎn)高于其他方法。在域外評(píng)估中，即使是在未曾見過的RefCOCOg數(shù)據(jù)集上，僅用HumanRef-CoT訓(xùn)練的模型也表現(xiàn)出強(qiáng)大的零樣本泛化能力。

這項(xiàng)研究的意義不僅限于技術(shù)突破。想象一下，當(dāng)我們要求自動(dòng)駕駛汽車"避開那個(gè)騎自行車的孩子"，或者請(qǐng)智能家居系統(tǒng)"關(guān)掉廚房里的燈"時(shí)，系統(tǒng)能夠像人類一樣理解并解釋它的行動(dòng)，這將極大地提高AI系統(tǒng)的可用性和安全性。

雖然Rex-Thinker展示了令人印象深刻的性能，但研究團(tuán)隊(duì)也指出了一些局限性。例如，在處理涉及多個(gè)物體之間復(fù)雜互動(dòng)關(guān)系的場(chǎng)景時(shí)，該模型表現(xiàn)相對(duì)較弱。另外，由于采用了鏈?zhǔn)酵评淼姆绞?，Rex-Thinker的推理速度比直接預(yù)測(cè)方法慢，這可能會(huì)在某些實(shí)時(shí)應(yīng)用中造成挑戰(zhàn)。

總的來(lái)說(shuō)，Rex-Thinker代表了物體指代領(lǐng)域的重要進(jìn)步，它不僅提高了準(zhǔn)確性，更引入了可解釋性和可靠性這兩個(gè)關(guān)鍵特性。通過模仿人類的思維過程，AI系統(tǒng)離真正理解我們的指令又近了一步。對(duì)于普通用戶來(lái)說(shuō)，這意味著未來(lái)的AI助手將能更準(zhǔn)確地理解我們的復(fù)雜指令，并在無(wú)法完成任務(wù)時(shí)坦率地告訴我們?cè)?，而不是給出令人困惑的錯(cuò)誤回應(yīng)。

有興趣深入了解這項(xiàng)研究的讀者可以訪問研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站https://rexthinker.github.io/，或者查閱他們?cè)贕itHub上發(fā)布的代碼https://github.com/IDEA-Research/Rex-Thinker。

人工智能鏈?zhǔn)酵评?/a>視覺識(shí)別

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn