av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 當(dāng)AI學(xué)會(huì)"看懂"視頻后,我們離真正的機(jī)器人管家還有多遠(yuǎn)?——香港大學(xué)團(tuán)隊(duì)揭秘視頻理解新突破

當(dāng)AI學(xué)會(huì)"看懂"視頻后,我們離真正的機(jī)器人管家還有多遠(yuǎn)?——香港大學(xué)團(tuán)隊(duì)揭秘視頻理解新突破

2025-07-14 09:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:50 ? 科技行者

這項(xiàng)由香港大學(xué)劉西輝教授、騰訊PCG實(shí)驗(yàn)室葛悠影研究員等學(xué)者組成的國(guó)際團(tuán)隊(duì)完成的研究,發(fā)表于2025年3月31日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2503.24376v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv.org上訪問(wèn)完整論文。研究團(tuán)隊(duì)還在GitHub上開(kāi)源了相關(guān)代碼和數(shù)據(jù),網(wǎng)址為:https://github.com/TencentARC/SEED-Bench-R1。

當(dāng)我們?cè)谑謾C(jī)上輕松識(shí)別視頻中的物體或場(chǎng)景時(shí),很少會(huì)想到這背后的技術(shù)有多復(fù)雜?,F(xiàn)在,人工智能正在這個(gè)領(lǐng)域取得重大突破,但要讓AI真正"看懂"視頻內(nèi)容,就像人類(lèi)一樣既能觀察細(xì)節(jié)又能進(jìn)行邏輯推理,仍然是一個(gè)巨大的挑戰(zhàn)。

考慮這樣一個(gè)場(chǎng)景:你正在廚房準(zhǔn)備晚餐,需要在湯里加入奶油奶酪。你手里拿著一個(gè)奶油奶酪的容器,已經(jīng)把奶酪加入了湯中。這時(shí)候,下一步應(yīng)該做什么?對(duì)人類(lèi)來(lái)說(shuō),答案很明顯——扔掉空容器。但對(duì)AI來(lái)說(shuō),要做出正確判斷需要同時(shí)具備兩種能力:首先要能準(zhǔn)確觀察到容器已經(jīng)空了,奶酪已經(jīng)在湯里;其次要具備常識(shí)推理能力,知道空容器應(yīng)該被丟棄。

這正是研究團(tuán)隊(duì)想要解決的核心問(wèn)題。他們發(fā)現(xiàn),目前的AI視頻理解系統(tǒng)往往在某一方面表現(xiàn)出色,要么擅長(zhǎng)識(shí)別視頻中的物體和動(dòng)作(就像有一雙敏銳的眼睛),要么善于進(jìn)行邏輯推理(就像有一個(gè)聰明的大腦),但很少有系統(tǒng)能夠?qū)⑦@兩種能力完美結(jié)合。更重要的是,當(dāng)這些AI系統(tǒng)遇到與訓(xùn)練時(shí)不同的環(huán)境或任務(wù)時(shí),性能往往會(huì)大幅下降。

為了徹底解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為SEED-Bench-R1的全新測(cè)試平臺(tái)。這個(gè)平臺(tái)就像是為AI設(shè)計(jì)的"綜合能力考試",不僅要測(cè)試AI的基礎(chǔ)視覺(jué)識(shí)別能力,還要考驗(yàn)它在完全陌生環(huán)境中的表現(xiàn)。

一、構(gòu)建AI的"視頻理解考試系統(tǒng)"

研究團(tuán)隊(duì)設(shè)計(jì)的SEED-Bench-R1測(cè)試平臺(tái)非常巧妙,它基于真實(shí)的日常生活視頻,這些視頻都是從第一人稱(chēng)視角拍攝的,就像我們戴著攝像頭記錄自己的日?;顒?dòng)一樣。這種設(shè)計(jì)讓AI必須像人類(lèi)一樣,從主觀視角理解正在發(fā)生的事情。

整個(gè)測(cè)試系統(tǒng)被設(shè)計(jì)成三個(gè)難度遞增的層級(jí),就像游戲中的關(guān)卡一樣。第一層是"基礎(chǔ)關(guān)卡",AI需要在它熟悉的廚房環(huán)境中完成任務(wù),這些廚房場(chǎng)景在訓(xùn)練階段它已經(jīng)見(jiàn)過(guò)很多次。第二層是"挑戰(zhàn)關(guān)卡",AI仍然要完成廚房相關(guān)的任務(wù),但環(huán)境完全陌生——不同的廚房布局、不同的用具、不同的光線條件。第三層是"終極關(guān)卡",不僅環(huán)境陌生,連任務(wù)類(lèi)型都完全不同,可能是工作場(chǎng)景、娛樂(lè)活動(dòng)或其他日?;顒?dòng)。

每個(gè)測(cè)試題目都是一個(gè)具體的情境:給AI展示一段視頻顯示任務(wù)進(jìn)行到某個(gè)階段,然后展示當(dāng)前的觀察畫(huà)面,最后詢(xún)問(wèn)"為了完成某個(gè)目標(biāo),下一步應(yīng)該做什么?"AI需要從四個(gè)選項(xiàng)中選擇正確答案。這種設(shè)計(jì)確保AI不能僅僅依靠記憶或簡(jiǎn)單的模式匹配,而必須真正理解視頻內(nèi)容并進(jìn)行邏輯推理。

特別值得一提的是,這個(gè)測(cè)試平臺(tái)包含了超過(guò)5萬(wàn)個(gè)訓(xùn)練樣本和近5千個(gè)驗(yàn)證樣本。所有的正確答案都來(lái)自真實(shí)視頻中實(shí)際發(fā)生的下一個(gè)動(dòng)作,而錯(cuò)誤選項(xiàng)則是從同一個(gè)視頻的其他動(dòng)作中選取,這樣確保了答案的真實(shí)性和選項(xiàng)的合理性。

二、讓AI通過(guò)"自我獎(jiǎng)勵(lì)"學(xué)習(xí)的新方法

在傳統(tǒng)的AI訓(xùn)練中,研究人員通常會(huì)為每個(gè)訓(xùn)練樣本準(zhǔn)備詳細(xì)的"標(biāo)準(zhǔn)答案",就像給學(xué)生提供作業(yè)的完整解答步驟一樣。但這種方法存在一個(gè)問(wèn)題:準(zhǔn)備這些詳細(xì)答案需要大量人工工作,而且很難覆蓋所有可能的情況。

研究團(tuán)隊(duì)采用了一種全新的訓(xùn)練方法,叫做強(qiáng)化學(xué)習(xí)。這種方法更像是讓AI通過(guò)"試錯(cuò)"來(lái)學(xué)習(xí),就像人類(lèi)學(xué)習(xí)騎自行車(chē)一樣。AI會(huì)嘗試回答問(wèn)題,如果答案正確就獲得獎(jiǎng)勵(lì),如果錯(cuò)誤就不給獎(jiǎng)勵(lì)。通過(guò)無(wú)數(shù)次這樣的嘗試,AI逐漸學(xué)會(huì)了如何給出正確答案。

具體來(lái)說(shuō),研究團(tuán)隊(duì)使用了一種叫做GRPO(群體相對(duì)策略?xún)?yōu)化)的技術(shù)。這種技術(shù)的工作原理很有趣:系統(tǒng)會(huì)讓AI對(duì)同一個(gè)問(wèn)題生成多個(gè)不同的回答,然后比較這些回答的質(zhì)量,獎(jiǎng)勵(lì)表現(xiàn)好的回答,懲罰表現(xiàn)差的回答。這就像是讓AI與自己競(jìng)爭(zhēng),在競(jìng)爭(zhēng)中不斷提高。

這種方法有一個(gè)顯著優(yōu)勢(shì):它不需要人工準(zhǔn)備復(fù)雜的推理步驟,只需要知道最終答案是否正確即可。這大大降低了訓(xùn)練數(shù)據(jù)的準(zhǔn)備成本,同時(shí)讓AI能夠自主探索出最有效的推理方式。

三、令人驚喜的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果證實(shí)了研究團(tuán)隊(duì)的預(yù)期。使用強(qiáng)化學(xué)習(xí)訓(xùn)練的AI模型在所有三個(gè)難度層級(jí)上都顯著超越了傳統(tǒng)方法訓(xùn)練的模型。更令人驚喜的是,這種優(yōu)勢(shì)在面對(duì)陌生環(huán)境時(shí)表現(xiàn)得尤為明顯。

在基礎(chǔ)關(guān)卡中,強(qiáng)化學(xué)習(xí)模型的準(zhǔn)確率達(dá)到46.01%,而傳統(tǒng)訓(xùn)練方法只有43.79%。雖然提升幅度看似不大,但考慮到這是在AI已經(jīng)相對(duì)熟悉的環(huán)境中的表現(xiàn),這個(gè)提升已經(jīng)很有意義了。

真正的差距在挑戰(zhàn)關(guān)卡中顯現(xiàn)出來(lái)。當(dāng)面對(duì)完全陌生的廚房環(huán)境時(shí),強(qiáng)化學(xué)習(xí)模型的準(zhǔn)確率達(dá)到50.16%,而傳統(tǒng)方法只有44.10%。這個(gè)6個(gè)百分點(diǎn)的提升意味著AI的泛化能力得到了顯著增強(qiáng)。

最令人印象深刻的是終極關(guān)卡的結(jié)果。在面對(duì)完全不同的任務(wù)和環(huán)境時(shí),強(qiáng)化學(xué)習(xí)模型的整體準(zhǔn)確率達(dá)到44.89%,而傳統(tǒng)方法只有38.15%。這近7個(gè)百分點(diǎn)的提升說(shuō)明了強(qiáng)化學(xué)習(xí)在幫助AI適應(yīng)新情況方面的強(qiáng)大威力。

為了進(jìn)一步驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)還在另一個(gè)完全獨(dú)立的視頻理解基準(zhǔn)測(cè)試LongVideoBench上進(jìn)行了測(cè)試。結(jié)果同樣令人鼓舞:強(qiáng)化學(xué)習(xí)訓(xùn)練的模型在所有類(lèi)別的測(cè)試中都表現(xiàn)更好,整體準(zhǔn)確率達(dá)到43.40%,比傳統(tǒng)方法的40.00%高出3.4個(gè)百分點(diǎn)。

四、深入探索:AI是如何"看懂"視頻的

為了理解強(qiáng)化學(xué)習(xí)為什么如此有效,研究團(tuán)隊(duì)進(jìn)行了深入的分析。他們發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象:強(qiáng)化學(xué)習(xí)訓(xùn)練的AI在生成推理過(guò)程時(shí),雖然邏輯表述可能不夠完美,但它的"視覺(jué)注意力"卻變得更加準(zhǔn)確和集中。

這就像是一個(gè)人在解數(shù)學(xué)題時(shí),雖然口頭解釋可能不夠清晰,但眼睛總是能準(zhǔn)確地盯著關(guān)鍵的數(shù)字和符號(hào)。研究團(tuán)隊(duì)通過(guò)分析AI的注意力分布發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型能夠更準(zhǔn)確地關(guān)注視頻中的關(guān)鍵區(qū)域。

在一個(gè)奶油奶酪加湯的例子中,傳統(tǒng)訓(xùn)練的AI模型注意力比較分散,沒(méi)有重點(diǎn)關(guān)注湯鍋中已經(jīng)添加的奶酪。而強(qiáng)化學(xué)習(xí)訓(xùn)練的模型則準(zhǔn)確地將注意力集中在湯鍋內(nèi)的奶酪上,從而正確判斷出下一步應(yīng)該丟棄空容器。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI似乎學(xué)會(huì)了"動(dòng)態(tài)查詢(xún)"視覺(jué)信息。傳統(tǒng)方法訓(xùn)練的AI往往依賴(lài)記憶中的固定模式,而強(qiáng)化學(xué)習(xí)訓(xùn)練的AI會(huì)根據(jù)具體情況靈活地搜索視頻中的相關(guān)信息。這種差異在面對(duì)新環(huán)境時(shí)尤為重要,因?yàn)楣潭ǖ哪J皆谛颅h(huán)境中往往不再適用。

五、發(fā)現(xiàn)的局限性和改進(jìn)方向

雖然取得了顯著的進(jìn)步,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。

首先是視覺(jué)感知的精細(xì)度問(wèn)題。由于計(jì)算資源的限制,研究中使用的視頻幀數(shù)和分辨率都相對(duì)較低。這導(dǎo)致AI有時(shí)會(huì)遺漏一些重要的視覺(jué)細(xì)節(jié)。在一個(gè)準(zhǔn)備韭菜的例子中,AI未能發(fā)現(xiàn)韭菜末端已經(jīng)被切掉,因?yàn)檫@個(gè)細(xì)節(jié)在低分辨率的圖像中很難察覺(jué)。

其次是推理邏輯的一致性問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),使用簡(jiǎn)單獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)雖然能提高最終答案的準(zhǔn)確性,但生成的推理過(guò)程有時(shí)會(huì)出現(xiàn)邏輯矛盾。AI可能會(huì)在推理中說(shuō)出錯(cuò)誤的觀察結(jié)果,但最終仍然給出正確答案。這就像是一個(gè)學(xué)生在解題過(guò)程中犯了錯(cuò)誤,但最后的答案卻是對(duì)的。

第三是常識(shí)推理能力的不足。在一個(gè)洗芒果的例子中,AI知道要洗芒果,但沒(méi)有意識(shí)到需要先打開(kāi)水龍頭。這說(shuō)明AI在理解動(dòng)作的先決條件方面還有待改善。

六、對(duì)未來(lái)的啟示和建議

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了幾個(gè)重要的改進(jìn)方向。

首先,他們建議在進(jìn)行強(qiáng)化學(xué)習(xí)之前,應(yīng)該先增強(qiáng)AI的基礎(chǔ)推理能力。這就像是在教一個(gè)學(xué)生解復(fù)雜題目之前,要先確保他掌握了基本的數(shù)學(xué)運(yùn)算一樣??梢酝ㄟ^(guò)收集高質(zhì)量的推理示例來(lái)訓(xùn)練AI,讓它學(xué)會(huì)更好的思維方式。

其次,需要改進(jìn)獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)。目前的方法只關(guān)注最終答案是否正確,但不關(guān)注推理過(guò)程的質(zhì)量。未來(lái)可以設(shè)計(jì)更精細(xì)的獎(jiǎng)勵(lì)機(jī)制,既獎(jiǎng)勵(lì)正確的答案,也獎(jiǎng)勵(lì)合理的推理過(guò)程。

第三,需要提高強(qiáng)化學(xué)習(xí)算法對(duì)噪聲數(shù)據(jù)的抗干擾能力。在實(shí)際應(yīng)用中,訓(xùn)練數(shù)據(jù)不可能完全準(zhǔn)確,AI需要學(xué)會(huì)在不完美的數(shù)據(jù)中找到正確的模式。

最后,隨著計(jì)算能力的提升,應(yīng)該嘗試使用更高分辨率的圖像和更多的視頻幀,讓AI能夠感知到更細(xì)微的視覺(jué)細(xì)節(jié)。

說(shuō)到底,這項(xiàng)研究揭示了一個(gè)重要的事實(shí):讓AI真正理解視頻內(nèi)容并不僅僅是技術(shù)問(wèn)題,更是一個(gè)需要平衡多種能力的復(fù)雜挑戰(zhàn)。就像培養(yǎng)一個(gè)全面發(fā)展的學(xué)生需要在知識(shí)學(xué)習(xí)和實(shí)踐能力之間找到平衡一樣,打造真正智能的AI系統(tǒng)也需要在視覺(jué)感知和邏輯推理之間找到最佳的結(jié)合點(diǎn)。

這項(xiàng)研究的意義遠(yuǎn)超出了學(xué)術(shù)范疇。在不久的將來(lái),當(dāng)我們的家用機(jī)器人需要理解我們?cè)趶N房的活動(dòng)并提供幫助時(shí),當(dāng)自動(dòng)駕駛汽車(chē)需要理解復(fù)雜的交通情況時(shí),當(dāng)醫(yī)療AI需要分析手術(shù)視頻并提供建議時(shí),這些技術(shù)都將發(fā)揮關(guān)鍵作用。雖然我們距離真正的通用人工智能還有很長(zhǎng)的路要走,但像這樣的研究正在一步步地縮短這個(gè)距離。對(duì)于那些對(duì)技術(shù)發(fā)展感興趣的讀者,可以通過(guò)訪問(wèn)團(tuán)隊(duì)的GitHub項(xiàng)目或閱讀原始論文來(lái)了解更多技術(shù)細(xì)節(jié)。

Q&A

Q1:SEED-Bench-R1是什么?它與普通的AI測(cè)試有什么不同? A:SEED-Bench-R1是專(zhuān)門(mén)測(cè)試AI視頻理解能力的綜合平臺(tái),它的特別之處在于不僅測(cè)試AI識(shí)別視頻內(nèi)容的能力,還要考驗(yàn)AI在完全陌生環(huán)境中的推理能力。就像給AI設(shè)置三個(gè)難度遞增的關(guān)卡,從熟悉環(huán)境到陌生環(huán)境,再到完全不同的任務(wù)類(lèi)型。

Q2:強(qiáng)化學(xué)習(xí)訓(xùn)練的AI會(huì)不會(huì)比傳統(tǒng)方法更聰明? A:在視頻理解任務(wù)上確實(shí)表現(xiàn)更好,特別是在面對(duì)新環(huán)境時(shí)。但它也有局限性,比如推理過(guò)程可能不夠邏輯清晰,有時(shí)會(huì)給出正確答案但解釋錯(cuò)誤。就像一個(gè)學(xué)生能答對(duì)題目但解題步驟有問(wèn)題。

Q3:這項(xiàng)技術(shù)什么時(shí)候能應(yīng)用到我們的日常生活中? A:目前還在研究階段,但未來(lái)幾年內(nèi)可能會(huì)在智能家居、自動(dòng)駕駛、醫(yī)療診斷等領(lǐng)域看到應(yīng)用。研究團(tuán)隊(duì)已在GitHub開(kāi)源相關(guān)代碼,這將加速技術(shù)的發(fā)展和應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-