av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 當(dāng)AI也要學(xué)會"言行一致":騰訊與港大團隊打造更聰明的視頻理解模型

當(dāng)AI也要學(xué)會"言行一致":騰訊與港大團隊打造更聰明的視頻理解模型

2025-06-30 10:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 10:20 ? 科技行者

這項由香港大學(xué)劉錫輝教授、騰訊PCG ARC實驗室葛語嬰和葛一曉博士、以及香港中文大學(xué)王瑞教授等學(xué)者共同完成的研究發(fā)表于2025年6月,論文標(biāo)題為"GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning"。感興趣的讀者可以通過論文編號arXiv:2506.16141v1訪問完整研究內(nèi)容,相關(guān)代碼已在GitHub開源。

當(dāng)我們看到一個人說話時言不由衷,總會覺得這人不可信。有趣的是,現(xiàn)在的AI視頻理解模型也面臨著類似的問題——它們在分析視頻時,雖然經(jīng)常能給出正確答案,但推理過程卻經(jīng)常"前言不搭后語",就像一個學(xué)生在考試時胡亂寫了一堆過程,最后蒙對了答案一樣。

這種現(xiàn)象在AI領(lǐng)域被稱為"推理一致性"問題。當(dāng)前最先進的多模態(tài)大語言模型(簡單說就是能同時理解文字、圖片和視頻的AI)雖然在很多任務(wù)上表現(xiàn)出色,但它們的思考過程往往混亂不堪。比如,當(dāng)AI觀看一段廚房清潔的視頻后,它可能在推理中說"需要把布放到水龍頭下沖洗",但最終答案卻是"關(guān)閉水龍頭"——雖然答案是對的,但思路完全不對。

研究團隊為了解決這個問題,首先創(chuàng)建了一個專門的"考試系統(tǒng)"——SEED-Bench-R1基準(zhǔn)測試。這個測試系統(tǒng)就像是為AI設(shè)計的多級考試,包含了從簡單到復(fù)雜的三個等級。第一級是"在家考試",AI需要在熟悉的廚房環(huán)境中理解日常任務(wù);第二級是"換個教室考試",同樣的任務(wù)但換到了完全不同的廚房環(huán)境;第三級則是"跨專業(yè)考試",不僅環(huán)境全變了,連任務(wù)類型也從做飯擴展到了工作、娛樂、運動等各個領(lǐng)域。

這個測試系統(tǒng)最巧妙的地方在于,它要求AI不僅要給出正確答案,還要展示完整的思考過程。就像老師不僅要看學(xué)生的最終答案,還要檢查解題步驟是否合理。研究團隊通過分析發(fā)現(xiàn),現(xiàn)有的強化學(xué)習(xí)方法GRPO雖然能讓AI答對更多題目,但卻讓AI的思考過程變得更加混亂——正確率提高了,但推理的邏輯性卻下降了。

為了理解這個問題的根源,可以把AI的學(xué)習(xí)過程比作訓(xùn)練一個學(xué)生。傳統(tǒng)的訓(xùn)練方法只關(guān)注最終成績,就像只看考試分?jǐn)?shù)而不管學(xué)生是怎么得出答案的。這種方式會鼓勵學(xué)生"投機取巧"——可能通過死記硬背或者猜測來獲得高分,而不是真正理解問題。同時,過度嚴(yán)格的約束條件就像給學(xué)生戴上了"思維枷鎖",限制了他們探索不同解題思路的可能性。

針對這些問題,研究團隊提出了GRPO-CARE方法,這個名字中的"CARE"代表"一致性感知獎勵增強"。這種方法的核心思想是建立一個"雙重評分系統(tǒng)":不僅要獎勵答對題目的AI,還要額外獎勵那些推理過程邏輯清晰的AI。

具體來說,GRPO-CARE的工作機制是這樣的:首先,它會讓AI生成多個不同的推理過程和答案;然后,對于那些答案正確的推理過程,系統(tǒng)會進一步評估這些推理是否真的能支撐最終答案。這個評估過程依靠一個"參考老師"——一個通過指數(shù)移動平均方式緩慢更新的模型,它就像一個經(jīng)驗豐富但相對保守的老師,能夠判斷學(xué)生的推理過程是否合理。

這個參考老師的評估方式很有趣:它會看著AI的推理過程,然后判斷"如果按照這個思路,能得出這個答案的概率有多大"。如果概率很高,說明推理過程和答案是匹配的;如果概率很低,說明推理過程有問題。系統(tǒng)會比較同一批AI的表現(xiàn),只有那些推理過程既正確又邏輯清晰的AI才能獲得額外獎勵。

為了避免AI學(xué)會"一致但錯誤"的推理模式,系統(tǒng)只對答案正確的情況進行一致性評估。這就像老師只會對做對題目的學(xué)生進行解題思路的進一步指導(dǎo),而不會強化錯誤的解題方法。

實驗結(jié)果證明了這種方法的有效性。在SEED-Bench-R1的三個難度級別上,GRPO-CARE都顯著超越了傳統(tǒng)的GRPO方法。特別是在最困難的第三級測試中,性能提升了6.7%,而推理一致性更是提升了24.5%。這意味著AI不僅答得更對,思考過程也更加清晰合理。

研究團隊還進行了詳細(xì)的對比實驗,測試了各種不同的改進策略。他們發(fā)現(xiàn),簡單地調(diào)整約束條件或者使用其他獎勵方式都不如GRPO-CARE效果好。比如,有些方法雖然能提高推理一致性,但會降低整體準(zhǔn)確率;有些方法能在簡單任務(wù)上有效,但在復(fù)雜任務(wù)上表現(xiàn)不佳。只有GRPO-CARE能夠在保證準(zhǔn)確率的同時顯著提升推理質(zhì)量。

更令人興奮的是,這種訓(xùn)練方法的效果具有很強的遷移性。當(dāng)研究團隊將用GRPO-CARE訓(xùn)練的模型應(yīng)用到其他視頻理解任務(wù)時,發(fā)現(xiàn)它在多個不同的測試基準(zhǔn)上都表現(xiàn)出色。這就像一個學(xué)會了正確學(xué)習(xí)方法的學(xué)生,不僅在數(shù)學(xué)上表現(xiàn)更好,在物理、化學(xué)等其他科目上也會有所提升。

從技術(shù)實現(xiàn)的角度來看,GRPO-CARE的創(chuàng)新之處在于它巧妙地平衡了多個目標(biāo)。傳統(tǒng)方法往往在提高準(zhǔn)確率和保持推理質(zhì)量之間存在權(quán)衡,而GRPO-CARE通過引入適應(yīng)性的一致性獎勵,實現(xiàn)了兩者的同時提升。這種方法不需要額外的人工標(biāo)注數(shù)據(jù),完全依靠模型自身的學(xué)習(xí)能力來改進推理質(zhì)量。

研究團隊在論文中還展示了一些具體的案例分析。例如,在一個高爾夫球訓(xùn)練場的視頻理解任務(wù)中,傳統(tǒng)的GRPO方法雖然能給出正確答案"用球桿擊球",但推理過程卻說要"把球移到發(fā)球臺",邏輯上前后矛盾。而GRPO-CARE訓(xùn)練的模型不僅給出了正確答案,推理過程也更加合理:先觀察到球已經(jīng)在發(fā)球臺上,然后得出應(yīng)該擊球的結(jié)論。

這項研究的意義不僅僅局限于技術(shù)層面,它也為AI的可解釋性提供了新的思路。在很多應(yīng)用場景中,我們不僅需要AI給出正確的結(jié)果,還需要理解AI是如何得出這個結(jié)果的。比如在醫(yī)療診斷、自動駕駛或者教育輔助等領(lǐng)域,AI的推理過程往往比結(jié)果本身更重要。GRPO-CARE方法為提升AI推理的透明度和可信度提供了一個有效的解決方案。

值得注意的是,這項研究還揭示了當(dāng)前AI發(fā)展中的一個重要問題:單純追求準(zhǔn)確率可能會導(dǎo)致AI學(xué)會"投機取巧",而忽視了推理過程的合理性。這提醒我們,在設(shè)計AI訓(xùn)練方法時,不能只關(guān)注最終指標(biāo),還要考慮中間過程的質(zhì)量。這種思路對于構(gòu)建更加可靠和可信的AI系統(tǒng)具有重要意義。

從更廣闊的視角來看,GRPO-CARE代表了AI研究中的一個新趨勢:從追求單一性能指標(biāo)轉(zhuǎn)向多目標(biāo)優(yōu)化。未來的AI系統(tǒng)不僅要聰明,還要"明白事理"——既能給出正確答案,又能清楚地解釋自己的思考過程。這種發(fā)展方向?qū)τ贏I在現(xiàn)實世界中的廣泛應(yīng)用具有重要意義。

研究團隊也在論文中討論了這種方法的局限性和未來發(fā)展方向。雖然GRPO-CARE在視頻理解任務(wù)上表現(xiàn)出色,但它在其他類型的多模態(tài)任務(wù)上的效果還需要進一步驗證。此外,如何進一步提高參考模型的質(zhì)量,以及如何設(shè)計更加精細(xì)的一致性評估機制,都是值得繼續(xù)探索的問題。

從實際應(yīng)用的角度來看,這項研究為開發(fā)更智能的視頻分析系統(tǒng)奠定了基礎(chǔ)。無論是智能監(jiān)控、內(nèi)容審核、教育視頻分析,還是自動駕駛中的環(huán)境理解,都需要AI能夠準(zhǔn)確理解視頻內(nèi)容并給出合理解釋。GRPO-CARE方法的成功為這些應(yīng)用場景提供了新的技術(shù)可能性。

說到底,這項研究解決的是一個看似簡單但實際上非常重要的問題:如何讓AI在變得更聰明的同時,也變得更加"理性"和"可信"。通過巧妙地設(shè)計獎勵機制,研究團隊成功地讓AI學(xué)會了"言行一致",這不僅提高了AI的性能,更重要的是增強了我們對AI決策過程的理解和信任。

對于普通人來說,這項研究的意義在于它讓AI變得更加"人性化"——不僅能給出正確答案,還能清楚地解釋為什么這個答案是對的。這種進步將使AI在日常生活中的應(yīng)用變得更加可靠和值得信賴,為構(gòu)建更好的人機交互體驗鋪平了道路。隨著這類技術(shù)的不斷發(fā)展和完善,我們有理由期待AI能夠成為更加智能、可靠的伙伴,在各個領(lǐng)域為人類提供更好的服務(wù)。

Q&A

Q1:GRPO-CARE是什么?它解決了什么問題? A:GRPO-CARE是一種新的AI訓(xùn)練方法,全稱是"一致性感知獎勵增強"。它解決的核心問題是AI雖然能答對問題,但推理過程經(jīng)常邏輯混亂的現(xiàn)象。就像學(xué)生雖然考試得分高,但解題步驟完全錯誤一樣。這種方法讓AI不僅要答對,還要推理合理。

Q2:SEED-Bench-R1基準(zhǔn)測試有什么特別之處? A:SEED-Bench-R1是專門為測試AI視頻理解能力設(shè)計的"三級考試系統(tǒng)"。第一級在熟悉環(huán)境中測試,第二級換到不同環(huán)境,第三級則是完全不同的任務(wù)和環(huán)境。這種設(shè)計能全面評估AI的泛化能力,就像從簡單的家庭作業(yè)逐步升級到高難度綜合考試。

Q3:這項研究會對普通人的生活產(chǎn)生什么影響? A:這項研究讓AI變得更加可信和透明。未來在醫(yī)療診斷、自動駕駛、教育輔助等領(lǐng)域,AI不僅能給出正確結(jié)果,還能清楚解釋原因。這意味著我們能更好地理解和信任AI的決策,讓AI成為更可靠的生活助手。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-