av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 當AI看視頻也會"產生幻覺":中科院團隊首次揭示大模型視頻理解的"認知盲區(qū)"

當AI看視頻也會"產生幻覺":中科院團隊首次揭示大模型視頻理解的"認知盲區(qū)"

2025-07-30 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 09:48 ? 科技行者

說到人工智能看視頻,你可能覺得這是個很神奇的能力——機器竟然能像人一樣理解視頻內容,回答各種問題。但你知道嗎?就像人有時會看錯東西一樣,AI在看視頻時也會出現"幻覺",明明視頻里是一只貓,它卻堅持說是一只狗。

這項由中國科學院大學洪成高、曲佳樹、唐靖怡等研究人員組成的團隊完成的研究,發(fā)表于2025年3月25日的arXiv預印本平臺(論文編號:arXiv:2503.19622v1),首次系統(tǒng)性地揭示了大型多模態(tài)模型在視頻理解中的"幻覺"問題。有興趣深入了解的讀者可以通過https://github.com/Hongcheng-Gao/HAVEN訪問完整的研究數據和代碼。

這個問題遠比想象中復雜。當AI模型處理靜態(tài)圖片時,它們已經會出現各種錯誤理解,比如把不存在的物體說成存在,或者張冠李戴地描述圖片內容。但視頻比圖片復雜得多——它不僅包含空間信息,還有時間維度,物體會移動,場景會變化,故事會發(fā)展。這就像讓一個人不僅要看懂一幅畫,還要理解一部電影的劇情發(fā)展,難度顯然大大增加。

研究團隊發(fā)現,現有的研究主要關注AI在圖片理解中的問題,但對視頻理解中的"幻覺"現象研究很少。這就好比我們知道一個人看照片可能會看錯,但不知道他看電影時會犯什么樣的錯誤。為了填補這個空白,研究團隊構建了一個名為HAVEN的全新評估體系,專門用來檢測AI模型在視頻理解中的各種錯誤。

更重要的是,他們不僅發(fā)現了問題,還提出了解決方案。受到最新思維模型如OpenAI o1的啟發(fā),研究團隊開發(fā)了一種"視頻思維模型",通過讓AI進行更深層的推理來減少這些幻覺現象。結果顯示,這種方法將模型的準確率提升了7.65%,同時將偏差降低了4.5%。

一、當AI遇到視頻:比看圖片復雜千萬倍的挑戰(zhàn)

要理解AI看視頻時為什么會出錯,我們先得明白視頻和圖片的根本區(qū)別。如果說理解一張圖片就像看一幅靜態(tài)的油畫,那么理解視頻就像要讀懂一本動態(tài)的連環(huán)畫冊,每一頁都在講述故事的不同片段,而且這些片段之間還有復雜的因果關系。

當AI模型看一張圖片時,它需要識別圖片中的物體、理解物體之間的關系、推斷場景的背景信息。但當它面對視頻時,除了這些基礎任務,還需要追蹤物體在時間軸上的運動軌跡、理解動作的先后順序、把握場景的變化節(jié)奏,甚至推斷視頻背后的故事邏輯。這就像讓一個人不僅要認識舞臺上的每個演員,還要理解整出戲的劇情發(fā)展。

研究團隊通過對16個不同的大型多模態(tài)模型進行測試,發(fā)現了一個有趣的現象:即使是表現最好的模型,在處理視頻時也會出現各種意想不到的錯誤。比如,一個模型可能正確識別出視頻中有一只貓,但卻錯誤地認為這只貓在做一個它根本沒有做的動作。

這些錯誤并不是隨機出現的,而是有規(guī)律可循的。研究團隊發(fā)現,AI模型在處理視頻時的錯誤主要表現在三個方面:對物體的誤解、對場景的誤判,以及對事件的錯誤理解。這就像一個人看電影時,可能會認錯主角(物體錯誤),搞錯故事發(fā)生的地點(場景錯誤),或者誤解劇情的發(fā)展(事件錯誤)。

更讓人意外的是,視頻的長度也會影響AI的表現。研究發(fā)現,當視頻太短時,AI獲得的信息不夠充分,容易產生誤解。但當視頻太長時,AI又可能被過多的信息所干擾,反而表現更差。這就像讓人看電影,如果只看幾秒鐘的片段,很難理解完整劇情;但如果電影太長,人的注意力也會分散,可能錯過重要細節(jié)。

二、解剖AI的"視頻幻覺":三大根源和九種表現

要治療疾病,首先得準確診斷病因。研究團隊像醫(yī)生診斷病人一樣,仔細分析了AI在視頻理解中出現幻覺的根本原因,發(fā)現主要有三大根源。

第一大根源是"知識沖突"。這就像一個人帶著固有偏見去看新事物一樣。AI模型在訓練過程中學到了大量的常識知識,比如"狗通常是四條腿的動物"、"汽車通常在路上行駛"等等。但當視頻中出現與這些常識不符的內容時,模型就可能固執(zhí)地按照既有知識來理解,而忽視視頻中的真實情況。比如,如果視頻中出現一只用兩條腿走路的狗,模型可能會因為與常識沖突而產生困惑。

第二大根源是"語境沖突"。有時候,視頻內容與問題本身存在矛盾,或者問題的設計就有問題。這就像有人指著一張?zhí)O果的圖片問你"這個橙子是什么顏色的"一樣讓人困惑。在這種情況下,合理的回答應該是"我不知道"或"問題有誤",但AI模型往往會強行給出一個答案,導致產生幻覺。

第三大根源是"能力缺陷"。這是最容易理解的一種情況——AI模型本身的能力還不夠強,特別是在數學計算和精確計數方面。比如,當需要數視頻中有幾個人或幾輛車時,模型經常會數錯。這就像讓一個視力不好的人在遠處數星星,出錯是很自然的事情。

基于這三大根源,研究團隊進一步發(fā)現AI的視頻幻覺主要表現在九個方面。在物體理解方面,AI可能會看錯物體是否存在、搞混物體之間的關系,或者誤判物體的屬性。在場景理解方面,AI可能會搞錯視頻的拍攝地點、弄混季節(jié)時間,或者誤解整體環(huán)境。在事件理解方面,AI可能會看錯動作的執(zhí)行者、搞混事件的先后順序,或者完全誤解故事的發(fā)展。

為了系統(tǒng)性地研究這些問題,研究團隊構建了一個包含6497個問題的大型測試數據集。這些問題就像是專門設計的"陷阱",用來檢驗AI模型是否會在特定情況下產生幻覺。數據集中的視頻來源豐富,包括日?;顒?、體育運動等各種場景,時長從幾秒到幾分鐘不等。

三、大規(guī)模實驗揭示的驚人發(fā)現:AI看視頻的七大規(guī)律

研究團隊對16個不同的AI模型進行了全面測試,這些模型的參數規(guī)模從30億到340億不等,就像是測試了從小學生到博士生不同"智力水平"的AI。測試結果揭示了許多令人意外的規(guī)律。

首先是關于模型大小的發(fā)現。就像我們直覺上認為的那樣,更大的模型通常表現更好,出現幻覺的頻率更低。但這種關系并不是簡單的線性關系。研究發(fā)現,當模型規(guī)模從70億參數增加到130億參數時,性能提升最為顯著,但繼續(xù)增大到340億參數時,提升就變得相對緩慢了。這就像學習一樣,從小學到中學階段進步最快,但到了高等教育階段,每一步提升都需要更多的努力。

關于視頻長度的發(fā)現更加有趣。研究團隊發(fā)現了一個類似倒U形的關系曲線:當視頻太短(少于5秒)時,AI因為信息不足而容易出錯;當視頻長度適中(5-20秒)時,AI表現最好;但當視頻過長(超過30秒)時,AI的表現反而開始下降。這就像讓人記住一個電話號碼,太短的號碼容易記混,太長的號碼又超出了記憶容量,只有適中長度的號碼最容易準確記住。

在視頻幀數的處理上,研究發(fā)現了另一個有趣的規(guī)律。AI模型通常會從視頻中抽取一定數量的關鍵幀來進行分析,就像看電影時只看幾張劇照來理解劇情一樣。測試發(fā)現,當抽取的幀數太少時,AI缺乏足夠的信息;但當幀數過多時,AI又可能被冗余信息所干擾。最佳的幀數通常在8-16幀之間,這個范圍正好平衡了信息完整性和處理效率。

問題復雜度也顯著影響AI的表現。研究團隊發(fā)現,簡單的是非題(比如"視頻中有沒有貓?")相對容易回答,AI的準確率較高。但涉及復雜推理的開放性問題(比如"這個人為什么這樣做?")就困難得多,AI經常會給出不著邊際的答案。這就像考試一樣,選擇題比作文題更容易得分。

最令人驚訝的發(fā)現是關于"鏈式思維推理"的效果。當研究團隊讓AI模型在回答問題前先進行step-by-step的分析思考時,所有測試的模型都顯示出了明顯的性能提升。這就像讓學生在回答問題前先列出解題步驟一樣,雖然過程更復雜,但結果更準確。這個發(fā)現為后續(xù)的解決方案提供了重要啟發(fā)。

在不同類型的錯誤中,研究發(fā)現"語境沖突"類型的錯誤最難處理。當視頻內容與問題存在邏輯矛盾時,AI很難像人類一樣說出"這個問題有問題",而是會強行給出一個答案。這反映了當前AI模型在元認知能力(對自己知識邊界的認知)方面還存在顯著不足。

四、突破性解決方案:讓AI學會"思考"再回答

面對AI視頻理解中的幻覺問題,研究團隊沒有停留在發(fā)現問題的層面,而是提出了一個創(chuàng)新的解決方案。他們的核心思路很簡單:既然讓AI進行step-by-step思考能提升性能,那么能否訓練出一個專門擅長"思考"的AI模型呢?

這個想法的靈感來自于最近備受關注的OpenAI o1模型。o1模型的一個重要特點是會在給出最終答案前進行詳細的內部推理,就像一個學生在考試時會先在草稿紙上列出解題步驟,然后再寫出最終答案。研究團隊決定將這種"思維模式"引入到視頻理解任務中。

他們的解決方案分為兩個步驟,就像訓練一個學生首先學會思考方法,然后學會避免常見錯誤。

第一步叫做"監(jiān)督推理微調"。由于現有的思維模型主要處理文本或單張圖片,無法直接處理視頻,研究團隊設計了一個巧妙的方法。他們使用現有的圖像思維模型對靜態(tài)圖片進行詳細的推理分析,然后將這些圖片復制成靜態(tài)視頻,配合原有的推理過程創(chuàng)建訓練數據。這就像讓一個擅長分析照片的專家來訓練一個視頻分析新手,雖然視頻是靜態(tài)的,但推理的思路和方法是可以遷移的。

通過這種方法,他們生成了大約5000個包含詳細推理過程的訓練樣本。每個樣本都包含一個視頻、一個問題,以及一個詳細的step-by-step分析過程。AI模型通過學習這些樣本,逐漸掌握了在回答視頻問題前進行系統(tǒng)性思考的能力。

第二步叫做"基于思維的直接偏好優(yōu)化"。即使AI學會了思考,它的思考過程中仍然可能包含錯誤信息或幻覺內容。這就像一個學生雖然學會了解題步驟,但在具體計算中仍可能出錯。為了解決這個問題,研究團隊開發(fā)了一種精細化的糾錯方法。

他們讓訓練好的模型對測試問題進行詳細推理,然后人工檢查推理過程中的每一個步驟,發(fā)現并標記出包含幻覺或錯誤的部分。接著,他們手動修正這些錯誤,創(chuàng)建出"正確版本"的推理過程。這樣,對于同一個問題,他們就有了兩個版本:一個包含錯誤的原始版本,一個經過修正的正確版本。

關鍵的創(chuàng)新在于,他們沒有簡單地告訴AI"這個答案是錯的,那個答案是對的",而是在推理過程的每個細節(jié)層面進行精細化反饋。比如,如果AI在推理過程中說"視頻中的貓是黑色的",而實際上貓是白色的,系統(tǒng)就會對這個具體的錯誤給予更強的負面反饋。這種方法就像一個細心的老師不僅會指出學生的最終答案錯了,還會具體指出錯在哪個計算步驟上。

五、實驗驗證:思維訓練帶來的顯著提升

為了驗證這個解決方案的效果,研究團隊選擇了LLaVA-NeXT-Video-DPO-7B模型作為基礎,對其進行了思維能力訓練。實驗結果令人振奮。

經過訓練的"思維版本"模型在幻覺評估中的準確率達到了52.90%,比原始模型的45.25%提升了7.65個百分點。更重要的是,在一致性評估中,新模型的偏差得分降低到了41.02%,比原始模型的45.52%降低了4.5個百分點。這意味著訓練后的模型不僅更準確,而且更穩(wěn)定可靠。

這種提升在各個細分領域都有體現。在物體識別方面,新模型的準確率從51.48%提升到58.28%。在場景理解方面,從62.24%提升到69.97%。在事件理解方面,從48.27%提升到53.37%。可以說,思維訓練帶來了全方位的性能提升。

特別值得注意的是,經過訓練的模型在處理復雜推理問題時表現尤其出色。研究團隊展示了兩個典型案例。在第一個案例中,當被問及"誰在視頻中使用捕鼠器"時,原始模型可能會給出簡短而模糊的答案,而思維模型會詳細分析視頻中的每個元素:首先識別出視頻中有一只貓和一個捕鼠器,然后觀察貓的行為,最后基于這些觀察得出結論。整個推理過程清晰透明,就像一個人在向你解釋他的思考過程。

在第二個案例中,面對"男孩用什么來實現飛行"的問題,思維模型會先分析視頻的背景(哈利波特電影場景),然后逐一評估各個選項的可能性,最終得出正確答案。這種詳細的推理過程不僅提高了準確率,還增強了答案的可解釋性。

六、深層洞察:AI視頻理解的未來方向

通過這項研究,團隊不僅解決了當前的問題,還為未來的發(fā)展方向提供了重要洞察。

首先,研究證實了"慢思考"對于復雜AI任務的重要性。就像人類在面對復雜問題時需要仔細思考一樣,AI模型也可以通過引入顯式的推理過程來提升性能。這與當前AI發(fā)展的一個重要趨勢相吻合——從追求更快的反應速度轉向追求更深層的理解能力。

其次,研究揭示了多模態(tài)AI系統(tǒng)中存在的一個普遍問題:不同模態(tài)信息之間的協調困難。視頻包含了視覺、時間、空間等多個維度的信息,如何讓AI模型有效整合這些信息仍然是一個挑戰(zhàn)。研究團隊的方法提供了一種可能的解決思路,但顯然還有很大的改進空間。

研究還發(fā)現,當前的AI模型在元認知能力方面還相當薄弱。當面對超出自己能力范圍的問題時,AI很難像人類一樣承認"我不知道",而是傾向于給出一個聽起來合理但實際錯誤的答案。這個問題不僅存在于視頻理解中,在AI的其他應用領域也普遍存在。

從技術發(fā)展的角度來看,這項研究也指出了幾個重要的發(fā)展方向。一是需要開發(fā)更好的視頻表示方法,能夠更有效地捕捉時空信息。二是需要改進AI模型的推理架構,使其能夠進行更復雜的多步推理。三是需要建立更好的評估體系,能夠更準確地衡量AI模型的真實能力和局限性。

七、現實影響:從實驗室到日常生活的轉化

這項研究的意義不僅限于學術層面,它對我們日常生活中接觸到的AI應用也有重要影響。

在視頻內容審核方面,社交媒體平臺每天需要處理數十億個視頻,依靠AI進行自動審核。但如果AI會產生幻覺,可能會錯誤地刪除正常內容或者放過違規(guī)內容。通過改進AI的視頻理解能力,可以讓內容審核更加準確公正。

在智能監(jiān)控系統(tǒng)中,AI需要準確識別監(jiān)控視頻中的異常行為。如果AI產生幻覺,可能會誤報正常行為為異常,或者錯過真正的安全威脅。提升AI的視頻理解準確性直接關系到公共安全。

在教育領域,越來越多的在線教育平臺開始使用AI來分析學生的學習視頻,評估學習效果。如果AI對視頻內容的理解存在偏差,可能會給出錯誤的學習建議,影響教育質量。

在醫(yī)療領域,AI輔助診斷系統(tǒng)需要分析醫(yī)學影像視頻,如超聲檢查、內鏡檢查等。AI的幻覺問題在這里可能導致誤診,直接關系到患者的健康和生命安全。

研究團隊開發(fā)的思維訓練方法為解決這些現實問題提供了新的思路。通過讓AI進行更細致的推理,可以顯著提升其在各種應用場景中的可靠性和準確性。

八、技術細節(jié):從理論到實踐的完整鏈條

雖然前面用比較通俗的語言介紹了研究的主要內容,但這項研究在技術實現上也有許多值得關注的創(chuàng)新點。

在數據構建方面,研究團隊設計了一個三維分類體系來系統(tǒng)性地覆蓋各種可能的幻覺情況。他們不是隨機收集測試樣本,而是根據理論分析有針對性地設計測試場景。這就像設計一套全面的體檢項目,確保能夠發(fā)現各種可能的健康問題。

在評估方法上,研究團隊沒有簡單地依賴人工評估,而是開發(fā)了一套基于GPT-4o-mini的自動評估系統(tǒng)。這個系統(tǒng)能夠理解AI模型的復雜推理過程,判斷最終答案的正確性。同時,為了確保評估的公正性,他們還設計了特殊的問題變體來檢測AI模型的一致性。

在訓練方法上,研究團隊巧妙地結合了監(jiān)督學習和強化學習的優(yōu)勢。監(jiān)督學習部分讓模型學會了基本的推理模式,而強化學習部分則通過精細化的反饋幫助模型減少幻覺內容。這種組合式的訓練方法比單純使用其中一種方法效果更好。

特別值得一提的是,研究團隊在實驗設計上考慮了許多實際應用中的因素。比如,他們測試了不同長度視頻對模型性能的影響,不同采樣幀數的效果,以及不同類型問題的難度差異。這些細致的分析為實際部署這類系統(tǒng)提供了重要的參考依據。

研究團隊還建立了一個開放的代碼和數據平臺,讓其他研究者可以復現他們的實驗結果,并在此基礎上進行進一步的改進。這種開放共享的精神對于整個AI研究社區(qū)的發(fā)展具有重要意義。

總的來說,這項研究展現了從問題發(fā)現、理論分析、方法設計、實驗驗證到開放共享的完整研究鏈條,為相關領域的后續(xù)研究奠定了堅實的基礎。相信隨著更多研究者的參與和改進,AI的視頻理解能力將會得到持續(xù)提升,最終讓我們在日常生活中享受到更可靠、更智能的AI服務。

Q&A

Q1:什么是AI的"視頻幻覺"?這和人看錯東西有什么區(qū)別? A:AI的"視頻幻覺"是指AI模型在分析視頻時給出看似合理但實際錯誤的答案,比如說視頻中有狗實際上是貓。與人看錯東西不同,AI的錯誤更加系統(tǒng)性和可預測,主要源于訓練數據的局限性和模型架構的不足,而人的錯誤多是由于注意力分散或視覺錯覺。

Q2:這種"思維訓練"方法能完全解決AI看視頻出錯的問題嗎? A:目前還不能完全解決,但已經帶來了顯著改善。研究顯示準確率提升了7.65%,偏差降低了4.5%。這就像讓學生學會了解題步驟,雖然不能保證100%正確,但明顯比之前更可靠。完全解決這個問題還需要在數據質量、模型架構等多個方面繼續(xù)改進。

Q3:普通人現在能體驗到這種改進后的AI視頻理解技術嗎? A:目前這項研究還處于學術階段,普通用戶暫時無法直接體驗。但研究團隊已經開源了代碼和數據(https://github.com/Hongcheng-Gao/HAVEN),相信不久的將來會有科技公司將這些技術集成到實際產品中,比如視頻搜索、內容審核、智能監(jiān)控等應用中。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-