這項(xiàng)由意大利特倫托大學(xué)(UNITN)、中國哈爾濱工業(yè)大學(xué)(HIT)、北京大學(xué)(PKU)、中國科學(xué)院信息工程研究所(IIE, CAS)、中國科學(xué)院大學(xué)(UCAS)、北京航空航天大學(xué)(BUAA)、南京理工大學(xué)(NJUST)和南開大學(xué)(NKU)多所高校聯(lián)合完成的研究,于2025年5月在arXiv上發(fā)布(arXiv:2505.22810v1),目前正在同行評(píng)審中。該論文由Zhoufaran Yang、Yan Shu(共同第一作者)等多位研究者共同完成,由Nicu Sebe教授領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過論文的GitHub倉庫(https://github.com/shuyansy/VidText)獲取更多信息。
視頻中的文本信息究竟有多重要?想象一下,當(dāng)你看一部外語電影時(shí),字幕幫你理解對(duì)話;當(dāng)你在陌生城市導(dǎo)航時(shí),路標(biāo)指引你的方向;當(dāng)你觀看體育比賽時(shí),計(jì)分板讓你了解比賽進(jìn)程。視頻中的文本元素不僅僅是裝飾,它們承載著豐富的語義信息,對(duì)整體視頻理解和局部人類行為推理至關(guān)重要。
然而,現(xiàn)有的視頻理解基準(zhǔn)測(cè)試大多關(guān)注主要事件、人物動(dòng)作和人際關(guān)系,而忽略了視頻文本這一重要元素。另一方面,專注于文字識(shí)別(OCR)的基準(zhǔn)測(cè)試則局限于靜態(tài)圖像,無法捕捉文本與動(dòng)態(tài)視覺上下文之間的交互。這就像我們有了識(shí)別靜態(tài)路標(biāo)的能力,卻無法理解這些路標(biāo)在行車過程中如何引導(dǎo)我們的旅程。
為了填補(bǔ)這一研究空白,研究團(tuán)隊(duì)提出了VidText,這是一個(gè)專為視頻文本理解設(shè)計(jì)的全面評(píng)估基準(zhǔn)。VidText就像是為大型多模態(tài)模型(LMMs)設(shè)計(jì)的一套全面考試,測(cè)試它們?cè)谧R(shí)別和理解視頻中文本信息的能力。這個(gè)基準(zhǔn)不僅僅關(guān)注"視頻中有什么文字",還深入探究"這些文字與視頻內(nèi)容有什么關(guān)系",以及"文字如何幫助我們理解視頻中發(fā)生的事件"。
VidText的創(chuàng)新之處在于它提供了三大關(guān)鍵特性:首先,它涵蓋了廣泛的現(xiàn)實(shí)場(chǎng)景并支持多語言內(nèi)容,包括英語、中文、韓語、日語和德語,確保模型能在不同語言和文化背景下正常工作。其次,它引入了一個(gè)分層評(píng)估框架,包括視頻級(jí)、片段級(jí)和實(shí)例級(jí)任務(wù),使我們能夠評(píng)估模型在全局總結(jié)和局部檢索方面的能力。最后,它還引入了一系列配對(duì)的感知推理任務(wù),從視覺文本感知到文本與視覺信息之間的跨模態(tài)推理,全方位測(cè)試模型的理解能力。
研究團(tuán)隊(duì)對(duì)18個(gè)最先進(jìn)的大型多模態(tài)模型(LMMs)進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果顯示當(dāng)前模型在大多數(shù)任務(wù)上表現(xiàn)不佳,有很大的改進(jìn)空間。盡管Gemini 1.5 Pro在所有模型中表現(xiàn)最佳,但其平均得分僅達(dá)到46.8%,遠(yuǎn)低于人類表現(xiàn)水平的89.5%。進(jìn)一步分析表明,模型內(nèi)在因素(如輸入分辨率、OCR能力)和外部因素(如輔助信息使用和思維鏈推理策略)都會(huì)影響模型性能。
讓我們一起深入探索這個(gè)全新的視頻文本理解世界,了解為什么它如此重要,以及它將如何推動(dòng)多模態(tài)人工智能在動(dòng)態(tài)環(huán)境中的發(fā)展。
一、視頻文本理解的挑戰(zhàn)與重要性
想象一下,你正在觀看一場(chǎng)足球比賽的視頻直播。屏幕上不僅有球員的動(dòng)作,還有比分顯示、球員姓名、戰(zhàn)術(shù)分析等各種文字信息。這些文本不僅僅是貼在視頻上的標(biāo)簽,它們與視頻內(nèi)容緊密相連,共同構(gòu)成了完整的視覺敘事。比如,當(dāng)比分從0:0變成1:0時(shí),這個(gè)文本變化往往伴隨著某個(gè)球員進(jìn)球的動(dòng)作,兩者之間存在時(shí)間和因果關(guān)系。
傳統(tǒng)的視頻理解基準(zhǔn)測(cè)試,如NExT-QA、MVBench和MovieChat-1K等,大多關(guān)注視頻中的主要事件和人物動(dòng)作,很少考慮文本信息。而專注于文本識(shí)別的基準(zhǔn)測(cè)試,如BovText和RoadText1k,則主要處理靜態(tài)圖像,無法捕捉文本在動(dòng)態(tài)視頻中的變化和意義。這就像我們有了認(rèn)識(shí)單詞的能力,卻無法理解這些單詞在句子和段落中如何構(gòu)建意義。
與靜態(tài)圖像相比,理解視頻中的動(dòng)態(tài)文本及其與不斷變化的視覺上下文的交互要復(fù)雜得多。這不僅需要在實(shí)例級(jí)別進(jìn)行精細(xì)定位,還需要在片段級(jí)別進(jìn)行時(shí)間跟蹤和發(fā)現(xiàn),以及在視頻級(jí)別進(jìn)行整體理解。此外,視頻文本出現(xiàn)在各種場(chǎng)景中,并跨越多種語言,這進(jìn)一步增加了識(shí)別和推理的復(fù)雜性。
VidText基準(zhǔn)的獨(dú)特之處在于它不僅測(cè)試模型"看到了什么文字",還測(cè)試模型能否理解"這些文字為什么出現(xiàn)在那里"以及"它們與視頻中的人物和事件有什么關(guān)系"。例如,一個(gè)商店櫥窗上的"大減價(jià)"標(biāo)志可能解釋了為什么人們聚集在那里,這一點(diǎn)僅從視覺線索可能并不明顯。
二、VidText數(shù)據(jù)集的構(gòu)建與特點(diǎn)
為了創(chuàng)建一個(gè)全面的視頻文本理解基準(zhǔn),研究團(tuán)隊(duì)采取了精心設(shè)計(jì)的數(shù)據(jù)收集和注釋策略,確保數(shù)據(jù)集的多樣性、質(zhì)量和代表性。
VidText數(shù)據(jù)集包含939個(gè)高質(zhì)量視頻,涵蓋27個(gè)精細(xì)類別,這些視頻來源廣泛,包括現(xiàn)有數(shù)據(jù)集如BOVText、RoadText-1K等,以及從YouTube等公共平臺(tái)收集的長形式視頻。為了確保視頻質(zhì)量,研究團(tuán)隊(duì)使用了Gomatching等工具評(píng)估文本密度,并過濾掉模糊、有水印或低分辨率的視頻。所有視頻都有至少3分鐘的持續(xù)時(shí)間,確保有足夠的時(shí)間內(nèi)容進(jìn)行分析。
在內(nèi)容分布上,VidText涵蓋了六大類視頻場(chǎng)景:娛樂、知識(shí)、生活記錄、自我中心視角、媒體和體育,每一類又細(xì)分為多個(gè)子類別。例如,體育類別包括足球、籃球、拳擊等具體運(yùn)動(dòng)。這種多樣性確保了模型能在各種真實(shí)場(chǎng)景中測(cè)試其文本理解能力。
在語言多樣性方面,VidText支持英語、中文、韓語、日語和德語,反映了真實(shí)世界視頻文本的多語言性質(zhì)。視頻持續(xù)時(shí)間也呈現(xiàn)多樣分布:約33.3%的視頻在0-30秒之間,50.4%在30-60秒之間,剩余的則是較長視頻,最長超過30分鐘。這種時(shí)長分布確保了模型能在短視頻和長視頻上都接受測(cè)試。
注釋過程采用自下而上的策略,構(gòu)建多粒度注釋,包括實(shí)例級(jí)、片段級(jí)和視頻級(jí)信息。首先,注釋者會(huì)在整個(gè)視頻中跟蹤至少三個(gè)清晰的視覺文本實(shí)例。對(duì)于每個(gè)實(shí)例,他們進(jìn)行逐幀精細(xì)注釋,直到文本消失,生成包含邊界框、轉(zhuǎn)錄和唯一跟蹤ID的注釋序列。
其次,根據(jù)視頻時(shí)長將視頻分割成多個(gè)時(shí)間段(短視頻每5秒一段,長視頻每20秒一段)。對(duì)于每個(gè)時(shí)間段,記錄視覺文本的存在情況,包括時(shí)間跨度和相關(guān)轉(zhuǎn)錄。
第三,注釋者執(zhí)行視頻級(jí)注釋,記錄整個(gè)視頻中出現(xiàn)的所有不同轉(zhuǎn)錄。對(duì)于中文,以文本行為基本注釋單位,而對(duì)于其他語言,則以單詞為單位進(jìn)行注釋。
除了文本感知注釋外,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)以視頻文本為中心的思維鏈(Chain-of-Thought,CoT)注釋流程,用于推理任務(wù)。這一流程首先使用自適應(yīng)采樣策略提取關(guān)鍵幀,然后利用視覺語言模型Aria生成高質(zhì)量的幀級(jí)描述,捕捉幀內(nèi)和幀間的上下文信息。基于這些描述和OCR轉(zhuǎn)錄,人類注釋者設(shè)計(jì)問答對(duì),聚焦于視覺文本與周圍視覺內(nèi)容之間的語義或因果關(guān)系。
為確保問答對(duì)質(zhì)量,研究團(tuán)隊(duì)執(zhí)行了兩個(gè)后驗(yàn)驗(yàn)證原則:一是遮蓋視覺文本,驗(yàn)證問題是否僅使用視覺內(nèi)容就能回答;二是遮蓋視覺幀,檢查問題是否僅使用文本信息就能回答。這確保了問答對(duì)確實(shí)需要模型同時(shí)理解文本和視覺信息。
三、VidText的任務(wù)體系與評(píng)估框架
VidText基準(zhǔn)不是簡(jiǎn)單地測(cè)試模型能否識(shí)別視頻中的文字,而是構(gòu)建了一個(gè)層次化的任務(wù)體系,從基礎(chǔ)的文本識(shí)別到復(fù)雜的語義推理,全面評(píng)估模型的視頻文本理解能力。
基于詳細(xì)的感知和推理注釋,研究團(tuán)隊(duì)定義了8個(gè)層次化任務(wù),分為視頻級(jí)、片段級(jí)和實(shí)例級(jí)三個(gè)粒度,每個(gè)粒度又包含感知和推理兩個(gè)維度:
第一組任務(wù)是整體OCR(HolisticOCR)和整體推理(HolisticReasoning)。整體OCR要求模型識(shí)別整個(gè)視頻中出現(xiàn)的所有視覺文本,去除重復(fù)條目,并按時(shí)間順序排序。研究者使用F1分?jǐn)?shù)評(píng)估這一任務(wù),基于實(shí)例級(jí)精確度和召回率計(jì)算。整體推理則評(píng)估模型通過整合識(shí)別的文本信息與全局語義上下文來理解視頻整體主題的能力。這個(gè)任務(wù)被設(shè)計(jì)為多標(biāo)簽選擇問題,模型需要從七個(gè)候選選項(xiàng)中選擇三個(gè)正確答案,性能通過top-3準(zhǔn)確率衡量。
第二組任務(wù)是局部OCR(LocalOCR)和局部推理(LocalReasoning)。與整體任務(wù)不同,局部任務(wù)關(guān)注模型在用戶指定視頻段內(nèi)發(fā)現(xiàn)和解釋視覺文本的能力。局部OCR要求識(shí)別給定段內(nèi)出現(xiàn)的所有視覺文本,使用實(shí)例級(jí)匹配的F1分?jǐn)?shù)評(píng)估。局部推理評(píng)估模型從文本推斷局部語義含義或意圖的能力,設(shè)計(jì)為多項(xiàng)選擇題,通過答案準(zhǔn)確率衡量性能。
第三組任務(wù)是文本定位(TextLocalization)和時(shí)間因果推理(TemporalCausalReasoning)。類似于時(shí)間定位任務(wù),文本定位要求模型準(zhǔn)確預(yù)測(cè)特定文本在視頻中出現(xiàn)的時(shí)間間隔,使用基于地面真相時(shí)間跨度的平均交并比(mIoU)評(píng)估。相應(yīng)的推理任務(wù)——時(shí)間因果推理,超越了定位,評(píng)估模型是否能推斷識(shí)別文本與后續(xù)多模態(tài)事件或動(dòng)作之間的因果關(guān)系。標(biāo)準(zhǔn)評(píng)估采用多項(xiàng)選擇形式,以準(zhǔn)確率作為性能指標(biāo)。
第四組任務(wù)是文本跟蹤(TextTracking)和空間推理(SpatialReasoning)。給定目標(biāo)文本實(shí)例,文本跟蹤要求模型預(yù)測(cè)其在視頻中首次和最后出現(xiàn)時(shí)的空間邊界框位置??臻g推理擴(kuò)展了這一任務(wù),要求模型在指定時(shí)間戳推斷文本實(shí)例與周圍視覺元素之間的空間關(guān)系。為了實(shí)現(xiàn)與LMMs的標(biāo)準(zhǔn)化評(píng)估,這兩個(gè)任務(wù)都被格式化為多項(xiàng)選擇題。
這一層次化的任務(wù)體系使VidText能夠評(píng)估模型在感知和推理兩個(gè)層次上處理不同粒度視頻文本的能力,從整體視頻主題理解到精細(xì)的時(shí)空文本交互。通過將感知任務(wù)與對(duì)應(yīng)的推理任務(wù)配對(duì),VidText建立了一個(gè)從視覺文本感知到跨模態(tài)推理的全面框架,涵蓋多級(jí)理解能力。
四、大型多模態(tài)模型的表現(xiàn)與挑戰(zhàn)
研究團(tuán)隊(duì)對(duì)18個(gè)最先進(jìn)的大型多模態(tài)模型(LMMs)進(jìn)行了全面評(píng)估,包括專有模型(如Gemini系列和GPT系列)和開源模型(如VideoLLaMA 3、InternVL 2.5等)。評(píng)估采用零樣本方式進(jìn)行,即模型在沒有任何任務(wù)特定微調(diào)的情況下直接應(yīng)用于VidText任務(wù)。
總體結(jié)果顯示,即使是最先進(jìn)的模型在視頻文本理解方面仍面臨重大挑戰(zhàn)。Gemini 1.5 Pro在所有模型中表現(xiàn)最佳,但其平均得分僅為46.8%,與人類表現(xiàn)水平(89.5%)相差甚遠(yuǎn)。大多數(shù)模型在多粒度任務(wù)上表現(xiàn)不佳,特別是在需要精確視覺文本識(shí)別和跨模態(tài)推理的任務(wù)上。
專有模型通常比開源模型表現(xiàn)更好,這可能得益于它們更大的模型規(guī)模和更豐富的訓(xùn)練數(shù)據(jù)。然而,一些開源模型在特定任務(wù)上表現(xiàn)出令人驚訝的強(qiáng)勁結(jié)果。例如,VideoLLaMA 3在時(shí)間因果推理和空間推理任務(wù)上取得了最高性能,這表明針對(duì)視頻理解的架構(gòu)設(shè)計(jì)可能比簡(jiǎn)單的模型規(guī)模更重要。
在多粒度任務(wù)中,視頻級(jí)和實(shí)例級(jí)任務(wù)比片段級(jí)任務(wù)更具挑戰(zhàn)性,這一現(xiàn)象在感知和推理設(shè)置中都存在。研究者推測(cè)這是由于當(dāng)前LMMs在兩方面能力有限:視頻級(jí)任務(wù)需要全局信息聚合,而實(shí)例級(jí)任務(wù)需要精細(xì)檢索和定位,這兩者都是現(xiàn)有模型的弱點(diǎn)。
對(duì)于視頻級(jí)和實(shí)例級(jí)任務(wù),感知和推理的性能顯示出強(qiáng)相關(guān)性,而在片段級(jí)任務(wù)中,兩者相對(duì)獨(dú)立。這可能是因?yàn)槟承┢渭?jí)感知任務(wù),如文本定位,需要基于精細(xì)視覺線索的準(zhǔn)確時(shí)間定位。然而,相應(yīng)的推理任務(wù),如時(shí)間推理,通??梢允褂孟∈璨蓸訋械木植恳曈X線索解決,使模型能夠繞過對(duì)精確感知輸出的需求。
此外,研究發(fā)現(xiàn),增加LLM的規(guī)模對(duì)推理任務(wù)的性能提升比對(duì)感知任務(wù)更顯著。這表明視頻文本感知不能僅通過模型規(guī)模有效改進(jìn),還需要謹(jǐn)慎的架構(gòu)設(shè)計(jì)、專門的訓(xùn)練數(shù)據(jù)和其他任務(wù)特定考慮因素。
為了進(jìn)一步探索影響視頻文本理解的關(guān)鍵因素,研究團(tuán)隊(duì)進(jìn)行了一系列消融研究。首先,他們驗(yàn)證了VidText的多粒度設(shè)計(jì)的有效性。對(duì)于整體任務(wù),隨機(jī)提取50%的視頻時(shí)長作為一個(gè)片段,評(píng)估整體推理性能;對(duì)于片段級(jí)和實(shí)例級(jí)任務(wù),基于原始任務(wù)注釋選擇關(guān)鍵片段。結(jié)果表明,片段級(jí)和實(shí)例級(jí)任務(wù)從基于片段的評(píng)估中顯著受益,因?yàn)殛P(guān)鍵幀提供了集中的視覺文本信息。相比之下,整體推理性能下降,因?yàn)槿蝿?wù)需要全局信息聚合,而這在只使用部分片段時(shí)會(huì)丟失。
其次,研究團(tuán)隊(duì)通過在不同隨機(jī)比例下選擇性地遮蔽視覺文本區(qū)域或周圍視頻內(nèi)容,驗(yàn)證了視頻文本和多模態(tài)上下文聯(lián)合推理的必要性。結(jié)果顯示,所有推理任務(wù)的性能隨著遮蔽比例的增加而一致下降,證實(shí)了文本和視覺線索對(duì)VidText任務(wù)設(shè)計(jì)下的推理都至關(guān)重要。
五、關(guān)鍵影響因素與未來改進(jìn)方向
通過深入的消融研究,研究團(tuán)隊(duì)揭示了影響視頻文本理解性能的幾個(gè)關(guān)鍵因素,包括模型內(nèi)在因素和外部因素。
在模型內(nèi)在因素方面,首先是輸入分辨率的影響。研究者使用兩個(gè)支持可調(diào)輸入大小的代表性模型——Oryx-1.5和InternVL2.5進(jìn)行測(cè)試。結(jié)果表明,增加分辨率顯著提高了視頻文本理解性能,特別是對(duì)于InternVL2.5,其輸入圖像被分成子塊,更高的分辨率允許更好地保留文本細(xì)節(jié)。
其次是OCR能力的作用。研究者參考了各模型在標(biāo)準(zhǔn)OCR基準(zhǔn)測(cè)試(如OCRBench)上的表現(xiàn),發(fā)現(xiàn)模型的視頻文本理解性能通常與其基礎(chǔ)OCR準(zhǔn)確率一致。這表明強(qiáng)大的基礎(chǔ)文本識(shí)別能力是處理視頻文本的先決條件。
最后是LLM骨干網(wǎng)絡(luò)的選擇。比較不同LLM骨干網(wǎng)絡(luò)的結(jié)果顯示,某些架構(gòu)(如Qwen2.5)在多語言場(chǎng)景中表現(xiàn)更強(qiáng),通常優(yōu)于基于LLaMA的變體。這些觀察共同表明,視頻文本理解受輸入保真度、OCR能力和語言建模能力的綜合影響。
在外部因素方面,研究團(tuán)隊(duì)首先探討了輔助信息是否能增強(qiáng)視頻文本理解,特別是對(duì)推理任務(wù)。他們考慮了音頻轉(zhuǎn)錄和視頻文本(如字幕或OCR輸出)兩種模態(tài),將它們轉(zhuǎn)換為文本序列并附加到原始查詢作為上下文字幕。實(shí)驗(yàn)表明,這兩種來源都對(duì)性能有積極貢獻(xiàn)。視頻文本在需要長程上下文的全局任務(wù)中提供更強(qiáng)的增益,而音頻轉(zhuǎn)錄對(duì)局部任務(wù)更有益,可能是因?yàn)樗鼈兣c短期動(dòng)作或事件的對(duì)齊。
其次,研究者提出了一種以視頻文本為中心的思維鏈(CoT)推理策略,將復(fù)雜的推理過程分解為結(jié)構(gòu)化的子步驟。具體來說,視頻被均勻分割成多個(gè)片段。對(duì)于每個(gè)片段,模型被提示執(zhí)行三個(gè)步驟:(1)發(fā)現(xiàn)所有可見文本,(2)生成對(duì)片段的詳細(xì)描述,以及(3)推斷是否有視覺文本與描述在語義上相關(guān),并相應(yīng)地回答推理問題。這種基于CoT的提示策略在所有推理任務(wù)上都帶來了一致的改進(jìn),突顯了測(cè)試時(shí)推理增強(qiáng)對(duì)視頻語言模型的潛力。
這些發(fā)現(xiàn)為未來視頻文本理解模型的發(fā)展提供了有價(jià)值的指導(dǎo)。它們表明,提高性能不僅需要增加模型規(guī)模,還需要改進(jìn)輸入處理(如更高分辨率)、增強(qiáng)OCR能力、整合輔助模態(tài)信息,以及采用更結(jié)構(gòu)化的推理策略。
六、VidText的意義與未來展望
VidText基準(zhǔn)的提出填補(bǔ)了現(xiàn)有視頻理解基準(zhǔn)中的重要空白。與現(xiàn)有基準(zhǔn)相比,VidText具有更全面的評(píng)估能力,包括更廣泛的場(chǎng)景覆蓋、多語言支持、多粒度任務(wù)和成對(duì)的感知-推理框架。這使得研究者能夠更全面地評(píng)估模型在視頻文本理解方面的能力,并識(shí)別需要改進(jìn)的關(guān)鍵領(lǐng)域。
實(shí)驗(yàn)結(jié)果揭示了當(dāng)前大型多模態(tài)模型在視頻文本理解方面的局限性,為未來研究提供了明確方向。盡管最先進(jìn)的模型已經(jīng)能夠處理基本的視頻文本任務(wù),但它們?cè)谛枰_文本定位、跟蹤和跨模態(tài)推理的復(fù)雜任務(wù)上仍然表現(xiàn)不佳。
未來研究可能需要關(guān)注幾個(gè)關(guān)鍵方向:首先,開發(fā)能更好地處理高分辨率輸入的架構(gòu),以捕捉視頻中的細(xì)粒度文本細(xì)節(jié);其次,增強(qiáng)模型的OCR能力,特別是在多語言和動(dòng)態(tài)場(chǎng)景中;第三,設(shè)計(jì)更有效的多模態(tài)融合機(jī)制,能夠整合視覺、文本和音頻信息;最后,探索更結(jié)構(gòu)化的推理框架,使模型能夠逐步分解復(fù)雜的視頻文本理解任務(wù)。
VidText不僅為現(xiàn)有視頻理解基準(zhǔn)提供了有價(jià)值的補(bǔ)充,還為OCR和多模態(tài)推理社區(qū)提供了新的見解。它展示了視頻文本理解是連接視覺感知和語義推理的重要橋梁,對(duì)于構(gòu)建能在動(dòng)態(tài)環(huán)境中進(jìn)行多模態(tài)推理的人工智能系統(tǒng)至關(guān)重要。
隨著視頻內(nèi)容在互聯(lián)網(wǎng)和社交媒體上的不斷增長,理解視頻中的文本及其與視覺上下文的交互變得越來越重要。VidText基準(zhǔn)為評(píng)估和改進(jìn)這一關(guān)鍵能力提供了一個(gè)全面的框架,推動(dòng)了視頻理解技術(shù)的發(fā)展。
總之,VidText代表了視頻文本理解研究的一個(gè)重要里程碑,它不僅揭示了當(dāng)前模型的局限性,還為未來的進(jìn)步鋪平了道路。通過提供一個(gè)標(biāo)準(zhǔn)化的評(píng)估框架,VidText將促進(jìn)更強(qiáng)大、更全面的視頻理解系統(tǒng)的發(fā)展,最終使人工智能能夠更好地理解和解釋我們?nèi)粘I钪胸S富的多模態(tài)內(nèi)容。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。