這項由清華大學計算機系任一鳴、林志強、李昱、王蒙等研究團隊,聯(lián)合上海AI實驗室、復(fù)旦大學、香港中文大學等多家機構(gòu)共同開展的研究,發(fā)表于2025年7月的ArXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過論文鏈接https://github.com/qishisuren123/AnyCap訪問完整論文。
在我們的數(shù)字時代,AI已經(jīng)能夠為圖片、視頻和音頻生成字幕描述,但這些AI就像是只會說"標準話"的機器人——它們只能生成千篇一律的描述,無法根據(jù)用戶的具體需求進行個性化調(diào)整。你可能希望AI詳細描述背景環(huán)境,或者用詩歌的形式來描述一段音樂,又或者只關(guān)注圖片中某個特定物體的位置,但現(xiàn)有的AI系統(tǒng)往往做不到這些。
清華大學的研究團隊敏銳地發(fā)現(xiàn)了這個問題。他們觀察到,雖然目前的多模態(tài)大語言模型(MLLM)在生成字幕方面已經(jīng)相當出色,但在"可控性"方面卻存在明顯不足。用一個簡單的比喻來說,這就像是雇傭了一個很有才華的作家,但這個作家只會按照自己的風格寫作,完全不聽取客戶的具體要求。
更為嚴重的是,研究團隊發(fā)現(xiàn)現(xiàn)有的評估體系也存在問題。傳統(tǒng)的評估方法往往只關(guān)注生成內(nèi)容的流暢性和準確性,卻忽略了是否真正滿足了用戶的控制需求。這就好比評價一個廚師的水平,只看菜品味道如何,卻不管是否按照客人的口味偏好來制作。
為了解決這些問題,研究團隊提出了一個名為"AnyCap"的完整解決方案。這個項目就像是為AI字幕生成系統(tǒng)配備了一個"個性化定制工作室",包含了三個核心組件:AnyCapModel(ACM)模型框架、AnyCapDataset(ACD)數(shù)據(jù)集,以及AnyCapEval評估基準。
從技術(shù)角度來看,ACM就像是一個"AI助理升級器"。它不需要重新訓(xùn)練那些龐大的基礎(chǔ)模型,而是像給現(xiàn)有的AI系統(tǒng)安裝一個"理解模塊",讓它能夠更好地理解和執(zhí)行用戶的個性化指令。具體來說,ACM采用了一種叫做"殘差校正"的訓(xùn)練策略,這個策略的核心思想是讓AI學會如何改進和完善現(xiàn)有的字幕,而不是從零開始生成全新的內(nèi)容。
這種方法的巧妙之處在于,它利用了現(xiàn)有基礎(chǔ)模型的強大能力,同時通過一個輕量級的"控制器"來實現(xiàn)精確的個性化調(diào)整。訓(xùn)練過程中,研究團隊特意在數(shù)據(jù)中包含了約40%的"已經(jīng)符合要求"的樣本,這樣做的目的是讓AI學會識別什么時候不需要進行修改,什么時候需要進行調(diào)整。
AnyCapDataset的構(gòu)建可以說是整個項目的"營養(yǎng)庫"。研究團隊構(gòu)建了一個包含30萬條數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,涵蓋了圖像、視頻和音頻三種模態(tài),以及28種不同類型的用戶指令。這些指令被分為兩大類:內(nèi)容控制和風格控制。
內(nèi)容控制指令就像是告訴AI"看什么",比如"請描述圖片中的背景環(huán)境"、"重點關(guān)注視頻中人物的動作"、"描述音頻中的事件序列"等。風格控制指令則是告訴AI"怎么說",比如"用簡潔的語言描述"、"采用詩歌的形式"、"控制字數(shù)在50-100字之間"等。
數(shù)據(jù)集的構(gòu)建過程經(jīng)歷了嚴格的質(zhì)量控制流程。研究團隊首先設(shè)計了詳細的指令模板,然后使用多個大語言模型(主要是InternVL2.5系列)來生成高質(zhì)量的控制指令和對應(yīng)的字幕對。每個指令類型都經(jīng)過了嚴格的驗證階段,團隊會隨機抽樣約20個實例進行人工檢查,只有達到100%合格率的指令模板才會被用于大規(guī)模數(shù)據(jù)生成。
為了確保數(shù)據(jù)的多樣性和實用性,研究團隊還創(chuàng)建了一個巧妙的"三元組"結(jié)構(gòu)。每個數(shù)據(jù)樣本都包含一個用戶指令、一個高質(zhì)量的符合要求的字幕,以及一個相對較差的字幕。這種設(shè)計讓AI能夠通過對比學習來理解什么是好的、符合要求的字幕,什么是需要改進的字幕。
在評估方面,AnyCapEval基準的設(shè)計理念是"內(nèi)容和風格分離評估"。傳統(tǒng)的評估方法往往將內(nèi)容準確性和表達風格混合在一起,就像用一個標準來評價一道菜的營養(yǎng)價值和口味偏好,顯然是不夠精確的。
AnyCapEval將評估分為兩個獨立的維度。內(nèi)容評估主要關(guān)注生成的字幕是否準確遵循了用戶的控制指令,是否包含了要求的信息要點。研究團隊創(chuàng)新性地提出了"關(guān)鍵點密度"(KPD)指標,這個指標的核心思想是衡量字幕中有效信息的密度。
關(guān)鍵點密度的計算方法很有意思。研究團隊首先從參考字幕中提取出所有關(guān)鍵信息點,然后檢查待評估字幕中包含了多少個這樣的關(guān)鍵點,最后用關(guān)鍵點數(shù)量除以字幕總字數(shù),得到一個密度值。這就像是計算一杯果汁中真正果肉的含量,而不僅僅是看杯子的大小。
風格評估則采用了更加結(jié)構(gòu)化的方法。研究團隊設(shè)計了一個0-4分的評分體系,每個分數(shù)都有明確的定義:0分表示嚴重偏離要求或完全虛假,1分表示顯著偏離要求或包含較多錯誤信息,2分表示略遜于參考標準或包含少量錯誤,3分表示與參考標準相當且無錯誤信息,4分表示略優(yōu)于參考標準且完全準確。
實驗結(jié)果證明了AnyCap項目的有效性。在與GPT-4o這樣的頂級商業(yè)模型的對比中,ACM-8B版本能夠?qū)PT-4o的內(nèi)容控制能力提升45%,風格控制能力提升12%。更令人印象深刻的是,經(jīng)過ACM增強的開源模型,如InternVL2.5-8B,在某些控制維度上甚至能夠超越未經(jīng)增強的GPT-4o。
這些提升不僅僅體現(xiàn)在研究團隊自己設(shè)計的AnyCapEval基準上,在廣泛使用的公開基準測試中也得到了驗證。在MIA-Bench圖像字幕測試中,ACM為各種基礎(chǔ)模型都帶來了一致的性能提升。在VidCapBench視頻字幕測試中,ACM不僅提升了字幕的準確性,還顯著改善了字幕的精確度和簡潔性。
從模型大小的角度來看,ACM提供了兩個版本:2B參數(shù)版本和8B參數(shù)版本。2B版本更加輕量,適合資源受限的場景,而8B版本則提供了更強的控制能力。實驗結(jié)果顯示,雖然8B版本在大多數(shù)情況下表現(xiàn)更好,但2B版本已經(jīng)能夠為各種基礎(chǔ)模型帶來顯著的改進。
研究團隊還進行了詳盡的消融實驗,探索了不同訓(xùn)練數(shù)據(jù)比例對模型性能的影響。他們發(fā)現(xiàn),在訓(xùn)練數(shù)據(jù)中包含適度比例的"完全正確"樣本(約40%)對模型性能至關(guān)重要。這個發(fā)現(xiàn)很有意思,因為它表明AI不僅需要學會如何糾正錯誤,還需要學會識別什么時候不需要進行修改。
在與其他訓(xùn)練方法的對比中,ACM展現(xiàn)出了顯著的優(yōu)勢。與傳統(tǒng)的監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)和自我批評(SC)方法相比,ACM在提升控制能力方面表現(xiàn)最為出色,同時還避免了重新訓(xùn)練基礎(chǔ)模型的巨大成本。
從實際應(yīng)用的角度來看,AnyCap項目的價值不僅體現(xiàn)在字幕生成本身,還延伸到了下游的多模態(tài)生成任務(wù)。研究團隊展示了如何使用ACM優(yōu)化后的字幕來改善圖像和視頻生成的質(zhì)量。實驗結(jié)果表明,使用ACM優(yōu)化的字幕作為生成提示,能夠產(chǎn)生更加準確、更符合原始內(nèi)容語義的圖像和視頻。
這個發(fā)現(xiàn)開啟了一個有趣的應(yīng)用前景。在內(nèi)容創(chuàng)作領(lǐng)域,創(chuàng)作者可以使用ACM來生成高質(zhì)量的內(nèi)容描述,然后用這些描述來指導(dǎo)AI生成相應(yīng)的視覺內(nèi)容。這就像是有了一個"創(chuàng)意翻譯器",能夠?qū)⒛:膭?chuàng)意想法轉(zhuǎn)化為精確的指令,進而生成理想的視覺作品。
人類評估的結(jié)果進一步證實了ACM的有效性。研究團隊邀請了十幾位具有本科以上學歷的評估員,對ACM-8B與GPT-4o的性能進行了對比。結(jié)果顯示,在大多數(shù)情況下,評估員都認為ACM-8B的表現(xiàn)更好,特別是在內(nèi)容控制方面,優(yōu)勢更為明顯。
從技術(shù)實現(xiàn)的角度來看,ACM的設(shè)計非常巧妙。它不需要修改基礎(chǔ)模型的架構(gòu),而是通過一個輕量級的"適配器"來實現(xiàn)控制功能。這個適配器包含了模態(tài)特定的編碼器、投影層和一個相對較小的語言模型。整個系統(tǒng)就像是在現(xiàn)有的AI系統(tǒng)上安裝了一個"智能過濾器",能夠根據(jù)用戶的需求來調(diào)整和優(yōu)化輸出結(jié)果。
訓(xùn)練過程的設(shè)計也體現(xiàn)了研究團隊的深思熟慮。他們使用了AdamW優(yōu)化器,學習率設(shè)置為1×10^-6,采用余弦學習率調(diào)度,并使用了混合精度訓(xùn)練來提高效率。整個訓(xùn)練過程相對較短,2B版本只需要6小時,8B版本也只需要21小時,這使得其他研究團隊能夠相對容易地復(fù)現(xiàn)和擴展這項工作。
從數(shù)據(jù)多樣性的角度來看,AnyCapDataset涵蓋了廣泛的控制維度。在圖像模態(tài)中,包括了位置控制、外觀描述、實體關(guān)系、區(qū)域限制等多種控制類型。在視頻模態(tài)中,增加了動作描述、事件序列、攝像機運動等特定于視頻的控制類型。在音頻模態(tài)中,雖然控制類型相對較少,但涵蓋了事件描述和不同的表達風格。
這種多模態(tài)、多控制維度的設(shè)計使得ACM能夠適應(yīng)各種不同的應(yīng)用場景。無論是需要詳細描述圖片背景的電商應(yīng)用,還是需要精確描述視頻動作的體育分析,或是需要創(chuàng)意性描述音頻內(nèi)容的音樂平臺,ACM都能夠提供相應(yīng)的支持。
在計算資源方面,雖然ACM的訓(xùn)練需要一定的計算資源(32塊NVIDIA A100 GPU),但相比于從零開始訓(xùn)練一個大型多模態(tài)模型,這個成本是相當合理的。而且,一旦訓(xùn)練完成,ACM可以與各種不同的基礎(chǔ)模型配合使用,具有很好的通用性。
從評估方法的創(chuàng)新性來看,AnyCapEval基準的設(shè)計理念值得深入探討。傳統(tǒng)的字幕評估方法往往依賴于BLEU、CIDEr等基于n-gram重疊的指標,這些指標雖然能夠衡量生成文本與參考文本的相似性,但無法準確評估控制指令的遵循程度。
AnyCapEval的關(guān)鍵點密度指標解決了這個問題。通過首先識別控制指令要求的關(guān)鍵信息點,然后檢查生成字幕中包含的關(guān)鍵點數(shù)量,最后進行長度歸一化,這個指標能夠更準確地反映字幕的信息密度和控制遵循程度。
研究團隊還進行了詳細的相關(guān)性分析,驗證了關(guān)鍵點密度指標與人類判斷的相關(guān)性。結(jié)果顯示,關(guān)鍵點密度與人類評估的相關(guān)性(皮爾遜相關(guān)系數(shù)0.284)顯著高于簡單的信息點計數(shù)方法。這表明長度歸一化確實提高了評估的準確性。
在風格評估方面,研究團隊設(shè)計了詳細的評分標準,針對不同的風格控制類型(如簡潔性、詳細性、詩歌形式、敘事風格等)提供了具體的評判依據(jù)。這些標準不僅考慮了表達風格的符合程度,還特別關(guān)注了事實準確性和幻覺問題。
說到底,AnyCap項目代表了多模態(tài)AI領(lǐng)域的一個重要進展。它不僅解決了現(xiàn)有系統(tǒng)在控制能力方面的不足,還提供了一個完整的解決方案,包括模型、數(shù)據(jù)和評估方法。這個項目的成功表明,通過巧妙的設(shè)計和工程實現(xiàn),我們可以在不重新訓(xùn)練大型基礎(chǔ)模型的情況下,顯著提升AI系統(tǒng)的可控性和實用性。
更重要的是,這項研究為未來的多模態(tài)AI發(fā)展指明了方向。隨著用戶需求的日益?zhèn)€性化和多樣化,能夠精確理解和執(zhí)行個性化指令的AI系統(tǒng)將變得越來越重要。AnyCap項目提供的框架和方法論,為構(gòu)建更加智能、更加貼近用戶需求的AI系統(tǒng)奠定了堅實的基礎(chǔ)。
對于普通用戶來說,這項研究的意義在于,未來的AI助手將能夠更好地理解和滿足我們的個性化需求。無論是希望AI用特定的風格來描述照片,還是需要AI關(guān)注視頻中的特定細節(jié),或者想要AI用創(chuàng)意的方式來解釋音頻內(nèi)容,這些都將成為可能。
從產(chǎn)業(yè)發(fā)展的角度來看,AnyCap項目的開源性質(zhì)使得其他研究團隊和公司能夠基于這個工作進行進一步的創(chuàng)新和應(yīng)用。這種開放的研究態(tài)度有助于整個AI社區(qū)的發(fā)展,也為實際應(yīng)用的快速落地創(chuàng)造了條件。
當然,這項研究也還有一些局限性。比如,在某些復(fù)雜的控制場景中,模型的性能還有提升空間。音頻模態(tài)的控制類型相對較少,未來可能需要更多的探索。此外,對于一些新興的模態(tài)(如3D內(nèi)容、分子結(jié)構(gòu)等),目前的框架可能需要進一步的擴展和適配。
展望未來,研究團隊已經(jīng)為后續(xù)的研究方向提供了明確的指引。他們建議未來的工作可以關(guān)注更豐富的控制指令類型、更大規(guī)模的多模態(tài)數(shù)據(jù)集、更精確的評估方法,以及向新興模態(tài)的擴展。這些方向的探索將進一步推動多模態(tài)AI技術(shù)的發(fā)展,使其能夠更好地服務(wù)于人類的創(chuàng)造性工作和日常生活。
歸根結(jié)底,AnyCap項目展示了AI技術(shù)發(fā)展的一個重要趨勢:從追求通用性能轉(zhuǎn)向關(guān)注個性化控制,從單純的技術(shù)創(chuàng)新轉(zhuǎn)向用戶體驗的提升。這種轉(zhuǎn)變不僅體現(xiàn)了AI技術(shù)的成熟,也反映了我們對AI系統(tǒng)期望的演進。未來的AI不僅要能夠完成任務(wù),還要能夠按照我們的個性化需求來完成任務(wù),這正是AnyCap項目所展現(xiàn)的愿景。
有興趣深入了解這項研究的讀者,可以訪問項目的GitHub頁面獲取更多技術(shù)細節(jié)和實現(xiàn)代碼。研究團隊的開源精神為整個AI社區(qū)的發(fā)展貢獻了寶貴的資源,也為未來的創(chuàng)新應(yīng)用提供了堅實的基礎(chǔ)。
Q&A
Q1:AnyCap項目是什么?它能解決什么問題?
A:AnyCap是清華大學團隊開發(fā)的多模態(tài)字幕生成系統(tǒng),主要解決現(xiàn)有AI在生成圖片、視頻、音頻字幕時缺乏個性化控制的問題。它就像給AI安裝了一個"理解模塊",讓AI能夠根據(jù)用戶的具體需求(比如詳細描述背景、用詩歌形式表達、關(guān)注特定物體等)來生成符合要求的字幕,而不是千篇一律的標準描述。
Q2:AnyCap會不會需要重新訓(xùn)練那些大型AI模型?
A:不需要。AnyCap的巧妙之處在于它是一個"即插即用"的系統(tǒng),就像給現(xiàn)有的AI裝上一個智能轉(zhuǎn)換器。它可以直接與GPT-4o、InternVL等現(xiàn)有模型配合使用,通過輕量級的適配器來實現(xiàn)控制功能,避免了重新訓(xùn)練大型基礎(chǔ)模型的巨大成本。實驗顯示,它能讓GPT-4o的內(nèi)容控制能力提升45%。
Q3:普通用戶什么時候能用上AnyCap技術(shù)?
A:目前AnyCap項目已經(jīng)在GitHub上開源,技術(shù)人員可以直接使用。對于普通用戶,隨著這項技術(shù)被集成到各種AI應(yīng)用中,未來在使用AI生成字幕時就能享受到更個性化的服務(wù)。比如在社交媒體、內(nèi)容創(chuàng)作、教育培訓(xùn)等場景中,用戶將能夠要求AI按照特定風格和重點來描述內(nèi)容。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。