這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的趙佳興、魏希涵和薄列峰團(tuán)隊(duì)完成的研究發(fā)表于2025年3月,論文可通過arXiv:2503.05379v2獲取,同時(shí)研究代碼已在GitHub上開源(https://github.com/HumanMLLM/R1-Omni)。這項(xiàng)研究首次將強(qiáng)化學(xué)習(xí)的可驗(yàn)證獎(jiǎng)勵(lì)方法應(yīng)用到全模態(tài)大語言模型的情感識(shí)別任務(wù)中,讓機(jī)器能夠像人類一樣同時(shí)理解視頻中的畫面和聲音來判斷情感。
說到理解情感,人類有著天生的優(yōu)勢(shì)。當(dāng)我們看電影時(shí),能夠輕松地從演員的面部表情、聲音語調(diào),甚至是背景音樂中感受到喜怒哀樂。但對(duì)于人工智能來說,這個(gè)看似簡單的任務(wù)卻充滿了挑戰(zhàn)。以往的AI系統(tǒng)往往像是只有一只眼睛或一只耳朵的觀察者,要么只能看懂畫面,要么只能聽懂聲音,很難像人類那樣綜合各種信息做出準(zhǔn)確判斷。
阿里巴巴的研究團(tuán)隊(duì)想要改變這種狀況。他們就像是在訓(xùn)練一個(gè)全新的學(xué)生,不僅要讓這個(gè)學(xué)生學(xué)會(huì)看和聽,更重要的是要讓它學(xué)會(huì)思考——理解為什么會(huì)做出某種情感判斷,這個(gè)判斷的根據(jù)是什么。這就好比我們不僅要求學(xué)生給出答案,還要求他清楚地解釋解題思路。
傳統(tǒng)的AI訓(xùn)練方法就像是填鴨式教育,研究人員準(zhǔn)備大量的標(biāo)準(zhǔn)答案,然后讓AI機(jī)械地模仿。而這項(xiàng)研究采用的強(qiáng)化學(xué)習(xí)方法更像是啟發(fā)式教學(xué)。研究團(tuán)隊(duì)設(shè)計(jì)了一套獎(jiǎng)勵(lì)機(jī)制,當(dāng)AI做對(duì)了,就給予獎(jiǎng)勵(lì);做錯(cuò)了,就進(jìn)行糾正。更巧妙的是,這套獎(jiǎng)勵(lì)機(jī)制是基于規(guī)則的,就像考試有標(biāo)準(zhǔn)答案一樣,可以客觀地判斷AI的表現(xiàn)好壞,避免了主觀評(píng)價(jià)的偏差。
研究團(tuán)隊(duì)將這個(gè)方法命名為"可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)"(RLVR),聽起來很專業(yè),但本質(zhì)上就是一套科學(xué)的AI訓(xùn)練方法。他們以HumanOmni模型為基礎(chǔ),這是一個(gè)專門用于理解人類行為的開源AI模型,然后通過RLVR方法對(duì)其進(jìn)行改進(jìn),最終打造出了R1-Omni系統(tǒng)。
在具體的訓(xùn)練過程中,研究團(tuán)隊(duì)采用了"冷啟動(dòng)"策略。就像學(xué)習(xí)任何新技能一樣,AI需要先掌握基礎(chǔ)知識(shí)。研究人員首先使用了580個(gè)精心標(biāo)注的視頻樣本對(duì)模型進(jìn)行初步訓(xùn)練,這些樣本來自專門設(shè)計(jì)的情感推理數(shù)據(jù)集EMER,每個(gè)樣本都包含了詳細(xì)的情感分析過程解釋。這個(gè)階段就像是給學(xué)生上基礎(chǔ)課,讓AI初步理解什么是情感識(shí)別,以及如何進(jìn)行基本的推理。
完成基礎(chǔ)訓(xùn)練后,研究團(tuán)隊(duì)開始使用RLVR方法進(jìn)行深度優(yōu)化。他們使用了超過15000個(gè)來自MAFW和DFEW數(shù)據(jù)集的視頻樣本,這些都是真實(shí)世界中的電影片段,包含了豐富的情感表達(dá)。有趣的是,這些數(shù)據(jù)只有情感類別標(biāo)簽,沒有推理過程的標(biāo)注,但通過RLVR的訓(xùn)練方式,AI竟然學(xué)會(huì)了自發(fā)地進(jìn)行情感推理。
在獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)上,研究團(tuán)隊(duì)采用了雙重評(píng)價(jià)標(biāo)準(zhǔn)。第一個(gè)標(biāo)準(zhǔn)是準(zhǔn)確性獎(jiǎng)勵(lì),就像考試的得分一樣,AI預(yù)測(cè)的情感類別是否正確。第二個(gè)標(biāo)準(zhǔn)是格式獎(jiǎng)勵(lì),要求AI的輸出必須按照規(guī)定的格式,包含思考過程和最終答案兩部分。這種設(shè)計(jì)確保了AI不僅能給出正確答案,還能提供清晰的推理過程。
為了進(jìn)一步優(yōu)化訓(xùn)練效果,研究團(tuán)隊(duì)還采用了群體相對(duì)策略優(yōu)化(GRPO)方法。這個(gè)方法的核心思想是讓AI生成多個(gè)候選答案,然后通過比較這些答案的質(zhì)量來學(xué)習(xí)。就像是讓學(xué)生做多道類似題目,然后從中找出最好的解題方法。具體來說,對(duì)于每個(gè)輸入的視頻,系統(tǒng)會(huì)生成多個(gè)不同的情感分析結(jié)果,然后根據(jù)這些結(jié)果的獎(jiǎng)勵(lì)分?jǐn)?shù)計(jì)算相對(duì)質(zhì)量,鼓勵(lì)模型傾向于生成高質(zhì)量的輸出。
實(shí)驗(yàn)結(jié)果令人鼓舞。研究團(tuán)隊(duì)在三個(gè)不同的數(shù)據(jù)集上測(cè)試了R1-Omni的性能,分別是DFEW、MAFW和RAVDESS。在DFEW數(shù)據(jù)集上,R1-Omni達(dá)到了65.83%的未加權(quán)平均召回率和56.27%的加權(quán)平均召回率,明顯超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法。在MAFW數(shù)據(jù)集上,系統(tǒng)也取得了57.68%和40.04%的優(yōu)異成績。
更值得關(guān)注的是R1-Omni在泛化能力方面的表現(xiàn)。研究團(tuán)隊(duì)使用RAVDESS數(shù)據(jù)集進(jìn)行了跨域測(cè)試,這個(gè)數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)有著顯著差異——訓(xùn)練數(shù)據(jù)主要來自電影片段,而RAVDESS包含的是專業(yè)演員在錄音棚中的表演。結(jié)果顯示,R1-Omni在這種完全不同的數(shù)據(jù)上仍然保持了43.00%的未加權(quán)平均召回率和44.69%的加權(quán)平均召回率,遠(yuǎn)超傳統(tǒng)方法的29.33%和30.75%。這就像是一個(gè)在中文環(huán)境中長大的孩子,到了英文環(huán)境中仍然能夠理解基本的情感表達(dá)。
從推理能力的角度來看,R1-Omni展現(xiàn)出了令人印象深刻的分析能力。研究團(tuán)隊(duì)展示了幾個(gè)具體案例,可以看出AI能夠詳細(xì)分析視頻中人物的面部表情、身體語言、聲音特征,甚至是環(huán)境背景,然后綜合這些信息得出情感判斷。比如在分析一個(gè)憤怒情緒的視頻時(shí),AI會(huì)描述:"在視頻中,這個(gè)穿著棕色夾克的男性站在色彩鮮艷的壁畫前。他皺著眉頭,嘴巴微張,顯露出不滿的表情。從語音識(shí)別技術(shù)可以聽出,他的聲音中包含著'你'、'放低聲音'、'抓狂'等詞匯,表明他正在經(jīng)歷強(qiáng)烈的情緒和激動(dòng)狀態(tài)。"
這種詳細(xì)的推理過程不僅提高了預(yù)測(cè)的準(zhǔn)確性,更重要的是增強(qiáng)了系統(tǒng)的可解釋性。傳統(tǒng)的AI系統(tǒng)往往被比作"黑盒子",只能給出結(jié)果而無法解釋原因。而R1-Omni就像是一個(gè)透明的玻璃盒子,每一個(gè)判斷都有清晰的依據(jù)。
當(dāng)然,這項(xiàng)研究也面臨著一些挑戰(zhàn)和局限性。研究團(tuán)隊(duì)坦誠地指出了三個(gè)主要問題。首先是字幕識(shí)別的準(zhǔn)確性問題。由于系統(tǒng)需要處理視頻中的語音內(nèi)容,但語音轉(zhuǎn)文字技術(shù)本身就存在誤差,這可能會(huì)影響最終的情感判斷。其次是推理過程中的幻覺問題,AI有時(shí)會(huì)生成與實(shí)際視頻內(nèi)容不符的分析,比如描述了視頻中并不存在的情節(jié)。最后是對(duì)音頻信息利用不夠充分的問題,雖然系統(tǒng)能夠處理音頻,但在某些情況下,對(duì)語調(diào)、音色等音頻特征的分析還不夠深入。
針對(duì)這些局限性,研究團(tuán)隊(duì)也提出了未來的改進(jìn)方向。他們認(rèn)為需要繼續(xù)加強(qiáng)基礎(chǔ)模型的能力,特別是在多模態(tài)數(shù)據(jù)處理方面。同時(shí),還需要開發(fā)更好的方法來減少推理過程中的幻覺現(xiàn)象,并提高對(duì)音頻特征的利用程度。研究團(tuán)隊(duì)還希望能夠讓AI具備更深層次的心理洞察能力,不僅僅分析表面的表情和聲音,還能理解人物的內(nèi)在動(dòng)機(jī)和情感狀態(tài)。
這項(xiàng)研究的意義遠(yuǎn)超情感識(shí)別本身。在人機(jī)交互領(lǐng)域,一個(gè)能夠準(zhǔn)確理解人類情感的AI系統(tǒng)將大大改善用戶體驗(yàn)。在教育場景中,這樣的系統(tǒng)可以實(shí)時(shí)感知學(xué)生的情緒狀態(tài),調(diào)整教學(xué)策略。在醫(yī)療健康領(lǐng)域,它可以輔助心理健康評(píng)估,及早發(fā)現(xiàn)抑郁或焦慮等情緒問題。在娛樂產(chǎn)業(yè)中,它可以幫助內(nèi)容創(chuàng)作者更好地理解觀眾的情感反應(yīng),創(chuàng)作出更有共鳴的作品。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究也開創(chuàng)了將強(qiáng)化學(xué)習(xí)應(yīng)用于多模態(tài)大語言模型的先河。以往的研究主要集中在圖像-文本的雙模態(tài)處理上,而這項(xiàng)工作將視頻、音頻、文本三種模態(tài)有機(jī)結(jié)合,為未來的多模態(tài)AI發(fā)展提供了重要參考。
值得注意的是,這項(xiàng)研究的開源特性為整個(gè)學(xué)術(shù)界和工業(yè)界提供了寶貴的資源。研究團(tuán)隊(duì)不僅公開了完整的代碼,還提供了訓(xùn)練數(shù)據(jù)和模型權(quán)重,這將大大推動(dòng)相關(guān)研究的發(fā)展。其他研究者可以在此基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展,形成良性的技術(shù)生態(tài)循環(huán)。
說到底,這項(xiàng)研究代表了AI技術(shù)向著更加智能、更加人性化方向發(fā)展的重要一步。R1-Omni不僅僅是一個(gè)技術(shù)產(chǎn)品,更像是一個(gè)能夠理解人類情感的數(shù)字伙伴。雖然它還有許多不完美的地方,但它展示了AI系統(tǒng)在理解復(fù)雜人類情感方面的巨大潛力。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來的AI將能夠更好地理解和響應(yīng)人類的情感需求,真正成為我們生活中不可或缺的智能助手。
對(duì)于普通人來說,這項(xiàng)研究提醒我們,AI技術(shù)正在快速發(fā)展,它們不再僅僅是冰冷的計(jì)算機(jī)程序,而是正在學(xué)會(huì)理解和感受人類世界的復(fù)雜性。當(dāng)我們與AI系統(tǒng)交互時(shí),也許不久的將來,它們就能像真正的朋友一樣,理解我們的喜怒哀樂,給予我們更貼心的回應(yīng)。這既是技術(shù)進(jìn)步帶來的機(jī)遇,也提醒我們需要思考如何在享受AI便利的同時(shí),保持人與人之間真實(shí)情感交流的珍貴價(jià)值。
如果你對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以通過arXiv:2503.05379v2訪問完整論文,或者在GitHub上查看開源代碼(https://github.com/HumanMLLM/R1-Omni)來深入了解實(shí)現(xiàn)方法。
Q&A
Q1:R1-Omni是什么?它能做什么? A:R1-Omni是阿里巴巴開發(fā)的AI情感識(shí)別系統(tǒng),它能同時(shí)分析視頻中的畫面和聲音來判斷人物情感,就像人類一樣。最特別的是,它不僅能給出情感判斷結(jié)果,還能詳細(xì)解釋推理過程,告訴你為什么會(huì)做出這樣的判斷。
Q2:這個(gè)系統(tǒng)會(huì)不會(huì)取代人類的情感判斷? A:目前不會(huì)取代,但會(huì)成為很好的輔助工具。R1-Omni雖然在準(zhǔn)確性上有顯著提升,但仍存在字幕識(shí)別錯(cuò)誤、推理幻覺等問題。它更適合作為助手幫助人類更好地理解情感,特別是在教育、醫(yī)療、娛樂等領(lǐng)域提供支持。
Q3:普通人能使用這個(gè)技術(shù)嗎? A:目前研究團(tuán)隊(duì)已將代碼開源在GitHub上,技術(shù)人員可以直接使用。對(duì)于普通用戶,還需要等待基于這項(xiàng)技術(shù)的商業(yè)產(chǎn)品出現(xiàn)。不過隨著技術(shù)成熟,未來可能會(huì)集成到各種應(yīng)用中,讓人人都能享受到AI情感理解的便利。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。