這項(xiàng)由上海AI實(shí)驗(yàn)室、復(fù)旦大學(xué)、上海交通大學(xué)等機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2025年4月,論文標(biāo)題為《MM-IFEngine: Towards Multimodal Instruction Following》。研究團(tuán)隊(duì)包括丁勝遠(yuǎn)、吳慎熙、趙祥宇等多位研究人員,有興趣深入了解的讀者可以通過(guò)論文開(kāi)源地址https://github.com/SYuan03/MM-IFEngine訪(fǎng)問(wèn)完整代碼和數(shù)據(jù)集。
當(dāng)你跟朋友聊天時(shí)說(shuō)"幫我寫(xiě)個(gè)200字的總結(jié),要用詩(shī)歌形式,別提到任何顏色",朋友能完美理解并執(zhí)行這個(gè)復(fù)雜要求。但如果你給AI一張圖片,然后提出同樣復(fù)雜的要求,大多數(shù)AI都會(huì)"聽(tīng)不懂"或者做不到位。這就是多模態(tài)大語(yǔ)言模型在"指令遵循"方面遇到的核心難題。
上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:雖然現(xiàn)在的AI在回答圖片相關(guān)問(wèn)題方面已經(jīng)相當(dāng)出色,但在嚴(yán)格按照用戶(hù)的復(fù)雜指令要求來(lái)處理視覺(jué)內(nèi)容時(shí),表現(xiàn)卻差強(qiáng)人意。這就好比一個(gè)學(xué)霸能夠回答各種數(shù)學(xué)題,但當(dāng)老師要求"用紅筆寫(xiě)答案,每行不超過(guò)10個(gè)字,最后要畫(huà)個(gè)笑臉"時(shí),這個(gè)學(xué)霸就開(kāi)始犯糊涂了。
研究團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題,開(kāi)發(fā)了一個(gè)名為"MM-IFEngine"的創(chuàng)新系統(tǒng)。這個(gè)系統(tǒng)就像一個(gè)專(zhuān)門(mén)訓(xùn)練AI如何"聽(tīng)懂話(huà)"的教練,能夠大量生成各種復(fù)雜的圖片-指令配對(duì)數(shù)據(jù),讓AI在海量練習(xí)中學(xué)會(huì)精確理解和執(zhí)行用戶(hù)的多重要求。更重要的是,他們還創(chuàng)建了一個(gè)全新的評(píng)測(cè)基準(zhǔn)"MM-IFEval",這個(gè)基準(zhǔn)就像給AI設(shè)計(jì)的"期末考試",專(zhuān)門(mén)檢驗(yàn)AI是否真正掌握了復(fù)雜指令遵循的能力。
在傳統(tǒng)的AI訓(xùn)練中,研究人員往往關(guān)注讓AI回答得"對(duì)不對(duì)",但很少關(guān)注AI是否能按照用戶(hù)的具體要求來(lái)組織答案。比如用戶(hù)說(shuō)"用50個(gè)字總結(jié)這張圖片內(nèi)容,要用第二人稱(chēng),語(yǔ)氣要幽默",大多數(shù)AI可能能總結(jié)圖片內(nèi)容,但很可能忽略字?jǐn)?shù)限制、人稱(chēng)要求或語(yǔ)氣要求。這種情況在實(shí)際應(yīng)用中會(huì)造成很大困擾。
這項(xiàng)研究的突破性意義在于,它不僅識(shí)別出了這個(gè)被忽視的重要問(wèn)題,還提供了完整的解決方案。研究團(tuán)隊(duì)通過(guò)大規(guī)模實(shí)驗(yàn)證明,經(jīng)過(guò)他們系統(tǒng)訓(xùn)練的AI模型在各種指令遵循測(cè)試中表現(xiàn)顯著提升,在MM-IFEval基準(zhǔn)上提高了10.2%,在其他相關(guān)測(cè)試中也有7.6%到12.3%不等的提升。
一、發(fā)現(xiàn)問(wèn)題:AI的"聽(tīng)話(huà)"能力有待提升
當(dāng)我們仔細(xì)觀(guān)察現(xiàn)在的多模態(tài)AI系統(tǒng)時(shí),會(huì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象。這些AI就像那些只會(huì)按自己想法做事的員工一樣,雖然能力很強(qiáng),但總是不能完全按照老板的具體要求來(lái)完成任務(wù)。
研究團(tuán)隊(duì)通過(guò)分析發(fā)現(xiàn),現(xiàn)有的多模態(tài)指令遵循訓(xùn)練數(shù)據(jù)非常稀少,就像圖書(shū)館里關(guān)于"如何聽(tīng)懂復(fù)雜指令"的書(shū)籍寥寥無(wú)幾。更嚴(yán)重的是,現(xiàn)有的評(píng)測(cè)標(biāo)準(zhǔn)過(guò)于簡(jiǎn)單,大多只包含單一的、原子化的指令,就像考試題目都是"1+1等于幾"這樣的簡(jiǎn)單問(wèn)題,而實(shí)際工作中遇到的卻是"在30分鐘內(nèi),用三種不同方法計(jì)算出這個(gè)復(fù)雜公式的結(jié)果,并用圖表形式展示,最后寫(xiě)一份不超過(guò)200字的總結(jié)"這樣的復(fù)合任務(wù)。
現(xiàn)有評(píng)測(cè)方法的另一個(gè)問(wèn)題是過(guò)于依賴(lài)LLM作為評(píng)判者,就像讓一個(gè)人既當(dāng)運(yùn)動(dòng)員又當(dāng)裁判。對(duì)于那些需要精確計(jì)算的約束條件,比如"回答必須包含exactly 56個(gè)單詞"或"必須恰好分為5個(gè)段落",LLM評(píng)判往往不夠準(zhǔn)確。這就好比讓一個(gè)不太會(huì)數(shù)數(shù)的人來(lái)檢查你的作業(yè)是否恰好寫(xiě)了100個(gè)字。
研究團(tuán)隊(duì)還注意到,當(dāng)前的多模態(tài)指令遵循基準(zhǔn)測(cè)試存在明顯的性能飽和問(wèn)題。幾乎所有模型的得分都超過(guò)了80%,這種情況就像考試題目太簡(jiǎn)單,所有學(xué)生都能考高分,根本無(wú)法區(qū)分真正的學(xué)習(xí)水平差異。這種飽和現(xiàn)象表明現(xiàn)有基準(zhǔn)缺乏足夠的挑戰(zhàn)性,無(wú)法準(zhǔn)確評(píng)估模型在復(fù)雜、多約束條件下的真實(shí)表現(xiàn)能力。
二、創(chuàng)新解決方案:MM-IFEngine系統(tǒng)架構(gòu)
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了MM-IFEngine系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)精密的內(nèi)容生產(chǎn)工廠(chǎng),能夠自動(dòng)化生成大量高質(zhì)量的圖片-指令配對(duì)數(shù)據(jù)。整個(gè)系統(tǒng)的工作流程分為三個(gè)精心設(shè)計(jì)的階段,每個(gè)階段都有其獨(dú)特的作用和價(jià)值。
第一個(gè)階段是圖片篩選,研究團(tuán)隊(duì)就像挑選食材的大廚一樣,從海量圖片中精心挑選出那些內(nèi)容豐富、語(yǔ)義清晰的高質(zhì)量圖片。他們使用IC9600和RAM指標(biāo)來(lái)評(píng)估圖片的語(yǔ)義豐富度,同時(shí)過(guò)濾掉那些分辨率過(guò)低或內(nèi)容單調(diào)的圖片。這個(gè)過(guò)程確保了后續(xù)生成的指令能夠基于足夠豐富的視覺(jué)內(nèi)容,就像好的食材是制作美味佳肴的基礎(chǔ)一樣。
第二個(gè)階段是任務(wù)生成,這個(gè)階段的工作方式根據(jù)圖片來(lái)源的不同而有所區(qū)別。對(duì)于那些沒(méi)有原始問(wèn)答對(duì)的純圖片數(shù)據(jù)集(比如CC3M),系統(tǒng)會(huì)從預(yù)定義的16種任務(wù)類(lèi)型中隨機(jī)選擇幾種作為示例,然后讓強(qiáng)大的語(yǔ)言模型GPT-4o為每張圖片生成合適的任務(wù)指令。這些任務(wù)涵蓋了描述性分析、情感表達(dá)、創(chuàng)意寫(xiě)作、社交媒體內(nèi)容和角色扮演等五大類(lèi)別,確保生成的任務(wù)具有足夠的多樣性和實(shí)用性。
對(duì)于那些已經(jīng)包含問(wèn)答對(duì)的數(shù)據(jù)集(比如ALLaVA),系統(tǒng)采用了更加精細(xì)的處理策略。研究團(tuán)隊(duì)首先對(duì)原始問(wèn)題進(jìn)行仔細(xì)分析,過(guò)濾掉那些包含少樣本示例或選擇題形式的問(wèn)題,因?yàn)檫@些問(wèn)題格式不適合添加復(fù)雜約束條件。他們使用正則表達(dá)式和長(zhǎng)度限制來(lái)篩選問(wèn)題,確保最終保留的問(wèn)題都適合進(jìn)行約束集成。
第三個(gè)階段是約束集成,這是整個(gè)系統(tǒng)最核心的創(chuàng)新部分。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含32種不同約束類(lèi)型的豐富約束池,這些約束被歸類(lèi)為六大主要類(lèi)別:文本長(zhǎng)度要求、數(shù)學(xué)要求、語(yǔ)言格式要求、修辭邏輯要求、行為要求和關(guān)鍵詞要求。每個(gè)類(lèi)別下又細(xì)分為多個(gè)具體的約束子類(lèi)型,形成了一個(gè)層次化的約束分類(lèi)體系。
約束集成的過(guò)程并不是簡(jiǎn)單的隨機(jī)組合,而是采用了智能化的方法。系統(tǒng)會(huì)使用LLM來(lái)為特定的約束類(lèi)型生成具體的約束內(nèi)容,同時(shí)確保生成的約束與任務(wù)指令之間保持良好的兼容性。為了避免約束之間的沖突,系統(tǒng)還設(shè)計(jì)了質(zhì)量控制檢查機(jī)制,能夠自動(dòng)識(shí)別和過(guò)濾掉那些相互矛盾或與任務(wù)指令不兼容的約束組合。
通過(guò)這個(gè)三階段的流程,MM-IFEngine能夠生成大量高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)。研究團(tuán)隊(duì)使用這個(gè)系統(tǒng)構(gòu)建了MM-IFInstruct-23k數(shù)據(jù)集,包含23,000個(gè)高質(zhì)量的多模態(tài)指令遵循訓(xùn)練樣本。這些樣本來(lái)自多個(gè)不同的數(shù)據(jù)源:16,000個(gè)來(lái)自CC3M,6,000個(gè)來(lái)自ALLaVA,4,000個(gè)來(lái)自MultiUI、Geo170k和ChartQA等專(zhuān)業(yè)數(shù)據(jù)集。
為了進(jìn)一步提升訓(xùn)練效果,研究團(tuán)隊(duì)還創(chuàng)建了MM-IFDPO-23k偏好優(yōu)化數(shù)據(jù)集。這個(gè)數(shù)據(jù)集采用了創(chuàng)新的負(fù)樣本生成策略,通過(guò)四種不同的設(shè)置來(lái)生成拒絕樣本:保留圖片但隨機(jī)移除三分之一約束、保留圖片但隨機(jī)移除三分之二約束、保留圖片但移除所有約束,以及保留完整指令但移除圖片。這種多樣化的負(fù)樣本生成方法能夠幫助模型更好地理解約束的重要性,從而在直接偏好優(yōu)化(DPO)訓(xùn)練中取得更好的效果。
三、評(píng)測(cè)基準(zhǔn):MM-IFEval的創(chuàng)新設(shè)計(jì)
為了準(zhǔn)確評(píng)估多模態(tài)指令遵循能力,研究團(tuán)隊(duì)開(kāi)發(fā)了MM-IFEval基準(zhǔn)測(cè)試,這個(gè)基準(zhǔn)就像為AI設(shè)計(jì)的"綜合能力考試",能夠全面檢驗(yàn)AI在復(fù)雜多約束環(huán)境下的表現(xiàn)。
MM-IFEval包含400個(gè)精心設(shè)計(jì)的測(cè)試問(wèn)題,這些問(wèn)題被分為兩大類(lèi)型:300個(gè)組合級(jí)(Compose-Level)問(wèn)題和100個(gè)感知級(jí)(Perception-Level)問(wèn)題。組合級(jí)問(wèn)題主要測(cè)試AI對(duì)輸出格式、內(nèi)容結(jié)構(gòu)等方面的約束遵循能力,而感知級(jí)問(wèn)題則更加注重AI對(duì)圖片中特定視覺(jué)元素的理解和推理能力。
與現(xiàn)有基準(zhǔn)相比,MM-IFEval在約束多樣性方面實(shí)現(xiàn)了顯著突破。該基準(zhǔn)包含32種不同的約束類(lèi)別,平均每個(gè)問(wèn)題包含5.1個(gè)約束條件,這與之前基準(zhǔn)的8個(gè)類(lèi)別和平均2.6個(gè)約束形成鮮明對(duì)比。這種高復(fù)雜度的設(shè)計(jì)使得即使是最先進(jìn)的模型也面臨巨大挑戰(zhàn),GPT-4o在該基準(zhǔn)上的得分僅為64.6%,而開(kāi)源模型Qwen2-VL-72B的得分為50.8%,這表明該基準(zhǔn)具有足夠的區(qū)分度和挑戰(zhàn)性。
MM-IFEval的另一個(gè)重要?jiǎng)?chuàng)新是其混合評(píng)估策略,這個(gè)策略就像組建了一支專(zhuān)業(yè)的評(píng)審團(tuán)隊(duì),每個(gè)成員都有自己的專(zhuān)長(zhǎng)領(lǐng)域。整個(gè)評(píng)估體系包含三種不同的評(píng)估方法,每種方法都針對(duì)特定類(lèi)型的約束進(jìn)行優(yōu)化。
第一種是基于規(guī)則的驗(yàn)證方法,這種方法專(zhuān)門(mén)處理那些可以通過(guò)程序化方式精確檢驗(yàn)的約束。比如檢查回答是否恰好包含200個(gè)單詞,或者是否嚴(yán)格按照J(rèn)SON格式輸出,這些都可以通過(guò)編寫(xiě)特定的驗(yàn)證函數(shù)來(lái)自動(dòng)完成。研究團(tuán)隊(duì)為10種不同的約束子類(lèi)別開(kāi)發(fā)了專(zhuān)門(mén)的驗(yàn)證函數(shù),這些函數(shù)能夠提供比人工判斷更加準(zhǔn)確和一致的評(píng)估結(jié)果。
第二種是LLM直接判斷方法,這種方法主要用于評(píng)估那些相對(duì)容易判斷但無(wú)法通過(guò)固定規(guī)則驗(yàn)證的約束。比如檢查回答中是否包含特定的詞匯或短語(yǔ),或者是否采用了指定的敘述視角,這些約束雖然沒(méi)有嚴(yán)格的格式要求,但LLM能夠通過(guò)語(yǔ)義理解來(lái)準(zhǔn)確判斷是否滿(mǎn)足要求。
第三種是LLM比較判斷方法,這是最具創(chuàng)新性的評(píng)估方法,專(zhuān)門(mén)針對(duì)那些難以直接評(píng)估的主觀(guān)性約束。對(duì)于涉及語(yǔ)調(diào)、風(fēng)格或角色扮演的約束,系統(tǒng)會(huì)生成兩個(gè)版本的回答:一個(gè)包含目標(biāo)約束,另一個(gè)不包含該約束。然后讓LLM比較這兩個(gè)回答,判斷哪個(gè)更好地體現(xiàn)了指定的約束要求。這種比較方法能夠顯著提高對(duì)主觀(guān)性約束的評(píng)估準(zhǔn)確性。
感知級(jí)問(wèn)題的設(shè)計(jì)特別注重圖片內(nèi)容與約束條件之間的強(qiáng)關(guān)聯(lián)性。這些問(wèn)題涵蓋了13個(gè)不同的圖片類(lèi)別,包括網(wǎng)頁(yè)界面、圖表數(shù)據(jù)、海報(bào)設(shè)計(jì)、視覺(jué)差異識(shí)別等多種類(lèi)型。每個(gè)類(lèi)別都有其獨(dú)特的挑戰(zhàn)性,比如網(wǎng)頁(yè)界面問(wèn)題需要AI準(zhǔn)確理解界面元素的功能和布局,圖表數(shù)據(jù)問(wèn)題需要AI能夠從可視化數(shù)據(jù)中提取準(zhǔn)確信息,而視覺(jué)差異問(wèn)題則測(cè)試AI的細(xì)致觀(guān)察和比較能力。
四、實(shí)驗(yàn)結(jié)果:顯著的性能提升
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示MM-IFEngine生成的訓(xùn)練數(shù)據(jù)能夠顯著提升模型的指令遵循能力。實(shí)驗(yàn)涵蓋了兩個(gè)代表性的多模態(tài)大語(yǔ)言模型:Qwen2-VL-7B-Instruct和LLaVA-Next-Llama3-8B,這兩個(gè)模型在實(shí)驗(yàn)前后的表現(xiàn)差異清晰地展示了訓(xùn)練數(shù)據(jù)的有效性。
在MM-IFEval基準(zhǔn)測(cè)試中,使用MM-IFInstruct-23k進(jìn)行監(jiān)督微調(diào)后,LLaVA-Next-Llama3-8B的平均得分從39.7%提升到49.2%,提升幅度達(dá)到9.5個(gè)百分點(diǎn)。而Qwen2-VL-7B-Instruct的表現(xiàn)更加亮眼,從42.0%提升到52.3%,提升幅度達(dá)到10.3個(gè)百分點(diǎn)。當(dāng)使用MM-IFDPO-23k進(jìn)行直接偏好優(yōu)化訓(xùn)練后,效果提升更加顯著,LLaVA-Next模型的得分提升到49.3%,Qwen2-VL模型則達(dá)到52.2%。
值得特別關(guān)注的是,DPO訓(xùn)練方法在多個(gè)基準(zhǔn)測(cè)試中都顯示出了優(yōu)于傳統(tǒng)監(jiān)督微調(diào)的效果。在MIA-Bench測(cè)試中,經(jīng)過(guò)DPO訓(xùn)練的LLaVA-Next模型得分從83.3%提升到90.0%,提升了6.7個(gè)百分點(diǎn)。在IFEval測(cè)試中,該模型的得分更是從50.7%大幅提升到69.1%,提升幅度達(dá)到18.4個(gè)百分點(diǎn)。這些結(jié)果表明,負(fù)樣本對(duì)比學(xué)習(xí)對(duì)于訓(xùn)練模型遵循復(fù)雜約束具有特別重要的作用。
為了驗(yàn)證訓(xùn)練不會(huì)影響模型的其他能力,研究團(tuán)隊(duì)還在多個(gè)傳統(tǒng)的視覺(jué)問(wèn)答基準(zhǔn)上進(jìn)行了測(cè)試。結(jié)果顯示,經(jīng)過(guò)指令遵循訓(xùn)練的模型在MMMU、MMBench、MMStar等通用知識(shí)測(cè)試中保持了相當(dāng)?shù)男阅芩?,在某些測(cè)試中甚至略有提升。這說(shuō)明專(zhuān)門(mén)的指令遵循訓(xùn)練不會(huì)損害模型的原有能力,反而可能通過(guò)提升模型的理解能力帶來(lái)額外收益。
在MM-IFEval基準(zhǔn)的排行榜中,最先進(jìn)的專(zhuān)有模型GPT-4o獲得了64.6%的得分,Claude-3.5V-Sonnet獲得了61.7%的得分,這表明即使是最強(qiáng)大的商業(yè)模型在復(fù)雜指令遵循任務(wù)上仍有很大提升空間。開(kāi)源模型中表現(xiàn)最好的是Qwen2-VL-72B,得分為50.8%,而經(jīng)過(guò)MM-IFDPO-23k訓(xùn)練的Qwen2-VL-7B模型得分達(dá)到52.2%,甚至超過(guò)了參數(shù)規(guī)模大十倍的基礎(chǔ)模型,這充分證明了高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),探索不同負(fù)樣本生成策略對(duì)DPO訓(xùn)練效果的影響。實(shí)驗(yàn)結(jié)果顯示,移除100%約束條件生成的負(fù)樣本能夠帶來(lái)最好的訓(xùn)練效果,這種策略在所有測(cè)試基準(zhǔn)上都取得了最高分?jǐn)?shù)。移除66%約束條件和移除33%約束條件的策略效果依次遞減,而完全移除圖片輸入的策略效果最差。這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要規(guī)律:約束條件的移除比例越高,正負(fù)樣本之間的語(yǔ)義差距越大,從而能夠?yàn)閷?duì)比學(xué)習(xí)提供更強(qiáng)的信號(hào)。
感知級(jí)和組合級(jí)問(wèn)題的分析結(jié)果也很有啟發(fā)性。在感知級(jí)問(wèn)題上,所有模型的表現(xiàn)都明顯低于組合級(jí)問(wèn)題,這說(shuō)明將復(fù)雜約束與視覺(jué)理解相結(jié)合確實(shí)是一個(gè)更具挑戰(zhàn)性的任務(wù)。即使是最強(qiáng)的模型在感知級(jí)問(wèn)題上的得分也只有44%左右,這為未來(lái)的研究指明了重點(diǎn)方向。
五、技術(shù)創(chuàng)新與應(yīng)用前景
MM-IFEngine系統(tǒng)的技術(shù)創(chuàng)新不僅僅體現(xiàn)在數(shù)據(jù)生成的自動(dòng)化上,更重要的是它建立了一套完整的多模態(tài)指令遵循能力培養(yǎng)體系。這個(gè)體系的設(shè)計(jì)理念借鑒了人類(lèi)學(xué)習(xí)復(fù)雜技能的過(guò)程,通過(guò)大量多樣化的練習(xí)來(lái)培養(yǎng)AI的"聽(tīng)話(huà)"能力。
約束分類(lèi)體系的設(shè)計(jì)特別值得關(guān)注。研究團(tuán)隊(duì)將現(xiàn)實(shí)世界中可能遇到的各種指令要求進(jìn)行了系統(tǒng)化的歸納和分類(lèi),形成了一個(gè)層次化的約束taxonomy。這個(gè)分類(lèi)體系不僅覆蓋了文本長(zhǎng)度、格式要求等基礎(chǔ)約束,還包括了語(yǔ)調(diào)模擬、角色扮演等高級(jí)約束,甚至考慮到了數(shù)學(xué)精度、科學(xué)計(jì)數(shù)法等專(zhuān)業(yè)領(lǐng)域的特殊要求。
在約束集成的過(guò)程中,系統(tǒng)采用了智能化的兼容性檢查機(jī)制。這個(gè)機(jī)制能夠自動(dòng)識(shí)別約束之間的潛在沖突,比如同時(shí)要求"使用第一人稱(chēng)"和"保持客觀(guān)中立的語(yǔ)調(diào)"這樣的矛盾要求。通過(guò)LLM的語(yǔ)義理解能力,系統(tǒng)能夠在約束組合階段就過(guò)濾掉這些不合理的組合,確保生成的訓(xùn)練數(shù)據(jù)質(zhì)量。
混合評(píng)估策略的設(shè)計(jì)也體現(xiàn)了深刻的技術(shù)洞察。研究團(tuán)隊(duì)認(rèn)識(shí)到,不同類(lèi)型的約束需要不同的評(píng)估方法,強(qiáng)行使用統(tǒng)一的評(píng)估標(biāo)準(zhǔn)可能導(dǎo)致評(píng)估結(jié)果的不準(zhǔn)確?;谝?guī)則的驗(yàn)證方法確保了客觀(guān)約束評(píng)估的精確性,LLM判斷方法提供了語(yǔ)義約束評(píng)估的靈活性,而比較判斷方法則解決了主觀(guān)約束評(píng)估的難題。
從應(yīng)用前景來(lái)看,這項(xiàng)研究成果有望在多個(gè)領(lǐng)域產(chǎn)生重要影響。在內(nèi)容創(chuàng)作領(lǐng)域,經(jīng)過(guò)訓(xùn)練的AI能夠更好地理解創(chuàng)作者的具體要求,比如"寫(xiě)一篇800字的產(chǎn)品介紹,語(yǔ)調(diào)要專(zhuān)業(yè)但不失親切,必須包含三個(gè)具體的使用場(chǎng)景"。在教育領(lǐng)域,AI家教能夠更準(zhǔn)確地按照老師的教學(xué)要求來(lái)設(shè)計(jì)作業(yè)和練習(xí),比如"設(shè)計(jì)5道數(shù)學(xué)題,難度遞增,每題都要包含實(shí)際生活場(chǎng)景"。
在企業(yè)應(yīng)用中,這種能力的提升意義更加顯著。AI助手能夠更好地理解和執(zhí)行復(fù)雜的工作指令,比如"分析這份銷(xiāo)售報(bào)告,用圖表形式展示三個(gè)關(guān)鍵趨勢(shì),每個(gè)趨勢(shì)用不超過(guò)50字解釋?zhuān)詈筇岢鰞蓚€(gè)具體的改進(jìn)建議"。這種精確的指令遵循能力將大大提高AI在實(shí)際工作中的實(shí)用性和可靠性。
從技術(shù)發(fā)展的角度看,這項(xiàng)研究開(kāi)啟了多模態(tài)AI能力評(píng)估的新方向。傳統(tǒng)的評(píng)估方法主要關(guān)注AI回答的準(zhǔn)確性,而忽略了AI是否能夠按照用戶(hù)的具體要求來(lái)組織和呈現(xiàn)答案。MM-IFEval基準(zhǔn)的提出填補(bǔ)了這個(gè)評(píng)估空白,為后續(xù)的模型發(fā)展提供了明確的目標(biāo)和衡量標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)還特別注重開(kāi)源精神,他們將完整的數(shù)據(jù)集、評(píng)估代碼和訓(xùn)練腳本都進(jìn)行了開(kāi)源發(fā)布。這種做法不僅有利于學(xué)術(shù)界的重現(xiàn)和驗(yàn)證,更重要的是為整個(gè)社區(qū)提供了寶貴的資源和工具。其他研究團(tuán)隊(duì)可以基于這些開(kāi)源資源來(lái)開(kāi)發(fā)更先進(jìn)的指令遵循模型,或者針對(duì)特定領(lǐng)域的需求來(lái)定制化改進(jìn)現(xiàn)有方法。
六、挑戰(zhàn)與局限性分析
盡管這項(xiàng)研究取得了顯著成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的一些局限性和面臨的挑戰(zhàn)。這種客觀(guān)的態(tài)度體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)精神,也為未來(lái)的改進(jìn)指明了方向。
首先是數(shù)據(jù)生成的質(zhì)量控制問(wèn)題。雖然MM-IFEngine能夠自動(dòng)生成大量訓(xùn)練數(shù)據(jù),但要確保每個(gè)生成樣本的質(zhì)量仍然是一個(gè)挑戰(zhàn)。研究團(tuán)隊(duì)采用了80%的準(zhǔn)確率閾值作為質(zhì)量標(biāo)準(zhǔn),這意味著仍有20%的數(shù)據(jù)可能存在質(zhì)量問(wèn)題。雖然這個(gè)比例在大規(guī)模數(shù)據(jù)生成中是可以接受的,但如何進(jìn)一步提高數(shù)據(jù)質(zhì)量仍然是一個(gè)需要持續(xù)關(guān)注的問(wèn)題。
約束兼容性檢查雖然能夠過(guò)濾掉明顯的沖突,但對(duì)于一些微妙的不兼容情況可能仍然無(wú)法完全識(shí)別。比如要求"保持學(xué)術(shù)嚴(yán)謹(jǐn)性"和"使用幽默風(fēng)趣的語(yǔ)調(diào)"這樣的約束,雖然不是完全沖突,但在實(shí)際執(zhí)行中可能會(huì)產(chǎn)生矛盾。這種邊界情況的處理需要更加精細(xì)的設(shè)計(jì)和更強(qiáng)的語(yǔ)義理解能力。
評(píng)估方法的準(zhǔn)確性也存在提升空間。雖然混合評(píng)估策略比單一評(píng)估方法更加準(zhǔn)確,但LLM作為評(píng)判者仍然可能存在一定的偏見(jiàn)和不一致性。特別是在比較判斷方法中,LLM的評(píng)判標(biāo)準(zhǔn)可能會(huì)受到訓(xùn)練數(shù)據(jù)和模型偏見(jiàn)的影響,這可能會(huì)對(duì)最終的評(píng)估結(jié)果產(chǎn)生系統(tǒng)性影響。
從更廣泛的角度來(lái)看,當(dāng)前的研究主要集中在英語(yǔ)環(huán)境下的指令遵循,對(duì)于其他語(yǔ)言的適用性還需要進(jìn)一步驗(yàn)證。不同語(yǔ)言的表達(dá)習(xí)慣和約束形式可能存在顯著差異,這就需要針對(duì)不同語(yǔ)言特點(diǎn)來(lái)調(diào)整約束設(shè)計(jì)和評(píng)估方法。
另一個(gè)重要的挑戰(zhàn)是計(jì)算資源的需求。高質(zhì)量的指令遵循訓(xùn)練需要大量的計(jì)算資源,特別是DPO訓(xùn)練方法需要生成和比較大量的樣本對(duì)。這可能會(huì)限制該方法在資源受限環(huán)境下的應(yīng)用,也會(huì)影響中小型研究團(tuán)隊(duì)的參與度。
從實(shí)際應(yīng)用的角度看,用戶(hù)指令的多樣性和復(fù)雜性遠(yuǎn)遠(yuǎn)超出了當(dāng)前基準(zhǔn)測(cè)試的覆蓋范圍?,F(xiàn)實(shí)世界中的指令往往更加隨意、模糊,包含大量隱含信息和上下文依賴(lài)。如何讓AI在這種開(kāi)放環(huán)境下仍然能夠準(zhǔn)確理解和執(zhí)行指令,仍然是一個(gè)巨大的挑戰(zhàn)。
倫理和安全方面的考慮也不容忽視。強(qiáng)化的指令遵循能力可能會(huì)讓AI更容易被惡意指令所利用,比如生成有害內(nèi)容或進(jìn)行誤導(dǎo)性宣傳。如何在提升指令遵循能力的同時(shí)保持適當(dāng)?shù)陌踩吔?,是未?lái)發(fā)展中必須認(rèn)真考慮的問(wèn)題。
七、未來(lái)發(fā)展方向
基于當(dāng)前的研究成果和存在的局限性,研究團(tuán)隊(duì)和更廣泛的學(xué)術(shù)界可以在多個(gè)方向上繼續(xù)深入探索,推動(dòng)多模態(tài)指令遵循技術(shù)的進(jìn)一步發(fā)展。
在數(shù)據(jù)質(zhì)量提升方面,未來(lái)的工作可以探索更加智能的質(zhì)量控制機(jī)制。比如開(kāi)發(fā)專(zhuān)門(mén)的質(zhì)量評(píng)估模型,能夠自動(dòng)識(shí)別和過(guò)濾低質(zhì)量的生成樣本。另外,可以引入人工驗(yàn)證環(huán)節(jié),對(duì)關(guān)鍵樣本進(jìn)行人工審核,建立更加可靠的質(zhì)量標(biāo)準(zhǔn)。多輪迭代生成也是一個(gè)有前景的方向,通過(guò)多次優(yōu)化來(lái)逐步提升樣本質(zhì)量。
約束設(shè)計(jì)的豐富化是另一個(gè)重要方向。當(dāng)前的32種約束類(lèi)型雖然已經(jīng)相當(dāng)全面,但仍然可以進(jìn)一步擴(kuò)展。比如可以添加更多領(lǐng)域特定的約束,如法律文書(shū)的格式要求、醫(yī)學(xué)報(bào)告的規(guī)范性要求等??缒B(tài)約束的設(shè)計(jì)也很有價(jià)值,比如要求AI的回答與圖片中的色彩風(fēng)格保持一致,或者根據(jù)圖片內(nèi)容選擇合適的情感表達(dá)方式。
在評(píng)估方法的改進(jìn)上,可以探索更加客觀(guān)和一致的評(píng)估標(biāo)準(zhǔn)。比如開(kāi)發(fā)專(zhuān)門(mén)的約束評(píng)估模型,這些模型專(zhuān)門(mén)訓(xùn)練來(lái)判斷特定類(lèi)型的約束是否得到滿(mǎn)足。多評(píng)估者一致性檢查也是一個(gè)重要方向,通過(guò)多個(gè)獨(dú)立的評(píng)估者來(lái)提高評(píng)估結(jié)果的可靠性。
模型架構(gòu)的優(yōu)化也有很大潛力。當(dāng)前的方法主要依賴(lài)于后訓(xùn)練的微調(diào),但如果能在模型的預(yù)訓(xùn)練階段就引入指令遵循的意識(shí),可能會(huì)取得更好的效果。多任務(wù)學(xué)習(xí)框架也值得探索,讓模型在學(xué)習(xí)指令遵循的同時(shí)保持甚至提升其他能力。
個(gè)性化指令遵循是一個(gè)極具應(yīng)用價(jià)值的研究方向。不同用戶(hù)的指令習(xí)慣和偏好可能存在顯著差異,如果AI能夠?qū)W習(xí)和適應(yīng)個(gè)人的指令風(fēng)格,將大大提升用戶(hù)體驗(yàn)。這需要開(kāi)發(fā)用戶(hù)畫(huà)像技術(shù)和個(gè)性化適應(yīng)算法。
跨語(yǔ)言和跨文化的指令遵循研究也亟待開(kāi)展。不同語(yǔ)言和文化背景下的指令表達(dá)方式、約束類(lèi)型和評(píng)估標(biāo)準(zhǔn)都可能存在差異。開(kāi)發(fā)多語(yǔ)言的指令遵循基準(zhǔn)和訓(xùn)練數(shù)據(jù),對(duì)于技術(shù)的全球化應(yīng)用具有重要意義。
在實(shí)際應(yīng)用的場(chǎng)景化方面,可以針對(duì)特定領(lǐng)域開(kāi)發(fā)專(zhuān)門(mén)的指令遵循系統(tǒng)。比如教育領(lǐng)域的AI家教、醫(yī)療領(lǐng)域的AI助手、法律領(lǐng)域的AI顧問(wèn)等,每個(gè)領(lǐng)域都有其獨(dú)特的指令遵循需求和挑戰(zhàn)。
長(zhǎng)期來(lái)看,指令遵循能力的提升還需要與其他AI能力的發(fā)展相結(jié)合。比如與推理能力結(jié)合,讓AI能夠理解復(fù)雜的多步驟指令;與創(chuàng)造性結(jié)合,讓AI在遵循約束的同時(shí)保持創(chuàng)新性;與情感智能結(jié)合,讓AI能夠理解和響應(yīng)情感性的指令要求。
說(shuō)到底,這項(xiàng)研究雖然取得了重要突破,但也只是在多模態(tài)AI發(fā)展道路上邁出的重要一步。讓AI真正像人類(lèi)一樣理解和執(zhí)行復(fù)雜指令,仍然需要整個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界的持續(xù)努力。不過(guò),隨著越來(lái)越多像MM-IFEngine這樣的創(chuàng)新系統(tǒng)的出現(xiàn),我們有理由相信,AI的"聽(tīng)話(huà)"能力將會(huì)越來(lái)越強(qiáng),最終能夠成為人類(lèi)真正可靠的智能助手。研究團(tuán)隊(duì)的開(kāi)源精神和嚴(yán)謹(jǐn)態(tài)度為后續(xù)研究奠定了良好基礎(chǔ),相信會(huì)有更多優(yōu)秀的研究成果在此基礎(chǔ)上涌現(xiàn)出來(lái)。
Q&A
Q1:MM-IFEngine是什么?它解決了什么問(wèn)題? A:MM-IFEngine是上海AI實(shí)驗(yàn)室開(kāi)發(fā)的多模態(tài)指令遵循訓(xùn)練系統(tǒng)。它解決了當(dāng)前AI模型雖然能回答圖片相關(guān)問(wèn)題,但無(wú)法精確按照用戶(hù)復(fù)雜要求(如字?jǐn)?shù)限制、格式要求、語(yǔ)調(diào)要求等)來(lái)組織答案的問(wèn)題。就像AI能做數(shù)學(xué)題但不會(huì)按老師的具體要求來(lái)寫(xiě)作業(yè)一樣。
Q2:MM-IFEval基準(zhǔn)測(cè)試有什么特點(diǎn)?為什么很有挑戰(zhàn)性? A:MM-IFEval包含400個(gè)測(cè)試問(wèn)題,涵蓋32種約束類(lèi)型,平均每題5.1個(gè)約束條件,遠(yuǎn)超現(xiàn)有基準(zhǔn)的復(fù)雜度。即使GPT-4o也只能達(dá)到64.6%的分?jǐn)?shù)。它的挑戰(zhàn)性在于需要AI同時(shí)滿(mǎn)足多個(gè)復(fù)雜約束,比如"用200字寫(xiě)詩(shī)歌形式的總結(jié),要用第二人稱(chēng),不能提及顏色"這樣的復(fù)合要求。
Q3:這項(xiàng)研究對(duì)普通用戶(hù)有什么實(shí)際意義? A:這項(xiàng)研究讓AI更"聽(tīng)話(huà)",能準(zhǔn)確理解和執(zhí)行復(fù)雜指令。未來(lái)當(dāng)你要求AI"寫(xiě)個(gè)500字的產(chǎn)品介紹,語(yǔ)調(diào)專(zhuān)業(yè)但親切,包含三個(gè)使用場(chǎng)景,格式要分段"時(shí),AI就能完全按你的要求來(lái)完成,而不是只回答大概內(nèi)容卻忽略具體要求。這將大大提升AI在工作、學(xué)習(xí)、創(chuàng)作等場(chǎng)景中的實(shí)用性。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀(guān)和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀(guān)對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。