這項(xiàng)由北京人工智能研究院的劉家政、鄭思鵬,以及北京大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的卡爾松和陸宗卿教授領(lǐng)導(dǎo)的研究發(fā)表于2025年3月,論文題為《Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning》。有興趣深入了解的讀者可以通過arXiv:2503.07002v1訪問完整論文。
當(dāng)我們和朋友聊天時(shí),經(jīng)常會(huì)指著照片說"你看這個(gè)"、"剛才提到的那個(gè)東西",而朋友總能準(zhǔn)確理解我們?cè)谡f什么。但對(duì)于目前的AI來說,這種看似簡單的多輪視覺對(duì)話卻是個(gè)大難題。就像一個(gè)健忘的朋友,AI經(jīng)常在對(duì)話進(jìn)行到第二輪時(shí)就忘記了第一輪討論的內(nèi)容,更別說準(zhǔn)確找到圖片中的相關(guān)區(qū)域了。
北京人工智能研究院的研究團(tuán)隊(duì)注意到了這個(gè)問題。他們發(fā)現(xiàn),現(xiàn)有的多模態(tài)大語言模型在處理包含圖像的多輪對(duì)話時(shí),就像沒有筆記本的學(xué)生一樣容易分心走神。當(dāng)對(duì)話涉及圖片中的多個(gè)區(qū)域,或者需要在幾輪對(duì)話中保持對(duì)同一區(qū)域的關(guān)注時(shí),AI往往表現(xiàn)得力不從心。
研究團(tuán)隊(duì)從人類學(xué)習(xí)的習(xí)慣中找到了靈感。當(dāng)我們閱讀復(fù)雜文檔或分析圖片時(shí),總會(huì)習(xí)慣性地用筆圈出重點(diǎn)、做標(biāo)記,這些簡單的視覺提示能幫我們保持專注?;谶@個(gè)觀察,他們提出了一個(gè)關(guān)鍵問題:能否讓AI也學(xué)會(huì)"做筆記",通過標(biāo)記重要區(qū)域來保持在多輪對(duì)話中的專注力?
為了驗(yàn)證這個(gè)想法,研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)名為MMDiag的數(shù)據(jù)集,這是專門為多輪多模態(tài)對(duì)話設(shè)計(jì)的訓(xùn)練和測(cè)試平臺(tái)。與以往那些問題相互獨(dú)立的數(shù)據(jù)集不同,MMDiag中的每個(gè)對(duì)話都像連續(xù)劇一樣環(huán)環(huán)相扣,后面的問題必須依賴前面的答案才能解決。
隨后,他們開發(fā)了DiagNote模型,這個(gè)AI系統(tǒng)包含兩個(gè)相互協(xié)作的模塊:一個(gè)叫"Deliberate"的思考模塊和一個(gè)叫"Gaze"的注視模塊。這種設(shè)計(jì)就像給AI配備了一個(gè)大腦和一雙善于觀察的眼睛,大腦負(fù)責(zé)邏輯推理,眼睛負(fù)責(zé)精準(zhǔn)定位圖片中的關(guān)鍵區(qū)域。
**一、多輪視覺對(duì)話的挑戰(zhàn):AI為什么會(huì)"失憶"**
多輪視覺對(duì)話聽起來簡單,實(shí)際上對(duì)AI來說卻是個(gè)復(fù)雜的挑戰(zhàn)。研究團(tuán)隊(duì)將這個(gè)挑戰(zhàn)比作同時(shí)進(jìn)行的兩個(gè)任務(wù):一是"顯著性追蹤",AI需要在對(duì)話過程中持續(xù)關(guān)注圖片中不同的相關(guān)區(qū)域;二是"顯著性回憶",AI需要在多輪問答中始終記住之前確定的關(guān)鍵信息。
為了說明這個(gè)問題的復(fù)雜性,研究團(tuán)隊(duì)使用了一個(gè)網(wǎng)格世界游戲作為例子。在這個(gè)游戲中,一個(gè)紅色三角形代表智能體,需要去拾取紫色鑰匙。第一個(gè)問題問的是:"紅色三角形應(yīng)該怎么做才能拾取紫色鑰匙?" AI需要同時(shí)定位紅色三角形和紫色鑰匙的位置,然后規(guī)劃路徑。第二個(gè)問題接著問:"之后,如果智能體想要到達(dá)紫色鑰匙下方的紅色球,應(yīng)該怎么做?" 這個(gè)問題的關(guān)鍵在于"之后"兩個(gè)字,AI必須基于第一個(gè)問題中智能體的最終位置來回答,而不是基于初始位置。
這種關(guān)聯(lián)性要求AI具備兩種核心能力。首先是空間記憶能力,AI需要記住在前一輪對(duì)話中確定的位置和狀態(tài)。其次是上下文理解能力,AI需要理解代詞"之后"指向的時(shí)間節(jié)點(diǎn),以及"那里"、"它"等指代關(guān)系。
現(xiàn)有的AI模型在處理這類問題時(shí)經(jīng)常出現(xiàn)兩種典型錯(cuò)誤。第一種是"注意力漂移",AI在第二輪對(duì)話時(shí)忘記了第一輪的焦點(diǎn)區(qū)域,重新從原始狀態(tài)開始分析。第二種是"指代混淆",AI無法正確理解對(duì)話中的代詞和時(shí)間關(guān)系,導(dǎo)致答案偏離正確軌道。
更棘手的是,當(dāng)圖片分辨率很高、包含大量視覺信息時(shí),AI需要處理的視覺標(biāo)記數(shù)量會(huì)急劇增加。這就像讓一個(gè)人同時(shí)記住一本厚厚字典中的所有內(nèi)容,超出了模型的處理能力范圍。傳統(tǒng)的解決方案往往采用"放大鏡"策略,逐漸縮小關(guān)注范圍,但這種方法容易錯(cuò)過重要的背景信息。另一種方案是"單點(diǎn)聚焦",每次只關(guān)注一個(gè)區(qū)域,但這會(huì)忽略多個(gè)相關(guān)區(qū)域之間的關(guān)聯(lián)性。
**二、從人類學(xué)習(xí)習(xí)慣中獲得啟發(fā):AI版的"課堂筆記"**
研究團(tuán)隊(duì)的突破性思路來源于對(duì)人類學(xué)習(xí)行為的細(xì)致觀察。當(dāng)我們面對(duì)復(fù)雜的學(xué)習(xí)材料時(shí),很少有人能僅憑大腦記憶就完美掌握所有信息。相反,我們會(huì)自然而然地使用各種輔助手段:用熒光筆標(biāo)記重點(diǎn)段落,在頁邊空白處寫下注釋,用箭頭連接相關(guān)概念,甚至簡單地用筆圈出關(guān)鍵詞匯。
這些看似微不足道的標(biāo)記行為實(shí)際上發(fā)揮著巨大作用。它們不僅幫助我們?cè)诋?dāng)下集中注意力,更重要的是為后續(xù)的復(fù)習(xí)和深入思考提供了視覺導(dǎo)航。當(dāng)我們?cè)俅畏嗊@些材料時(shí),那些標(biāo)記就像路標(biāo)一樣,迅速將我們的注意力引導(dǎo)到最重要的內(nèi)容上。
基于這個(gè)觀察,研究團(tuán)隊(duì)產(chǎn)生了一個(gè)關(guān)鍵洞察:既然人類需要通過"做筆記"來維持專注力和記憶力,那么AI在處理復(fù)雜的多輪視覺對(duì)話時(shí),是否也需要類似的機(jī)制?
他們注意到現(xiàn)有AI模型的一個(gè)致命缺陷:這些模型就像沒有筆記本的學(xué)生,完全依賴"短期記憶"來處理信息。當(dāng)對(duì)話進(jìn)行到第二輪、第三輪時(shí),第一輪討論的重點(diǎn)區(qū)域往往已經(jīng)從模型的"記憶"中淡化或消失。這就像一個(gè)學(xué)生在課堂上專心聽講,但因?yàn)闆]有做筆記,到了期末考試時(shí)就記不清老師強(qiáng)調(diào)過的重點(diǎn)內(nèi)容。
更深層的問題在于,現(xiàn)有模型缺乏"漸進(jìn)式專注"的能力。人類在分析復(fù)雜圖片時(shí),會(huì)采用一種自然的策略:先獲得整體印象,然后逐步聚焦到關(guān)鍵細(xì)節(jié),在這個(gè)過程中不斷調(diào)整注意力的分布。而AI模型往往采用"一次性處理"的方式,試圖在單一步驟中理解所有信息,這種方式在面對(duì)復(fù)雜場(chǎng)景時(shí)容易導(dǎo)致信息過載。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)有趣的現(xiàn)象:人類在做筆記時(shí),通常不會(huì)寫下完整的句子或詳細(xì)的解釋,而是使用簡潔的關(guān)鍵詞、符號(hào)或圖形標(biāo)記。這些簡化的標(biāo)記雖然看起來粗糙,但恰恰因?yàn)槠浜啙嵭远哂懈咝У奶崾咀饔谩_@個(gè)觀察啟發(fā)他們?cè)O(shè)計(jì)AI的"筆記系統(tǒng)"時(shí),也應(yīng)該采用簡潔而精確的標(biāo)記方式,而不是復(fù)雜的描述性文字。
**三、MMDiag數(shù)據(jù)集:專為"健忘"AI設(shè)計(jì)的訓(xùn)練場(chǎng)**
為了訓(xùn)練AI掌握多輪視覺對(duì)話的能力,研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)就是缺乏合適的訓(xùn)練數(shù)據(jù)?,F(xiàn)有的多模態(tài)對(duì)話數(shù)據(jù)集大多存在一個(gè)根本性問題:問題之間相互獨(dú)立,缺乏真正的關(guān)聯(lián)性。這就像給學(xué)生提供的練習(xí)題都是單獨(dú)的選擇題,而不是需要前后連貫思考的應(yīng)用題。
MMDiag數(shù)據(jù)集的設(shè)計(jì)理念完全不同。研究團(tuán)隊(duì)采用了"強(qiáng)制關(guān)聯(lián)"的策略,確保每個(gè)對(duì)話中的問題都必須依賴前面的答案才能解決。他們使用圖論的方法來構(gòu)建這種關(guān)聯(lián)性:將每張圖片表示為一個(gè)圖結(jié)構(gòu),其中節(jié)點(diǎn)代表物體,邊代表物體之間的關(guān)系。每個(gè)問答對(duì)被表示為這個(gè)圖的一個(gè)子圖,而多輪對(duì)話則確保這些子圖之間有重疊的節(jié)點(diǎn)或邊。
這種設(shè)計(jì)保證了一個(gè)重要特性:如果AI想要正確回答后續(xù)問題,就必須準(zhǔn)確理解和記憶前面問題的答案。這就像連環(huán)推理題,每一步都為下一步提供必要的信息基礎(chǔ)。
MMDiag包含三個(gè)不同的場(chǎng)景類型,每個(gè)場(chǎng)景都測(cè)試AI的不同能力維度。第一個(gè)是日常生活場(chǎng)景,基于Visual Genome數(shù)據(jù)集構(gòu)建,包含10.8萬張帶有詳細(xì)標(biāo)注的真實(shí)照片。這些場(chǎng)景測(cè)試AI對(duì)常見物體和日常關(guān)系的理解能力。第二個(gè)是表格圖表場(chǎng)景,基于ChartQA數(shù)據(jù)集構(gòu)建,包含1.8萬個(gè)真實(shí)世界的圖表和23.1萬個(gè)問答對(duì)。這些場(chǎng)景特別考驗(yàn)AI的數(shù)據(jù)解讀和數(shù)值推理能力。第三個(gè)是網(wǎng)格世界場(chǎng)景,基于Minigrid環(huán)境構(gòu)建,這是一個(gè)專門設(shè)計(jì)的2D格子世界,用于測(cè)試AI的空間推理和規(guī)劃能力。
每個(gè)場(chǎng)景的構(gòu)建過程都經(jīng)過精心設(shè)計(jì)。對(duì)于日常生活場(chǎng)景,研究團(tuán)隊(duì)首先從原始數(shù)據(jù)中提取物體和關(guān)系信息,構(gòu)建圖結(jié)構(gòu),然后使用子圖匹配算法找到具有重疊節(jié)點(diǎn)的問答組合,最后使用GPT-4o-mini生成自然語言的問題、答案和推理過程。這個(gè)過程確保了生成的對(duì)話既保持自然性,又具有嚴(yán)格的邏輯關(guān)聯(lián)性。
對(duì)于表格圖表場(chǎng)景,挑戰(zhàn)更大一些,因?yàn)樵嫉腃hartQA數(shù)據(jù)集只包含單輪問答。研究團(tuán)隊(duì)采用了創(chuàng)新的提示工程技術(shù),指導(dǎo)GPT-4o-mini生成具有代詞引用和數(shù)值關(guān)聯(lián)的多輪對(duì)話。他們特別強(qiáng)調(diào)了"某些區(qū)域被代詞引用"這一要求,以增加對(duì)話的復(fù)雜性和真實(shí)性。
網(wǎng)格世界場(chǎng)景的構(gòu)建最為復(fù)雜,因?yàn)樗婕皠?dòng)態(tài)規(guī)劃和行動(dòng)序列。研究團(tuán)隊(duì)首先使用Minigrid生成隨機(jī)的網(wǎng)格世界環(huán)境,然后使用BabyAI算法計(jì)算完成任務(wù)所需的最優(yōu)行動(dòng)序列,最后將環(huán)境描述、任務(wù)目標(biāo)和行動(dòng)計(jì)劃一起提供給GPT-4o-mini,生成相應(yīng)的多輪對(duì)話。
數(shù)據(jù)集的質(zhì)量控制也是一個(gè)重要環(huán)節(jié)。為了避免評(píng)估偏差,研究團(tuán)隊(duì)在生成數(shù)據(jù)時(shí)使用GPT-4o-mini,但在最終評(píng)估時(shí)使用Gemini-1.5-Pro作為評(píng)判標(biāo)準(zhǔn)。他們?cè)O(shè)計(jì)了一個(gè)五級(jí)評(píng)分系統(tǒng),從"完全錯(cuò)誤"到"完全正確",并要求評(píng)估模型提供詳細(xì)的推理過程,以確保評(píng)分的準(zhǔn)確性和一致性。
**四、DiagNote模型:AI版的"大腦+眼睛"組合**
DiagNote模型的核心設(shè)計(jì)靈感來源于人類視覺認(rèn)知的雙重機(jī)制:我們既有負(fù)責(zé)邏輯思考的大腦,也有負(fù)責(zé)精確觀察的眼睛,兩者密切協(xié)作才能完成復(fù)雜的視覺理解任務(wù)。基于這個(gè)理念,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)相互配合的模塊。
Deliberate模塊扮演"大腦"的角色,負(fù)責(zé)整體的邏輯推理和決策制定。這個(gè)模塊基于LLaVA-1.5架構(gòu)構(gòu)建,包含一個(gè)大語言模型作為核心推理引擎,一個(gè)預(yù)訓(xùn)練的視覺變換器作為圖像編碼器,以及一個(gè)多層感知機(jī)作為視覺-文本連接器。Deliberate模塊的主要任務(wù)是理解對(duì)話上下文,制定推理策略,并決定在每個(gè)推理步驟中需要關(guān)注圖片的哪些區(qū)域。
Gaze模塊則扮演"眼睛"的角色,專門負(fù)責(zé)精確定位圖片中的關(guān)鍵區(qū)域。這個(gè)模塊同樣基于LLaVA-1.5架構(gòu),但經(jīng)過專門的訓(xùn)練以優(yōu)化其空間定位能力。當(dāng)Deliberate模塊提出"需要找到紅色汽車"這樣的查詢時(shí),Gaze模塊會(huì)在圖片中精確定位紅色汽車的邊界框坐標(biāo)。
兩個(gè)模塊的交互過程就像一場(chǎng)精心編排的對(duì)話。在處理每個(gè)問題時(shí),Deliberate模塊首先分析整體情況,制定初步的推理計(jì)劃,然后向Gaze模塊提出具體的查詢請(qǐng)求。Gaze模塊接收到查詢后,在圖片中搜索相應(yīng)的區(qū)域并返回精確的位置坐標(biāo)。Deliberate模塊獲得這些位置信息后,更新自己的推理狀態(tài),可能會(huì)提出進(jìn)一步的查詢,或者基于已有信息得出結(jié)論。
這種交互式的處理方式帶來了幾個(gè)重要優(yōu)勢(shì)。首先是"漸進(jìn)式聚焦"能力,模型可以根據(jù)推理過程的需要,逐步細(xì)化對(duì)圖片不同區(qū)域的關(guān)注。其次是"記憶保持"能力,每次交互的結(jié)果都會(huì)被存儲(chǔ)在相應(yīng)的緩沖區(qū)中,為后續(xù)的推理步驟提供參考。最后是"錯(cuò)誤修正"能力,如果某次定位結(jié)果不理想,模型可以在下一輪交互中進(jìn)行調(diào)整。
模型的訓(xùn)練過程也體現(xiàn)了這種協(xié)作機(jī)制。兩個(gè)模塊不是獨(dú)立訓(xùn)練的,而是在統(tǒng)一的框架下協(xié)同優(yōu)化。訓(xùn)練數(shù)據(jù)包括完整的推理鏈,不僅有最終答案,還有每個(gè)中間步驟的推理過程和對(duì)應(yīng)的區(qū)域標(biāo)注。這種端到端的訓(xùn)練方式確保兩個(gè)模塊能夠形成良好的配合默契。
特別值得注意的是,DiagNote在推理過程中生成的不僅是最終答案,還包括完整的思考過程和注意力軌跡。這就像一個(gè)學(xué)生不僅給出了考試答案,還展示了完整的解題步驟和草稿紙。這種透明性不僅有助于理解模型的推理邏輯,也為進(jìn)一步的模型改進(jìn)提供了寶貴的洞察。
**五、實(shí)驗(yàn)驗(yàn)證:AI學(xué)會(huì)做筆記后的表現(xiàn)如何**
為了驗(yàn)證DiagNote的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn),就像給學(xué)生安排期中期末考試一樣,從多個(gè)維度測(cè)試模型的能力。
在視覺定位能力測(cè)試中,DiagNote展現(xiàn)出了顯著的優(yōu)勢(shì)。研究團(tuán)隊(duì)將其與目前最先進(jìn)的定位模型Grounding DINO進(jìn)行對(duì)比,結(jié)果發(fā)現(xiàn)在處理復(fù)雜查詢時(shí),DiagNote的表現(xiàn)要好得多。特別是在處理帶有屬性描述的查詢時(shí),比如"粉白色的標(biāo)志牌",傳統(tǒng)的定位模型往往會(huì)被多個(gè)相似物體所困惑,而DiagNote能夠準(zhǔn)確識(shí)別符合所有條件的目標(biāo)。
這種優(yōu)勢(shì)在表格圖表場(chǎng)景中表現(xiàn)得尤為明顯。當(dāng)面對(duì)"找到Cyprus"這樣的文字定位任務(wù)時(shí),專門的定位模型往往表現(xiàn)糟糕,因?yàn)樗鼈冎饕槍?duì)物體識(shí)別進(jìn)行優(yōu)化,對(duì)文字識(shí)別能力有限。而DiagNote利用大語言模型的泛化能力,能夠有效處理這類光學(xué)字符識(shí)別任務(wù)。
在多輪推理能力測(cè)試中,DiagNote的優(yōu)勢(shì)更加明顯。研究團(tuán)隊(duì)使用Gemini-1.5-Pro作為評(píng)判標(biāo)準(zhǔn),在0-10分的評(píng)分系統(tǒng)下評(píng)估模型的推理過程和最終答案。結(jié)果顯示,DiagNote在各個(gè)場(chǎng)景下都顯著優(yōu)于基線模型。特別是在需要復(fù)雜推理的表格場(chǎng)景中,DiagNote的平均得分達(dá)到了4.92分,而其他模型的得分都在3分以下。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)Gaze模塊的貢獻(xiàn)在不同場(chǎng)景下有明顯差異。在日常生活場(chǎng)景中,Gaze模塊的幫助最為明顯,這可能是因?yàn)榇祟悎?chǎng)景中的關(guān)鍵區(qū)域通常比較大且容易識(shí)別。在表格場(chǎng)景中,Gaze模塊的作用相對(duì)有限,這主要是因?yàn)閳D表中的關(guān)鍵信息往往是很小的數(shù)字或文字,超出了當(dāng)前視覺編碼器的精確定位能力。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)特別有啟發(fā)性的實(shí)驗(yàn):他們給DiagNote提供了完全準(zhǔn)確的區(qū)域標(biāo)注(相當(dāng)于"標(biāo)準(zhǔn)答案"),結(jié)果發(fā)現(xiàn)性能有了顯著提升,這證明了區(qū)域定位準(zhǔn)確性的重要性,也指出了未來改進(jìn)的方向。
對(duì)話輪數(shù)的分析揭示了另一個(gè)有趣的發(fā)現(xiàn)。隨著對(duì)話輪數(shù)的增加,Gaze模塊的作用變得越來越重要。在第一輪對(duì)話中,有沒有Gaze模塊的差異相對(duì)較小,但到了第三輪、第四輪時(shí),這種差異就變得非常明顯。這說明在長對(duì)話中,"做筆記"機(jī)制的價(jià)值更加突出。
不過,實(shí)驗(yàn)也揭示了一些局限性。當(dāng)圖片中的關(guān)鍵區(qū)域非常?。ㄕ紙D片面積不到0.2%)時(shí),Gaze模塊的定位準(zhǔn)確性會(huì)明顯下降,這時(shí)不僅幫不上忙,反而可能提供錯(cuò)誤的引導(dǎo)。這個(gè)問題在表格場(chǎng)景中特別突出,因?yàn)閳D表中的數(shù)字和標(biāo)簽往往都很小。研究團(tuán)隊(duì)認(rèn)為,這主要是由于當(dāng)前視覺編碼器的分辨率限制導(dǎo)致的。
**六、挑戰(zhàn)與局限:AI的"近視眼"問題**
盡管DiagNote在多輪視覺對(duì)話方面取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法面臨的一些挑戰(zhàn),這些挑戰(zhàn)就像AI版本的"近視眼"問題。
最主要的限制來自于視覺精度。當(dāng)前的視覺編碼器在處理高分辨率圖像時(shí),往往需要將圖像壓縮到固定尺寸,這個(gè)過程中小的文字和數(shù)字容易變得模糊不清。這就像讓一個(gè)近視的人不戴眼鏡去讀報(bào)紙上的小字,結(jié)果自然不理想。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)關(guān)鍵信息區(qū)域小于圖片總面積的0.2%時(shí),Gaze模塊的準(zhǔn)確性會(huì)大幅下降。
這個(gè)問題在表格圖表場(chǎng)景中特別突出。圖表中的年份、百分比、標(biāo)簽等關(guān)鍵信息往往以小字體出現(xiàn),而這些恰恰是回答問題的關(guān)鍵。當(dāng)Gaze模塊錯(cuò)誤定位這些信息時(shí),就會(huì)誤導(dǎo)Deliberate模塊,導(dǎo)致整個(gè)推理過程偏離正軌。
另一個(gè)挑戰(zhàn)是計(jì)算資源的消耗。DiagNote的雙模塊設(shè)計(jì)雖然提高了性能,但也意味著需要更多的計(jì)算資源。每個(gè)模塊都基于LLaVA-1.5這樣的大型模型,運(yùn)行兩個(gè)這樣的模塊需要的顯存和計(jì)算時(shí)間都是單一模型的兩倍左右。這對(duì)于實(shí)際應(yīng)用來說可能是一個(gè)制約因素。
模型在標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)測(cè)試上的表現(xiàn)也不如專門為這些任務(wù)優(yōu)化的模型。這是可以理解的,因?yàn)镈iagNote專門針對(duì)多輪對(duì)話進(jìn)行了優(yōu)化,在其他任務(wù)上的表現(xiàn)自然不如專門模型。這就像一個(gè)專門練習(xí)長跑的運(yùn)動(dòng)員,在短跑比賽中可能不如短跑專家。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在某些情況下,Gaze模塊反而會(huì)降低性能。這主要發(fā)生在Gaze模塊提供錯(cuò)誤定位信息的時(shí)候,這些錯(cuò)誤信息會(huì)誤導(dǎo)Deliberate模塊的推理過程。這個(gè)發(fā)現(xiàn)提醒我們,"做筆記"只有在筆記準(zhǔn)確的情況下才有幫助,錯(cuò)誤的筆記可能比沒有筆記更糟糕。
針對(duì)這些局限性,研究團(tuán)隊(duì)提出了幾個(gè)可能的改進(jìn)方向。首先是使用更高分辨率的視覺編碼器,或者采用動(dòng)態(tài)分辨率的處理方式。其次是改進(jìn)Gaze模塊的訓(xùn)練策略,讓它學(xué)會(huì)在不確定的時(shí)候"保持沉默",而不是提供可能錯(cuò)誤的信息。最后是探索更輕量級(jí)的模型架構(gòu),在保持性能的同時(shí)降低計(jì)算成本。
**七、未來展望:讓AI更像人類一樣思考**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的改進(jìn),它為人工智能的發(fā)展指出了一個(gè)重要方向:讓AI更像人類一樣思考和學(xué)習(xí)。
從技術(shù)發(fā)展的角度看,DiagNote代表了一種新的模型設(shè)計(jì)理念:不再是單一的端到端黑盒系統(tǒng),而是模塊化的、可解釋的、協(xié)作式的智能系統(tǒng)。這種設(shè)計(jì)理念的好處是顯而易見的:每個(gè)模塊都有明確的職責(zé)分工,系統(tǒng)的行為更容易理解和調(diào)試,出現(xiàn)問題時(shí)也更容易定位和修復(fù)。
更重要的是,這種設(shè)計(jì)思路可能適用于更廣泛的人工智能任務(wù)。在自動(dòng)駕駛中,我們可以設(shè)計(jì)專門的感知模塊和決策模塊;在機(jī)器翻譯中,我們可以設(shè)計(jì)專門的理解模塊和生成模塊;在科學(xué)研究中,我們可以設(shè)計(jì)專門的假設(shè)提出模塊和實(shí)驗(yàn)驗(yàn)證模塊。
從應(yīng)用前景來看,具備多輪視覺對(duì)話能力的AI將在許多實(shí)際場(chǎng)景中發(fā)揮重要作用。在教育領(lǐng)域,這樣的AI可以作為智能導(dǎo)師,通過圖表、圖像和文字與學(xué)生進(jìn)行深入的學(xué)科討論。在醫(yī)療診斷中,AI可以與醫(yī)生就病理圖像進(jìn)行多輪分析討論,提供更準(zhǔn)確的診斷建議。在工業(yè)質(zhì)檢中,AI可以協(xié)助工程師對(duì)產(chǎn)品缺陷進(jìn)行詳細(xì)分析。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了數(shù)據(jù)集建設(shè)的重要性。MMDiag數(shù)據(jù)集不僅是這項(xiàng)研究的基礎(chǔ),也為整個(gè)領(lǐng)域提供了一個(gè)新的基準(zhǔn)。隨著更多研究團(tuán)隊(duì)使用這個(gè)數(shù)據(jù)集,我們可以期待在多輪視覺對(duì)話領(lǐng)域看到更多突破性進(jìn)展。
從更長遠(yuǎn)的角度看,這項(xiàng)研究觸及了人工智能發(fā)展的一個(gè)核心問題:如何讓AI具備真正的理解能力,而不僅僅是模式匹配能力。通過引入"做筆記"機(jī)制,DiagNote展示了一種可能的路徑:讓AI學(xué)會(huì)像人類一樣使用外部工具來增強(qiáng)自己的認(rèn)知能力。
當(dāng)然,這項(xiàng)研究也提出了一些深層次的問題。例如,我們是否應(yīng)該讓AI完全模仿人類的思考方式,還是應(yīng)該開發(fā)AI獨(dú)有的認(rèn)知模式?在提高AI能力的同時(shí),如何確保其行為的可控性和安全性?這些問題沒有簡單的答案,需要整個(gè)人工智能社區(qū)的共同思考和探索。
說到底,這項(xiàng)研究最令人興奮的地方不在于它解決了一個(gè)特定的技術(shù)問題,而在于它為我們展示了一種新的可能性:人工智能不必是一個(gè)神秘的黑盒,它可以像人類一樣學(xué)會(huì)使用工具,學(xué)會(huì)做筆記,學(xué)會(huì)專注和回憶。這種"更像人類"的AI,可能正是我們一直在尋找的通往真正智能的道路。
當(dāng)我們看到AI開始學(xué)會(huì)做筆記時(shí),我們或許也在見證人工智能發(fā)展史上的一個(gè)重要時(shí)刻:機(jī)器第一次真正開始模仿人類最基礎(chǔ)、最重要的學(xué)習(xí)習(xí)慣。這個(gè)習(xí)慣看似簡單,卻可能是連接人類智慧和機(jī)器智能的橋梁。對(duì)于我們普通人來說,這意味著未來的AI助手將能夠進(jìn)行更自然、更深入的視覺交流,就像與一個(gè)善于觀察和記憶的朋友對(duì)話一樣輕松愉快。
Q&A
Q1:DiagNote是什么?它與現(xiàn)有AI有什么不同? A:DiagNote是北京人工智能研究院開發(fā)的多輪視覺對(duì)話AI模型。它的創(chuàng)新之處在于模仿人類做筆記的習(xí)慣,通過兩個(gè)模塊協(xié)作:Deliberate模塊負(fù)責(zé)邏輯推理,Gaze模塊負(fù)責(zé)精確定位圖片區(qū)域。這種設(shè)計(jì)讓AI能夠在多輪對(duì)話中保持專注,不會(huì)像傳統(tǒng)AI那樣"健忘"。
Q2:MMDiag數(shù)據(jù)集解決了什么問題? A:MMDiag是專門為多輪視覺對(duì)話設(shè)計(jì)的訓(xùn)練數(shù)據(jù)集,解決了現(xiàn)有數(shù)據(jù)集問題相互獨(dú)立的弊端。它確保每輪對(duì)話都必須依賴前面的答案,就像連環(huán)推理題一樣。包含日常場(chǎng)景、表格圖表和網(wǎng)格世界三種場(chǎng)景,總共63.9萬個(gè)問答對(duì)和113.9萬個(gè)定位標(biāo)注。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在日常生活中使用? A:目前DiagNote還處于研究階段,主要面臨視覺精度和計(jì)算資源的限制。研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)圖片中的關(guān)鍵區(qū)域太小時(shí),定位準(zhǔn)確性會(huì)下降。不過,這項(xiàng)技術(shù)的理念和方法為未來的AI助手、智能教育、醫(yī)療診斷等應(yīng)用指明了方向。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。