av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 漫畫(huà)也懂故事:東京大學(xué)開(kāi)發(fā) MangaLMM,讓 AI 像人類一樣閱讀日本漫畫(huà)

漫畫(huà)也懂故事:東京大學(xué)開(kāi)發(fā) MangaLMM,讓 AI 像人類一樣閱讀日本漫畫(huà)

2025-06-03 07:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 07:44 ? 科技行者

在日本漫畫(huà)文化中,一本好漫畫(huà)往往通過(guò)圖像和文字的精妙結(jié)合講述引人入勝的故事?,F(xiàn)在,東京大學(xué)的研究團(tuán)隊(duì)希望讓人工智能也能像人類一樣理解和欣賞這種獨(dú)特的藝術(shù)形式。這項(xiàng)研究成果《MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding》由東京大學(xué)的白晶勛(Jeonghun Baek)、江頭和希(Kazuki Egashira)、小野原翔太(Shota Onohara)、宮井淳之(Atsuyuki Miyai)、今宿由紀(jì)(Yuki Imajuku)、生田光(Hikaru Ikuta)和相澤清晴(Kiyoharu Aizawa)共同完成,于2025年5月26日發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)為2505.20298v1。

想象一下,你是一位漫畫(huà)創(chuàng)作者,正在繪制一個(gè)復(fù)雜的故事。如果有一個(gè)助手能夠閱讀你的作品,理解故事情節(jié),并給出有用的反饋,那會(huì)多么便利!這正是東京大學(xué)研究團(tuán)隊(duì)的愿景:讓AI能夠理解漫畫(huà)的多模態(tài)敘事方式,從而幫助創(chuàng)作者反思和完善他們的故事。

在這個(gè)數(shù)字時(shí)代,大型多模態(tài)模型(LMMs)已經(jīng)能夠處理圖像和文本的結(jié)合,但要讓它們理解日本漫畫(huà)這種獨(dú)特的敘事形式仍然面臨挑戰(zhàn)。漫畫(huà)不僅僅是簡(jiǎn)單的圖文組合,它有著復(fù)雜的分格布局、豐富的視覺(jué)表現(xiàn)手法,以及直接嵌入圖像中的文字對(duì)話和擬聲詞。要理解一本漫畫(huà),AI需要同時(shí)掌握視覺(jué)和文字信息,并且能夠在連貫的敘事中跟隨上下文——就像人類讀者一樣。

研究團(tuán)隊(duì)發(fā)現(xiàn),雖然已有一些研究如Magi和CoMix嘗試解決漫畫(huà)理解問(wèn)題,但它們主要專注于從漫畫(huà)頁(yè)面生成文字轉(zhuǎn)錄,而沒(méi)有評(píng)估模型在多大程度上能夠準(zhǔn)確識(shí)別頁(yè)內(nèi)文本(OCR)或基于該文本通過(guò)視覺(jué)問(wèn)答(VQA)理解內(nèi)容。簡(jiǎn)單來(lái)說(shuō),現(xiàn)有研究還無(wú)法確定AI是否真的像人類一樣理解漫畫(huà)內(nèi)容。

為了解決這一問(wèn)題,東京大學(xué)的團(tuán)隊(duì)提出了兩個(gè)基準(zhǔn)測(cè)試:MangaOCR和MangaVQA。MangaOCR專注于檢測(cè)和識(shí)別漫畫(huà)中的文本內(nèi)容,如對(duì)話和音效。研究團(tuán)隊(duì)整合了知名的Manga109數(shù)據(jù)集和漫畫(huà)擬聲詞數(shù)據(jù)集的現(xiàn)有注釋來(lái)構(gòu)建這一基準(zhǔn)。更重要的是,作為主要貢獻(xiàn),他們提出了MangaVQA,一個(gè)新型基準(zhǔn),旨在評(píng)估AI模型通過(guò)視覺(jué)問(wèn)答準(zhǔn)確回答基于視覺(jué)和文本上下文的針對(duì)性問(wèn)題的能力。它由526個(gè)高質(zhì)量、手動(dòng)構(gòu)建的問(wèn)答對(duì)組成,涵蓋各種敘事和視覺(jué)場(chǎng)景,使得評(píng)估更加可靠。

基于這兩個(gè)基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)開(kāi)發(fā)了MangaLMM,一個(gè)專門用于漫畫(huà)理解的模型。這個(gè)模型是在開(kāi)源大型多模態(tài)模型Qwen2.5-VL的基礎(chǔ)上微調(diào)得到的,能夠同時(shí)處理OCR和VQA兩項(xiàng)任務(wù)。通過(guò)大量實(shí)驗(yàn),包括與GPT-4o和Gemini 2.5等專有模型的比較,團(tuán)隊(duì)評(píng)估了LMM模型理解漫畫(huà)的能力。

這項(xiàng)研究的意義不僅在于技術(shù)突破,更在于它為漫畫(huà)創(chuàng)作者提供了潛在的創(chuàng)作輔助工具。未來(lái),這種技術(shù)可能會(huì)像一個(gè)熟練的編輯或助手一樣,幫助創(chuàng)作者反思和改進(jìn)他們的故事,使漫畫(huà)創(chuàng)作過(guò)程更加高效和有創(chuàng)意。

一、漫畫(huà)理解的挑戰(zhàn)與MangaOCR基準(zhǔn)

漫畫(huà)是一種獨(dú)特的多模態(tài)敘事形式,它與普通圖文結(jié)合的內(nèi)容有著本質(zhì)區(qū)別。想象你正在閱讀一本漫畫(huà),你會(huì)發(fā)現(xiàn)它有著特定的閱讀順序(日本漫畫(huà)通常是從右到左),復(fù)雜的分格布局,以及直接融入圖像中的文字。這些文字可能是角色對(duì)話,也可能是"轟"、"啪"等擬聲詞,它們都是故事敘述的重要組成部分。

為了讓AI系統(tǒng)能夠理解漫畫(huà),研究團(tuán)隊(duì)首先需要解決的問(wèn)題是:如何讓AI正確"讀取"漫畫(huà)中的文字?這就像教一個(gè)外國(guó)人不僅要看懂漫畫(huà)的圖像,還要能讀懂上面的文字一樣。這個(gè)任務(wù)在AI領(lǐng)域被稱為光學(xué)字符識(shí)別(OCR)。

研究團(tuán)隊(duì)選擇了廣泛使用的Manga109數(shù)據(jù)集作為研究基礎(chǔ)。這個(gè)數(shù)據(jù)集包含109卷日本漫畫(huà),具有開(kāi)放訪問(wèn)許可,多樣化的漫畫(huà)標(biāo)題,以及豐富的注釋和元信息。它捕捉了漫畫(huà)的許多獨(dú)特特征,包括其主要黑白的藝術(shù)風(fēng)格,雙頁(yè)展開(kāi),從右到左的閱讀順序,垂直文本布局,以及融入插圖的風(fēng)格化擬聲詞。

基于Manga109數(shù)據(jù)集,研究團(tuán)隊(duì)構(gòu)建了MangaOCR基準(zhǔn)。這個(gè)基準(zhǔn)專注于兩類嵌入文本:對(duì)話和擬聲詞。通過(guò)整合Manga109數(shù)據(jù)集和漫畫(huà)擬聲詞數(shù)據(jù)集的現(xiàn)有注釋,MangaOCR包含約20.9萬(wàn)個(gè)敘事文本實(shí)例,涵蓋各種視覺(jué)風(fēng)格和布局。

值得注意的是,研究團(tuán)隊(duì)采用了基于作者信息的數(shù)據(jù)集分割協(xié)議。在原始分割中,109卷漫畫(huà)被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。為了評(píng)估同一系列內(nèi)的泛化能力,十個(gè)測(cè)試卷中的五個(gè)屬于與訓(xùn)練集相同的系列,其中第一卷包含在訓(xùn)練集中,最后一卷在測(cè)試集中。這樣設(shè)置可以測(cè)試模型是否能夠從系列的開(kāi)始泛化到后期。另外,為了評(píng)估作者內(nèi)泛化能力,剩余五個(gè)測(cè)試卷是由在訓(xùn)練集中有其他作品的作者創(chuàng)作的。這使團(tuán)隊(duì)能夠評(píng)估模型是否能夠在同一作者的不同作品之間泛化。

此外,為了評(píng)估與作者身份相關(guān)的分布外泛化能力,研究團(tuán)隊(duì)將驗(yàn)證集中的三個(gè)卷移至測(cè)試集。這些卷由在訓(xùn)練集中沒(méi)有貢獻(xiàn)任何作品的個(gè)人創(chuàng)作。

總體而言,MangaOCR包含約20.9萬(wàn)個(gè)文本實(shí)例,其中訓(xùn)練集有17萬(wàn)個(gè),驗(yàn)證集有1.3萬(wàn)個(gè),測(cè)試集有2.6萬(wàn)個(gè)。通過(guò)這個(gè)基準(zhǔn),研究團(tuán)隊(duì)能夠評(píng)估AI模型識(shí)別漫畫(huà)中文本的能力,這是理解漫畫(huà)內(nèi)容的基礎(chǔ)步驟。

二、深入理解漫畫(huà)內(nèi)容:MangaVQA基準(zhǔn)

想象你正在與朋友討論一本剛讀完的漫畫(huà)。你們可能會(huì)問(wèn):"這個(gè)角色為什么要這么做?"或"這個(gè)情節(jié)轉(zhuǎn)折有什么意義?"這種對(duì)內(nèi)容的深入理解和討論正是人類讀者自然而然會(huì)做的事情。但對(duì)AI來(lái)說(shuō),僅僅能識(shí)別出漫畫(huà)中的文字(OCR)還遠(yuǎn)遠(yuǎn)不夠,它還需要理解這些文字在故事情境中的含義。

這就是為什么研究團(tuán)隊(duì)提出了MangaVQA基準(zhǔn)。與僅關(guān)注文本識(shí)別的MangaOCR不同,MangaVQA旨在評(píng)估AI模型對(duì)漫畫(huà)內(nèi)容的理解程度。想象MangaVQA就像是給AI出一份漫畫(huà)理解測(cè)驗(yàn),測(cè)驗(yàn)中的問(wèn)題需要AI不僅能"看"到圖像,"讀"出文字,還能理解它們共同講述的故事。

為了創(chuàng)建高質(zhì)量的評(píng)估集,研究團(tuán)隊(duì)的五位標(biāo)注者基于Manga109中的圖像手動(dòng)創(chuàng)建了問(wèn)答對(duì)。他們專注于有明確答案的問(wèn)題,避免那些僅憑圖像模糊印象就能推斷出的問(wèn)題。這確保了評(píng)估的可靠性和無(wú)歧義性。

MangaVQA的問(wèn)題類型設(shè)計(jì)基于四個(gè)關(guān)鍵維度:

首先是"所需信息"維度,問(wèn)題可能需要來(lái)自個(gè)別分格的信息(約45.4%)或整個(gè)頁(yè)面的信息(約54.6%)。這反映了人類讀者如何在不同層面理解漫畫(huà)內(nèi)容。

第二個(gè)維度是"理解類型",分為三類:精確提?。?4.1%),即答案直接從圖像中提取;多模態(tài)理解(52.1%),即答案需要理解故事的上下文;圖像理解(3.8%),即不需要參考文本就能回答的問(wèn)題。

第三個(gè)維度是基于5W1H(Who, What, When, Where, Why, How)的問(wèn)題類型。其中,"What"(什么)類問(wèn)題占49.8%,"Why"(為什么)類問(wèn)題占22.8%,"Who"(誰(shuí))類問(wèn)題占17.3%,其他類型分別占較小比例。

最后一個(gè)維度是"作者類型",即問(wèn)題所涉及的漫畫(huà)是否來(lái)自訓(xùn)練集中包含的作者。這包括見(jiàn)過(guò)的作者(不同標(biāo)題)占31.9%,見(jiàn)過(guò)的標(biāo)題(不同卷)占33.8%,和未見(jiàn)過(guò)的作者占34.2%。

舉個(gè)例子,在"精確提取"類別中,問(wèn)題可能是:"風(fēng)子收到的人偶叫什么名字?"答案是"芙醬",這直接寫(xiě)在對(duì)話中。這類問(wèn)題評(píng)估AI的基本理解能力,即識(shí)別和提取漫畫(huà)中的正確答案部分。

在"多模態(tài)理解"類別中,問(wèn)題可能是:"接球手注意到擊球手有什么變化?"正確答案是:"他以前站姿開(kāi)放,但現(xiàn)在站姿封閉。"這類問(wèn)題允許評(píng)估AI是否不僅能識(shí)別對(duì)話,還能理解其在敘事背景下的潛在含義。

在"圖像理解"類別中,問(wèn)題可能是:"右下角的男人試圖攻擊什么?"答案是:"嬰兒"。這類問(wèn)題純粹依賴于對(duì)角色及其行為的視覺(jué)描繪,允許AI即使在沒(méi)有對(duì)話的情況下也能推斷出正確答案。

通過(guò)這些多樣化的問(wèn)題類型,MangaVQA提供了一個(gè)全面的框架來(lái)評(píng)估AI模型對(duì)漫畫(huà)內(nèi)容的理解能力。這不僅僅是識(shí)別文字,而是理解文字和圖像如何共同講述一個(gè)連貫的故事。

三、MangaLMM:專為漫畫(huà)理解打造的AI模型

有了MangaOCR和MangaVQA這兩個(gè)基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)的下一步是開(kāi)發(fā)一個(gè)能夠像人類一樣閱讀和理解漫畫(huà)的AI模型。這就是MangaLMM的誕生過(guò)程。

想象你正在教一個(gè)從未接觸過(guò)漫畫(huà)的外國(guó)朋友如何閱讀日本漫畫(huà)。你需要教他不僅要看懂圖像,還要讀懂文字,并且理解故事情節(jié)。同樣,研究團(tuán)隊(duì)需要"教導(dǎo)"AI模型完成這些任務(wù)。

他們選擇了開(kāi)源大型多模態(tài)模型Qwen2.5-VL作為基礎(chǔ),并對(duì)其進(jìn)行微調(diào)以創(chuàng)建MangaLMM。選擇Qwen2.5-VL是因?yàn)樗且粋€(gè)強(qiáng)大的多語(yǔ)言模型,能夠處理日語(yǔ),并且具有出色的日語(yǔ)OCR能力,這對(duì)理解漫畫(huà)至關(guān)重要。

為了訓(xùn)練MangaLMM,研究團(tuán)隊(duì)構(gòu)建了兩種類型的訓(xùn)練數(shù)據(jù):

首先是OCR訓(xùn)練集(TOCR)。對(duì)于OCR任務(wù),他們使用前面描述的MangaOCR訓(xùn)練集。對(duì)于每個(gè)圖像,他們將文本注釋序列格式化為JSON格式,包含文本的坐標(biāo)位置和內(nèi)容。

其次是合成VQA訓(xùn)練集(TVQA)。對(duì)于VQA任務(wù),他們使用GPT-4o為每個(gè)圖像生成五個(gè)問(wèn)題,同時(shí)利用圖像和其OCR注釋。雖然他們要求GPT-4o為每個(gè)圖像生成五個(gè)問(wèn)題,但有時(shí)它返回的問(wèn)題少于五個(gè)。最終,他們從8,379個(gè)圖像創(chuàng)建了總共39,837個(gè)合成VQA樣本。

訓(xùn)練過(guò)程采用了持續(xù)微調(diào)的策略,在預(yù)訓(xùn)練的Qwen2.5-VL 7B模型上進(jìn)行。大多數(shù)超參數(shù)遵循原始Qwen2.5-VL配置,只有少數(shù)修改。對(duì)于Manga109圖像(1654×1170分辨率),他們遵循Qwen2.5-VL的圖像調(diào)整機(jī)制,該機(jī)制基于像素計(jì)數(shù)閾值,其中輸入像素的最小和最大數(shù)量分別為3,136和2,116,800。

訓(xùn)練時(shí)間方面,每個(gè)數(shù)據(jù)集訓(xùn)練一個(gè)周期。使用四個(gè)NVIDIA A100 GPU訓(xùn)練Qwen2.5-VL 7B模型,使用TOCR或TVQA大約需要1小時(shí),而同時(shí)使用TOCR和TVQA則需要約2小時(shí)。

這樣,MangaLMM成為了一個(gè)專門用于漫畫(huà)理解的模型,能夠同時(shí)處理OCR和VQA任務(wù)。它就像一個(gè)熟練的漫畫(huà)讀者,不僅能看懂圖像,讀懂文字,還能理解故事情節(jié),為漫畫(huà)創(chuàng)作者提供有價(jià)值的反饋。

四、實(shí)驗(yàn)與結(jié)果:MangaLMM的表現(xiàn)如何?

研究團(tuán)隊(duì)進(jìn)行了一系列實(shí)驗(yàn),以評(píng)估MangaLMM以及其他多模態(tài)大語(yǔ)言模型在漫畫(huà)理解任務(wù)上的表現(xiàn)。這就像是一場(chǎng)AI漫畫(huà)閱讀比賽,參賽者包括商業(yè)模型如GPT-4o和Gemini 2.5,以及開(kāi)源模型如Phi-4和Qwen2.5-VL。

對(duì)于MangaOCR任務(wù)的評(píng)估,研究團(tuán)隊(duì)遵循先前OCR研究和ICDAR 2019多語(yǔ)言O(shè)CR競(jìng)賽的評(píng)估協(xié)議。首先,如果預(yù)測(cè)的邊界框與真實(shí)邊界框的交并比(IoU)超過(guò)0.5,則被視為正確檢測(cè)。基于匹配的框,計(jì)算精確率(P)、召回率(R)和它們的調(diào)和平均值(Hmean)。其次,對(duì)于每個(gè)匹配的框,計(jì)算預(yù)測(cè)文本和真實(shí)文本之間的歸一化編輯距離(NED)作為字符級(jí)指標(biāo)。

由于大語(yǔ)言模型有時(shí)會(huì)重復(fù)輸出相同的單詞,研究團(tuán)隊(duì)?wèi)?yīng)用了后處理步驟,排除出現(xiàn)超過(guò)十次的重復(fù)文本段,將其視為噪聲。

對(duì)于MangaVQA任務(wù)的評(píng)估,研究團(tuán)隊(duì)采用了"LLM-as-a-judge"方法。他們提供GPT-4o問(wèn)題、人工編寫(xiě)的答案以及模型的回應(yīng)?;谌斯ぞ帉?xiě)的答案,GPT-4o評(píng)估模型的回應(yīng)是否適當(dāng)且與問(wèn)題相關(guān),使用1-10的評(píng)分尺度。

主要實(shí)驗(yàn)結(jié)果表明:

1. 在MangaOCR任務(wù)上,MangaLMM取得了71.5%的Hmean評(píng)分,遠(yuǎn)超GPT-4o、Gemini 2.5、Phi-4和原始Qwen2.5-VL的表現(xiàn),這些模型的評(píng)分接近零。

2. 在MangaVQA任務(wù)上,MangaLMM獲得了6.57/10的評(píng)分,超過(guò)了GPT-4o的5.76分、Gemini 2.5的3.87分、Phi-4的3.08分和原始Qwen2.5-VL的5.36分。

為什么商業(yè)模型在MangaOCR任務(wù)上表現(xiàn)如此糟糕?研究團(tuán)隊(duì)分析認(rèn)為,這可能有兩個(gè)主要原因:一是這些模型不熟悉漫畫(huà)數(shù)據(jù),二是它們的檢測(cè)能力較弱,可能限制了OCR性能。先前的研究表明,例如GPT-4o的檢測(cè)能力較差,這可能也適用于其他模型。

有趣的是,盡管這些模型在OCR任務(wù)上得分接近零——不僅位置信息缺失,甚至正確的文本內(nèi)容也未生成——它們?nèi)匀荒軌蚧卮鹉承┬枰忉寛D像中文本的VQA問(wèn)題。這有些反直覺(jué)。雖然模型未能明確輸出正確的OCR結(jié)果,但它們似乎能夠從圖像中捕獲一些文本語(yǔ)義。這表明它們能夠提取回答VQA問(wèn)題所需的相關(guān)信息,即使沒(méi)有正確執(zhí)行OCR。

研究團(tuán)隊(duì)還分析了微調(diào)的效果。在TOCR和TVQA上微調(diào)Qwen2.5-VL使模型能夠?qū)W⒂诟髯缘娜蝿?wù)。在MangaOCR上,微調(diào)后的模型取得了顯著改進(jìn),達(dá)到74.9%的得分。在MangaVQA上,雖然模型最初表現(xiàn)不如GPT-4o,但它表現(xiàn)出明顯的性能提升,甚至超過(guò)了GPT-4o。這些結(jié)果突顯了合成VQA訓(xùn)練集TVQA的有效性。

從任務(wù)干擾的角度來(lái)看,在TOCR和TVQA上聯(lián)合微調(diào)的MangaLMM與僅在TOCR上微調(diào)相比,OCR性能略有下降,但與僅在TVQA上微調(diào)相比,VQA得分略有提升。多任務(wù)學(xué)習(xí)中的一個(gè)常見(jiàn)問(wèn)題是任務(wù)干擾,即在多個(gè)任務(wù)(如A和B)上聯(lián)合訓(xùn)練的模型往往在任務(wù)A上的表現(xiàn)比僅在A上訓(xùn)練的模型差。在這種假設(shè)下,人們可能會(huì)預(yù)期聯(lián)合訓(xùn)練的OCR+VQA模型在VQA上的表現(xiàn)相對(duì)于僅VQA模型會(huì)下降。有趣的是,研究團(tuán)隊(duì)觀察到聯(lián)合訓(xùn)練下VQA得分略有提升,這與典型的干擾預(yù)期相反。這表明,盡管可能存在任務(wù)干擾,但增強(qiáng)的OCR能力可能提供了有益的文本線索,從而略微改善了VQA表現(xiàn)。

研究團(tuán)隊(duì)還研究了模型大小和數(shù)據(jù)集大小的影響。他們比較了不同大?。?B和7B)的Qwen2.5-VL模型在各種微調(diào)設(shè)置下的表現(xiàn)。與7B模型類似,3B模型在同時(shí)在TOCR和TVQA上微調(diào)時(shí),MangaOCR性能略有下降,而MangaVQA性能略有提升。他們還測(cè)試了不同的數(shù)據(jù)集大?。?5%、50%、75%和100%),發(fā)現(xiàn)隨著數(shù)據(jù)集大小的增加,性能通常會(huì)提高。

在MangaOCR的性能分析中,研究團(tuán)隊(duì)發(fā)現(xiàn),檢測(cè)的Hmean為78.6%,而端到端的Hmean達(dá)到71.5%,這意味著一旦檢測(cè)到文本區(qū)域,模型可以以約91.0%(=71.5/78.6)的準(zhǔn)確率讀取它們。當(dāng)模型預(yù)測(cè)圖像中確實(shí)存在但未包含在注釋中的文本時(shí),會(huì)出現(xiàn)一些假陽(yáng)性——例如,頁(yè)碼或不屬于敘事內(nèi)容(如對(duì)話或擬聲詞)的編輯標(biāo)記。因此,精確率不太可能達(dá)到100%。與精確率相比,召回率相對(duì)較低(68.5%)。這表明約31.5%的真實(shí)敘事文本未被檢測(cè)到,這表明在捕獲所有語(yǔ)義相關(guān)內(nèi)容方面還有改進(jìn)空間。

在MangaVQA的性能分析中,研究團(tuán)隊(duì)對(duì)模型在MangaVQA的注釋類別上的表現(xiàn)進(jìn)行了細(xì)分。他們觀察到幾乎所有標(biāo)簽在每個(gè)注釋類別中的表現(xiàn)都有所提升,這表明他們的訓(xùn)練有助于VQA能力的一致和平衡提升。例如,也許令人驚訝的是,模型對(duì)來(lái)自未見(jiàn)過(guò)作者的問(wèn)題泛化得很好,盡管與其他標(biāo)簽相比,性能提升略小。

唯一的例外是不需要文本信息的問(wèn)題("理解類型 = 圖像")。在這種情況下,訓(xùn)練后觀察到輕微的性能下降。研究團(tuán)隊(duì)假設(shè)這是因?yàn)樗麄兊挠?xùn)練強(qiáng)烈依賴文本——不僅模型在MangaOCR上訓(xùn)練,而且合成VQA生成也由文本注釋引導(dǎo)??紤]到漫畫(huà)的獨(dú)特性在于其多模態(tài)性,且非文本理解的用例相對(duì)較少,研究團(tuán)隊(duì)認(rèn)為這不是主要限制,但更適合此類情況的訓(xùn)練方法留待未來(lái)研究。

研究團(tuán)隊(duì)還研究了在生成VQA數(shù)據(jù)時(shí)OCR注釋的影響。在創(chuàng)建用于訓(xùn)練的合成QA對(duì)時(shí),他們向GPT-4o提供OCR注釋作為提示的一部分。他們通過(guò)比較使用和不使用文本注釋制作的VQAs的效果來(lái)評(píng)估這一影響。結(jié)果表明,沒(méi)有OCR信息生成的VQA數(shù)據(jù)訓(xùn)練的模型(得分5.44)沒(méi)有超過(guò)GPT-4o自身的得分(5.76)。相比之下,OCR引導(dǎo)的VQAs顯著提高了得分(6.57),甚至超過(guò)了GPT-4o。這些結(jié)果表明,OCR注釋幫助GPT-4o生成超越其固有表現(xiàn)的高質(zhì)量QA對(duì)。

研究團(tuán)隊(duì)還對(duì)MangaVQA進(jìn)行了定性分析。他們提供了幾個(gè)例子,比較原始Qwen模型和經(jīng)過(guò)訓(xùn)練的模型的輸出。在一個(gè)例子中,原始模型基于問(wèn)題中人物出現(xiàn)的分格生成了一個(gè)一般性答案,而經(jīng)過(guò)訓(xùn)練的模型的答案基于文本氣泡的內(nèi)容,更加具體,導(dǎo)致評(píng)分從3分增加到10分。在另一個(gè)例子中,原始模型提取了與問(wèn)題無(wú)關(guān)的文本,而經(jīng)過(guò)訓(xùn)練的模型提取了正確的文本,導(dǎo)致評(píng)分從2分增加到10分。

這些實(shí)驗(yàn)結(jié)果表明,MangaLMM不僅在MangaOCR和MangaVQA任務(wù)上表現(xiàn)出色,而且比許多商業(yè)模型更好地理解漫畫(huà)內(nèi)容。這為未來(lái)開(kāi)發(fā)更先進(jìn)的漫畫(huà)理解AI系統(tǒng)提供了重要基礎(chǔ)。

五、MangaLMM的意義與未來(lái)展望

MangaVQA和MangaLMM的研究不僅是技術(shù)上的突破,更代表了AI向理解更復(fù)雜敘事形式邁出的重要一步。就像一個(gè)外國(guó)讀者逐漸掌握閱讀日本漫畫(huà)的技巧一樣,這項(xiàng)研究幫助AI系統(tǒng)學(xué)習(xí)理解漫畫(huà)這種獨(dú)特的多模態(tài)敘事形式。

這項(xiàng)研究的意義首先體現(xiàn)在它為評(píng)估AI系統(tǒng)對(duì)漫畫(huà)理解能力提供了全面的基準(zhǔn)測(cè)試。MangaOCR評(píng)估模型識(shí)別漫畫(huà)中文本的能力,而MangaVQA則評(píng)估模型對(duì)漫畫(huà)內(nèi)容的深入理解。這兩個(gè)基準(zhǔn)測(cè)試共同涵蓋了漫畫(huà)理解的文本和敘事方面。

其次,MangaLMM作為一個(gè)開(kāi)源基線模型,展示了專門用于漫畫(huà)理解的AI系統(tǒng)的潛力。實(shí)驗(yàn)結(jié)果表明,即使是最先進(jìn)的商業(yè)LMM模型也難以處理漫畫(huà)的獨(dú)特復(fù)雜性,而MangaLMM通過(guò)針對(duì)性的訓(xùn)練,在兩項(xiàng)任務(wù)上都表現(xiàn)出色。

對(duì)于漫畫(huà)創(chuàng)作者和編輯來(lái)說(shuō),這項(xiàng)研究開(kāi)啟了新的可能性。未來(lái),像MangaLMM這樣的系統(tǒng)可能會(huì)像熟練的編輯一樣,幫助創(chuàng)作者反思和完善他們的故事。它可以提供關(guān)于故事連貫性、角色發(fā)展、情節(jié)節(jié)奏等方面的反饋,使創(chuàng)作過(guò)程更加高效和有創(chuàng)意。

對(duì)于AI研究社區(qū)來(lái)說(shuō),這項(xiàng)研究提供了一個(gè)重要的案例研究,展示了如何使AI系統(tǒng)適應(yīng)特定領(lǐng)域的多模態(tài)內(nèi)容。研究中使用的方法和發(fā)現(xiàn)可能對(duì)其他涉及復(fù)雜多模態(tài)敘事的領(lǐng)域也有啟示。

當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,MangaLMM的OCR推理速度較慢。大型語(yǔ)言模型比專用的OCR模型慢得多;例如,處理1,166張測(cè)試圖像中的25,651個(gè)文本需要幾個(gè)小時(shí)的A100 GPU時(shí)間。相比之下,像DeepSolo這樣的專用OCR模型,運(yùn)行速度超過(guò)10 FPS,只需約2分鐘就能完成。這種減速源于大量的輸出標(biāo)記和推理過(guò)程中偶爾的重復(fù)或循環(huán)輸出。

此外,關(guān)于版權(quán)問(wèn)題,漫畫(huà)數(shù)據(jù)通常涉及復(fù)雜的版權(quán)問(wèn)題。例如,PoPManga的訓(xùn)練數(shù)據(jù)不公開(kāi)可用,其測(cè)試數(shù)據(jù)由于版權(quán)限制在幾個(gè)亞洲國(guó)家無(wú)法訪問(wèn)。相比之下,研究團(tuán)隊(duì)使用的Manga109數(shù)據(jù)集僅包含已經(jīng)獲得漫畫(huà)作者明確研究使用許可的作品。研究團(tuán)隊(duì)希望未來(lái)在漫畫(huà)領(lǐng)域的研究能夠越來(lái)越多地依賴像Manga109這樣的版權(quán)清晰的數(shù)據(jù)集,使該領(lǐng)域能夠以更干凈、更可靠的方式向前發(fā)展。

總的來(lái)說(shuō),MangaVQA和MangaLMM代表了AI向理解更復(fù)雜敘事形式邁出的重要一步。通過(guò)發(fā)布開(kāi)放基準(zhǔn)、合成數(shù)據(jù)和強(qiáng)大的開(kāi)源基線,研究團(tuán)隊(duì)為推進(jìn)多模態(tài)漫畫(huà)理解的研究做出了貢獻(xiàn)。未來(lái),這項(xiàng)研究可能會(huì)促進(jìn)更多創(chuàng)新,使AI系統(tǒng)能夠更好地理解和支持各種敘事形式,不僅僅是漫畫(huà),還包括其他復(fù)雜的多模態(tài)內(nèi)容。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-