av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 漫畫也懂故事:東京大學(xué)開發(fā) MangaLMM,讓 AI 像人類一樣閱讀日本漫畫

漫畫也懂故事:東京大學(xué)開發(fā) MangaLMM,讓 AI 像人類一樣閱讀日本漫畫

2025-06-03 07:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 07:44 ? 科技行者

在日本漫畫文化中,一本好漫畫往往通過圖像和文字的精妙結(jié)合講述引人入勝的故事。現(xiàn)在,東京大學(xué)的研究團隊希望讓人工智能也能像人類一樣理解和欣賞這種獨特的藝術(shù)形式。這項研究成果《MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding》由東京大學(xué)的白晶勛(Jeonghun Baek)、江頭和希(Kazuki Egashira)、小野原翔太(Shota Onohara)、宮井淳之(Atsuyuki Miyai)、今宿由紀(jì)(Yuki Imajuku)、生田光(Hikaru Ikuta)和相澤清晴(Kiyoharu Aizawa)共同完成,于2025年5月26日發(fā)表在arXiv預(yù)印本平臺,論文編號為2505.20298v1。

想象一下,你是一位漫畫創(chuàng)作者,正在繪制一個復(fù)雜的故事。如果有一個助手能夠閱讀你的作品,理解故事情節(jié),并給出有用的反饋,那會多么便利!這正是東京大學(xué)研究團隊的愿景:讓AI能夠理解漫畫的多模態(tài)敘事方式,從而幫助創(chuàng)作者反思和完善他們的故事。

在這個數(shù)字時代,大型多模態(tài)模型(LMMs)已經(jīng)能夠處理圖像和文本的結(jié)合,但要讓它們理解日本漫畫這種獨特的敘事形式仍然面臨挑戰(zhàn)。漫畫不僅僅是簡單的圖文組合,它有著復(fù)雜的分格布局、豐富的視覺表現(xiàn)手法,以及直接嵌入圖像中的文字對話和擬聲詞。要理解一本漫畫,AI需要同時掌握視覺和文字信息,并且能夠在連貫的敘事中跟隨上下文——就像人類讀者一樣。

研究團隊發(fā)現(xiàn),雖然已有一些研究如Magi和CoMix嘗試解決漫畫理解問題,但它們主要專注于從漫畫頁面生成文字轉(zhuǎn)錄,而沒有評估模型在多大程度上能夠準(zhǔn)確識別頁內(nèi)文本(OCR)或基于該文本通過視覺問答(VQA)理解內(nèi)容。簡單來說,現(xiàn)有研究還無法確定AI是否真的像人類一樣理解漫畫內(nèi)容。

為了解決這一問題,東京大學(xué)的團隊提出了兩個基準(zhǔn)測試:MangaOCR和MangaVQA。MangaOCR專注于檢測和識別漫畫中的文本內(nèi)容,如對話和音效。研究團隊整合了知名的Manga109數(shù)據(jù)集和漫畫擬聲詞數(shù)據(jù)集的現(xiàn)有注釋來構(gòu)建這一基準(zhǔn)。更重要的是,作為主要貢獻(xiàn),他們提出了MangaVQA,一個新型基準(zhǔn),旨在評估AI模型通過視覺問答準(zhǔn)確回答基于視覺和文本上下文的針對性問題的能力。它由526個高質(zhì)量、手動構(gòu)建的問答對組成,涵蓋各種敘事和視覺場景,使得評估更加可靠。

基于這兩個基準(zhǔn)測試,研究團隊開發(fā)了MangaLMM,一個專門用于漫畫理解的模型。這個模型是在開源大型多模態(tài)模型Qwen2.5-VL的基礎(chǔ)上微調(diào)得到的,能夠同時處理OCR和VQA兩項任務(wù)。通過大量實驗,包括與GPT-4o和Gemini 2.5等專有模型的比較,團隊評估了LMM模型理解漫畫的能力。

這項研究的意義不僅在于技術(shù)突破,更在于它為漫畫創(chuàng)作者提供了潛在的創(chuàng)作輔助工具。未來,這種技術(shù)可能會像一個熟練的編輯或助手一樣,幫助創(chuàng)作者反思和改進(jìn)他們的故事,使漫畫創(chuàng)作過程更加高效和有創(chuàng)意。

一、漫畫理解的挑戰(zhàn)與MangaOCR基準(zhǔn)

漫畫是一種獨特的多模態(tài)敘事形式,它與普通圖文結(jié)合的內(nèi)容有著本質(zhì)區(qū)別。想象你正在閱讀一本漫畫,你會發(fā)現(xiàn)它有著特定的閱讀順序(日本漫畫通常是從右到左),復(fù)雜的分格布局,以及直接融入圖像中的文字。這些文字可能是角色對話,也可能是"轟"、"啪"等擬聲詞,它們都是故事敘述的重要組成部分。

為了讓AI系統(tǒng)能夠理解漫畫,研究團隊首先需要解決的問題是:如何讓AI正確"讀取"漫畫中的文字?這就像教一個外國人不僅要看懂漫畫的圖像,還要能讀懂上面的文字一樣。這個任務(wù)在AI領(lǐng)域被稱為光學(xué)字符識別(OCR)。

研究團隊選擇了廣泛使用的Manga109數(shù)據(jù)集作為研究基礎(chǔ)。這個數(shù)據(jù)集包含109卷日本漫畫,具有開放訪問許可,多樣化的漫畫標(biāo)題,以及豐富的注釋和元信息。它捕捉了漫畫的許多獨特特征,包括其主要黑白的藝術(shù)風(fēng)格,雙頁展開,從右到左的閱讀順序,垂直文本布局,以及融入插圖的風(fēng)格化擬聲詞。

基于Manga109數(shù)據(jù)集,研究團隊構(gòu)建了MangaOCR基準(zhǔn)。這個基準(zhǔn)專注于兩類嵌入文本:對話和擬聲詞。通過整合Manga109數(shù)據(jù)集和漫畫擬聲詞數(shù)據(jù)集的現(xiàn)有注釋,MangaOCR包含約20.9萬個敘事文本實例,涵蓋各種視覺風(fēng)格和布局。

值得注意的是,研究團隊采用了基于作者信息的數(shù)據(jù)集分割協(xié)議。在原始分割中,109卷漫畫被分為訓(xùn)練集、驗證集和測試集。為了評估同一系列內(nèi)的泛化能力,十個測試卷中的五個屬于與訓(xùn)練集相同的系列,其中第一卷包含在訓(xùn)練集中,最后一卷在測試集中。這樣設(shè)置可以測試模型是否能夠從系列的開始泛化到后期。另外,為了評估作者內(nèi)泛化能力,剩余五個測試卷是由在訓(xùn)練集中有其他作品的作者創(chuàng)作的。這使團隊能夠評估模型是否能夠在同一作者的不同作品之間泛化。

此外,為了評估與作者身份相關(guān)的分布外泛化能力,研究團隊將驗證集中的三個卷移至測試集。這些卷由在訓(xùn)練集中沒有貢獻(xiàn)任何作品的個人創(chuàng)作。

總體而言,MangaOCR包含約20.9萬個文本實例,其中訓(xùn)練集有17萬個,驗證集有1.3萬個,測試集有2.6萬個。通過這個基準(zhǔn),研究團隊能夠評估AI模型識別漫畫中文本的能力,這是理解漫畫內(nèi)容的基礎(chǔ)步驟。

二、深入理解漫畫內(nèi)容:MangaVQA基準(zhǔn)

想象你正在與朋友討論一本剛讀完的漫畫。你們可能會問:"這個角色為什么要這么做?"或"這個情節(jié)轉(zhuǎn)折有什么意義?"這種對內(nèi)容的深入理解和討論正是人類讀者自然而然會做的事情。但對AI來說,僅僅能識別出漫畫中的文字(OCR)還遠(yuǎn)遠(yuǎn)不夠,它還需要理解這些文字在故事情境中的含義。

這就是為什么研究團隊提出了MangaVQA基準(zhǔn)。與僅關(guān)注文本識別的MangaOCR不同,MangaVQA旨在評估AI模型對漫畫內(nèi)容的理解程度。想象MangaVQA就像是給AI出一份漫畫理解測驗,測驗中的問題需要AI不僅能"看"到圖像,"讀"出文字,還能理解它們共同講述的故事。

為了創(chuàng)建高質(zhì)量的評估集,研究團隊的五位標(biāo)注者基于Manga109中的圖像手動創(chuàng)建了問答對。他們專注于有明確答案的問題,避免那些僅憑圖像模糊印象就能推斷出的問題。這確保了評估的可靠性和無歧義性。

MangaVQA的問題類型設(shè)計基于四個關(guān)鍵維度:

首先是"所需信息"維度,問題可能需要來自個別分格的信息(約45.4%)或整個頁面的信息(約54.6%)。這反映了人類讀者如何在不同層面理解漫畫內(nèi)容。

第二個維度是"理解類型",分為三類:精確提取(44.1%),即答案直接從圖像中提??;多模態(tài)理解(52.1%),即答案需要理解故事的上下文;圖像理解(3.8%),即不需要參考文本就能回答的問題。

第三個維度是基于5W1H(Who, What, When, Where, Why, How)的問題類型。其中,"What"(什么)類問題占49.8%,"Why"(為什么)類問題占22.8%,"Who"(誰)類問題占17.3%,其他類型分別占較小比例。

最后一個維度是"作者類型",即問題所涉及的漫畫是否來自訓(xùn)練集中包含的作者。這包括見過的作者(不同標(biāo)題)占31.9%,見過的標(biāo)題(不同卷)占33.8%,和未見過的作者占34.2%。

舉個例子,在"精確提取"類別中,問題可能是:"風(fēng)子收到的人偶叫什么名字?"答案是"芙醬",這直接寫在對話中。這類問題評估AI的基本理解能力,即識別和提取漫畫中的正確答案部分。

在"多模態(tài)理解"類別中,問題可能是:"接球手注意到擊球手有什么變化?"正確答案是:"他以前站姿開放,但現(xiàn)在站姿封閉。"這類問題允許評估AI是否不僅能識別對話,還能理解其在敘事背景下的潛在含義。

在"圖像理解"類別中,問題可能是:"右下角的男人試圖攻擊什么?"答案是:"嬰兒"。這類問題純粹依賴于對角色及其行為的視覺描繪,允許AI即使在沒有對話的情況下也能推斷出正確答案。

通過這些多樣化的問題類型,MangaVQA提供了一個全面的框架來評估AI模型對漫畫內(nèi)容的理解能力。這不僅僅是識別文字,而是理解文字和圖像如何共同講述一個連貫的故事。

三、MangaLMM:專為漫畫理解打造的AI模型

有了MangaOCR和MangaVQA這兩個基準(zhǔn)測試,研究團隊的下一步是開發(fā)一個能夠像人類一樣閱讀和理解漫畫的AI模型。這就是MangaLMM的誕生過程。

想象你正在教一個從未接觸過漫畫的外國朋友如何閱讀日本漫畫。你需要教他不僅要看懂圖像,還要讀懂文字,并且理解故事情節(jié)。同樣,研究團隊需要"教導(dǎo)"AI模型完成這些任務(wù)。

他們選擇了開源大型多模態(tài)模型Qwen2.5-VL作為基礎(chǔ),并對其進(jìn)行微調(diào)以創(chuàng)建MangaLMM。選擇Qwen2.5-VL是因為它是一個強大的多語言模型,能夠處理日語,并且具有出色的日語OCR能力,這對理解漫畫至關(guān)重要。

為了訓(xùn)練MangaLMM,研究團隊構(gòu)建了兩種類型的訓(xùn)練數(shù)據(jù):

首先是OCR訓(xùn)練集(TOCR)。對于OCR任務(wù),他們使用前面描述的MangaOCR訓(xùn)練集。對于每個圖像,他們將文本注釋序列格式化為JSON格式,包含文本的坐標(biāo)位置和內(nèi)容。

其次是合成VQA訓(xùn)練集(TVQA)。對于VQA任務(wù),他們使用GPT-4o為每個圖像生成五個問題,同時利用圖像和其OCR注釋。雖然他們要求GPT-4o為每個圖像生成五個問題,但有時它返回的問題少于五個。最終,他們從8,379個圖像創(chuàng)建了總共39,837個合成VQA樣本。

訓(xùn)練過程采用了持續(xù)微調(diào)的策略,在預(yù)訓(xùn)練的Qwen2.5-VL 7B模型上進(jìn)行。大多數(shù)超參數(shù)遵循原始Qwen2.5-VL配置,只有少數(shù)修改。對于Manga109圖像(1654×1170分辨率),他們遵循Qwen2.5-VL的圖像調(diào)整機制,該機制基于像素計數(shù)閾值,其中輸入像素的最小和最大數(shù)量分別為3,136和2,116,800。

訓(xùn)練時間方面,每個數(shù)據(jù)集訓(xùn)練一個周期。使用四個NVIDIA A100 GPU訓(xùn)練Qwen2.5-VL 7B模型,使用TOCR或TVQA大約需要1小時,而同時使用TOCR和TVQA則需要約2小時。

這樣,MangaLMM成為了一個專門用于漫畫理解的模型,能夠同時處理OCR和VQA任務(wù)。它就像一個熟練的漫畫讀者,不僅能看懂圖像,讀懂文字,還能理解故事情節(jié),為漫畫創(chuàng)作者提供有價值的反饋。

四、實驗與結(jié)果:MangaLMM的表現(xiàn)如何?

研究團隊進(jìn)行了一系列實驗,以評估MangaLMM以及其他多模態(tài)大語言模型在漫畫理解任務(wù)上的表現(xiàn)。這就像是一場AI漫畫閱讀比賽,參賽者包括商業(yè)模型如GPT-4o和Gemini 2.5,以及開源模型如Phi-4和Qwen2.5-VL。

對于MangaOCR任務(wù)的評估,研究團隊遵循先前OCR研究和ICDAR 2019多語言O(shè)CR競賽的評估協(xié)議。首先,如果預(yù)測的邊界框與真實邊界框的交并比(IoU)超過0.5,則被視為正確檢測?;谄ヅ涞目?,計算精確率(P)、召回率(R)和它們的調(diào)和平均值(Hmean)。其次,對于每個匹配的框,計算預(yù)測文本和真實文本之間的歸一化編輯距離(NED)作為字符級指標(biāo)。

由于大語言模型有時會重復(fù)輸出相同的單詞,研究團隊?wèi)?yīng)用了后處理步驟,排除出現(xiàn)超過十次的重復(fù)文本段,將其視為噪聲。

對于MangaVQA任務(wù)的評估,研究團隊采用了"LLM-as-a-judge"方法。他們提供GPT-4o問題、人工編寫的答案以及模型的回應(yīng)。基于人工編寫的答案,GPT-4o評估模型的回應(yīng)是否適當(dāng)且與問題相關(guān),使用1-10的評分尺度。

主要實驗結(jié)果表明:

1. 在MangaOCR任務(wù)上,MangaLMM取得了71.5%的Hmean評分,遠(yuǎn)超GPT-4o、Gemini 2.5、Phi-4和原始Qwen2.5-VL的表現(xiàn),這些模型的評分接近零。

2. 在MangaVQA任務(wù)上,MangaLMM獲得了6.57/10的評分,超過了GPT-4o的5.76分、Gemini 2.5的3.87分、Phi-4的3.08分和原始Qwen2.5-VL的5.36分。

為什么商業(yè)模型在MangaOCR任務(wù)上表現(xiàn)如此糟糕?研究團隊分析認(rèn)為,這可能有兩個主要原因:一是這些模型不熟悉漫畫數(shù)據(jù),二是它們的檢測能力較弱,可能限制了OCR性能。先前的研究表明,例如GPT-4o的檢測能力較差,這可能也適用于其他模型。

有趣的是,盡管這些模型在OCR任務(wù)上得分接近零——不僅位置信息缺失,甚至正確的文本內(nèi)容也未生成——它們?nèi)匀荒軌蚧卮鹉承┬枰忉寛D像中文本的VQA問題。這有些反直覺。雖然模型未能明確輸出正確的OCR結(jié)果,但它們似乎能夠從圖像中捕獲一些文本語義。這表明它們能夠提取回答VQA問題所需的相關(guān)信息,即使沒有正確執(zhí)行OCR。

研究團隊還分析了微調(diào)的效果。在TOCR和TVQA上微調(diào)Qwen2.5-VL使模型能夠?qū)W⒂诟髯缘娜蝿?wù)。在MangaOCR上,微調(diào)后的模型取得了顯著改進(jìn),達(dá)到74.9%的得分。在MangaVQA上,雖然模型最初表現(xiàn)不如GPT-4o,但它表現(xiàn)出明顯的性能提升,甚至超過了GPT-4o。這些結(jié)果突顯了合成VQA訓(xùn)練集TVQA的有效性。

從任務(wù)干擾的角度來看,在TOCR和TVQA上聯(lián)合微調(diào)的MangaLMM與僅在TOCR上微調(diào)相比,OCR性能略有下降,但與僅在TVQA上微調(diào)相比,VQA得分略有提升。多任務(wù)學(xué)習(xí)中的一個常見問題是任務(wù)干擾,即在多個任務(wù)(如A和B)上聯(lián)合訓(xùn)練的模型往往在任務(wù)A上的表現(xiàn)比僅在A上訓(xùn)練的模型差。在這種假設(shè)下,人們可能會預(yù)期聯(lián)合訓(xùn)練的OCR+VQA模型在VQA上的表現(xiàn)相對于僅VQA模型會下降。有趣的是,研究團隊觀察到聯(lián)合訓(xùn)練下VQA得分略有提升,這與典型的干擾預(yù)期相反。這表明,盡管可能存在任務(wù)干擾,但增強的OCR能力可能提供了有益的文本線索,從而略微改善了VQA表現(xiàn)。

研究團隊還研究了模型大小和數(shù)據(jù)集大小的影響。他們比較了不同大?。?B和7B)的Qwen2.5-VL模型在各種微調(diào)設(shè)置下的表現(xiàn)。與7B模型類似,3B模型在同時在TOCR和TVQA上微調(diào)時,MangaOCR性能略有下降,而MangaVQA性能略有提升。他們還測試了不同的數(shù)據(jù)集大?。?5%、50%、75%和100%),發(fā)現(xiàn)隨著數(shù)據(jù)集大小的增加,性能通常會提高。

在MangaOCR的性能分析中,研究團隊發(fā)現(xiàn),檢測的Hmean為78.6%,而端到端的Hmean達(dá)到71.5%,這意味著一旦檢測到文本區(qū)域,模型可以以約91.0%(=71.5/78.6)的準(zhǔn)確率讀取它們。當(dāng)模型預(yù)測圖像中確實存在但未包含在注釋中的文本時,會出現(xiàn)一些假陽性——例如,頁碼或不屬于敘事內(nèi)容(如對話或擬聲詞)的編輯標(biāo)記。因此,精確率不太可能達(dá)到100%。與精確率相比,召回率相對較低(68.5%)。這表明約31.5%的真實敘事文本未被檢測到,這表明在捕獲所有語義相關(guān)內(nèi)容方面還有改進(jìn)空間。

在MangaVQA的性能分析中,研究團隊對模型在MangaVQA的注釋類別上的表現(xiàn)進(jìn)行了細(xì)分。他們觀察到幾乎所有標(biāo)簽在每個注釋類別中的表現(xiàn)都有所提升,這表明他們的訓(xùn)練有助于VQA能力的一致和平衡提升。例如,也許令人驚訝的是,模型對來自未見過作者的問題泛化得很好,盡管與其他標(biāo)簽相比,性能提升略小。

唯一的例外是不需要文本信息的問題("理解類型 = 圖像")。在這種情況下,訓(xùn)練后觀察到輕微的性能下降。研究團隊假設(shè)這是因為他們的訓(xùn)練強烈依賴文本——不僅模型在MangaOCR上訓(xùn)練,而且合成VQA生成也由文本注釋引導(dǎo)。考慮到漫畫的獨特性在于其多模態(tài)性,且非文本理解的用例相對較少,研究團隊認(rèn)為這不是主要限制,但更適合此類情況的訓(xùn)練方法留待未來研究。

研究團隊還研究了在生成VQA數(shù)據(jù)時OCR注釋的影響。在創(chuàng)建用于訓(xùn)練的合成QA對時,他們向GPT-4o提供OCR注釋作為提示的一部分。他們通過比較使用和不使用文本注釋制作的VQAs的效果來評估這一影響。結(jié)果表明,沒有OCR信息生成的VQA數(shù)據(jù)訓(xùn)練的模型(得分5.44)沒有超過GPT-4o自身的得分(5.76)。相比之下,OCR引導(dǎo)的VQAs顯著提高了得分(6.57),甚至超過了GPT-4o。這些結(jié)果表明,OCR注釋幫助GPT-4o生成超越其固有表現(xiàn)的高質(zhì)量QA對。

研究團隊還對MangaVQA進(jìn)行了定性分析。他們提供了幾個例子,比較原始Qwen模型和經(jīng)過訓(xùn)練的模型的輸出。在一個例子中,原始模型基于問題中人物出現(xiàn)的分格生成了一個一般性答案,而經(jīng)過訓(xùn)練的模型的答案基于文本氣泡的內(nèi)容,更加具體,導(dǎo)致評分從3分增加到10分。在另一個例子中,原始模型提取了與問題無關(guān)的文本,而經(jīng)過訓(xùn)練的模型提取了正確的文本,導(dǎo)致評分從2分增加到10分。

這些實驗結(jié)果表明,MangaLMM不僅在MangaOCR和MangaVQA任務(wù)上表現(xiàn)出色,而且比許多商業(yè)模型更好地理解漫畫內(nèi)容。這為未來開發(fā)更先進(jìn)的漫畫理解AI系統(tǒng)提供了重要基礎(chǔ)。

五、MangaLMM的意義與未來展望

MangaVQA和MangaLMM的研究不僅是技術(shù)上的突破,更代表了AI向理解更復(fù)雜敘事形式邁出的重要一步。就像一個外國讀者逐漸掌握閱讀日本漫畫的技巧一樣,這項研究幫助AI系統(tǒng)學(xué)習(xí)理解漫畫這種獨特的多模態(tài)敘事形式。

這項研究的意義首先體現(xiàn)在它為評估AI系統(tǒng)對漫畫理解能力提供了全面的基準(zhǔn)測試。MangaOCR評估模型識別漫畫中文本的能力,而MangaVQA則評估模型對漫畫內(nèi)容的深入理解。這兩個基準(zhǔn)測試共同涵蓋了漫畫理解的文本和敘事方面。

其次,MangaLMM作為一個開源基線模型,展示了專門用于漫畫理解的AI系統(tǒng)的潛力。實驗結(jié)果表明,即使是最先進(jìn)的商業(yè)LMM模型也難以處理漫畫的獨特復(fù)雜性,而MangaLMM通過針對性的訓(xùn)練,在兩項任務(wù)上都表現(xiàn)出色。

對于漫畫創(chuàng)作者和編輯來說,這項研究開啟了新的可能性。未來,像MangaLMM這樣的系統(tǒng)可能會像熟練的編輯一樣,幫助創(chuàng)作者反思和完善他們的故事。它可以提供關(guān)于故事連貫性、角色發(fā)展、情節(jié)節(jié)奏等方面的反饋,使創(chuàng)作過程更加高效和有創(chuàng)意。

對于AI研究社區(qū)來說,這項研究提供了一個重要的案例研究,展示了如何使AI系統(tǒng)適應(yīng)特定領(lǐng)域的多模態(tài)內(nèi)容。研究中使用的方法和發(fā)現(xiàn)可能對其他涉及復(fù)雜多模態(tài)敘事的領(lǐng)域也有啟示。

當(dāng)然,這項研究也存在一些局限性。首先,MangaLMM的OCR推理速度較慢。大型語言模型比專用的OCR模型慢得多;例如,處理1,166張測試圖像中的25,651個文本需要幾個小時的A100 GPU時間。相比之下,像DeepSolo這樣的專用OCR模型,運行速度超過10 FPS,只需約2分鐘就能完成。這種減速源于大量的輸出標(biāo)記和推理過程中偶爾的重復(fù)或循環(huán)輸出。

此外,關(guān)于版權(quán)問題,漫畫數(shù)據(jù)通常涉及復(fù)雜的版權(quán)問題。例如,PoPManga的訓(xùn)練數(shù)據(jù)不公開可用,其測試數(shù)據(jù)由于版權(quán)限制在幾個亞洲國家無法訪問。相比之下,研究團隊使用的Manga109數(shù)據(jù)集僅包含已經(jīng)獲得漫畫作者明確研究使用許可的作品。研究團隊希望未來在漫畫領(lǐng)域的研究能夠越來越多地依賴像Manga109這樣的版權(quán)清晰的數(shù)據(jù)集,使該領(lǐng)域能夠以更干凈、更可靠的方式向前發(fā)展。

總的來說,MangaVQA和MangaLMM代表了AI向理解更復(fù)雜敘事形式邁出的重要一步。通過發(fā)布開放基準(zhǔn)、合成數(shù)據(jù)和強大的開源基線,研究團隊為推進(jìn)多模態(tài)漫畫理解的研究做出了貢獻(xiàn)。未來,這項研究可能會促進(jìn)更多創(chuàng)新,使AI系統(tǒng)能夠更好地理解和支持各種敘事形式,不僅僅是漫畫,還包括其他復(fù)雜的多模態(tài)內(nèi)容。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-