在數(shù)字化轉(zhuǎn)型浪潮中,自動(dòng)從各類文檔中提取關(guān)鍵信息一直是企業(yè)的迫切需求。想象一下,你每天要處理幾十份不同格式的發(fā)票、醫(yī)療表格或銀行文件,手動(dòng)輸入里面的數(shù)據(jù)——這既費(fèi)時(shí)又容易出錯(cuò)。而今天我要介紹的研究,正是針對(duì)這一普遍痛點(diǎn)提供了創(chuàng)新解決方案。
這項(xiàng)研究題為"FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding"(少樣本領(lǐng)域適應(yīng)圖網(wǎng)絡(luò)用于視覺豐富文檔理解),由Oracle美國(guó)的Amit Agarwal和Oracle印度的Srikant Panda、Kulbhushan Pachuri共同完成,發(fā)表于2025年COLING會(huì)議。
現(xiàn)代人工智能領(lǐng)域已經(jīng)出現(xiàn)了許多強(qiáng)大的大型模型,如GPT、LLaMA等,它們?cè)诟鞣N任務(wù)上表現(xiàn)出色。然而,這些模型通常需要海量的計(jì)算資源和訓(xùn)練數(shù)據(jù),對(duì)于很多企業(yè)應(yīng)用場(chǎng)景而言,無(wú)論是部署成本還是遷移到特定領(lǐng)域的難度都很高。尤其在處理具有復(fù)雜布局、專業(yè)術(shù)語(yǔ)和各種文本樣式的文檔時(shí),這些挑戰(zhàn)更為突出。
想象一下,如果你是一家醫(yī)療機(jī)構(gòu),需要從各種病歷表格中自動(dòng)提取信息;或者你是一家金融公司,需要處理各類銀行文件。如果使用現(xiàn)有的大型模型,你可能需要大量的特定領(lǐng)域數(shù)據(jù)進(jìn)行訓(xùn)練,還需要昂貴的計(jì)算資源。而且,即使投入這些資源,模型在處理實(shí)際文檔時(shí),遇到OCR錯(cuò)誤或拼寫錯(cuò)誤等情況仍可能表現(xiàn)不佳。
Oracle團(tuán)隊(duì)開發(fā)的FS-DAG模型正是為解決這些實(shí)際問題而設(shè)計(jì)的。它只需要少量(5份左右)的示例文檔就能適應(yīng)新的文檔類型,模型參數(shù)不到90M(相比其他模型動(dòng)輒上百兆的參數(shù)),卻能在文檔信息提取任務(wù)中達(dá)到甚至超越那些更龐大的模型的表現(xiàn)。更重要的是,當(dāng)文檔中出現(xiàn)OCR錯(cuò)誤或拼寫錯(cuò)誤時(shí),F(xiàn)S-DAG的性能幾乎不受影響,這對(duì)于實(shí)際應(yīng)用極為重要。
接下來(lái),讓我們深入了解這個(gè)模型的設(shè)計(jì)思路、創(chuàng)新點(diǎn)以及它在實(shí)際測(cè)試中的表現(xiàn)。無(wú)論你是否了解人工智能技術(shù),我相信你都能從中看到這項(xiàng)研究如何讓文檔信息提取變得更簡(jiǎn)單、更高效。
一、模型架構(gòu):像積木一樣組合的靈活設(shè)計(jì)
想象一下,傳統(tǒng)的大型模型就像一座預(yù)先建好的巨大建筑,要把它搬到新地方幾乎是不可能的任務(wù)。而FS-DAG則像是一套精心設(shè)計(jì)的樂高積木,可以根據(jù)需要靈活組裝成適合不同場(chǎng)景的結(jié)構(gòu)。
FS-DAG的核心創(chuàng)新在于其模塊化架構(gòu)。傳統(tǒng)模型通常采用整體式(或稱"單體式")設(shè)計(jì),就像一個(gè)龐大但難以分解的整體。而FS-DAG則由多個(gè)功能明確的組件構(gòu)成,這些組件可以根據(jù)需要進(jìn)行替換或調(diào)整。
這個(gè)模型主要包含三大部分:文本特征提取器、視覺特征提取器和圖神經(jīng)網(wǎng)絡(luò)。想象一下,當(dāng)你看一份文檔時(shí),你會(huì)同時(shí)注意文字內(nèi)容(文本)和它的排版、字體大小、顏色等視覺元素。FS-DAG也是這樣工作的。
文本特征提取器就像是一位精通多國(guó)語(yǔ)言的翻譯,負(fù)責(zé)理解文檔中的文字內(nèi)容。它可以是像BERT、DistilBERT這樣的預(yù)訓(xùn)練語(yǔ)言模型,也可以是針對(duì)特定領(lǐng)域優(yōu)化的語(yǔ)言模型,比如金融領(lǐng)域的FinBERT或醫(yī)療領(lǐng)域的BioBERT。這種靈活性讓FS-DAG能夠根據(jù)不同文檔類型選擇最合適的"翻譯官"。
視覺特征提取器則像是一位觀察入微的藝術(shù)鑒賞家,負(fù)責(zé)捕捉文檔的視覺布局和設(shè)計(jì)元素。它使用基于Resnet-18的UNET結(jié)構(gòu),能夠識(shí)別文檔中的視覺模式,例如表格結(jié)構(gòu)、標(biāo)題位置、強(qiáng)調(diào)區(qū)域等。
最精彩的部分是圖神經(jīng)網(wǎng)絡(luò),它就像是一位經(jīng)驗(yàn)豐富的偵探,將文本和視覺線索連接起來(lái)形成完整的證據(jù)鏈。在FS-DAG中,文檔被表示為一個(gè)圖,其中每個(gè)節(jié)點(diǎn)代表文檔中的一個(gè)文本區(qū)域(如一個(gè)單詞或短語(yǔ)),而邊則表示這些區(qū)域之間的空間關(guān)系。圖神經(jīng)網(wǎng)絡(luò)通過分析這些節(jié)點(diǎn)和邊之間的關(guān)系,學(xué)習(xí)識(shí)別哪些文本區(qū)域包含關(guān)鍵信息,以及它們?cè)谖臋n結(jié)構(gòu)中的角色。
FS-DAG還引入了共享位置嵌入和一致的閱讀順序,這就像給偵探提供了一張?jiān)敿?xì)的地圖和一個(gè)有序的調(diào)查路線。這些設(shè)計(jì)使得模型能夠更好地理解文檔中元素的空間關(guān)系和邏輯順序,進(jìn)一步提高了信息提取的準(zhǔn)確性。
二、少樣本學(xué)習(xí):從"大海撈針"到"一見即通"
傳統(tǒng)的機(jī)器學(xué)習(xí)模型就像是貪吃的學(xué)生,需要大量的"食物"(數(shù)據(jù))才能學(xué)會(huì)新知識(shí)。而FS-DAG則像是一位聰明的快速學(xué)習(xí)者,只需要看幾個(gè)例子就能掌握新任務(wù)的要點(diǎn)。
少樣本學(xué)習(xí)(Few-shot Learning)是FS-DAG的關(guān)鍵能力。在實(shí)際業(yè)務(wù)場(chǎng)景中,獲取大量標(biāo)注數(shù)據(jù)往往困難且成本高昂。想象一家保險(xiǎn)公司剛剛設(shè)計(jì)了一種新的理賠表格,如果使用傳統(tǒng)方法,可能需要收集和標(biāo)注數(shù)百甚至數(shù)千份這種新表格才能訓(xùn)練模型。而使用FS-DAG,只需要5份左右的示例就能讓模型學(xué)會(huì)如何從這種新表格中提取關(guān)鍵信息。
這種"舉一反三"的能力來(lái)自于FS-DAG的幾個(gè)創(chuàng)新設(shè)計(jì):
首先,模型利用預(yù)訓(xùn)練的特征提取器作為"先驗(yàn)知識(shí)"。就像一個(gè)有廣泛閱讀經(jīng)驗(yàn)的人更容易理解新書籍一樣,這些預(yù)訓(xùn)練模型已經(jīng)從大量數(shù)據(jù)中學(xué)習(xí)到了文本和視覺的一般特征,為少樣本學(xué)習(xí)奠定了基礎(chǔ)。
其次,F(xiàn)S-DAG采用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳遞和聚合。這就像是在進(jìn)行有結(jié)構(gòu)的思考,通過分析文檔元素之間的關(guān)系來(lái)理解整體結(jié)構(gòu),而不是孤立地看待每個(gè)元素。這種結(jié)構(gòu)化思考使得模型能夠更有效地從少量例子中概括出規(guī)律。
第三,研究團(tuán)隊(duì)引入了特別的訓(xùn)練策略,包括數(shù)據(jù)增強(qiáng)和實(shí)例規(guī)范化等技術(shù)。想象一下,如果你只有5張照片來(lái)教一個(gè)孩子認(rèn)識(shí)狗,你可能會(huì)從不同角度展示這些照片,或者指出狗的關(guān)鍵特征。FS-DAG的訓(xùn)練策略也是類似的原理,通過人為增加數(shù)據(jù)的多樣性和規(guī)范化表示,幫助模型從有限的例子中學(xué)習(xí)更魯棒的特征。
通過這些創(chuàng)新,F(xiàn)S-DAG實(shí)現(xiàn)了在僅有5份示例文檔的情況下,達(dá)到甚至超過那些需要大量數(shù)據(jù)訓(xùn)練的模型的性能。這對(duì)于需要快速適應(yīng)新文檔類型的企業(yè)應(yīng)用來(lái)說(shuō),無(wú)疑是一項(xiàng)重大突破。
三、模型健壯性:面對(duì)"字跡不清"也能穩(wěn)如泰山
在現(xiàn)實(shí)世界中,文檔處理面臨的一個(gè)最大挑戰(zhàn)是質(zhì)量參差不齊。有些文檔可能是模糊的掃描件,有些可能有污漬或折痕,還有些可能包含拼寫錯(cuò)誤或OCR(光學(xué)字符識(shí)別)錯(cuò)誤。一個(gè)真正實(shí)用的文檔處理模型必須能夠在這些"不完美"的情況下依然表現(xiàn)良好。
FS-DAG在這方面表現(xiàn)出色。研究團(tuán)隊(duì)通過一系列實(shí)驗(yàn)評(píng)估了模型對(duì)OCR錯(cuò)誤和拼寫錯(cuò)誤的魯棒性。他們?cè)跍y(cè)試時(shí)人為引入了10%的錯(cuò)誤(每10個(gè)單詞中有1個(gè)會(huì)被替換為常見的OCR錯(cuò)誤版本),然后比較各個(gè)模型在這種"受干擾"情況下的表現(xiàn)。
結(jié)果令人印象深刻:當(dāng)引入OCR錯(cuò)誤時(shí),基于純文本的模型(如BERT和DistilBERT)的性能下降了25-38%,而更大型的多模態(tài)模型(如LayoutLMv2)也下降了近20%。相比之下,F(xiàn)S-DAG的性能僅下降了不到1%,展示了驚人的穩(wěn)定性。
這種強(qiáng)大的魯棒性源于FS-DAG的多模態(tài)設(shè)計(jì)和圖結(jié)構(gòu)。當(dāng)文本出現(xiàn)錯(cuò)誤時(shí),模型可以依靠視覺特征和文檔結(jié)構(gòu)的上下文來(lái)"猜測(cè)"正確的信息。就像人類閱讀一份部分模糊的文檔時(shí),即使某些單詞不清晰,我們也能根據(jù)上下文和文檔布局推斷出意思。
例如,在一份醫(yī)療表格中,即使患者姓名字段中有拼寫錯(cuò)誤,但由于它的位置(通常在表格頂部)和格式(通常是加粗或特別強(qiáng)調(diào)的),F(xiàn)S-DAG仍然能正確識(shí)別這是患者姓名字段。這種魯棒性對(duì)于實(shí)際應(yīng)用至關(guān)重要,因?yàn)樗鼫p少了對(duì)完美輸入數(shù)據(jù)的依賴,提高了系統(tǒng)在各種真實(shí)場(chǎng)景下的可靠性。
四、實(shí)驗(yàn)結(jié)果:體型更小卻表現(xiàn)更出色
為了全面評(píng)估FS-DAG的性能,研究團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了廣泛測(cè)試,包括公開數(shù)據(jù)集WildReceipt和兩個(gè)涵蓋多種文檔類型的行業(yè)數(shù)據(jù)集。
行業(yè)數(shù)據(jù)集包括兩大類:第一類包含電子商務(wù)發(fā)票、醫(yī)療表格、大學(xué)申請(qǐng)表等五種文檔類型;第二類包含醫(yī)療授權(quán)表、個(gè)人銀行賬戶表、抵押貸款表等七種文檔類型。這些數(shù)據(jù)集代表了企業(yè)在實(shí)際應(yīng)用中可能面臨的各種文檔處理場(chǎng)景。
在所有測(cè)試中,F(xiàn)S-DAG與多個(gè)基準(zhǔn)模型進(jìn)行了比較,包括BERT、DistilBERT、SDMG-R、LayoutLMv2和LayoutLMv3。測(cè)試不僅評(píng)估了模型在正常條件下的性能,還評(píng)估了它們?cè)诿鎸?duì)OCR錯(cuò)誤時(shí)的魯棒性,以及模型的計(jì)算效率(訓(xùn)練時(shí)間和推理時(shí)間)。
在正常條件下,F(xiàn)S-DAG在第一類數(shù)據(jù)集上達(dá)到了98.89%的平均F1分?jǐn)?shù),比SDMG-R高出9.75%,比LayoutLMv2高出4.86%。在第二類數(shù)據(jù)集上,F(xiàn)S-DAG達(dá)到了99.93%的平均F1分?jǐn)?shù),比其他模型都要高。即使在公開數(shù)據(jù)集WildReceipt上,F(xiàn)S-DAG也達(dá)到了93.90%的F1分?jǐn)?shù),超過了所有比較模型。
當(dāng)引入OCR錯(cuò)誤時(shí),F(xiàn)S-DAG的性能僅下降了0.93%(第一類數(shù)據(jù)集)和0.91%(第二類數(shù)據(jù)集),而其他模型的性能下降幅度從2.11%到37.91%不等。這再次證明了FS-DAG在處理不完美輸入時(shí)的卓越能力。
在效率方面,盡管FS-DAG的參數(shù)量(81M)比SDMG-R(5M)大,但它比LayoutLMv2(200M)和LayoutLMv3(125M)小得多。訓(xùn)練時(shí)間方面,F(xiàn)S-DAG平均需要21分鐘,比所有比較模型都要快。推理時(shí)間(處理一份文檔所需的時(shí)間)方面,F(xiàn)S-DAG平均需要773毫秒,比LayoutLMv2(1907毫秒)和LayoutLMv3(1363毫秒)快得多。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究,評(píng)估了FS-DAG各個(gè)組件的貢獻(xiàn)。結(jié)果表明,預(yù)訓(xùn)練語(yǔ)言模型、預(yù)訓(xùn)練視覺模型、位置嵌入和特殊訓(xùn)練策略都對(duì)模型性能有顯著貢獻(xiàn),且這些組件組合在一起時(shí)效果最佳。
特別值得一提的是,研究還探索了在FS-DAG中使用領(lǐng)域特定語(yǔ)言模型的效果。例如,在處理電子商務(wù)發(fā)票時(shí),使用金融領(lǐng)域的語(yǔ)言模型(如ProsusAI/finbert)可以將F1分?jǐn)?shù)從95.1%提高到98.63%;在處理醫(yī)療表格時(shí),使用醫(yī)療領(lǐng)域的語(yǔ)言模型可以將F1分?jǐn)?shù)從96.53%提高到98.98%。這進(jìn)一步證明了FS-DAG模塊化設(shè)計(jì)的價(jià)值,允許用戶根據(jù)特定領(lǐng)域需求選擇最合適的組件。
五、實(shí)際應(yīng)用與影響:從實(shí)驗(yàn)室到企業(yè)的成功轉(zhuǎn)化
FS-DAG不僅在學(xué)術(shù)測(cè)試中表現(xiàn)出色,還已成功應(yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景。根據(jù)論文介紹,F(xiàn)S-DAG目前已被50多家客戶采用,并通過大型云服務(wù)提供商提供服務(wù),每月處理超過100萬(wàn)次API調(diào)用。
這種廣泛采用反映了FS-DAG在解決實(shí)際業(yè)務(wù)問題方面的價(jià)值。對(duì)于企業(yè)來(lái)說(shuō),F(xiàn)S-DAG提供了幾個(gè)關(guān)鍵優(yōu)勢(shì):
首先,它大大降低了適應(yīng)新文檔類型的成本和時(shí)間。傳統(tǒng)上,企業(yè)可能需要收集和標(biāo)注大量文檔,然后花費(fèi)數(shù)天甚至數(shù)周進(jìn)行模型訓(xùn)練。使用FS-DAG,只需要少量示例和較短的訓(xùn)練時(shí)間就能適應(yīng)新的文檔類型。
其次,F(xiàn)S-DAG的魯棒性減少了對(duì)完美輸入的依賴。在實(shí)際應(yīng)用中,文檔質(zhì)量往往參差不齊,包含各種錯(cuò)誤和不規(guī)則。FS-DAG能夠在這些不理想條件下保持高性能,減少了錯(cuò)誤處理和人工干預(yù)的需要。
第三,相比大型模型,F(xiàn)S-DAG的較小體積和更高效率降低了部署和運(yùn)行成本。這對(duì)于資源受限的環(huán)境或需要處理大量文檔的場(chǎng)景尤為重要。
FS-DAG適用于多種文檔處理任務(wù),包括文檔分類、關(guān)鍵值提取、實(shí)體鏈接和圖分類。這使它能夠滿足各種行業(yè)的需求,如金融(處理發(fā)票、銀行文件)、醫(yī)療(處理病歷、保險(xiǎn)表格)、物流(處理運(yùn)輸文件)等。
研究團(tuán)隊(duì)提到,未來(lái)的工作將重點(diǎn)擴(kuò)展FS-DAG的能力,使其支持零樣本學(xué)習(xí)(完全沒有示例的情況下適應(yīng)新文檔類型)和進(jìn)一步提高其在更廣泛行業(yè)場(chǎng)景下的適應(yīng)性。
結(jié)語(yǔ):小而美的AI模型時(shí)代來(lái)臨?
FS-DAG的成功給我們帶來(lái)了一個(gè)有趣的啟示:在追求更大、更強(qiáng)大模型的AI發(fā)展趨勢(shì)中,精心設(shè)計(jì)的小型模型也能在特定任務(wù)上表現(xiàn)出色,甚至超越那些參數(shù)量龐大的巨型模型。
這個(gè)研究團(tuán)隊(duì)通過聚焦于文檔理解這一具體問題,結(jié)合圖神經(jīng)網(wǎng)絡(luò)和少樣本學(xué)習(xí)的優(yōu)勢(shì),創(chuàng)造了一個(gè)既高效又實(shí)用的解決方案。它不要求海量數(shù)據(jù),不需要驚人的計(jì)算資源,卻能提供企業(yè)真正需要的性能和靈活性。
對(duì)于普通用戶和企業(yè)來(lái)說(shuō),這意味著AI技術(shù)的應(yīng)用門檻正在降低。你不需要是谷歌或微軟那樣的科技巨頭,也能利用先進(jìn)的AI技術(shù)解決具體業(yè)務(wù)問題。隨著像FS-DAG這樣的模型變得更加普及,我們可能會(huì)看到更多企業(yè)將文檔處理自動(dòng)化,從而節(jié)省時(shí)間和成本,減少錯(cuò)誤,提高效率。
對(duì)于AI研究社區(qū)來(lái)說(shuō),F(xiàn)S-DAG展示了專注于特定問題領(lǐng)域、結(jié)合多種技術(shù)優(yōu)勢(shì)的研究方向的價(jià)值。在追求通用AI的同時(shí),這種針對(duì)具體問題的創(chuàng)新同樣重要,能夠更快地將AI的好處帶給更多人。
總的來(lái)說(shuō),Oracle團(tuán)隊(duì)的這項(xiàng)研究不僅提供了一個(gè)解決文檔理解問題的有效工具,也為AI模型設(shè)計(jì)提供了新的思路:有時(shí)候,更聰明的架構(gòu)設(shè)計(jì)比簡(jiǎn)單地增加模型大小更重要。在特定任務(wù)上,一個(gè)設(shè)計(jì)精良的小模型可能比一個(gè)龐大但通用的模型表現(xiàn)更好,同時(shí)還更容易部署和使用。
如果你對(duì)FS-DAG模型感興趣,可以通過GitHub(https://github.com/oracle-samples/fs-dag)了解更多信息,或者查閱發(fā)表在COLING 2025會(huì)議上的完整論文。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。