這項(xiàng)由Yellow.ai公司AI研究團(tuán)隊(duì)的Vishesh Tripathi、Tanmay Odapally、Indraneel Das、Uday Allu和Biddwan Ahmed領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2506.16035v1。有興趣深入了解的讀者可以通過https://arxiv.org/abs/2506.16035訪問完整論文。
說到文檔處理,我們每天都在與各種PDF文件打交道——從工作報(bào)告到技術(shù)手冊(cè),從學(xué)術(shù)論文到產(chǎn)品說明書。當(dāng)我們?nèi)祟愰喿x這些文件時(shí),我們的眼睛會(huì)自動(dòng)識(shí)別表格、圖表、標(biāo)題層次,理解內(nèi)容的邏輯結(jié)構(gòu)。但對(duì)于計(jì)算機(jī)來說,這個(gè)看似簡(jiǎn)單的任務(wù)卻充滿挑戰(zhàn)。
傳統(tǒng)的文檔處理系統(tǒng)就像一個(gè)只會(huì)按固定長度切菜的廚師,不管遇到什么食材都用同樣的刀法。這種方法在處理簡(jiǎn)單文本時(shí)還算勉強(qiáng),但面對(duì)復(fù)雜的PDF文檔時(shí)就暴露出嚴(yán)重問題。跨頁表格會(huì)被強(qiáng)行分割,圖表說明與圖片分離,操作步驟被打散,原本完整的信息變得支離破碎。這就好比把一道精心制作的菜肴隨意切碎,不僅破壞了原有的味道,還可能讓人完全搞不清楚原來的配方。
Yellow.ai的研究團(tuán)隊(duì)意識(shí)到這個(gè)問題的嚴(yán)重性,特別是在當(dāng)前大語言模型和檢索增強(qiáng)生成(RAG)系統(tǒng)廣泛應(yīng)用的背景下。RAG系統(tǒng)的工作原理是先將文檔分成小塊,然后根據(jù)用戶問題檢索相關(guān)塊,最后生成答案。如果文檔分塊質(zhì)量不好,就像給大廚提供了變質(zhì)的食材,再高明的烹飪技巧也做不出好菜。
為了解決這個(gè)根本性問題,研究團(tuán)隊(duì)提出了一種革命性的解決方案:讓AI系統(tǒng)像人類一樣"看"文檔,而不僅僅是"讀"文字。他們開發(fā)的多模態(tài)文檔分塊方法就像給計(jì)算機(jī)裝上了一雙智慧的眼睛,能夠同時(shí)理解文字內(nèi)容和視覺布局,把握文檔的整體結(jié)構(gòu)和邏輯關(guān)系。
這種方法的核心創(chuàng)新在于批量處理機(jī)制。傳統(tǒng)方法是一頁一頁地處理文檔,就像近視眼看書一樣,只能看清眼前的內(nèi)容,無法把握全局。而新方法采用批量視覺處理,一次處理4頁內(nèi)容,并在不同批次之間保持上下文連續(xù)性。這就像從近視眼變成了有遠(yuǎn)見的讀者,既能看清細(xì)節(jié),又能理解整體脈絡(luò)。
研究團(tuán)隊(duì)使用Google最新的Gemini-2.5-Pro多模態(tài)模型作為"大腦",這個(gè)模型具有強(qiáng)大的文檔理解能力,特別擅長處理復(fù)雜布局和視覺元素。通過精心設(shè)計(jì)的提示工程,他們訓(xùn)練模型識(shí)別文檔的層次結(jié)構(gòu),保持表格完整性,確保操作步驟不被分割。
在處理跨頁內(nèi)容時(shí),系統(tǒng)采用了類似接力賽的機(jī)制。當(dāng)處理新的一批頁面時(shí),系統(tǒng)會(huì)保留前一批的關(guān)鍵信息作為"接力棒",包括上下文摘要、最后一個(gè)文檔塊和標(biāo)題層次結(jié)構(gòu)。這確保了即使內(nèi)容跨越多頁,語義關(guān)系也不會(huì)丟失。
為了驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)構(gòu)建了一個(gè)綜合性的測(cè)試數(shù)據(jù)集,包含來自不同領(lǐng)域的復(fù)雜文檔:技術(shù)手冊(cè)、財(cái)務(wù)報(bào)告、研究論文、監(jiān)管文件和商業(yè)演示文稿。這些文檔包含了各種挑戰(zhàn)性元素:多級(jí)標(biāo)題結(jié)構(gòu)、跨頁表格、嵌入式圖表、交叉引用和腳注等。
測(cè)試結(jié)果令人鼓舞。在完整的RAG系統(tǒng)評(píng)估中,使用視覺引導(dǎo)分塊方法的準(zhǔn)確率達(dá)到89%,而傳統(tǒng)固定長度分塊方法只有78%。這個(gè)11%的提升看似不大,但在實(shí)際應(yīng)用中意義重大,相當(dāng)于從勉強(qiáng)及格提升到了優(yōu)秀水平。
更重要的是,新方法在分塊質(zhì)量方面表現(xiàn)出顯著優(yōu)勢(shì)。人工檢查發(fā)現(xiàn),視覺引導(dǎo)方法成功保持了跨頁表格的完整性,包括適當(dāng)?shù)谋眍^重復(fù);完整保留了交叉引用系統(tǒng),腳注與相關(guān)表格單元格的鏈接關(guān)系得到維護(hù);監(jiān)管合規(guī)部分的程序性指令序列保持完整;復(fù)雜文檔中的嵌套組織結(jié)構(gòu)得到妥善處理。
有趣的是,研究還發(fā)現(xiàn)了分塊粒度方面的顯著差異。傳統(tǒng)方法由于其固定長度的限制,生成的文檔塊數(shù)量相對(duì)較少。而視覺引導(dǎo)方法產(chǎn)生的文檔塊數(shù)量大約是傳統(tǒng)方法的5倍,這表明AI模型在創(chuàng)建更系統(tǒng)化、上下文適當(dāng)?shù)姆指罘矫姹憩F(xiàn)出了智能。這種更細(xì)粒度的分塊使得檢索系統(tǒng)能夠識(shí)別和提取更具體、更相關(guān)的信息,而不是檢索可能包含相關(guān)和無關(guān)內(nèi)容的大型異構(gòu)文本塊。
從技術(shù)實(shí)現(xiàn)角度來看,整個(gè)系統(tǒng)的架構(gòu)設(shè)計(jì)相當(dāng)精巧。PDF處理器負(fù)責(zé)文檔下載和批次創(chuàng)建,多模態(tài)接口管理與大語言模型的通信,上下文管理器維護(hù)跨批次的上下文和標(biāo)題層次,文檔塊處理器從模型響應(yīng)中提取和驗(yàn)證文檔塊,數(shù)據(jù)庫集成組件則為RAG系統(tǒng)中的向量存儲(chǔ)和檢索準(zhǔn)備文檔塊。
在提示工程方面,研究團(tuán)隊(duì)投入了大量精力。他們?cè)O(shè)計(jì)的提示包含詳細(xì)的分塊指令和優(yōu)先級(jí)規(guī)則、適當(dāng)標(biāo)題層次的示例、表格、步驟和多頁內(nèi)容的特殊處理指令,以及上下文集成指南。這個(gè)過程涉及基于初始結(jié)果的迭代完善,特別關(guān)注涉及表格結(jié)構(gòu)和跨多頁程序性內(nèi)容的邊緣情況。
為了確保處理的一致性和可靠性,系統(tǒng)還實(shí)現(xiàn)了延續(xù)標(biāo)記機(jī)制。每個(gè)文檔塊都會(huì)被標(biāo)記為三種狀態(tài)之一:繼續(xù)(表示從前一內(nèi)容繼續(xù))、新開始(表示新內(nèi)容的開始)或部分繼續(xù)(表示不確定的繼續(xù)關(guān)系)。這個(gè)標(biāo)記系統(tǒng)使得后處理階段能夠自動(dòng)合并相關(guān)內(nèi)容,確保語義相關(guān)的文檔塊被適當(dāng)組合,同時(shí)在不同主題之間保持適當(dāng)?shù)倪吔纭?/p>
當(dāng)然,這種方法也面臨一些挑戰(zhàn)和限制。處理極其復(fù)雜的表格時(shí)仍有困難,特別是那些跨越8-9頁或更多頁面的表格,在如此大范圍內(nèi)保持一致的列對(duì)齊和語義關(guān)系對(duì)當(dāng)前的大語言模型來說仍然具有挑戰(zhàn)性。此外,高度復(fù)雜的圖形元素,如復(fù)雜的流程圖、多層技術(shù)圖表和包含嵌入子元素的密集統(tǒng)計(jì)圖表,在準(zhǔn)確提取和描述方面仍然存在挑戰(zhàn)。
計(jì)算成本和處理時(shí)間也隨著文檔復(fù)雜性和批次大小的增加而大幅增長,這可能限制了實(shí)時(shí)應(yīng)用的可能性。而且,該方法的有效性仍然依賴于底層大語言模型的視覺能力,這在不同模型架構(gòu)之間可能有所差異,并且會(huì)隨著技術(shù)發(fā)展而持續(xù)演進(jìn)。
盡管存在這些限制,研究團(tuán)隊(duì)對(duì)未來發(fā)展充滿信心。他們計(jì)劃在幾個(gè)方向上繼續(xù)深入研究。在高級(jí)多模態(tài)集成方面,未來的工作可以探索通過改進(jìn)圖形理解、更好的數(shù)學(xué)公式處理和更好地處理復(fù)雜圖表來更深入地集成視覺元素。研究更新的多模態(tài)架構(gòu)及其在文檔理解方面的特定優(yōu)勢(shì)也可能產(chǎn)生進(jìn)一步的改進(jìn)。
在可擴(kuò)展性和優(yōu)化方面,他們計(jì)劃研究更高效的批處理策略、通過模型優(yōu)化降低計(jì)算成本以及實(shí)時(shí)處理能力。這包括研究基于文檔復(fù)雜性和內(nèi)容密度的自適應(yīng)批量調(diào)整技術(shù)。
特別值得一提的是,通過廣泛的評(píng)估過程,研究團(tuán)隊(duì)發(fā)現(xiàn)了可靠、全面的PDF基準(zhǔn)數(shù)據(jù)集在文檔理解任務(wù)中的可用性存在顯著差距。這為未來建立標(biāo)準(zhǔn)化評(píng)估框架提供了重要機(jī)會(huì)。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面的改進(jìn)。它代表了從簡(jiǎn)單文本提取向全面文檔理解的重要轉(zhuǎn)變,展示了多模態(tài)AI在增強(qiáng)信息檢索系統(tǒng)基礎(chǔ)組件方面的潛力。隨著多模態(tài)模型的持續(xù)改進(jìn)和成本效益的提高,這種方法有望在生產(chǎn)環(huán)境的RAG應(yīng)用中變得越來越實(shí)用。
研究團(tuán)隊(duì)的工作為文檔理解在信息檢索系統(tǒng)中開辟了新的途徑,為未來多模態(tài)RAG架構(gòu)的研究提供了堅(jiān)實(shí)基礎(chǔ)。他們鼓勵(lì)研究人員基于這個(gè)開源框架進(jìn)行構(gòu)建,探索特定領(lǐng)域的應(yīng)用,并進(jìn)一步推進(jìn)視覺理解在文檔處理系統(tǒng)中的集成。
說到底,這項(xiàng)研究解決的是一個(gè)看似技術(shù)性但實(shí)際上與我們每個(gè)人都息息相關(guān)的問題。在信息爆炸的時(shí)代,能夠讓機(jī)器真正"理解"復(fù)雜文檔,并準(zhǔn)確回答我們的問題,這不僅僅是技術(shù)進(jìn)步,更是讓知識(shí)變得更加accessible的重要一步。當(dāng)AI系統(tǒng)能夠像人類一樣既看又讀地處理文檔時(shí),我們就離真正智能的信息助手又近了一步。
Q&A
Q1:什么是RAG系統(tǒng)?它為什么需要更好的文檔分塊? A:RAG(檢索增強(qiáng)生成)系統(tǒng)是一種AI技術(shù),它先將文檔切成小塊存儲(chǔ),然后根據(jù)用戶問題檢索相關(guān)塊來生成答案。就像圖書管理員需要先把書分類整理,才能快速找到你要的內(nèi)容。如果分塊質(zhì)量不好,AI就可能檢索到不完整或錯(cuò)誤的信息,影響答案準(zhǔn)確性。
Q2:這種方法會(huì)不會(huì)讓文檔處理變得更慢更貴? A:確實(shí)會(huì)增加一些計(jì)算成本和處理時(shí)間,特別是處理復(fù)雜文檔時(shí)。但研究團(tuán)隊(duì)認(rèn)為這是值得的投資,因?yàn)橘|(zhì)量的提升遠(yuǎn)超成本的增加。就像精工制作雖然耗時(shí),但產(chǎn)品質(zhì)量更好。隨著AI技術(shù)發(fā)展,成本會(huì)逐漸降低。
Q3:普通用戶能使用這種技術(shù)嗎? A:目前這還是研究階段的技術(shù),普通用戶無法直接使用。但研究團(tuán)隊(duì)提供了開源框架,鼓勵(lì)開發(fā)者基于此構(gòu)建應(yīng)用。未來隨著技術(shù)成熟,可能會(huì)集成到各種文檔處理軟件中,讓普通用戶也能受益于更智能的文檔理解能力。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。