av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<kbd id="xcyo7"><video id="xcyo7"><em id="xcyo7"></em></video></kbd>

<del id="xcyo7"></del>

<strong id="xcyo7"><track id="xcyo7"></track></strong>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

告別文檔分塊難題：Yellow.ai如何用AI"眼睛"讓機(jī)器真正看懂PDF文件

多模態(tài)文檔理解RAG系統(tǒng)優(yōu)化視覺引導(dǎo)分塊

告別文檔分塊難題：Yellow.ai如何用AI"眼睛"讓機(jī)器真正看懂PDF文件

作者：科技行者

2025-06-25 13:31

分享至：

Yellow.ai研究團(tuán)隊(duì)開發(fā)了革命性的多模態(tài)文檔分塊技術(shù)，讓AI系統(tǒng)能像人類一樣"看"PDF文檔，而非僅僅"讀"文字。該方法采用批量視覺處理和上下文保持機(jī)制，解決了傳統(tǒng)固定長度分塊導(dǎo)致的表格分割、內(nèi)容破碎等問題。在RAG系統(tǒng)測(cè)試中，準(zhǔn)確率從78%提升至89%，顯著改善了文檔理解質(zhì)量。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-25 13:31 ? 科技行者

這項(xiàng)由Yellow.ai公司AI研究團(tuán)隊(duì)的Vishesh Tripathi、Tanmay Odapally、Indraneel Das、Uday Allu和Biddwan Ahmed領(lǐng)導(dǎo)的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2506.16035v1。有興趣深入了解的讀者可以通過https://arxiv.org/abs/2506.16035訪問完整論文。

說到文檔處理，我們每天都在與各種PDF文件打交道——從工作報(bào)告到技術(shù)手冊(cè)，從學(xué)術(shù)論文到產(chǎn)品說明書。當(dāng)我們?nèi)祟愰喿x這些文件時(shí)，我們的眼睛會(huì)自動(dòng)識(shí)別表格、圖表、標(biāo)題層次，理解內(nèi)容的邏輯結(jié)構(gòu)。但對(duì)于計(jì)算機(jī)來說，這個(gè)看似簡(jiǎn)單的任務(wù)卻充滿挑戰(zhàn)。

傳統(tǒng)的文檔處理系統(tǒng)就像一個(gè)只會(huì)按固定長度切菜的廚師，不管遇到什么食材都用同樣的刀法。這種方法在處理簡(jiǎn)單文本時(shí)還算勉強(qiáng)，但面對(duì)復(fù)雜的PDF文檔時(shí)就暴露出嚴(yán)重問題。跨頁表格會(huì)被強(qiáng)行分割，圖表說明與圖片分離，操作步驟被打散，原本完整的信息變得支離破碎。這就好比把一道精心制作的菜肴隨意切碎，不僅破壞了原有的味道，還可能讓人完全搞不清楚原來的配方。

Yellow.ai的研究團(tuán)隊(duì)意識(shí)到這個(gè)問題的嚴(yán)重性，特別是在當(dāng)前大語言模型和檢索增強(qiáng)生成（RAG）系統(tǒng)廣泛應(yīng)用的背景下。RAG系統(tǒng)的工作原理是先將文檔分成小塊，然后根據(jù)用戶問題檢索相關(guān)塊，最后生成答案。如果文檔分塊質(zhì)量不好，就像給大廚提供了變質(zhì)的食材，再高明的烹飪技巧也做不出好菜。

為了解決這個(gè)根本性問題，研究團(tuán)隊(duì)提出了一種革命性的解決方案：讓AI系統(tǒng)像人類一樣"看"文檔，而不僅僅是"讀"文字。他們開發(fā)的多模態(tài)文檔分塊方法就像給計(jì)算機(jī)裝上了一雙智慧的眼睛，能夠同時(shí)理解文字內(nèi)容和視覺布局，把握文檔的整體結(jié)構(gòu)和邏輯關(guān)系。

這種方法的核心創(chuàng)新在于批量處理機(jī)制。傳統(tǒng)方法是一頁一頁地處理文檔，就像近視眼看書一樣，只能看清眼前的內(nèi)容，無法把握全局。而新方法采用批量視覺處理，一次處理4頁內(nèi)容，并在不同批次之間保持上下文連續(xù)性。這就像從近視眼變成了有遠(yuǎn)見的讀者，既能看清細(xì)節(jié)，又能理解整體脈絡(luò)。

研究團(tuán)隊(duì)使用Google最新的Gemini-2.5-Pro多模態(tài)模型作為"大腦"，這個(gè)模型具有強(qiáng)大的文檔理解能力，特別擅長處理復(fù)雜布局和視覺元素。通過精心設(shè)計(jì)的提示工程，他們訓(xùn)練模型識(shí)別文檔的層次結(jié)構(gòu)，保持表格完整性，確保操作步驟不被分割。

在處理跨頁內(nèi)容時(shí)，系統(tǒng)采用了類似接力賽的機(jī)制。當(dāng)處理新的一批頁面時(shí)，系統(tǒng)會(huì)保留前一批的關(guān)鍵信息作為"接力棒"，包括上下文摘要、最后一個(gè)文檔塊和標(biāo)題層次結(jié)構(gòu)。這確保了即使內(nèi)容跨越多頁，語義關(guān)系也不會(huì)丟失。

為了驗(yàn)證這種方法的有效性，研究團(tuán)隊(duì)構(gòu)建了一個(gè)綜合性的測(cè)試數(shù)據(jù)集，包含來自不同領(lǐng)域的復(fù)雜文檔：技術(shù)手冊(cè)、財(cái)務(wù)報(bào)告、研究論文、監(jiān)管文件和商業(yè)演示文稿。這些文檔包含了各種挑戰(zhàn)性元素：多級(jí)標(biāo)題結(jié)構(gòu)、跨頁表格、嵌入式圖表、交叉引用和腳注等。

測(cè)試結(jié)果令人鼓舞。在完整的RAG系統(tǒng)評(píng)估中，使用視覺引導(dǎo)分塊方法的準(zhǔn)確率達(dá)到89%，而傳統(tǒng)固定長度分塊方法只有78%。這個(gè)11%的提升看似不大，但在實(shí)際應(yīng)用中意義重大，相當(dāng)于從勉強(qiáng)及格提升到了優(yōu)秀水平。

更重要的是，新方法在分塊質(zhì)量方面表現(xiàn)出顯著優(yōu)勢(shì)。人工檢查發(fā)現(xiàn)，視覺引導(dǎo)方法成功保持了跨頁表格的完整性，包括適當(dāng)?shù)谋眍^重復(fù)；完整保留了交叉引用系統(tǒng)，腳注與相關(guān)表格單元格的鏈接關(guān)系得到維護(hù)；監(jiān)管合規(guī)部分的程序性指令序列保持完整；復(fù)雜文檔中的嵌套組織結(jié)構(gòu)得到妥善處理。

有趣的是，研究還發(fā)現(xiàn)了分塊粒度方面的顯著差異。傳統(tǒng)方法由于其固定長度的限制，生成的文檔塊數(shù)量相對(duì)較少。而視覺引導(dǎo)方法產(chǎn)生的文檔塊數(shù)量大約是傳統(tǒng)方法的5倍，這表明AI模型在創(chuàng)建更系統(tǒng)化、上下文適當(dāng)?shù)姆指罘矫姹憩F(xiàn)出了智能。這種更細(xì)粒度的分塊使得檢索系統(tǒng)能夠識(shí)別和提取更具體、更相關(guān)的信息，而不是檢索可能包含相關(guān)和無關(guān)內(nèi)容的大型異構(gòu)文本塊。

從技術(shù)實(shí)現(xiàn)角度來看，整個(gè)系統(tǒng)的架構(gòu)設(shè)計(jì)相當(dāng)精巧。PDF處理器負(fù)責(zé)文檔下載和批次創(chuàng)建，多模態(tài)接口管理與大語言模型的通信，上下文管理器維護(hù)跨批次的上下文和標(biāo)題層次，文檔塊處理器從模型響應(yīng)中提取和驗(yàn)證文檔塊，數(shù)據(jù)庫集成組件則為RAG系統(tǒng)中的向量存儲(chǔ)和檢索準(zhǔn)備文檔塊。

在提示工程方面，研究團(tuán)隊(duì)投入了大量精力。他們?cè)O(shè)計(jì)的提示包含詳細(xì)的分塊指令和優(yōu)先級(jí)規(guī)則、適當(dāng)標(biāo)題層次的示例、表格、步驟和多頁內(nèi)容的特殊處理指令，以及上下文集成指南。這個(gè)過程涉及基于初始結(jié)果的迭代完善，特別關(guān)注涉及表格結(jié)構(gòu)和跨多頁程序性內(nèi)容的邊緣情況。

為了確保處理的一致性和可靠性，系統(tǒng)還實(shí)現(xiàn)了延續(xù)標(biāo)記機(jī)制。每個(gè)文檔塊都會(huì)被標(biāo)記為三種狀態(tài)之一：繼續(xù)（表示從前一內(nèi)容繼續(xù)）、新開始（表示新內(nèi)容的開始）或部分繼續(xù)（表示不確定的繼續(xù)關(guān)系）。這個(gè)標(biāo)記系統(tǒng)使得后處理階段能夠自動(dòng)合并相關(guān)內(nèi)容，確保語義相關(guān)的文檔塊被適當(dāng)組合，同時(shí)在不同主題之間保持適當(dāng)?shù)倪吔纭?/p>

當(dāng)然，這種方法也面臨一些挑戰(zhàn)和限制。處理極其復(fù)雜的表格時(shí)仍有困難，特別是那些跨越8-9頁或更多頁面的表格，在如此大范圍內(nèi)保持一致的列對(duì)齊和語義關(guān)系對(duì)當(dāng)前的大語言模型來說仍然具有挑戰(zhàn)性。此外，高度復(fù)雜的圖形元素，如復(fù)雜的流程圖、多層技術(shù)圖表和包含嵌入子元素的密集統(tǒng)計(jì)圖表，在準(zhǔn)確提取和描述方面仍然存在挑戰(zhàn)。

計(jì)算成本和處理時(shí)間也隨著文檔復(fù)雜性和批次大小的增加而大幅增長，這可能限制了實(shí)時(shí)應(yīng)用的可能性。而且，該方法的有效性仍然依賴于底層大語言模型的視覺能力，這在不同模型架構(gòu)之間可能有所差異，并且會(huì)隨著技術(shù)發(fā)展而持續(xù)演進(jìn)。

盡管存在這些限制，研究團(tuán)隊(duì)對(duì)未來發(fā)展充滿信心。他們計(jì)劃在幾個(gè)方向上繼續(xù)深入研究。在高級(jí)多模態(tài)集成方面，未來的工作可以探索通過改進(jìn)圖形理解、更好的數(shù)學(xué)公式處理和更好地處理復(fù)雜圖表來更深入地集成視覺元素。研究更新的多模態(tài)架構(gòu)及其在文檔理解方面的特定優(yōu)勢(shì)也可能產(chǎn)生進(jìn)一步的改進(jìn)。

在可擴(kuò)展性和優(yōu)化方面，他們計(jì)劃研究更高效的批處理策略、通過模型優(yōu)化降低計(jì)算成本以及實(shí)時(shí)處理能力。這包括研究基于文檔復(fù)雜性和內(nèi)容密度的自適應(yīng)批量調(diào)整技術(shù)。

特別值得一提的是，通過廣泛的評(píng)估過程，研究團(tuán)隊(duì)發(fā)現(xiàn)了可靠、全面的PDF基準(zhǔn)數(shù)據(jù)集在文檔理解任務(wù)中的可用性存在顯著差距。這為未來建立標(biāo)準(zhǔn)化評(píng)估框架提供了重要機(jī)會(huì)。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面的改進(jìn)。它代表了從簡(jiǎn)單文本提取向全面文檔理解的重要轉(zhuǎn)變，展示了多模態(tài)AI在增強(qiáng)信息檢索系統(tǒng)基礎(chǔ)組件方面的潛力。隨著多模態(tài)模型的持續(xù)改進(jìn)和成本效益的提高，這種方法有望在生產(chǎn)環(huán)境的RAG應(yīng)用中變得越來越實(shí)用。

研究團(tuán)隊(duì)的工作為文檔理解在信息檢索系統(tǒng)中開辟了新的途徑，為未來多模態(tài)RAG架構(gòu)的研究提供了堅(jiān)實(shí)基礎(chǔ)。他們鼓勵(lì)研究人員基于這個(gè)開源框架進(jìn)行構(gòu)建，探索特定領(lǐng)域的應(yīng)用，并進(jìn)一步推進(jìn)視覺理解在文檔處理系統(tǒng)中的集成。

說到底，這項(xiàng)研究解決的是一個(gè)看似技術(shù)性但實(shí)際上與我們每個(gè)人都息息相關(guān)的問題。在信息爆炸的時(shí)代，能夠讓機(jī)器真正"理解"復(fù)雜文檔，并準(zhǔn)確回答我們的問題，這不僅僅是技術(shù)進(jìn)步，更是讓知識(shí)變得更加accessible的重要一步。當(dāng)AI系統(tǒng)能夠像人類一樣既看又讀地處理文檔時(shí)，我們就離真正智能的信息助手又近了一步。

Q&A

Q1：什么是RAG系統(tǒng)？它為什么需要更好的文檔分塊？ A：RAG（檢索增強(qiáng)生成）系統(tǒng)是一種AI技術(shù)，它先將文檔切成小塊存儲(chǔ)，然后根據(jù)用戶問題檢索相關(guān)塊來生成答案。就像圖書管理員需要先把書分類整理，才能快速找到你要的內(nèi)容。如果分塊質(zhì)量不好，AI就可能檢索到不完整或錯(cuò)誤的信息，影響答案準(zhǔn)確性。

Q2：這種方法會(huì)不會(huì)讓文檔處理變得更慢更貴？ A：確實(shí)會(huì)增加一些計(jì)算成本和處理時(shí)間，特別是處理復(fù)雜文檔時(shí)。但研究團(tuán)隊(duì)認(rèn)為這是值得的投資，因?yàn)橘|(zhì)量的提升遠(yuǎn)超成本的增加。就像精工制作雖然耗時(shí)，但產(chǎn)品質(zhì)量更好。隨著AI技術(shù)發(fā)展，成本會(huì)逐漸降低。

Q3：普通用戶能使用這種技術(shù)嗎？ A：目前這還是研究階段的技術(shù)，普通用戶無法直接使用。但研究團(tuán)隊(duì)提供了開源框架，鼓勵(lì)開發(fā)者基于此構(gòu)建應(yīng)用。未來隨著技術(shù)成熟，可能會(huì)集成到各種文檔處理軟件中，讓普通用戶也能受益于更智能的文檔理解能力。

多模態(tài)文檔理解RAG系統(tǒng)優(yōu)化視覺引導(dǎo)分塊

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<s id="1c7f9"></s>