av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="znm5p"><sup id="znm5p"></sup></pre>

<u id="znm5p"><label id="znm5p"></label></u>

<pre id="znm5p"></pre>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

CRAWLDoc：如何從混亂的網(wǎng)頁(yè)中找到學(xué)術(shù)黃金——德國(guó)烏爾姆大學(xué)開(kāi)發(fā)的智能文獻(xiàn)排序系統(tǒng)

學(xué)術(shù)數(shù)據(jù)集信息檢索語(yǔ)言模型

CRAWLDoc：如何從混亂的網(wǎng)頁(yè)中找到學(xué)術(shù)黃金——德國(guó)烏爾姆大學(xué)開(kāi)發(fā)的智能文獻(xiàn)排序系統(tǒng)

作者：科技行者

2025-06-11 07:53

分享至：

這項(xiàng)研究介紹了CRAWLDoc，一種創(chuàng)新的文獻(xiàn)排序系統(tǒng)，能從網(wǎng)絡(luò)中自動(dòng)識(shí)別與學(xué)術(shù)論文相關(guān)的文檔。德國(guó)烏爾姆大學(xué)的研究團(tuán)隊(duì)利用小型語(yǔ)言模型，將論文登陸頁(yè)面作為查詢，對(duì)所有鏈接資源進(jìn)行排序，有效解決了學(xué)術(shù)元數(shù)據(jù)提取面臨的網(wǎng)頁(yè)布局多樣性問(wèn)題?；?00篇來(lái)自六大出版商的論文測(cè)試，系統(tǒng)展現(xiàn)出卓越的排序性能和跨出版商適應(yīng)能力，為改進(jìn)學(xué)術(shù)信息提取奠定了基礎(chǔ)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-11 07:53 ? 科技行者

在學(xué)術(shù)界的海洋中航行，尋找高質(zhì)量的研究論文信息往往像是大海撈針。想象一下，你需要從互聯(lián)網(wǎng)的茫茫數(shù)據(jù)中，精確找出與某篇學(xué)術(shù)論文相關(guān)的所有資源——PDF全文、作者簡(jiǎn)介、補(bǔ)充材料等。這正是德國(guó)烏爾姆大學(xué)的Fabian Karl和Ansgar Scherp教授團(tuán)隊(duì)所面臨的挑戰(zhàn)。他們?cè)?025年4月發(fā)表于ECIR 2025國(guó)際會(huì)議"首屆學(xué)術(shù)信息獲取國(guó)際研討會(huì)"(SCOLIA 2025)的最新研究《CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents》，為這一問(wèn)題提供了創(chuàng)新解決方案。感興趣的讀者可以通過(guò)他們的GitHub倉(cāng)庫(kù)（https://github.com/FKarl/CRAWLDoc）獲取完整代碼和數(shù)據(jù)集。

一、為什么我們需要更聰明的學(xué)術(shù)文獻(xiàn)搜索系統(tǒng)？

想象你是一位圖書管理員，負(fù)責(zé)維護(hù)一個(gè)巨大的學(xué)術(shù)數(shù)據(jù)庫(kù)，比如計(jì)算機(jī)科學(xué)領(lǐng)域的DBLP數(shù)據(jù)庫(kù)。每當(dāng)有新論文發(fā)表，你需要收集該論文的所有重要信息：標(biāo)題、作者、機(jī)構(gòu)、發(fā)表年份等。但問(wèn)題是，這些信息分散在互聯(lián)網(wǎng)各處，格式各異，而且每個(gè)出版商的網(wǎng)站結(jié)構(gòu)都不同。

Karl和Scherp教授在論文中指出，現(xiàn)有的解決方案往往局限于分析單一文檔（如PDF文件），而忽略了網(wǎng)絡(luò)上豐富的相關(guān)資源。目前，像DBLP這樣的主要數(shù)據(jù)庫(kù)通常采用為每個(gè)出版商專門定制"包裝器"（wrapper）的方式，就像為每家出版商定制一把專用鑰匙一樣。一旦出版商更改了網(wǎng)站布局，這些"鑰匙"就失效了，需要重新定制——這是一項(xiàng)耗時(shí)且需要持續(xù)維護(hù)的工作。

更大的挑戰(zhàn)在于，關(guān)于一篇論文的信息通常不會(huì)集中在單個(gè)網(wǎng)頁(yè)上。你需要瀏覽多個(gè)鏈接，查看PDF、ORCID作者檔案、補(bǔ)充材料等。如何從眾多鏈接中找出真正與目標(biāo)論文相關(guān)的資源？這就像在雜貨店購(gòu)物，需要從琳瑯滿目的商品中準(zhǔn)確找出你的購(gòu)物清單上的每一項(xiàng)。

二、CRAWLDoc：一個(gè)聰明的網(wǎng)頁(yè)內(nèi)容排序管家

為解決這一問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了名為CRAWLDoc（Contextual RAnking of Web-Linked Documents，網(wǎng)絡(luò)鏈接文檔的上下文排序）的創(chuàng)新系統(tǒng)。它就像一個(gè)聰明的圖書館助理，能夠自動(dòng)識(shí)別與特定論文相關(guān)的各種網(wǎng)絡(luò)資源。

這個(gè)系統(tǒng)的工作原理非常巧妙。它以論文的DOI（數(shù)字對(duì)象標(biāo)識(shí)符，相當(dāng)于每篇論文的唯一身份證號(hào)）為起點(diǎn)，訪問(wèn)論文的登陸頁(yè)面，然后收集所有從這個(gè)頁(yè)面鏈接出去的網(wǎng)絡(luò)資源。這些資源可能包括PDF全文、作者的ORCID簡(jiǎn)介、補(bǔ)充材料等各種格式的文檔。

最聰明的部分是，CRAWLDoc將登陸頁(yè)面視為"問(wèn)題"，將所有鏈接的文檔視為"可能的答案"。通過(guò)分析它們之間的相似度，系統(tǒng)能夠判斷哪些鏈接的內(nèi)容真正與原論文相關(guān)。這就像你問(wèn)朋友"昨天我們討論的那本關(guān)于人工智能的書叫什么名字？"，朋友會(huì)根據(jù)問(wèn)題的上下文，從記憶中找出最相關(guān)的信息來(lái)回答你。

系統(tǒng)的具體工作流程如下：首先，它從DOI開(kāi)始，訪問(wèn)論文的登陸頁(yè)面。然后，它抓取所有鏈接的資源，不管是HTML網(wǎng)頁(yè)還是PDF文檔。接著，它提取這些文檔的文本內(nèi)容和布局信息（比如文本在頁(yè)面上的位置），并將這些信息與錨文本（鏈接的可點(diǎn)擊文字）和URL一起嵌入到統(tǒng)一的向量空間中。最后，系統(tǒng)計(jì)算登陸頁(yè)面與各個(gè)鏈接文檔之間的相似度，從而對(duì)這些文檔進(jìn)行排序，找出最相關(guān)的資源。

三、數(shù)據(jù)集：六大出版商的600篇論文測(cè)試場(chǎng)

為了評(píng)估CRAWLDoc的性能，研究團(tuán)隊(duì)創(chuàng)建了一個(gè)獨(dú)特的數(shù)據(jù)集。他們從計(jì)算機(jī)科學(xué)領(lǐng)域的六大出版商（IEEE、Springer、Elsevier、ACM、arXiv和MDPI）中各選取了100篇論文，共600篇。這些出版商代表了DBLP數(shù)據(jù)庫(kù)中超過(guò)80%的出版物，因此能夠很好地反映現(xiàn)實(shí)世界中的多樣性。

對(duì)于每篇論文，研究人員手動(dòng)收集了詳細(xì)的元數(shù)據(jù)，包括標(biāo)題、發(fā)表年份、作者姓名和所屬機(jī)構(gòu)。更重要的是，他們檢索了每篇論文的登陸頁(yè)面，并標(biāo)記了頁(yè)面上每個(gè)外鏈的相關(guān)性——即這個(gè)鏈接是否指向與原論文相關(guān)的內(nèi)容。

這個(gè)數(shù)據(jù)集的規(guī)模令人印象深刻：600篇論文，72,483個(gè)鏈接文檔，每篇論文平均有3.63位作者，每位作者平均有1.14個(gè)機(jī)構(gòu)，每個(gè)登陸頁(yè)面平均有120.81個(gè)鏈接，但平均只有5.45個(gè)鏈接是真正相關(guān)的。這就像在120個(gè)蘋果中找出5個(gè)特別甜的——需要一個(gè)精確的方法來(lái)識(shí)別它們。

值得一提的是，這是首個(gè)包含作者機(jī)構(gòu)信息并提供鏈接文檔相關(guān)性標(biāo)簽的學(xué)術(shù)數(shù)據(jù)集。出于法律原因，研究團(tuán)隊(duì)只公開(kāi)了標(biāo)簽而非實(shí)際網(wǎng)頁(yè)內(nèi)容，但他們提供了完整的源代碼，允許其他研究者復(fù)現(xiàn)他們的工作。

四、神奇的秘密武器：小型語(yǔ)言模型

CRAWLDoc的核心技術(shù)是一個(gè)基于BERT架構(gòu)的小型語(yǔ)言模型（SLM），名為jina-embeddings-v2。與大型語(yǔ)言模型不同，SLM體積小巧但功能強(qiáng)大，特別適合于這種特定任務(wù)。

這個(gè)模型能夠處理長(zhǎng)達(dá)81,921個(gè)標(biāo)記的序列（盡管在實(shí)驗(yàn)中，研究團(tuán)隊(duì)限制為前2,048個(gè)標(biāo)記）。它使用對(duì)比學(xué)習(xí)方法訓(xùn)練，通過(guò)InfoNCE損失函數(shù)優(yōu)化模型參數(shù)。簡(jiǎn)單來(lái)說(shuō)，就是讓模型學(xué)會(huì)將相似的內(nèi)容放在向量空間中的相近位置，將不相關(guān)的內(nèi)容放在較遠(yuǎn)的位置。

在實(shí)際應(yīng)用中，系統(tǒng)會(huì)將錨文本（鏈接的可點(diǎn)擊文字）、URL和文檔內(nèi)容用特殊的分隔符連接起來(lái)，然后轉(zhuǎn)換成向量表示。登陸頁(yè)面通過(guò)查詢編碼器進(jìn)行編碼，鏈接的文檔通過(guò)文檔編碼器進(jìn)行編碼。然后，系統(tǒng)使用最大內(nèi)積搜索（MIPS）計(jì)算它們之間的相似度，從而對(duì)文檔進(jìn)行排序。

五、令人驚艷的成果：精準(zhǔn)找出相關(guān)文檔

研究結(jié)果令人印象深刻。在評(píng)估中，CRAWLDoc在各種排名指標(biāo)上都表現(xiàn)出色：平均MRR（平均倒數(shù)排名）達(dá)到0.967，MAP（平均精度均值）達(dá)到0.987，nDCG（歸一化折扣累積增益）達(dá)到0.961。這些數(shù)字接近滿分1.0，表明系統(tǒng)幾乎總能將相關(guān)文檔排在最前面。

具體來(lái)看，在IEEE、Elsevier、ACM、arXiv和MDPI這五個(gè)出版商的數(shù)據(jù)上，系統(tǒng)的MRR都達(dá)到了完美的1.0，意味著相關(guān)文檔總是被排在第一位。只有Springer出版商的數(shù)據(jù)表現(xiàn)略差，MRR和nDCG為0.8。

研究團(tuán)隊(duì)還進(jìn)行了更詳細(xì)的分析，查看了不同截?cái)嘀祂下的性能。結(jié)果顯示，當(dāng)k=1時(shí)（只看排名第一的文檔），精確率高達(dá)0.972，意味著97.2%的情況下，排名第一的文檔確實(shí)與原論文相關(guān)。隨著k值增加，召回率上升而精確率下降，F(xiàn)1分?jǐn)?shù)（精確率和召回率的調(diào)和平均）在k=4和k=5時(shí)達(dá)到最高值0.772。這與每篇論文平均有5.45個(gè)相關(guān)文檔的事實(shí)相符。

六、應(yīng)對(duì)變化的能力：跨出版商的穩(wěn)健性測(cè)試

一個(gè)關(guān)鍵問(wèn)題是：系統(tǒng)能否處理它從未見(jiàn)過(guò)的出版商的網(wǎng)頁(yè)？為了測(cè)試這一點(diǎn)，研究團(tuán)隊(duì)采用了"留一法"策略——每次使用五個(gè)出版商的數(shù)據(jù)進(jìn)行訓(xùn)練，然后在第六個(gè)出版商的數(shù)據(jù)上進(jìn)行測(cè)試。

結(jié)果表明，CRAWLDoc表現(xiàn)出色的跨出版商穩(wěn)健性。平均而言，在未見(jiàn)過(guò)的出版商數(shù)據(jù)上，系統(tǒng)的MRR為0.959，MAP為0.968，nDCG為0.961——與使用全部訓(xùn)練數(shù)據(jù)的結(jié)果相差無(wú)幾。這意味著系統(tǒng)已經(jīng)學(xué)會(huì)了識(shí)別相關(guān)文檔的通用特征，而不僅僅是記住了特定出版商的網(wǎng)頁(yè)布局。

這種穩(wěn)健性尤為重要，因?yàn)閷W(xué)術(shù)出版商經(jīng)常更新他們的網(wǎng)站布局。一個(gè)依賴于特定布局的系統(tǒng)會(huì)在網(wǎng)站更新后失效，而CRAWLDoc則能夠適應(yīng)這些變化，繼續(xù)提供高質(zhì)量的結(jié)果。

在錯(cuò)誤分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)錯(cuò)誤是論文特定的，而非系統(tǒng)性的。例如，系統(tǒng)有時(shí)會(huì)將參考文獻(xiàn)部分的鏈接或同一本書的不同章節(jié)錯(cuò)誤地排在前列。特別是Springer出版物在數(shù)據(jù)集中表現(xiàn)出更多的特殊情況。

七、未來(lái)展望：從排序到提取的漫長(zhǎng)旅程

盡管CRAWLDoc已經(jīng)表現(xiàn)出色，研究團(tuán)隊(duì)認(rèn)為仍有改進(jìn)空間。他們提出了幾個(gè)未來(lái)研究方向：

首先，可以使用"重排序器"進(jìn)一步提高文檔排序的準(zhǔn)確性。其次，可以探索替代的神經(jīng)檢索設(shè)置，如ColBERTv2和基于標(biāo)記級(jí)別的文檔表示與MaxSim相似度計(jì)算。

更重要的是，研究團(tuán)隊(duì)計(jì)劃將CRAWLDoc集成到DBLP工作流程中，并在CRAWLDoc排序的網(wǎng)絡(luò)資源列表上運(yùn)行不同的元數(shù)據(jù)提取組件。這將把研究從"找到相關(guān)文檔"推進(jìn)到"從相關(guān)文檔中提取有用信息"的階段。

CRAWLDoc的開(kāi)發(fā)代表了學(xué)術(shù)信息檢索領(lǐng)域的重要進(jìn)步。通過(guò)有效識(shí)別與特定論文相關(guān)的各種網(wǎng)絡(luò)資源，它為自動(dòng)化元數(shù)據(jù)提取奠定了基礎(chǔ)，有望改善學(xué)術(shù)數(shù)據(jù)庫(kù)的質(zhì)量和完整性。對(duì)于研究人員、圖書館員和學(xué)術(shù)數(shù)據(jù)庫(kù)管理員來(lái)說(shuō)，這是一個(gè)令人興奮的發(fā)展。

學(xué)術(shù)數(shù)據(jù)集信息檢索語(yǔ)言模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語(yǔ)言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù)，通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開(kāi)辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對(duì)齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn)，通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測(cè)方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂(lè)師一樣創(chuàng)作完整的長(zhǎng)篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來(lái)不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說(shuō)人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對(duì)齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級(jí)預(yù)測(cè)模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測(cè)全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<output id="noz3b"><big id="noz3b"></big></output>