當(dāng)你打開Google Scholar搜索"非平穩(wěn)強(qiáng)化學(xué)習(xí)中的UCB算法"時,是否經(jīng)常感到無從下手?面對茫茫論文海洋,就像在圖書館里尋找一本特定的書卻不知道它藏在哪個角落。如今,ByteDance的研究團(tuán)隊帶來了一個革命性的解決方案——PaSa,一個能夠像資深研究員一樣自動搜索學(xué)術(shù)論文的AI助手。
這項由ByteDance Seed團(tuán)隊的何毅辰、黃冠華等研究人員以及北京大學(xué)的鄂維南教授共同完成的研究,發(fā)表于2025年1月。研究團(tuán)隊通過他們的官方演示網(wǎng)站https://pasa-agent.ai向公眾展示了這一成果,而完整的論文資料和代碼則可以在https://github.com/bytedance/pasa獲取。
想象一下,當(dāng)你準(zhǔn)備寫學(xué)術(shù)論文時,通常需要花費(fèi)大量時間在文獻(xiàn)調(diào)研上。傳統(tǒng)的搜索方式就像用一把小鏟子在礦山里挖金子——你知道金子在那里,但找到它們卻異常困難。研究顯示,學(xué)者們經(jīng)常花費(fèi)數(shù)周甚至數(shù)月的時間來收集相關(guān)文獻(xiàn),而且很容易遺漏重要的參考文獻(xiàn)。更糟糕的是,現(xiàn)有的搜索工具往往只能處理簡單查詢,面對復(fù)雜的學(xué)術(shù)問題時就顯得力不從心。
PaSa的出現(xiàn)徹底改變了這種狀況。它就像一個經(jīng)驗(yàn)豐富的圖書管理員,不僅知道每本書的位置,還能根據(jù)你的需求主動推薦相關(guān)資料。更重要的是,它能夠自動閱讀論文內(nèi)容,追蹤引用鏈,發(fā)現(xiàn)那些隱藏在引用網(wǎng)絡(luò)深處的珍貴文獻(xiàn)。這種智能化的搜索方式讓研究人員從繁重的文獻(xiàn)搜集工作中解脫出來,將更多精力投入到真正的研究創(chuàng)新中。
一、傳統(tǒng)學(xué)術(shù)搜索的困境:為什么Google Scholar不夠用
我們先來看看傳統(tǒng)學(xué)術(shù)搜索面臨的問題。當(dāng)你在Google Scholar中輸入"多模態(tài)大語言模型的縮放定律"這樣的查詢時,搜索引擎會返回成千上萬個結(jié)果,但這些結(jié)果往往存在幾個問題。
首先是覆蓋面不夠全面。傳統(tǒng)搜索引擎就像一個只會按照字面意思理解的助手,它只能找到標(biāo)題或摘要中直接包含你搜索詞匯的論文。但實(shí)際上,許多相關(guān)的重要研究可能使用了不同的表述方式。比如,研究"視頻文本模型的擴(kuò)展規(guī)律"的論文與你搜索的內(nèi)容高度相關(guān),但因?yàn)橛迷~不同,傳統(tǒng)搜索可能會遺漏它們。
其次是結(jié)果質(zhì)量參差不齊。搜索引擎返回的結(jié)果就像一盤大雜燴,包含了各種不同質(zhì)量和相關(guān)度的內(nèi)容。你需要逐一點(diǎn)擊查看,就像在一堆混合的豆子中挑選出優(yōu)質(zhì)的那些,既耗時又容易出錯。
最關(guān)鍵的問題是,傳統(tǒng)搜索無法進(jìn)行深度挖掘。真正的學(xué)術(shù)研究往往需要追蹤引用鏈條,發(fā)現(xiàn)那些被多次引用但不一定排在搜索結(jié)果前面的經(jīng)典論文。這就像尋找一個謠言的源頭,你需要從當(dāng)前的信息出發(fā),一步步追溯到最初的來源。傳統(tǒng)搜索引擎在這方面幾乎無能為力。
研究團(tuán)隊發(fā)現(xiàn),即使是最先進(jìn)的搜索系統(tǒng),包括Google Scholar和帶有GPT-4o增強(qiáng)功能的Google搜索,在處理復(fù)雜學(xué)術(shù)查詢時的表現(xiàn)仍然不夠理想。這就像用手電筒在黑暗的洞穴中尋寶,光束雖然明亮,但照射范圍有限,很容易錯過角落里的珍貴物品。
二、PaSa的智能架構(gòu):雙劍合璧的搜索策略
面對這些挑戰(zhàn),研究團(tuán)隊設(shè)計了PaSa系統(tǒng),它采用了一種全新的雙重智能代理架構(gòu)。整個系統(tǒng)就像一個配合默契的偵探團(tuán)隊,由兩個專門的AI代理組成:爬蟲代理(Crawler)和選擇器代理(Selector)。
爬蟲代理就像一個永不疲倦的探索者,它的任務(wù)是盡可能廣泛地收集相關(guān)論文。當(dāng)你提出一個學(xué)術(shù)查詢時,爬蟲代理首先會像經(jīng)驗(yàn)豐富的研究員一樣,將你的問題拆解成多個互補(bǔ)的搜索策略。比如,對于"分析多模態(tài)模型縮放定律的研究"這個查詢,它可能會生成"多模態(tài)AI模型的縮放定律分析"、"視頻文本模型縮放法則研究"、"圖像文本模型擴(kuò)展規(guī)律調(diào)研"等多個不同但相關(guān)的搜索詞。
更有意思的是,爬蟲代理不僅會進(jìn)行網(wǎng)絡(luò)搜索,還會深入閱讀找到的論文。就像一個真正的研究者會仔細(xì)閱讀參考文獻(xiàn)一樣,它能夠理解論文的結(jié)構(gòu)和內(nèi)容,識別出哪些引用的論文可能與當(dāng)前查詢相關(guān)。然后,它會將這些新發(fā)現(xiàn)的論文添加到待處理隊列中,形成一個不斷擴(kuò)展的搜索網(wǎng)絡(luò)。
這種探索方式特別有趣,因?yàn)樗M了人類研究者的真實(shí)工作流程。當(dāng)我們閱讀一篇論文時,經(jīng)常會在參考文獻(xiàn)中發(fā)現(xiàn)更多有價值的資料,然后循著這些線索繼續(xù)深入研究。爬蟲代理將這個過程自動化了,它可以在引用網(wǎng)絡(luò)中進(jìn)行多層深度搜索,發(fā)現(xiàn)那些埋藏在學(xué)術(shù)網(wǎng)絡(luò)深處的珍貴論文。
選擇器代理則扮演著嚴(yán)格評判員的角色。它的任務(wù)是對爬蟲代理收集到的每一篇論文進(jìn)行仔細(xì)評估,判斷其是否真正符合用戶的查詢需求。這個過程就像一個專業(yè)的文獻(xiàn)評審員,需要仔細(xì)閱讀論文的標(biāo)題和摘要,有時甚至需要了解論文的詳細(xì)內(nèi)容,然后做出準(zhǔn)確的判斷。
選擇器代理的工作原理非常精妙。它不僅會給出"相關(guān)"或"不相關(guān)"的二元判斷,還會提供詳細(xì)的推理過程,解釋為什么某篇論文符合或不符合查詢要求。這種解釋能力不僅提高了系統(tǒng)的透明度,也增強(qiáng)了用戶對結(jié)果的信任感。
兩個代理之間的協(xié)作機(jī)制也很巧妙。選擇器不僅負(fù)責(zé)最終的篩選工作,還在訓(xùn)練過程中充當(dāng)爬蟲代理的指導(dǎo)老師。當(dāng)爬蟲代理找到一篇論文時,如果選擇器認(rèn)為這篇論文相關(guān),爬蟲代理就會得到正面反饋,這樣它就能逐漸學(xué)會什么樣的搜索策略更有效。這種反饋機(jī)制讓整個系統(tǒng)能夠不斷改進(jìn)和優(yōu)化。
三、數(shù)據(jù)集的精心構(gòu)建:從頂級會議中提取智慧
要訓(xùn)練出如此智能的學(xué)術(shù)搜索系統(tǒng),研究團(tuán)隊面臨著一個關(guān)鍵挑戰(zhàn):如何獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)。畢竟,教AI如何搜索學(xué)術(shù)論文,首先需要大量優(yōu)質(zhì)的查詢和論文配對數(shù)據(jù)。
研究團(tuán)隊采用了一個非常聰明的策略。他們意識到,最好的學(xué)術(shù)查詢和答案其實(shí)就隱藏在已發(fā)表的高質(zhì)量論文中。每篇優(yōu)秀的學(xué)術(shù)論文都有一個"相關(guān)工作"章節(jié),這個章節(jié)本質(zhì)上就是作者對特定學(xué)術(shù)問題的深度文獻(xiàn)調(diào)研結(jié)果。
基于這個洞察,他們從五個頂級人工智能會議收集論文:ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024和CVPR 2024。這些會議就像學(xué)術(shù)界的奧斯卡獎,能在這些會議上發(fā)表的論文都代表著該領(lǐng)域的最高水準(zhǔn)。
數(shù)據(jù)構(gòu)建過程就像一個精密的知識提取工程。對于每篇收集到的論文,研究團(tuán)隊使用GPT-4o來分析其"相關(guān)工作"部分,自動生成可能的學(xué)術(shù)查詢,并將該部分引用的論文作為這些查詢的標(biāo)準(zhǔn)答案。
舉個例子,如果一篇論文的相關(guān)工作部分討論了"使用分層神經(jīng)網(wǎng)絡(luò)捕捉手語視頻時空特征的研究",系統(tǒng)就會生成類似"能否提供一些提出分層神經(jīng)模型來捕捉手語視頻時空特征的研究?"這樣的查詢,并將該部分引用的相關(guān)論文作為答案。
這種方法的妙處在于,它確保了查詢和答案之間的天然匹配關(guān)系。因?yàn)檫@些查詢本質(zhì)上來自于真實(shí)的學(xué)術(shù)研究場景,而答案也是經(jīng)過同行評議認(rèn)可的高質(zhì)量論文,所以整個數(shù)據(jù)集具有很高的可靠性。
最終構(gòu)建的AutoScholarQuery數(shù)據(jù)集包含了33,511個訓(xùn)練樣例、1,000個開發(fā)樣例和1,000個測試樣例。為了驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊隨機(jī)抽取了100個查詢-論文配對進(jìn)行人工評估,結(jié)果顯示94%的查詢是合理的,而在這些合理查詢中,93.7%的對應(yīng)論文確實(shí)符合查詢要求。
除了合成數(shù)據(jù)集,研究團(tuán)隊還構(gòu)建了一個真實(shí)世界的測試集RealScholarQuery。他們邀請真實(shí)的AI研究者使用PaSa演示系統(tǒng),收集了50個真實(shí)的學(xué)術(shù)查詢,然后邀請計算機(jī)科學(xué)領(lǐng)域的專業(yè)教授對每個查詢的候選答案進(jìn)行仔細(xì)標(biāo)注。這個過程非常嚴(yán)格,平均每個查詢需要審查76篇候選論文,標(biāo)注成本高達(dá)每個查詢304美元。
這種雙重驗(yàn)證機(jī)制確保了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的高質(zhì)量。合成數(shù)據(jù)集提供了大規(guī)模訓(xùn)練所需的數(shù)據(jù)量,而真實(shí)數(shù)據(jù)集則保證了系統(tǒng)在實(shí)際應(yīng)用中的有效性。
四、強(qiáng)化學(xué)習(xí)訓(xùn)練:讓AI學(xué)會像研究員一樣思考
有了高質(zhì)量的數(shù)據(jù)集,下一個挑戰(zhàn)就是如何訓(xùn)練PaSa系統(tǒng)。這里面臨的技術(shù)難題就像教一個學(xué)生學(xué)會復(fù)雜的研究技能,不僅要教會基本方法,還要讓他學(xué)會在復(fù)雜情況下做出正確判斷。
研究團(tuán)隊采用了一種創(chuàng)新的強(qiáng)化學(xué)習(xí)方法來訓(xùn)練爬蟲代理。強(qiáng)化學(xué)習(xí)就像訓(xùn)練一個學(xué)生通過不斷試錯來掌握技能,每當(dāng)學(xué)生做對了什么,就給予獎勵,做錯了就給予懲罰,讓學(xué)生逐漸學(xué)會正確的行為模式。
在PaSa的訓(xùn)練中,獎勵機(jī)制設(shè)計得非常巧妙。當(dāng)爬蟲代理找到一篇與查詢相關(guān)的論文時,它會獲得正面獎勵。但這里有個技術(shù)難點(diǎn):由于AutoScholarQuery數(shù)據(jù)集只包含了部分相關(guān)論文(因?yàn)檎撐牡囊猛ǔV涣谐鲎钪匾膸灼绻麌?yán)格按照數(shù)據(jù)集來判斷,很多實(shí)際相關(guān)的論文可能得不到獎勵,導(dǎo)致訓(xùn)練效果不佳。
為了解決這個問題,研究團(tuán)隊讓選擇器代理兼職當(dāng)"老師"。當(dāng)爬蟲代理找到一篇論文時,除了檢查這篇論文是否在原始數(shù)據(jù)集中,系統(tǒng)還會讓選擇器代理進(jìn)行評估。如果選擇器認(rèn)為這篇論文相關(guān),爬蟲代理同樣會得到獎勵。這種設(shè)計大大豐富了訓(xùn)練信號,讓系統(tǒng)能夠?qū)W到更豐富的搜索策略。
訓(xùn)練過程中還有一個巧妙的設(shè)計叫做"會話級訓(xùn)練"。傳統(tǒng)的訓(xùn)練方法需要處理完整的搜索軌跡,但一次完整的學(xué)術(shù)搜索可能涉及數(shù)百甚至數(shù)千篇論文,這樣的軌跡太長了,計算機(jī)很難處理。
研究團(tuán)隊將長軌跡分解成多個短會話。每個會話要么是從查詢開始的搜索過程,要么是從某篇論文開始的引用擴(kuò)展過程。這種分解就像將一部長電影分成多個短片段來學(xué)習(xí),既保持了內(nèi)容的連貫性,又大大提高了訓(xùn)練效率。
訓(xùn)練過程分為兩個階段。第一階段是模仿學(xué)習(xí),就像讓學(xué)生先觀察老師如何搜索論文,學(xué)會基本的搜索步驟和策略。研究團(tuán)隊構(gòu)建了約13,000個示范性搜索軌跡,教會系統(tǒng)基本的搜索技能。
第二階段是強(qiáng)化學(xué)習(xí),讓系統(tǒng)通過實(shí)際操作來優(yōu)化自己的搜索策略。在這個階段,系統(tǒng)會嘗試各種不同的搜索方法,根據(jù)找到相關(guān)論文的情況來調(diào)整自己的行為。訓(xùn)練過程就像一個學(xué)生在做大量練習(xí)題,通過不斷的實(shí)踐來提高自己的技能水平。
選擇器代理的訓(xùn)練相對簡單一些,主要采用監(jiān)督學(xué)習(xí)方法。系統(tǒng)會學(xué)習(xí)如何準(zhǔn)確判斷一篇論文是否符合特定查詢的要求,并學(xué)會給出合理的解釋。訓(xùn)練數(shù)據(jù)來自于前面構(gòu)建的高質(zhì)量查詢-論文配對,確保選擇器能夠做出準(zhǔn)確的判斷。
整個訓(xùn)練過程歷時數(shù)周,使用了16塊高性能GPU。最終訓(xùn)練出的PaSa-7B模型在保持高效率的同時,展現(xiàn)出了卓越的學(xué)術(shù)搜索能力。
五、實(shí)驗(yàn)驗(yàn)證:PaSa大顯身手的時刻
為了驗(yàn)證PaSa的實(shí)際效果,研究團(tuán)隊進(jìn)行了一系列全面的對比實(shí)驗(yàn)。他們將PaSa與目前最先進(jìn)的學(xué)術(shù)搜索方法進(jìn)行了全方位比較,結(jié)果令人印象深刻。
在合成數(shù)據(jù)集AutoScholarQuery上的測試中,PaSa-7B展現(xiàn)出了壓倒性的優(yōu)勢。與Google搜索配合GPT-4o查詢優(yōu)化的組合相比,PaSa在recall@20指標(biāo)上提升了34.05%,在recall@50上提升了39.36%。這意味著,在前20個搜索結(jié)果中,PaSa能找到的相關(guān)論文數(shù)量比最強(qiáng)的基線方法多了三分之一以上。
更令人興奮的是在真實(shí)數(shù)據(jù)集RealScholarQuery上的表現(xiàn)。面對真實(shí)用戶的復(fù)雜查詢,PaSa-7B相比Google配合GPT-4o的組合,在recall@20上提升了37.78%,在recall@50上提升了39.90%。這種一致的優(yōu)異表現(xiàn)證明了PaSa不僅在理論數(shù)據(jù)上有效,在實(shí)際應(yīng)用中同樣表現(xiàn)卓越。
特別值得注意的是與PaSa-GPT-4o的比較。PaSa-GPT-4o是研究團(tuán)隊用同樣的方法但使用GPT-4o模型實(shí)現(xiàn)的版本,這個對比能夠說明專門訓(xùn)練的重要性。結(jié)果顯示,經(jīng)過專門訓(xùn)練的PaSa-7B在recall指標(biāo)上超越了PaSa-GPT-4o約30%,充分證明了針對性訓(xùn)練的價值。
研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析系統(tǒng)各個組件的貢獻(xiàn)。實(shí)驗(yàn)發(fā)現(xiàn),引用擴(kuò)展功能極其重要,移除這個功能會導(dǎo)致recall下降22.98%。這說明了深度挖掘引用網(wǎng)絡(luò)對于全面搜索的關(guān)鍵作用,也證實(shí)了PaSa相比傳統(tǒng)搜索引擎的核心優(yōu)勢。
強(qiáng)化學(xué)習(xí)訓(xùn)練的效果也很顯著。相比僅使用模仿學(xué)習(xí)的版本,經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的PaSa在recall上提升了約6%。這個提升看似不大,但在信息檢索領(lǐng)域已經(jīng)是相當(dāng)可觀的改進(jìn)。
選擇器代理作為輔助獎勵模型的作用同樣不可忽視。移除這個功能后,系統(tǒng)性能下降了約4%。這證明了雙代理架構(gòu)設(shè)計的合理性,兩個組件相互配合,共同提升了系統(tǒng)的整體性能。
實(shí)驗(yàn)還顯示,系統(tǒng)的行為可以通過調(diào)整獎勵參數(shù)來控制。當(dāng)增加獎勵系數(shù)時,爬蟲代理會進(jìn)行更多的搜索和擴(kuò)展操作,雖然這會增加計算成本,但也能找到更多相關(guān)論文。這種可調(diào)節(jié)性讓PaSa能夠適應(yīng)不同用戶的需求,在搜索深度和計算效率之間找到平衡。
六、技術(shù)深度解析:PaSa的核心創(chuàng)新點(diǎn)
PaSa系統(tǒng)的成功不僅僅在于優(yōu)異的實(shí)驗(yàn)結(jié)果,更重要的是其背后的技術(shù)創(chuàng)新。這些創(chuàng)新為學(xué)術(shù)搜索領(lǐng)域帶來了新的思路和方法。
首先是多代理協(xié)作架構(gòu)的設(shè)計。傳統(tǒng)的信息檢索系統(tǒng)通常采用單一模型處理所有任務(wù),但PaSa將搜索和篩選分解為兩個專門的代理,實(shí)現(xiàn)了專業(yè)分工。爬蟲代理專注于最大化召回率,確保不遺漏任何可能相關(guān)的論文;選擇器代理專注于提高精確率,過濾掉不符合要求的結(jié)果。這種分工就像工廠的流水線,每個環(huán)節(jié)都專精于自己的任務(wù),整體效率得到顯著提升。
引用網(wǎng)絡(luò)的智能遍歷是另一個重要創(chuàng)新。傳統(tǒng)搜索引擎只能基于關(guān)鍵詞匹配進(jìn)行表面搜索,而PaSa能夠理解論文的內(nèi)容結(jié)構(gòu),識別出值得深入探索的引用方向。系統(tǒng)不是盲目地擴(kuò)展所有引用,而是有選擇性地探索那些最可能包含相關(guān)論文的引用分支。這種智能探索策略大大提高了搜索效率。
會話級強(qiáng)化學(xué)習(xí)方法也是一個技術(shù)突破。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法難以處理學(xué)術(shù)搜索這樣的長序列任務(wù),因?yàn)橐淮瓮暾阉骺赡苌婕皵?shù)百個決策步驟。PaSa通過將長序列分解為多個短會話,既保持了決策的連貫性,又使得訓(xùn)練變得可行。這種方法為其他長序列決策任務(wù)提供了新的解決思路。
獎勵機(jī)制的設(shè)計也很有創(chuàng)意。單純依靠數(shù)據(jù)集標(biāo)注來給出獎勵信號往往會遇到稀疏獎勵問題,因?yàn)檎鎸?shí)的相關(guān)論文集合通常比數(shù)據(jù)集中的標(biāo)注更大。PaSa通過讓選擇器代理提供額外的獎勵信號,有效緩解了這個問題,使得訓(xùn)練過程更加穩(wěn)定和高效。
系統(tǒng)的可解釋性設(shè)計也值得稱道。選擇器代理不僅給出判斷結(jié)果,還提供詳細(xì)的推理過程,這對于學(xué)術(shù)搜索這樣需要高度信任的應(yīng)用場景非常重要。用戶可以理解系統(tǒng)的決策邏輯,從而更好地利用搜索結(jié)果。
七、實(shí)際應(yīng)用價值:改變學(xué)術(shù)研究的工作流程
PaSa的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的創(chuàng)新,它有望根本性地改變學(xué)術(shù)研究的工作流程。傳統(tǒng)的文獻(xiàn)調(diào)研工作往往需要研究人員花費(fèi)數(shù)周甚至數(shù)月時間,而且很難保證搜索的完整性和準(zhǔn)確性。
對于研究生和博士生來說,PaSa就像一個經(jīng)驗(yàn)豐富的導(dǎo)師助手,能夠快速幫助他們建立對某個研究領(lǐng)域的全面認(rèn)識。新入門的研究者往往不知道從何處開始文獻(xiàn)調(diào)研,也不清楚哪些論文是該領(lǐng)域的經(jīng)典之作。PaSa能夠自動發(fā)現(xiàn)這些重要文獻(xiàn),幫助新手快速建立知識基礎(chǔ)。
對于經(jīng)驗(yàn)豐富的研究人員,PaSa的價值在于幫助他們發(fā)現(xiàn)可能遺漏的相關(guān)工作。即使是在某個領(lǐng)域深耕多年的專家,也可能因?yàn)殛P(guān)鍵詞的差異或引用鏈的復(fù)雜性而錯過重要論文。PaSa的全面搜索能力能夠有效彌補(bǔ)這種遺漏。
從更宏觀的角度看,PaSa有助于促進(jìn)跨學(xué)科研究。不同學(xué)科往往使用不同的術(shù)語體系,傳統(tǒng)搜索方法很難跨越這種語言障礙。PaSa通過理解論文內(nèi)容而非僅僅匹配關(guān)鍵詞,能夠發(fā)現(xiàn)不同領(lǐng)域間的相關(guān)研究,為跨學(xué)科合作提供橋梁。
系統(tǒng)的高效性也為大規(guī)模學(xué)術(shù)分析提供了可能。研究機(jī)構(gòu)可以利用PaSa快速生成特定領(lǐng)域的全面文獻(xiàn)綜述,追蹤研究熱點(diǎn)的發(fā)展軌跡,識別新興研究方向。這對于科研管理和政策制定都具有重要價值。
此外,PaSa的開源性質(zhì)意味著全球研究社區(qū)都能受益于這項技術(shù)。研究團(tuán)隊將代碼、數(shù)據(jù)和模型全部開源,允許其他研究者在此基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展。這種開放性有助于推動整個學(xué)術(shù)搜索技術(shù)的快速發(fā)展。
八、未來展望與發(fā)展空間
雖然PaSa已經(jīng)展現(xiàn)出了卓越的性能,但研究團(tuán)隊也坦誠地指出了當(dāng)前的局限性和未來的發(fā)展方向。
首先是領(lǐng)域擴(kuò)展的挑戰(zhàn)。目前的實(shí)驗(yàn)主要集中在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,雖然PaSa的方法具有普適性,但在其他科學(xué)領(lǐng)域的表現(xiàn)還需要進(jìn)一步驗(yàn)證。不同學(xué)科的論文結(jié)構(gòu)、引用模式和術(shù)語使用習(xí)慣可能存在差異,這需要針對性的調(diào)整和優(yōu)化。
模型規(guī)模的擴(kuò)展也是一個重要方向。當(dāng)前的PaSa-7B模型已經(jīng)展現(xiàn)出了impressive的能力,但更大規(guī)模的模型可能帶來進(jìn)一步的性能提升。隨著計算資源的不斷發(fā)展,訓(xùn)練更大規(guī)模的學(xué)術(shù)搜索模型將成為可能。
多語言支持是另一個重要發(fā)展方向。目前的系統(tǒng)主要處理英文論文,但學(xué)術(shù)研究是全球性的,很多重要研究成果發(fā)表在非英文期刊上。支持多種語言的學(xué)術(shù)搜索將大大擴(kuò)展系統(tǒng)的應(yīng)用價值。
實(shí)時性也是需要改進(jìn)的方面。當(dāng)前的系統(tǒng)主要基于歷史論文數(shù)據(jù)進(jìn)行訓(xùn)練,對于最新發(fā)表的論文可能存在滯后。如何快速更新模型以包含最新研究成果,是一個值得探索的技術(shù)問題。
用戶交互體驗(yàn)的優(yōu)化同樣重要。雖然當(dāng)前的系統(tǒng)已經(jīng)能夠處理復(fù)雜查詢,但如何更好地理解用戶意圖,提供個性化的搜索結(jié)果,還有很大改進(jìn)空間。未來可能會集成更多的用戶反饋機(jī)制,讓系統(tǒng)能夠根據(jù)用戶的使用習(xí)慣進(jìn)行自適應(yīng)調(diào)整。
集成更多數(shù)據(jù)源也是一個有趣的方向。除了傳統(tǒng)的學(xué)術(shù)論文,會議演講、技術(shù)報告、預(yù)印本等也包含大量有價值的學(xué)術(shù)信息。如何將這些多樣化的信息源整合到統(tǒng)一的搜索框架中,是一個富有挑戰(zhàn)性的問題。
說到底,PaSa代表了學(xué)術(shù)搜索技術(shù)發(fā)展的一個重要里程碑。它不僅解決了研究人員長期面臨的文獻(xiàn)搜索難題,更為整個學(xué)術(shù)研究生態(tài)系統(tǒng)的數(shù)字化轉(zhuǎn)型提供了新的可能性。隨著技術(shù)的不斷完善和應(yīng)用場景的擴(kuò)展,這類智能學(xué)術(shù)助手有望成為每個研究人員不可或缺的工具,讓學(xué)術(shù)研究變得更加高效和精確。
當(dāng)然,技術(shù)進(jìn)步也帶來新的思考。當(dāng)AI能夠如此高效地進(jìn)行文獻(xiàn)搜索時,研究人員的角色會發(fā)生什么變化?如何平衡AI輔助和人類創(chuàng)造性思維?這些問題沒有標(biāo)準(zhǔn)答案,但PaSa的出現(xiàn)無疑為我們思考學(xué)術(shù)研究的未來提供了新的視角。無論如何,有一點(diǎn)是確定的:PaSa讓我們離"讓每個研究人員都能站在巨人肩膀上"的目標(biāo)又近了一步。
Q&A
Q1:PaSa是什么?它與傳統(tǒng)學(xué)術(shù)搜索有什么區(qū)別?
A:PaSa是ByteDance開發(fā)的智能學(xué)術(shù)論文搜索系統(tǒng),它最大的特點(diǎn)是能像資深研究員一樣自動搜索論文。與Google Scholar等傳統(tǒng)搜索不同,PaSa不僅能搜索,還能自動閱讀論文內(nèi)容,追蹤引用鏈條,發(fā)現(xiàn)隱藏在引用網(wǎng)絡(luò)深處的相關(guān)文獻(xiàn),就像一個永不疲倦的圖書管理員。
Q2:PaSa的搜索效果有多好?真的比Google Scholar更準(zhǔn)確嗎?
A:根據(jù)研究測試,PaSa在找到相關(guān)論文方面確實(shí)明顯超越了現(xiàn)有方法。與Google配合GPT-4o的組合相比,PaSa在前20個結(jié)果中能多找到37.78%的相關(guān)論文,前50個結(jié)果中多找到39.90%。這意味著用PaSa搜索能大大減少遺漏重要文獻(xiàn)的可能性。
Q3:普通研究人員現(xiàn)在可以使用PaSa嗎?如何獲取?
A:是的,研究團(tuán)隊已經(jīng)提供了演示網(wǎng)站https://pasa-agent.ai供大家體驗(yàn)。更重要的是,PaSa是完全開源的,所有代碼、數(shù)據(jù)和模型都可以在https://github.com/bytedance/pasa免費(fèi)獲取,其他研究者可以基于此進(jìn)行改進(jìn)和擴(kuò)展。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。