這項(xiàng)由Oracle AI團(tuán)隊(duì)的Hansa Meghwani、Amit Agarwal、Priyaranjan Pattnayak、Hitesh Laxmichand Patel和Srikant Panda共同完成的研究,已被ACL 2025會(huì)議接收。該研究致力于解決企業(yè)搜索系統(tǒng)中一個(gè)常見(jiàn)卻棘手的問(wèn)題:如何在專(zhuān)業(yè)領(lǐng)域中精準(zhǔn)檢索相關(guān)信息。
想象一下,你正在搜索"如何在云基礎(chǔ)設(shè)施上部署MySQL數(shù)據(jù)庫(kù)"這樣的專(zhuān)業(yè)問(wèn)題。傳統(tǒng)搜索系統(tǒng)可能會(huì)返回大量關(guān)于各種數(shù)據(jù)庫(kù)部署的文檔,卻無(wú)法準(zhǔn)確區(qū)分哪些是真正與你的問(wèn)題相關(guān)的信息。這就像你去圖書(shū)館尋找一本特定的烹飪書(shū),但圖書(shū)管理員給你帶來(lái)了一堆烹飪相關(guān)的書(shū)籍,你必須自己一本本翻閱才能找到真正需要的那一本。
這正是Oracle AI團(tuán)隊(duì)試圖解決的問(wèn)題。他們開(kāi)發(fā)了一種稱(chēng)為"硬負(fù)樣本挖掘"的技術(shù)框架,就像是訓(xùn)練圖書(shū)管理員區(qū)分非常相似但實(shí)際上不同的書(shū)籍。這項(xiàng)技術(shù)顯著提升了企業(yè)搜索系統(tǒng)的準(zhǔn)確性,特別是在處理那些充滿(mǎn)專(zhuān)業(yè)術(shù)語(yǔ)和相互重疊概念的領(lǐng)域時(shí)。
一、為什么企業(yè)搜索需要革新?
企業(yè)搜索系統(tǒng)與我們?nèi)粘J褂玫乃阉饕嬗泻艽蟛煌.?dāng)我們?cè)贕oogle上搜索"蘋(píng)果派食譜"時(shí),幾乎任何相關(guān)的食譜都可能滿(mǎn)足我們的需求。但在企業(yè)環(huán)境中,尤其是在云計(jì)算、金融或醫(yī)療等專(zhuān)業(yè)領(lǐng)域,用戶(hù)需要的往往是高度精確的信息。
想象一位工程師正在尋找"如何在Oracle云上配置虛擬云網(wǎng)絡(luò)(VCN)"的具體指南。傳統(tǒng)搜索系統(tǒng)可能會(huì)返回一大堆包含"虛擬"、"云"和"網(wǎng)絡(luò)"這些詞的文檔,包括關(guān)于虛擬網(wǎng)絡(luò)接口卡(VNIC)的文檔、其他云平臺(tái)的網(wǎng)絡(luò)配置指南,甚至是完全不相關(guān)的網(wǎng)絡(luò)故障排除文檔。這位工程師可能需要花費(fèi)大量時(shí)間篩選這些結(jié)果,才能找到真正需要的信息。
傳統(tǒng)檢索技術(shù)如BM25(一種基于詞頻的搜索算法)主要依靠詞匯匹配,無(wú)法理解語(yǔ)義層面的差異。就像一個(gè)只認(rèn)識(shí)字但不理解意思的助手,它可以找到包含特定關(guān)鍵詞的文檔,但無(wú)法判斷這些文檔的實(shí)際相關(guān)性。
近年來(lái),基于BERT等預(yù)訓(xùn)練語(yǔ)言模型的密集檢索方法在一定程度上緩解了這個(gè)問(wèn)題。這些方法可以捕捉語(yǔ)義相關(guān)性,就像一個(gè)理解問(wèn)題本質(zhì)的助手。然而,這些模型的性能很大程度上依賴(lài)于它們訓(xùn)練時(shí)使用的"負(fù)樣本"——那些看似相關(guān)但實(shí)際上不符合用戶(hù)需求的文檔。
Oracle AI團(tuán)隊(duì)的創(chuàng)新之處在于開(kāi)發(fā)了一種專(zhuān)門(mén)為企業(yè)數(shù)據(jù)定制的硬負(fù)樣本挖掘框架,能夠動(dòng)態(tài)選擇那些語(yǔ)義上具有挑戰(zhàn)性但與用戶(hù)查詢(xún)上下文無(wú)關(guān)的文檔,從而增強(qiáng)搜索系統(tǒng)的性能。
二、什么是"硬負(fù)樣本"?為什么它們?nèi)绱酥匾?/strong>
要理解硬負(fù)樣本的概念,可以想象你在訓(xùn)練一個(gè)水果分類(lèi)員。如果你只給他看蘋(píng)果和香蕉的圖片,他很容易學(xué)會(huì)區(qū)分這兩種水果。但如果你想讓他能夠準(zhǔn)確區(qū)分蘋(píng)果和梨,你就需要給他同時(shí)展示這兩種相似水果的圖片,讓他學(xué)習(xí)它們之間細(xì)微的差別。
在搜索系統(tǒng)中,"硬負(fù)樣本"就是那些與用戶(hù)查詢(xún)?cè)诒砻嫔戏浅O嗨疲珜?shí)際上并不能滿(mǎn)足用戶(hù)需求的文檔。例如,對(duì)于查詢(xún)"如何在云基礎(chǔ)設(shè)施上部署MySQL數(shù)據(jù)庫(kù)",一個(gè)好的硬負(fù)樣本可能是關(guān)于"如何在本地服務(wù)器上部署MySQL數(shù)據(jù)庫(kù)"的文檔。這兩個(gè)主題非常相似(都關(guān)于MySQL部署),但一個(gè)是云部署,一個(gè)是本地部署,上下文完全不同。
傳統(tǒng)的負(fù)樣本選擇方法存在兩個(gè)主要問(wèn)題:一是隨機(jī)選擇的負(fù)樣本可能與查詢(xún)相差太遠(yuǎn),無(wú)法提供有意義的對(duì)比學(xué)習(xí);二是基于BM25等靜態(tài)方法選擇的負(fù)樣本可能只關(guān)注詞匯匹配而忽略語(yǔ)義理解。而動(dòng)態(tài)方法如ANCE和STAR雖然更先進(jìn),但計(jì)算成本高昂,限制了它們?cè)谄髽I(yè)環(huán)境中的實(shí)際應(yīng)用。
Oracle AI團(tuán)隊(duì)提出的方法巧妙地解決了這些問(wèn)題。他們的框架整合了多種嵌入模型,執(zhí)行降維處理,并通過(guò)獨(dú)特的選擇標(biāo)準(zhǔn)識(shí)別高質(zhì)量的硬負(fù)樣本,既確保了計(jì)算效率,又保證了語(yǔ)義精度。
三、Oracle AI團(tuán)隊(duì)的創(chuàng)新方法
Oracle AI團(tuán)隊(duì)開(kāi)發(fā)的硬負(fù)樣本挖掘框架就像是一個(gè)精明的圖書(shū)分類(lèi)專(zhuān)家,能夠在眾多相似的書(shū)籍中識(shí)別出那些看似相關(guān)但實(shí)際上不符合讀者需求的書(shū)籍。這個(gè)框架由幾個(gè)關(guān)鍵部分組成,每一部分都有其獨(dú)特的功能。
首先,團(tuán)隊(duì)使用了六種不同的嵌入模型來(lái)捕捉查詢(xún)和文檔的語(yǔ)義特征。這就像同時(shí)從六個(gè)不同角度拍攝同一個(gè)物體的照片,能夠獲得更全面的信息。這些模型包括多語(yǔ)言支持的模型,以及專(zhuān)門(mén)針對(duì)不同長(zhǎng)度文本優(yōu)化的模型。通過(guò)組合這些不同模型的輸出,系統(tǒng)能夠捕捉到更豐富的語(yǔ)義信息。
接下來(lái),為了解決高維嵌入向量帶來(lái)的計(jì)算負(fù)擔(dān),研究團(tuán)隊(duì)?wèi)?yīng)用了主成分分析(PCA)降維技術(shù)。這就像是將一幅復(fù)雜的畫(huà)作簡(jiǎn)化為其最重要的特征,既保留了關(guān)鍵信息,又減輕了處理負(fù)擔(dān)。他們的實(shí)驗(yàn)表明,保留95%的原始方差是最佳選擇,能夠在保持語(yǔ)義完整性和提高計(jì)算效率之間取得良好平衡。
最核心的創(chuàng)新是他們提出的兩個(gè)語(yǔ)義選擇標(biāo)準(zhǔn)。第一個(gè)標(biāo)準(zhǔn)確保候選負(fù)樣本文檔與查詢(xún)的語(yǔ)義距離小于查詢(xún)與正樣本文檔之間的距離;第二個(gè)標(biāo)準(zhǔn)確保查詢(xún)與候選負(fù)樣本的距離小于正樣本與負(fù)樣本之間的距離。這兩個(gè)標(biāo)準(zhǔn)共同確保了選出的硬負(fù)樣本既在語(yǔ)義上接近查詢(xún)(使其具有挑戰(zhàn)性),又與正樣本有足夠的區(qū)別(避免選到近似重復(fù)或假負(fù)樣本)。
舉個(gè)例子,如果用戶(hù)查詢(xún)"Oracle云上的MySQL部署",正樣本是一篇關(guān)于這個(gè)主題的指南,那么好的硬負(fù)樣本可能是"本地服務(wù)器上的MySQL部署"指南。這個(gè)文檔與查詢(xún)?cè)谥黝}上非常接近(都關(guān)于MySQL部署),但上下文完全不同(云vs本地),因此是一個(gè)理想的硬負(fù)樣本。
整個(gè)框架的流程非常清晰:首先為查詢(xún)、正樣本文檔和語(yǔ)料庫(kù)中的所有文檔生成多模型嵌入;然后通過(guò)PCA降維減輕計(jì)算負(fù)擔(dān);最后應(yīng)用兩個(gè)語(yǔ)義選擇標(biāo)準(zhǔn)識(shí)別高質(zhì)量的硬負(fù)樣本。這些硬負(fù)樣本隨后被用于訓(xùn)練重排序模型,顯著提升了檢索系統(tǒng)的性能。
四、實(shí)驗(yàn)結(jié)果:硬負(fù)樣本挖掘的顯著成效
Oracle AI團(tuán)隊(duì)在多個(gè)數(shù)據(jù)集上進(jìn)行了全面測(cè)試,結(jié)果令人印象深刻。在他們的專(zhuān)有企業(yè)數(shù)據(jù)集(云服務(wù)領(lǐng)域)上,使用硬負(fù)樣本訓(xùn)練的重排序模型在MRR@3指標(biāo)上提升了15%,在MRR@10指標(biāo)上提升了19%,相比基線模型和其他負(fù)樣本技術(shù)都有顯著改進(jìn)。
MRR(平均倒數(shù)排名)是評(píng)估搜索系統(tǒng)性能的重要指標(biāo),簡(jiǎn)單來(lái)說(shuō),它衡量系統(tǒng)將正確答案排在前幾位的能力。MRR@3表示正確答案出現(xiàn)在前三個(gè)結(jié)果中的概率,MRR@10則表示出現(xiàn)在前十個(gè)結(jié)果中的概率。這些指標(biāo)越高,表示用戶(hù)越容易找到他們真正需要的信息。
為了證明方法的普遍適用性,研究團(tuán)隊(duì)還在三個(gè)公開(kāi)的領(lǐng)域特定數(shù)據(jù)集上進(jìn)行了驗(yàn)證:FiQA(金融領(lǐng)域)、Climate Fever(氣候科學(xué)領(lǐng)域)和TechQA(技術(shù)領(lǐng)域)。在所有這些數(shù)據(jù)集上,他們的方法都取得了一致的性能提升,證明了該框架在不同專(zhuān)業(yè)領(lǐng)域的適用性。
研究團(tuán)隊(duì)還對(duì)比了多種負(fù)樣本選擇方法,包括隨機(jī)選擇、BM25、批內(nèi)負(fù)樣本、STAR和ADORE+STAR。結(jié)果顯示,他們提出的硬負(fù)樣本挖掘方法在所有對(duì)比中都表現(xiàn)最佳。這就像在一場(chǎng)分類(lèi)比賽中,他們的方法能夠更準(zhǔn)確地識(shí)別出那些最具挑戰(zhàn)性但也最有價(jià)值的訓(xùn)練樣本。
此外,團(tuán)隊(duì)還評(píng)估了方法在短文檔和長(zhǎng)文檔上的表現(xiàn)差異。短文檔(少于1024個(gè)標(biāo)記)獲得了更顯著的性能提升,MRR@3從0.481提升到0.61。而長(zhǎng)文檔的提升雖然也很可觀(MRR@3從0.423提升到0.475),但幅度相對(duì)較小。這主要是因?yàn)殚L(zhǎng)文檔中的語(yǔ)義冗余和截?cái)鄦?wèn)題,為未來(lái)研究提供了新的方向。
五、案例研究:硬負(fù)樣本挖掘的實(shí)際應(yīng)用
為了更直觀地展示他們方法的實(shí)際效果,研究團(tuán)隊(duì)提供了兩個(gè)具體案例研究。這些案例生動(dòng)地說(shuō)明了硬負(fù)樣本訓(xùn)練如何幫助系統(tǒng)區(qū)分語(yǔ)義相似但上下文不同的文檔。
第一個(gè)案例涉及技術(shù)縮寫(xiě)詞的歧義消除。當(dāng)用戶(hù)查詢(xún)"云基礎(chǔ)設(shè)施中的VCN是什么?"時(shí),系統(tǒng)需要區(qū)分"虛擬云網(wǎng)絡(luò)(VCN)"和"虛擬網(wǎng)絡(luò)接口卡(VNIC)"這兩個(gè)相似但完全不同的概念?;€模型因?yàn)?虛擬"和"網(wǎng)絡(luò)"等重疊術(shù)語(yǔ)而錯(cuò)誤地將關(guān)于VNIC的文檔排在了前面。而經(jīng)過(guò)硬負(fù)樣本訓(xùn)練的模型能夠正確識(shí)別出查詢(xún)與VCN描述之間的上下文匹配,將正確的文檔排在更前面。
第二個(gè)案例展示了系統(tǒng)在處理領(lǐng)域特定術(shù)語(yǔ)時(shí)的能力。對(duì)于查詢(xún)"CI WAF如何處理傳入流量?",基線模型由于"防火墻"和"流量"等術(shù)語(yǔ)的詞匯重疊,錯(cuò)誤地將一般網(wǎng)絡(luò)防火墻配置文檔排在了前面。而經(jīng)過(guò)硬負(fù)樣本訓(xùn)練的模型能夠理解域特定的語(yǔ)義表示,正確識(shí)別出關(guān)于Web應(yīng)用防火墻(WAF)在CI中的配置和流量過(guò)濾機(jī)制的文檔。
這些案例研究表明,硬負(fù)樣本訓(xùn)練使模型能夠捕捉細(xì)微的語(yǔ)義差異,特別是在處理重疊術(shù)語(yǔ)或縮寫(xiě)詞時(shí),這在企業(yè)環(huán)境中尤為重要。
六、對(duì)企業(yè)應(yīng)用的深遠(yuǎn)影響
Oracle AI團(tuán)隊(duì)開(kāi)發(fā)的硬負(fù)樣本挖掘框架不僅是一項(xiàng)學(xué)術(shù)成果,更對(duì)企業(yè)實(shí)際應(yīng)用有著深遠(yuǎn)影響。在知識(shí)管理、客戶(hù)支持和檢索增強(qiáng)生成(RAG)等關(guān)鍵企業(yè)流程中,精確檢索域特定信息至關(guān)重要。
以客戶(hù)支持為例,當(dāng)客戶(hù)詢(xún)問(wèn)"如何配置云數(shù)據(jù)庫(kù)的備份策略"時(shí),準(zhǔn)確檢索相關(guān)文檔可以顯著減少解決問(wèn)題的時(shí)間,提高客戶(hù)滿(mǎn)意度。使用硬負(fù)樣本訓(xùn)練的檢索系統(tǒng)能夠更準(zhǔn)確地區(qū)分表面上相似但實(shí)際上不同的主題,如云數(shù)據(jù)庫(kù)備份與本地?cái)?shù)據(jù)庫(kù)備份,從而提供更精準(zhǔn)的幫助。
在檢索增強(qiáng)生成(RAG)應(yīng)用中,檢索質(zhì)量直接影響生成內(nèi)容的準(zhǔn)確性和連貫性。當(dāng)大型語(yǔ)言模型基于檢索到的文檔生成回復(fù)時(shí),如果檢索系統(tǒng)提供了高質(zhì)量、真正相關(guān)的文檔,生成的內(nèi)容自然會(huì)更加準(zhǔn)確可靠。
此外,該框架的模塊化設(shè)計(jì)和多樣化嵌入整合使其能夠適應(yīng)不同行業(yè)(如醫(yī)療、金融、制造業(yè))和多語(yǔ)言或跨語(yǔ)言檢索任務(wù),進(jìn)一步擴(kuò)展了其應(yīng)用范圍。
七、技術(shù)細(xì)節(jié)與實(shí)施
對(duì)于對(duì)技術(shù)細(xì)節(jié)感興趣的讀者,這里簡(jiǎn)要介紹一下實(shí)現(xiàn)這個(gè)框架的關(guān)鍵步驟。
首先,系統(tǒng)使用多種嵌入模型(如stella_en_400M_v5、jina-embeddings-v3等)處理查詢(xún)、正樣本文檔和語(yǔ)料庫(kù)中的所有文檔,生成豐富的語(yǔ)義表示。這些模型的選擇基于多語(yǔ)言支持、嵌入質(zhì)量、訓(xùn)練數(shù)據(jù)多樣性和上下文長(zhǎng)度處理能力等因素。
然后,為了減輕高維嵌入帶來(lái)的計(jì)算負(fù)擔(dān),系統(tǒng)應(yīng)用PCA降維,將連接的嵌入投射到較低維度的空間,同時(shí)保留95%的原始方差。這在保持語(yǔ)義豐富性的同時(shí),顯著提高了計(jì)算效率。
核心的硬負(fù)樣本選擇基于兩個(gè)語(yǔ)義條件:
1. d(Q, D) < d(Q, PD):確保候選負(fù)樣本文檔與查詢(xún)的距離小于查詢(xún)與正樣本文檔之間的距離,使其成為一個(gè)具有挑戰(zhàn)性的負(fù)樣本。
2. d(Q, D) < d(PD, D):確保查詢(xún)與候選負(fù)樣本的距離小于正樣本與負(fù)樣本之間的距離,避免選擇主題重復(fù)或假負(fù)樣本。
滿(mǎn)足這兩個(gè)條件的文檔中,與查詢(xún)距離最小的被選為主要硬負(fù)樣本。這些硬負(fù)樣本隨后用于訓(xùn)練重排序模型,通過(guò)對(duì)比學(xué)習(xí)提高模型區(qū)分相似文檔的能力。
八、未來(lái)發(fā)展方向與局限性
盡管Oracle AI團(tuán)隊(duì)的方法取得了顯著成果,但研究團(tuán)隊(duì)也坦誠(chéng)指出了一些局限性和未來(lái)可能的改進(jìn)方向。
首先,短文檔和長(zhǎng)文檔之間的性能差異表明,處理長(zhǎng)文檔仍然是一個(gè)挑戰(zhàn)。長(zhǎng)文檔中的語(yǔ)義冗余和截?cái)鄦?wèn)題需要更有效的文檔分塊策略和分層表示的發(fā)展,以在保持上下文完整性的同時(shí)提取關(guān)鍵信息。
其次,當(dāng)前使用的嵌入連接方法也可以進(jìn)一步優(yōu)化。未來(lái)的研究可以評(píng)估替代的融合技術(shù),如加權(quán)平均或基于注意力的機(jī)制,可能會(huì)提供更精細(xì)的語(yǔ)義表示。
此外,將檢索框架擴(kuò)展到支持跨語(yǔ)言和多語(yǔ)言場(chǎng)景也將增強(qiáng)其在全球分布式應(yīng)用中的實(shí)用性。
團(tuán)隊(duì)計(jì)劃在未來(lái)的工作中重點(diǎn)關(guān)注以下幾個(gè)方向:一是擴(kuò)展框架以處理企業(yè)知識(shí)庫(kù)的增量更新;二是探索針對(duì)不斷演變的語(yǔ)料庫(kù)的實(shí)時(shí)負(fù)樣本采樣策略;三是開(kāi)發(fā)更有效的長(zhǎng)文檔處理技術(shù)。這些改進(jìn)將進(jìn)一步增強(qiáng)框架在實(shí)際產(chǎn)業(yè)環(huán)境中的適應(yīng)性和魯棒性。
九、結(jié)論:搜索的未來(lái)就在眼前
Oracle AI團(tuán)隊(duì)的這項(xiàng)研究代表了企業(yè)搜索系統(tǒng)的一個(gè)重要進(jìn)步。通過(guò)開(kāi)發(fā)一個(gè)可擴(kuò)展、模塊化的硬負(fù)樣本挖掘框架,他們成功地提高了域特定檢索的精度,為企業(yè)知識(shí)管理、客戶(hù)支持和檢索增強(qiáng)生成等應(yīng)用提供了有力支持。
與傳統(tǒng)方法相比,他們的框架在專(zhuān)有企業(yè)數(shù)據(jù)和多個(gè)公開(kāi)領(lǐng)域特定基準(zhǔn)測(cè)試中都取得了顯著的性能提升,證明了其在實(shí)際應(yīng)用中的價(jià)值和廣泛適用性。
這項(xiàng)研究不僅是對(duì)搜索技術(shù)的理論貢獻(xiàn),更為企業(yè)如何改進(jìn)信息檢索系統(tǒng)提供了實(shí)用的解決方案。隨著數(shù)字信息不斷爆炸式增長(zhǎng),能夠精確找到真正相關(guān)信息的系統(tǒng)將變得越來(lái)越重要。硬負(fù)樣本挖掘這樣的技術(shù)正是解決這一挑戰(zhàn)的關(guān)鍵一步。
對(duì)于任何依賴(lài)高質(zhì)量信息檢索的企業(yè)來(lái)說(shuō),這項(xiàng)研究都提供了寶貴的見(jiàn)解和可實(shí)施的方法。隨著這些技術(shù)的進(jìn)一步發(fā)展和完善,我們可以期待未來(lái)的企業(yè)搜索系統(tǒng)將變得更加智能、精確和高效,為用戶(hù)提供真正符合其需求的信息。
對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)arXiv:2505.18366v1 [cs.IR]查看原論文,深入了解更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。