av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 MIT與Meta聯(lián)手破解AI引用難題:讓機(jī)器像人類一樣精準(zhǔn)標(biāo)注信息來源

MIT與Meta聯(lián)手破解AI引用難題:讓機(jī)器像人類一樣精準(zhǔn)標(biāo)注信息來源

2025-08-20 18:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-20 18:05 ? 科技行者

這項(xiàng)由麻省理工學(xué)院的莊永松(Yung-Sung Chuang)和Meta AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)聯(lián)合開展的研究發(fā)表于2025年6月的第42屆國際機(jī)器學(xué)習(xí)會議(ICML),有興趣深入了解的讀者可以通過論文代碼庫https://github.com/facebookresearch/SelfCite訪問完整研究資料。

當(dāng)我們向ChatGPT或其他AI助手詢問復(fù)雜問題時(shí),它們往往能給出看似專業(yè)的回答,但有一個(gè)致命問題:你無法確定這些信息是真的還是AI"胡編亂造"的。就像一個(gè)健談的朋友能滔滔不絕地講述各種故事,但你不知道哪些是真實(shí)經(jīng)歷,哪些是道聽途說甚至完全虛構(gòu)的內(nèi)容。

為了解決這個(gè)困擾,研究人員一直在努力讓AI學(xué)會"引用"——也就是在回答問題時(shí)告訴你信息來源于哪里,就像寫學(xué)術(shù)論文時(shí)需要標(biāo)注參考文獻(xiàn)一樣。然而,訓(xùn)練AI學(xué)會精準(zhǔn)引用是一項(xiàng)極其困難的任務(wù)。傳統(tǒng)方法需要大量人工標(biāo)注的數(shù)據(jù),就像雇傭成千上萬的編輯來為每個(gè)句子標(biāo)注信息來源,成本高昂且效率低下。

面對這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)出了一種名為SelfCite的全新方法。這種方法最巧妙的地方在于,它讓AI自己學(xué)會判斷引用的好壞,無需人工干預(yù)。這就像教會一個(gè)學(xué)生自己檢查作業(yè)的正確性,而不是總需要老師來批改。

SelfCite的核心思路基于一個(gè)簡單而聰明的觀察:如果一個(gè)引用是必要的,那么當(dāng)你把被引用的內(nèi)容從原文中刪除后,AI就無法生成同樣的回答;如果一個(gè)引用是充分的,那么即使只保留被引用的內(nèi)容,刪除其他所有信息,AI依然能生成同樣的回答。這就像烹飪時(shí)檢驗(yàn)?zāi)硞€(gè)調(diào)料是否重要——如果去掉這個(gè)調(diào)料后菜品味道大變,說明這個(gè)調(diào)料是必需的;如果僅用幾種關(guān)鍵調(diào)料就能做出同樣美味的菜,說明這幾種調(diào)料就足夠了。

一、自我評估的智慧:讓AI成為自己的老師

SelfCite方法的核心是讓AI通過"上下文消融"來自我評估引用質(zhì)量。這個(gè)過程就像一場精心設(shè)計(jì)的思維實(shí)驗(yàn)。

當(dāng)AI生成一個(gè)帶有引用的回答后,系統(tǒng)會進(jìn)行兩個(gè)關(guān)鍵測試。第一個(gè)測試叫做"必要性檢驗(yàn)",系統(tǒng)會將AI引用的內(nèi)容從原始資料中完全移除,然后觀察AI是否還能生成相同的回答。如果移除引用內(nèi)容后,AI生成同一回答的概率大幅下降,這就證明這個(gè)引用確實(shí)是必要的,就像移除房屋的承重梁會讓整個(gè)結(jié)構(gòu)變得不穩(wěn)定一樣。

第二個(gè)測試是"充分性檢驗(yàn)",系統(tǒng)只保留AI引用的內(nèi)容,刪除所有其他信息,然后看AI是否依然能夠生成相同的回答。如果僅憑引用的內(nèi)容就能讓AI保持高概率生成同樣的回答,這說明引用是充分的,就像一個(gè)好的食譜摘要,僅憑關(guān)鍵步驟就能做出美味的菜肴。

這種雙重驗(yàn)證機(jī)制確保了引用既不遺漏關(guān)鍵信息,也不包含無關(guān)內(nèi)容。研究團(tuán)隊(duì)將這兩個(gè)分?jǐn)?shù)相加,得到一個(gè)綜合的引用質(zhì)量評分。有趣的是,在數(shù)學(xué)上,這個(gè)組合評分實(shí)際上衡量的是"僅使用引用內(nèi)容時(shí)AI生成回答的概率"與"移除引用內(nèi)容后AI生成回答的概率"之間的差值,這個(gè)差值越大,說明引用質(zhì)量越高。

二、兩種應(yīng)用策略:即時(shí)優(yōu)化與深度學(xué)習(xí)

基于這個(gè)自我評估機(jī)制,研究團(tuán)隊(duì)開發(fā)了兩種實(shí)用的策略來提升AI的引用能力。

第一種策略叫做"最優(yōu)N選一采樣",這就像一個(gè)挑剔的美食家在餐廳點(diǎn)菜。當(dāng)AI需要為某個(gè)回答提供引用時(shí),系統(tǒng)會讓它生成10個(gè)不同的引用選項(xiàng),然后使用自我評估機(jī)制為每個(gè)選項(xiàng)打分,最終選擇得分最高的那個(gè)。這種方法的優(yōu)勢是可以立即應(yīng)用到現(xiàn)有的AI模型上,無需額外訓(xùn)練,就像給現(xiàn)有的汽車安裝一個(gè)更好的導(dǎo)航系統(tǒng),立即就能改善駕駛體驗(yàn)。

第二種策略是"偏好優(yōu)化訓(xùn)練",這是一個(gè)更深層次的改進(jìn)方法。系統(tǒng)首先使用第一種策略生成大量的引用對比示例——每個(gè)示例都包含同一個(gè)問題的兩個(gè)回答,一個(gè)引用質(zhì)量較高,一個(gè)質(zhì)量較低。然后使用這些對比數(shù)據(jù)來訓(xùn)練AI模型,讓它學(xué)會直接生成高質(zhì)量的引用,而不需要生成多個(gè)選項(xiàng)再篩選。這就像通過大量練習(xí)讓一個(gè)新手廚師逐漸掌握調(diào)味的精髓,最終能夠一次性做出美味的菜肴。

研究團(tuán)隊(duì)采用了SimPO(Simple Preference Optimization)這種先進(jìn)的訓(xùn)練方法,它的優(yōu)勢是不需要參考模型,這意味著可以節(jié)省一半的內(nèi)存使用量,這對處理長文檔的訓(xùn)練特別重要。通過這種訓(xùn)練,AI模型不僅保持了性能提升,還擺脫了需要多次采樣的計(jì)算負(fù)擔(dān)。

三、實(shí)驗(yàn)驗(yàn)證:在真實(shí)場景中展現(xiàn)實(shí)力

為了驗(yàn)證SelfCite方法的效果,研究團(tuán)隊(duì)在LongBench-Cite這個(gè)專門的評測基準(zhǔn)上進(jìn)行了全面測試。這個(gè)基準(zhǔn)包含了五個(gè)不同類型的長文檔問答任務(wù),涵蓋了多領(lǐng)域問答、多文檔問答、政府報(bào)告總結(jié)以及各種真實(shí)世界的查詢場景,就像一個(gè)綜合性的考試,測試AI在不同情況下的引用能力。

評測結(jié)果令人振奮。使用最優(yōu)N選一采樣策略后,AI的引用質(zhì)量得分(F1分?jǐn)?shù))從73.8提升到77.5,提升了3.7個(gè)百分點(diǎn)。而通過偏好優(yōu)化訓(xùn)練的模型達(dá)到了77.9的高分。更令人驚訝的是,當(dāng)研究團(tuán)隊(duì)將兩種策略結(jié)合使用——先用偏好優(yōu)化訓(xùn)練模型,再應(yīng)用最優(yōu)采樣——最終獲得了79.1的優(yōu)異成績,比基準(zhǔn)模型提升了5.3個(gè)百分點(diǎn)。

這個(gè)提升幅度在AI研究中是相當(dāng)顯著的。要知道,引用質(zhì)量的評估是一項(xiàng)極其嚴(yán)格的任務(wù),需要每個(gè)句子的引用都精準(zhǔn)無誤。能在如此嚴(yán)格的標(biāo)準(zhǔn)下獲得5.3個(gè)百分點(diǎn)的提升,相當(dāng)于從一個(gè)普通學(xué)生躍升為優(yōu)秀學(xué)生的巨大進(jìn)步。

更重要的是,SelfCite方法在各種不同類型的任務(wù)上都表現(xiàn)出色。無論是處理單一文檔的問答,還是需要整合多個(gè)文檔信息的復(fù)雜查詢,又或是對長篇政府報(bào)告的總結(jié),SelfCite都能顯著提升引用的精準(zhǔn)度。這種一致性表明該方法具有很強(qiáng)的通用性,就像一個(gè)多功能工具,在各種場景下都能發(fā)揮作用。

四、技術(shù)深度解析:創(chuàng)新機(jī)制的精妙之處

SelfCite方法的技術(shù)實(shí)現(xiàn)體現(xiàn)了研究團(tuán)隊(duì)的巧思。在傳統(tǒng)的AI訓(xùn)練中,每個(gè)陳述句后面會跟隨一個(gè)引用序列,標(biāo)明支持這個(gè)陳述的原文句子編號。SelfCite的評估過程會精確定位這些引用位置,然后執(zhí)行上下文操作實(shí)驗(yàn)。

在必要性測試中,系統(tǒng)會創(chuàng)建一個(gè)刪除版本的原文,移除所有被引用的句子,然后計(jì)算AI在這種情況下生成原始回答的概率。概率下降幅度的對數(shù)值就是必要性分?jǐn)?shù)。在充分性測試中,系統(tǒng)創(chuàng)建一個(gè)只包含被引用句子的精簡版本,計(jì)算AI基于這個(gè)精簡版本生成原始回答的概率,這個(gè)概率與基于完整原文生成回答概率的對數(shù)差值就是充分性分?jǐn)?shù)。

為了防止AI學(xué)會通過簡單增加引用長度來"作弊",研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的長度平衡機(jī)制。在訓(xùn)練數(shù)據(jù)中,如果原始回答的引用較短,系統(tǒng)會在拒絕樣本中隨機(jī)添加附近句子的引用,使兩個(gè)樣本的引用長度相近。這樣,AI就必須學(xué)會關(guān)注引用的準(zhǔn)確性而不是長度,就像教育學(xué)生要看作業(yè)的質(zhì)量而不是篇幅。

研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:僅用1000個(gè)訓(xùn)練樣本就能帶來適度改善,2000個(gè)樣本能實(shí)現(xiàn)顯著提升,但當(dāng)樣本數(shù)量增加到8000個(gè)時(shí),性能反而開始下降。這說明過多的訓(xùn)練數(shù)據(jù)可能導(dǎo)致模型偏離原始數(shù)據(jù)分布,這是一個(gè)值得深入研究的現(xiàn)象。

五、對比分析:超越現(xiàn)有方法的優(yōu)勢

與現(xiàn)有的引用生成方法相比,SelfCite展現(xiàn)出明顯的優(yōu)勢。傳統(tǒng)的提示詞方法需要依賴昂貴的商業(yè)API,比如GPT-4或Claude-3,成本高昂且效果有限。而基于自然語言推理(NLI)模型的獎勵機(jī)制雖然有所改善,但仍然依賴外部監(jiān)督信號。

在與ContextCite方法的對比中,SelfCite的優(yōu)勢更加明顯。ContextCite需要進(jìn)行至少32次隨機(jī)上下文消融實(shí)驗(yàn)來估算每個(gè)句子的重要性,計(jì)算成本極高。相比之下,SelfCite直接在AI生成的引用候選中進(jìn)行篩選,效率更高且效果更好。實(shí)驗(yàn)結(jié)果顯示,SelfCite的F1分?jǐn)?shù)比ContextCite高出10多個(gè)百分點(diǎn)。

值得注意的是,研究團(tuán)隊(duì)還與最新發(fā)布的Claude Citations API進(jìn)行了對比。這個(gè)商業(yè)API基于參數(shù)規(guī)??赡艹^千億的大型模型,代表了當(dāng)前工業(yè)界的最高水平。令人驚訝的是,基于80億參數(shù)的SelfCite模型竟然能夠在多個(gè)任務(wù)上與這個(gè)大型商業(yè)系統(tǒng)相媲美,甚至在某些任務(wù)上表現(xiàn)更佳。這充分證明了SelfCite方法的有效性和實(shí)用價(jià)值。

六、實(shí)際應(yīng)用場景:改變信息獲取方式

SelfCite技術(shù)的應(yīng)用前景十分廣闊。在新聞報(bào)道領(lǐng)域,AI可以自動生成帶有精確引用的新聞?wù)?,讀者能夠快速驗(yàn)證每個(gè)關(guān)鍵信息的來源。在學(xué)術(shù)研究中,研究人員可以使用AI來處理大量文獻(xiàn),獲得帶有準(zhǔn)確引用的綜述報(bào)告,大大提高研究效率。

在法律服務(wù)領(lǐng)域,律師可以利用這項(xiàng)技術(shù)快速分析案例文檔,AI不僅能提供法律意見,還能精確標(biāo)注每個(gè)論點(diǎn)的法條依據(jù)。在醫(yī)療咨詢方面,AI可以基于醫(yī)學(xué)文獻(xiàn)提供健康建議,同時(shí)標(biāo)明每個(gè)建議的科學(xué)依據(jù),增強(qiáng)醫(yī)患之間的信任。

對于普通用戶而言,這項(xiàng)技術(shù)意味著能夠獲得更可信的AI服務(wù)。當(dāng)你詢問復(fù)雜的歷史事件、科學(xué)原理或生活常識時(shí),AI不僅會給出答案,還會告訴你這些信息來自哪里,你可以進(jìn)一步查閱原始資料進(jìn)行驗(yàn)證。

七、局限性與未來方向:持續(xù)改進(jìn)的路徑

盡管SelfCite取得了顯著成果,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的局限性。首先,該方法需要訪問AI模型的輸出概率,這意味著無法直接應(yīng)用于封閉的商業(yè)模型如GPT-4。其次,雖然SelfCite能夠改善已具備引用能力的AI模型,但如何讓完全不會引用的模型從零開始學(xué)會這項(xiàng)技能仍然是個(gè)挑戰(zhàn)。

研究團(tuán)隊(duì)也探索了一些有趣的擴(kuò)展方向。他們嘗試了迭代式偏好優(yōu)化,通過三輪訓(xùn)練持續(xù)改進(jìn)模型性能。結(jié)果表明,雖然第一輪改進(jìn)最為顯著,但后續(xù)輪次仍能帶來漸進(jìn)式提升。這為未來開發(fā)更先進(jìn)的訓(xùn)練策略提供了思路。

在計(jì)算效率方面,最優(yōu)N選一采樣策略雖然效果顯著,但會增加推理時(shí)間。以10個(gè)候選選項(xiàng)為例,總體延遲從24.3秒增加到149秒。不過,經(jīng)過偏好優(yōu)化訓(xùn)練的模型可以在單次推理中達(dá)到相同效果,延遲僅為26.2秒,基本與原始模型相當(dāng)。

八、技術(shù)細(xì)節(jié):深入理解實(shí)現(xiàn)機(jī)制

SelfCite的實(shí)現(xiàn)涉及多個(gè)精密的技術(shù)組件。在數(shù)據(jù)處理方面,系統(tǒng)使用NLTK工具和中文標(biāo)點(diǎn)符號來分割文檔,為每個(gè)句子分配唯一標(biāo)識符。AI生成的回答采用特殊格式:`<statement>內(nèi)容</statement><cite>[i1-i2][i3-i4]...</cite>`,其中方括號內(nèi)的數(shù)字表示被引用的句子范圍。

在訓(xùn)練配置上,研究團(tuán)隊(duì)使用了8張A100 GPU,每GPU批處理大小為1,最大上下文長度設(shè)置為25600個(gè)token。對于超過這個(gè)長度的文檔,系統(tǒng)采用智能截?cái)嗖呗?,?yōu)先保留與金標(biāo)準(zhǔn)引用相關(guān)的句子,最小化截?cái)鄬π阅艿挠绊憽?/p>

為了處理長上下文訓(xùn)練的內(nèi)存挑戰(zhàn),研究團(tuán)隊(duì)采用了Liger-Kernel優(yōu)化庫,實(shí)現(xiàn)了無需張量并行化的高效訓(xùn)練。這些技術(shù)細(xì)節(jié)的精心設(shè)計(jì)確保了方法的實(shí)用性和可重現(xiàn)性。

九、評估體系:全方位的性能衡量

LongBench-Cite基準(zhǔn)測試采用了嚴(yán)格的評估標(biāo)準(zhǔn)。引用質(zhì)量通過GPT-4o進(jìn)行自動評估,分別計(jì)算引用召回率(引用是否完整覆蓋了支持陳述所需的信息)和引用精確率(每個(gè)被引用的句子是否真正支持陳述)。這兩個(gè)指標(biāo)的調(diào)和平均數(shù)構(gòu)成F1分?jǐn)?shù),作為綜合性能指標(biāo)。

除了引用質(zhì)量,系統(tǒng)還評估回答的正確性。通過對比帶引用和不帶引用的回答準(zhǔn)確度,研究發(fā)現(xiàn)SelfCite方法不會損害AI的回答質(zhì)量,這是一個(gè)重要發(fā)現(xiàn)。這意味著用戶既能獲得準(zhǔn)確的信息,又能得到可靠的引用,實(shí)現(xiàn)了兩全其美的效果。

引用長度也是一個(gè)重要指標(biāo)。過長的引用雖然可能提高召回率,但會降低精確性并增加用戶驗(yàn)證成本。SelfCite在保持較短引用長度的同時(shí)顯著提升了引用質(zhì)量,平均每個(gè)引用包含93.4個(gè)token,相比baseline的83.5個(gè)token僅略有增加。

十、實(shí)例分析:看見真實(shí)的改進(jìn)效果

研究團(tuán)隊(duì)提供了詳細(xì)的案例分析,展示SelfCite的實(shí)際改進(jìn)效果。在一個(gè)關(guān)于全球隱私政策平衡的問題中,基準(zhǔn)模型的回答引用了句子303、305和306,但遺漏了關(guān)鍵的句子302。SelfCite方法通過上下文消除實(shí)驗(yàn)發(fā)現(xiàn),移除句子302會顯著降低回答的生成概率(0.578 vs 0.547),因此將其包含在最優(yōu)引用中,同時(shí)排除了不太相關(guān)的句子305。

另一個(gè)例子涉及核糖體結(jié)構(gòu)的描述。雖然基準(zhǔn)模型和SelfCite都引用了一些不相關(guān)的句子(391-393),但SelfCite的引用更加精簡,避免了句子299這樣的無關(guān)內(nèi)容,整體質(zhì)量有所提升。

這些具體案例生動地展示了SelfCite如何通過精確的概率計(jì)算來優(yōu)化引用選擇,既避免了信息遺漏,又減少了無關(guān)內(nèi)容的干擾。

十一、跨領(lǐng)域適應(yīng)性:從句子到段落的遷移

雖然SelfCite主要針對句子級引用進(jìn)行訓(xùn)練,但研究團(tuán)隊(duì)也測試了其在段落級引用任務(wù)上的表現(xiàn)。在ALCE基準(zhǔn)測試中,SelfCite展現(xiàn)出良好的跨領(lǐng)域適應(yīng)性,盡管訓(xùn)練數(shù)據(jù)與測試格式存在差異,但仍能取得不錯的效果。

這種適應(yīng)性證明了SelfCite學(xué)到的引用原理具有一定的通用性。無論是細(xì)粒度的句子引用還是粗粒度的段落引用,其核心思想——通過上下文操作來驗(yàn)證引用必要性和充分性——都是適用的。

說到底,SelfCite代表了AI引用技術(shù)的一個(gè)重要突破。它不僅解決了傳統(tǒng)方法依賴昂貴人工標(biāo)注的問題,更重要的是為AI系統(tǒng)的可信度建設(shè)提供了一個(gè)切實(shí)可行的解決方案。當(dāng)AI能夠準(zhǔn)確地告訴我們信息來源時(shí),我們就能更放心地依賴這些智能助手來獲取知識和做出決策。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在信息泛濫的時(shí)代,能夠快速識別可信信息源變得越來越重要。SelfCite讓AI從一個(gè)"健談但不可靠的朋友"轉(zhuǎn)變?yōu)?知識淵博且能提供依據(jù)的顧問",這種轉(zhuǎn)變將深刻影響我們與人工智能的交互方式。

隨著這項(xiàng)技術(shù)的不斷完善和應(yīng)用,我們有理由期待一個(gè)更加透明、可信的AI時(shí)代的到來。在這個(gè)時(shí)代里,獲取信息不再是盲目的信任,而是基于明確證據(jù)的理性判斷。這不僅會改變我們使用AI的方式,更會重新定義人機(jī)協(xié)作的模式,讓人工智能真正成為增強(qiáng)人類認(rèn)知能力的可靠伙伴。

Q&A

Q1:SelfCite是什么?它是如何讓AI學(xué)會精準(zhǔn)引用的?

A:SelfCite是由MIT和Meta AI聯(lián)合開發(fā)的一種讓AI自主學(xué)習(xí)引用能力的方法。它通過"上下文消融"技術(shù)讓AI自己判斷引用好壞:如果移除被引用內(nèi)容后AI無法生成相同回答,說明引用是必要的;如果僅憑引用內(nèi)容AI就能生成相同回答,說明引用是充分的。通過這種自我評估機(jī)制,AI無需人工標(biāo)注數(shù)據(jù)就能學(xué)會精準(zhǔn)引用。

Q2:SelfCite方法能帶來多大的性能提升?在哪些場景下有用?

A:在LongBench-Cite基準(zhǔn)測試中,SelfCite將AI的引用質(zhì)量F1分?jǐn)?shù)從73.8提升到79.1,提升了5.3個(gè)百分點(diǎn)。這項(xiàng)技術(shù)在新聞報(bào)道、學(xué)術(shù)研究、法律服務(wù)、醫(yī)療咨詢等需要準(zhǔn)確信息源標(biāo)注的場景都有廣泛應(yīng)用價(jià)值,能讓用戶快速驗(yàn)證AI提供信息的可靠性。

Q3:普通用戶什么時(shí)候能用上SelfCite技術(shù)?有什么限制?

A:SelfCite的代碼已經(jīng)開源(https://github.com/facebookresearch/SelfCite),研究機(jī)構(gòu)和開發(fā)者可以立即使用。不過該技術(shù)需要訪問AI模型的輸出概率,暫時(shí)無法直接應(yīng)用于封閉的商業(yè)模型如GPT-4。隨著技術(shù)發(fā)展,未來有望在更多AI產(chǎn)品中看到類似的精準(zhǔn)引用功能。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-