av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 浙江大學(xué)團(tuán)隊(duì)首創(chuàng)"先問后教"AI標(biāo)注法:讓機(jī)器學(xué)會謙遜表達(dá)"我不確定"

浙江大學(xué)團(tuán)隊(duì)首創(chuàng)"先問后教"AI標(biāo)注法:讓機(jī)器學(xué)會謙遜表達(dá)"我不確定"

2025-06-19 12:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 12:56 ? 科技行者

想象一下,你正在參加一個非常困難的考試。當(dāng)遇到不確定答案的題目時,你會怎么做?是硬著頭皮隨便選一個答案,還是老實(shí)承認(rèn)"我覺得可能是A或B"?浙江大學(xué)、威斯康星大學(xué)麥迪遜分校、威廉瑪麗學(xué)院和網(wǎng)易伏羲AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)最近發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)我們要求大型語言模型(就像ChatGPT這樣的AI助手)為數(shù)據(jù)打標(biāo)簽時,如果教會它們在不確定時提供多個可能的答案,而不是強(qiáng)迫它們給出單一答案,整個標(biāo)注過程會變得更加準(zhǔn)確和可靠。這項(xiàng)突破性研究于2025年6月發(fā)表在機(jī)器學(xué)習(xí)頂級會議上,感興趣的讀者可以通過論文的GitHub鏈接https://github.com/MingxuanXia/CanDist獲取完整的研究代碼和詳細(xì)信息。

這個發(fā)現(xiàn)聽起來很簡單,但背后蘊(yùn)含著深刻的智慧。就像一個有經(jīng)驗(yàn)的醫(yī)生在面對復(fù)雜病癥時,與其草率下診斷,不如說"根據(jù)癥狀,可能是甲狀腺問題,也可能是內(nèi)分泌失調(diào),需要進(jìn)一步檢查"。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)AI在不確定時被允許給出多個候選答案,然后再通過一個"學(xué)生模型"來從這些候選答案中選擇最終答案時,整個系統(tǒng)的表現(xiàn)會顯著提升。這種方法被他們稱為CanDist框架,其中"Can"代表候選答案(Candidate),"Dist"代表知識蒸餾(Distillation)。

在傳統(tǒng)的AI數(shù)據(jù)標(biāo)注工作中,研究人員通常會直接要求大型語言模型為每個數(shù)據(jù)樣本提供一個明確的標(biāo)簽。這就像強(qiáng)迫一個學(xué)生在完全不確定的情況下也必須選擇一個答案。結(jié)果往往是,當(dāng)模型遇到困難樣本時,它會過度自信地給出錯誤答案,這不僅浪費(fèi)了計(jì)算資源,還會嚴(yán)重影響后續(xù)的模型訓(xùn)練質(zhì)量。更糟糕的是,這些錯誤標(biāo)簽需要人工重新檢查和修正,既費(fèi)時又費(fèi)力。

研究團(tuán)隊(duì)從人類心理學(xué)中汲取了靈感。心理學(xué)研究表明,當(dāng)人們面對不確定性時,往往會表現(xiàn)出"模糊厭惡"的行為模式,也就是傾向于采取保守策略來降低風(fēng)險(xiǎn),確保收益的下限。比如,當(dāng)你在股市投資時不確定某只股票的走勢,你可能會選擇分散投資多只股票,而不是把所有錢都押在一只股票上。受到這種心理現(xiàn)象的啟發(fā),研究團(tuán)隊(duì)提出讓AI模型在面對不確定樣本時也表現(xiàn)出類似的"謙遜"行為,提供多個可能的候選答案,而不是強(qiáng)行給出單一答案。

具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了兩種候選標(biāo)注策略。第一種叫做CAadd,就像一個謹(jǐn)慎的學(xué)生先給出自己最可能的答案,然后補(bǔ)充說"如果我不確定的話,還可能是其他幾個選項(xiàng)"。第二種叫做CAall,則像一個非常誠實(shí)的學(xué)生直接列出所有可能的答案選項(xiàng)。通過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)這兩種方法都比傳統(tǒng)的單一答案方法表現(xiàn)更好。

為了驗(yàn)證候選標(biāo)注的有效性,研究團(tuán)隊(duì)使用了嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)指標(biāo)來評估不同方法的表現(xiàn)。他們把標(biāo)注過程看作是對原始標(biāo)簽空間的"修剪"過程,就像園丁修剪花園一樣。一個好的修剪方法應(yīng)該既能保留正確的花朵(包含正確標(biāo)簽),又能去除大部分雜草(排除錯誤選項(xiàng))。通過1-α錯誤率這個指標(biāo),他們測量候選答案包含正確標(biāo)簽的概率;通過β覆蓋率,他們測量候選答案縮小搜索空間的程度;最后用F1分?jǐn)?shù)綜合考慮這兩個方面。實(shí)驗(yàn)結(jié)果顯示,在三個不同的文本分類任務(wù)上,候選標(biāo)注方法在包含正確答案方面比傳統(tǒng)方法平均提升了18%到27%,同時還能有效縮小搜索空間。

然而,候選標(biāo)注雖然提供了更高質(zhì)量的信息,卻不能直接用于需要確定標(biāo)簽的下游任務(wù)。這就像你收到了多個可能正確的答案,但最終還是需要從中選擇一個。為了解決這個問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個巧妙的師生框架。在這個框架中,大型語言模型充當(dāng)"老師"的角色,負(fù)責(zé)提供候選答案;而一個較小的語言模型充當(dāng)"學(xué)生"的角色,負(fù)責(zé)從老師提供的候選答案中學(xué)習(xí)并最終給出確定的標(biāo)簽。

這個師生框架的核心是一個叫做"分布精煉"的機(jī)制。想象一下,老師給了學(xué)生一份包含多個可能答案的練習(xí)題,但其中混雜著一些錯誤答案。一個聰明的學(xué)生應(yīng)該能夠逐漸識別出哪些是正確答案,哪些是干擾項(xiàng)。分布精煉機(jī)制正是模擬了這個學(xué)習(xí)過程。在訓(xùn)練開始時,學(xué)生模型對所有候選答案一視同仁;但隨著訓(xùn)練的進(jìn)行,它會逐漸學(xué)會區(qū)分真正有價(jià)值的答案和誤導(dǎo)性的答案,最終形成自己的判斷能力。

具體的訓(xùn)練過程包含了幾個精巧的設(shè)計(jì)。首先,系統(tǒng)會過濾掉那些學(xué)生模型的最高預(yù)測概率落在候選集合之外的樣本,這就像去除那些明顯超出討論范圍的答案。接著,系統(tǒng)會選擇那些表現(xiàn)可靠的樣本,通過調(diào)整溫度參數(shù)來"銳化"它們的目標(biāo)分布,這個過程就像提煉精華,讓好的答案變得更加突出。同時,對于那些逐漸顯示出高置信度的樣本,系統(tǒng)會將它們的預(yù)測類別作為訓(xùn)練目標(biāo),充分利用所有可用的信息。

為了驗(yàn)證這種方法的理論合理性,研究團(tuán)隊(duì)還提供了嚴(yán)格的數(shù)學(xué)證明。他們將大型語言模型簡化為傳統(tǒng)的教師模型,重點(diǎn)分析小型語言模型能否從候選標(biāo)注中獲得更好的學(xué)習(xí)效果。證明結(jié)果表明,從教師模型的候選標(biāo)注(top-2預(yù)測)中學(xué)習(xí)的學(xué)生模型,比直接從教師模型的單一標(biāo)注(top-1預(yù)測)中學(xué)習(xí)的學(xué)生模型具有更強(qiáng)的噪聲容忍能力。簡單來說,就是當(dāng)訓(xùn)練數(shù)據(jù)中存在錯誤標(biāo)簽時,使用候選標(biāo)注方法的模型能夠在更高的噪聲水平下仍然保持準(zhǔn)確的預(yù)測能力。

研究團(tuán)隊(duì)在六個不同的文本分類任務(wù)上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。這些任務(wù)涵蓋了從主題分類到醫(yī)學(xué)診斷分類的多個領(lǐng)域,每個任務(wù)都有其獨(dú)特的挑戰(zhàn)。比如TREC數(shù)據(jù)集專注于問題類型分類,需要判斷一個問題是在詢問縮寫、描述概念、實(shí)體、人物、地點(diǎn)還是數(shù)值。醫(yī)學(xué)摘要數(shù)據(jù)集則要求對醫(yī)學(xué)診斷進(jìn)行分類,這需要更專業(yè)的領(lǐng)域知識。DBpedia數(shù)據(jù)集涉及本體分類,AGNews關(guān)注新聞主題分類,RCT專注于醫(yī)學(xué)摘要中的內(nèi)容類型分類,而Banking數(shù)據(jù)集則處理銀行對話中的意圖分類。

實(shí)驗(yàn)結(jié)果令人印象深刻。在所有測試任務(wù)中,CanDist方法都取得了最佳性能,超越了包括零樣本學(xué)習(xí)、少樣本學(xué)習(xí)、思維鏈推理、自我一致性等在內(nèi)的多種基線方法。特別值得注意的是,在TREC任務(wù)上,CanDist方法比最佳基線方法提升了5.47%。更令人驚喜的是,在一些任務(wù)上,CanDist甚至能夠達(dá)到與完全監(jiān)督學(xué)習(xí)相媲美的性能,這意味著使用AI自動標(biāo)注的數(shù)據(jù)幾乎可以替代人工標(biāo)注的數(shù)據(jù)。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對比分析,探討了不同候選生成策略的效果。他們比較了基于采樣的方法(通過多次采樣生成不同答案)、基于集成的方法(通過不同提示格式或示例順序生成答案)以及直接提示候選答案的方法。結(jié)果顯示,直接提示候選答案的方法在檢索到有價(jià)值候選答案方面表現(xiàn)最佳,同時在計(jì)算效率上也有明顯優(yōu)勢。這就像直接詢問"你覺得可能是哪幾個答案"比通過多次猜測來收集答案更加高效準(zhǔn)確。

另一個重要發(fā)現(xiàn)是,讓大型語言模型直接從候選答案中選擇最終答案的效果,明顯不如使用小型語言模型通過學(xué)習(xí)來做出選擇。這個現(xiàn)象很有趣,就像讓一個博學(xué)的教授直接給出標(biāo)準(zhǔn)答案,反而不如讓一個專門訓(xùn)練的學(xué)生通過學(xué)習(xí)來判斷答案。這可能是因?yàn)樾⌒湍P驮谔囟ㄈ蝿?wù)上的專門訓(xùn)練使其能夠更好地識別任務(wù)相關(guān)的模式,而大型模型的通用性反而成為了在特定任務(wù)上的劣勢。

研究團(tuán)隊(duì)還探索了CanDist方法與其他技術(shù)的協(xié)同效應(yīng)。特別值得一提的是與自我一致性方法的結(jié)合。自我一致性方法通過多次采樣來提高結(jié)果的可靠性,而當(dāng)它與候選標(biāo)注方法結(jié)合時,能夠生成更加多樣化且包含更多正確答案的候選集合。這種組合就像多個專家獨(dú)立提出建議,然后綜合所有建議來形成最終的候選答案列表,進(jìn)一步提升了整體性能。

在分析不同組件的貢獻(xiàn)時,研究團(tuán)隊(duì)發(fā)現(xiàn)分布精煉機(jī)制的每個部分都發(fā)揮著重要作用。重新歸一化過程能夠顯著提升性能,過濾超出候選范圍的樣本有助于保持訓(xùn)練的穩(wěn)定性,而分布銳化則能夠引導(dǎo)模型更加專注于高質(zhì)量的訓(xùn)練樣本。這些組件的協(xié)同作用就像一個精密儀器的各個部件,每一個都不可或缺。

從效率角度來看,CanDist方法的計(jì)算開銷與傳統(tǒng)方法基本相當(dāng)。雖然需要額外的候選生成步驟,但這個開銷相對較小,而且可以通過批量處理等技術(shù)進(jìn)一步優(yōu)化。更重要的是,由于提高了標(biāo)注質(zhì)量,減少了后續(xù)的錯誤修正工作,整體上反而可能節(jié)省更多的時間和人力成本。

研究團(tuán)隊(duì)還將CanDist與傳統(tǒng)的主動學(xué)習(xí)方法進(jìn)行了比較。主動學(xué)習(xí)是一種通過人工標(biāo)注少量精心選擇的樣本來提升模型性能的方法。實(shí)驗(yàn)結(jié)果顯示,CanDist方法在沒有任何人工標(biāo)注的情況下就能超越大多數(shù)主動學(xué)習(xí)基線方法的性能。而當(dāng)結(jié)合少量人工標(biāo)注時,CanDist的混合版本能夠用50%的人工標(biāo)注達(dá)到與完全監(jiān)督學(xué)習(xí)相媲美的性能。這個結(jié)果對于實(shí)際應(yīng)用具有重要意義,因?yàn)樗砻髟谫Y源有限的情況下,智能的AI標(biāo)注策略可以顯著減少對人工標(biāo)注的依賴。

這項(xiàng)研究的理論貢獻(xiàn)同樣值得關(guān)注。研究團(tuán)隊(duì)提供的數(shù)學(xué)證明不僅驗(yàn)證了方法的有效性,還為理解知識蒸餾過程提供了新的視角。他們證明了當(dāng)訓(xùn)練數(shù)據(jù)存在噪聲時,從候選預(yù)測中學(xué)習(xí)比從單一預(yù)測中學(xué)習(xí)具有更好的理論保證。這個理論結(jié)果為未來相關(guān)研究提供了重要的理論基礎(chǔ)。

從更廣闊的視角來看,這項(xiàng)研究揭示了AI系統(tǒng)設(shè)計(jì)中的一個重要原則:有時候,讓系統(tǒng)表達(dá)不確定性比強(qiáng)迫它給出確定答案更有價(jià)值。這個思想在很多領(lǐng)域都有應(yīng)用價(jià)值,比如醫(yī)療診斷、金融風(fēng)險(xiǎn)評估、自動駕駛等對準(zhǔn)確性要求極高的場景。當(dāng)AI系統(tǒng)能夠誠實(shí)地表達(dá)自己的不確定性時,人類操作者就能夠做出更明智的決策。

研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前方法的局限性。目前的分布精煉機(jī)制主要針對分類任務(wù)設(shè)計(jì),對于文本生成等其他類型的任務(wù)還需要進(jìn)一步的研究和改進(jìn)。另外,雖然研究提供了理論分析,但這些分析基于對大型語言模型的簡化假設(shè),與實(shí)際的大型語言模型還有一定差距。隨著對大型語言模型理論理解的深入,這些分析可能需要進(jìn)一步完善。

這項(xiàng)研究的實(shí)際應(yīng)用前景非常廣闊。在工業(yè)界,許多公司都面臨著大量數(shù)據(jù)標(biāo)注的需求,傳統(tǒng)的人工標(biāo)注不僅成本高昂,而且效率低下。CanDist方法提供了一個實(shí)用的解決方案,能夠在保證質(zhì)量的前提下大幅提升標(biāo)注效率。特別是對于那些需要專業(yè)知識的標(biāo)注任務(wù),比如醫(yī)學(xué)文獻(xiàn)分類、法律文檔分析等,這種方法的價(jià)值更加突出。

從技術(shù)發(fā)展的角度來看,這項(xiàng)研究也為AI系統(tǒng)的可解釋性和可信度提供了新的思路。一個能夠表達(dá)不確定性的AI系統(tǒng)比一個總是給出確定答案的系統(tǒng)更值得信任,因?yàn)樗\實(shí)地反映了自己的能力邊界。這種"謙遜"的AI系統(tǒng)更容易與人類協(xié)作,也更安全可靠。

研究團(tuán)隊(duì)在論文中還詳細(xì)介紹了實(shí)驗(yàn)的實(shí)現(xiàn)細(xì)節(jié),包括使用的模型、數(shù)據(jù)集、評估指標(biāo)等,這為其他研究者復(fù)現(xiàn)和擴(kuò)展這項(xiàng)工作提供了便利。他們使用了GPT-3.5作為教師模型,RoBERTa-Base作為學(xué)生模型,在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面測試。所有的代碼和數(shù)據(jù)都已經(jīng)公開發(fā)布,體現(xiàn)了開放科學(xué)的精神。

值得一提的是,這項(xiàng)研究的作者團(tuán)隊(duì)具有很強(qiáng)的跨領(lǐng)域背景,來自計(jì)算機(jī)科學(xué)、人工智能、心理學(xué)等不同領(lǐng)域的專家共同合作,這種跨學(xué)科的合作模式也為研究的創(chuàng)新性做出了重要貢獻(xiàn)。特別是將心理學(xué)中的"模糊厭惡"概念引入AI系統(tǒng)設(shè)計(jì),展現(xiàn)了跨學(xué)科研究的威力。

總的來說,這項(xiàng)研究不僅在技術(shù)層面取得了重要突破,更在理念層面為AI系統(tǒng)設(shè)計(jì)提供了新的思路。它告訴我們,有時候承認(rèn)不確定性比盲目自信更有價(jià)值,讓AI學(xué)會說"我不確定,但可能是這幾個答案"比強(qiáng)迫它給出單一答案更加明智。這種思想不僅適用于數(shù)據(jù)標(biāo)注任務(wù),也可能對整個AI領(lǐng)域的發(fā)展產(chǎn)生深遠(yuǎn)影響。隨著AI系統(tǒng)在各個領(lǐng)域的廣泛應(yīng)用,這種能夠表達(dá)不確定性、與人類更好協(xié)作的AI系統(tǒng)將變得越來越重要。

說到底,這項(xiàng)研究的核心價(jià)值在于它展示了一種更加智慧和務(wù)實(shí)的AI設(shè)計(jì)哲學(xué)。就像人類在面對復(fù)雜問題時需要權(quán)衡和思考一樣,AI系統(tǒng)也應(yīng)該學(xué)會在不確定時保持謙遜和開放的態(tài)度。這不僅能提升系統(tǒng)的實(shí)際性能,更重要的是能夠建立人類對AI系統(tǒng)的信任。畢竟,一個誠實(shí)承認(rèn)自己局限性的AI系統(tǒng),遠(yuǎn)比一個總是裝作無所不知的系統(tǒng)更值得依賴。未來,隨著這種思想的進(jìn)一步發(fā)展和應(yīng)用,我們有理由期待看到更多既智能又謙遜的AI系統(tǒng)出現(xiàn)在我們的生活中。對于想要深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以訪問GitHub鏈接https://github.com/MingxuanXia/CanDist獲取完整的實(shí)現(xiàn)代碼和詳細(xì)的實(shí)驗(yàn)數(shù)據(jù),或者通過相關(guān)學(xué)術(shù)數(shù)據(jù)庫搜索這篇發(fā)表于2025年的重要論文。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-