這項(xiàng)由北京大學(xué)馬璐、梁昊、強(qiáng)美一、唐樂(lè)翔、馬曉晨、黃振浩、??〔⑸虺杏?、何潤(rùn)銘、崔斌和張文濤等研究者組成的團(tuán)隊(duì)在2025年6月發(fā)表的研究,為我們揭示了人工智能如何能夠更聰明地學(xué)習(xí)解決復(fù)雜問(wèn)題。想象一下,如果你正在學(xué)習(xí)數(shù)學(xué),有些題目對(duì)你來(lái)說(shuō)很簡(jiǎn)單,可以通過(guò)反復(fù)練習(xí)來(lái)鞏固,而有些題目則難得讓你抓耳撓腮,這時(shí)你就需要老師的詳細(xì)指導(dǎo)才能理解。AI的學(xué)習(xí)也是如此道理。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)前最先進(jìn)的AI學(xué)習(xí)方法,就像是讓學(xué)生在沒(méi)有老師指導(dǎo)的情況下自己摸索學(xué)習(xí)。雖然這種方法在處理已經(jīng)掌握的知識(shí)方面效果不錯(cuò),但當(dāng)遇到真正困難的新問(wèn)題時(shí),就顯得力不從心了。這就好比一個(gè)學(xué)生可以通過(guò)大量刷題來(lái)提高解題熟練度,但如果遇到完全陌生的題型,沒(méi)有老師的詳細(xì)講解,很難真正掌握新的解題思路。
這項(xiàng)研究的核心創(chuàng)新在于提出了一種名為ReLIFT的新學(xué)習(xí)方法。簡(jiǎn)單來(lái)說(shuō),ReLIFT就像是為AI配備了一個(gè)智能學(xué)習(xí)助手,它能夠識(shí)別出AI在學(xué)習(xí)過(guò)程中遇到的"最難題",然后及時(shí)提供高質(zhì)量的解題示范,幫助AI真正掌握新的解題方法。這種做法不僅能讓AI在已經(jīng)會(huì)做的題目上保持優(yōu)秀表現(xiàn),還能幫助它突破能力邊界,學(xué)會(huì)解決以前不會(huì)的難題。
更令人驚喜的是,這種新方法在五個(gè)高難度數(shù)學(xué)競(jìng)賽級(jí)別的測(cè)試中取得了顯著成果,平均成績(jī)提升了5.2個(gè)百分點(diǎn),而且只需要傳統(tǒng)方法13%的詳細(xì)教學(xué)數(shù)據(jù)就能達(dá)到更好的效果。這就像是一個(gè)聰明的學(xué)習(xí)策略,既節(jié)省了教學(xué)資源,又提高了學(xué)習(xí)效果,可謂一舉兩得。有興趣深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面https://github.com/TheRoadQaQ/ReLIFT訪問(wèn)相關(guān)資源和代碼。
**一、AI學(xué)習(xí)的兩種截然不同的路徑**
要理解這項(xiàng)研究的重要性,我們首先需要明白當(dāng)前AI學(xué)習(xí)主要有兩種不同的方式,就像學(xué)生學(xué)習(xí)也有兩種不同的策略一樣。
第一種方式叫做強(qiáng)化學(xué)習(xí),這就像是讓學(xué)生通過(guò)反復(fù)試錯(cuò)來(lái)學(xué)習(xí)。想象一個(gè)學(xué)生在解數(shù)學(xué)題時(shí),每做對(duì)一道題就得到獎(jiǎng)勵(lì),做錯(cuò)了就沒(méi)有獎(jiǎng)勵(lì)。通過(guò)這種反復(fù)的試錯(cuò)過(guò)程,學(xué)生逐漸學(xué)會(huì)了如何更頻繁地得到獎(jiǎng)勵(lì),也就是更經(jīng)常地做對(duì)題目。這種方法的優(yōu)點(diǎn)是不需要老師提供詳細(xì)的解題步驟,學(xué)生可以自主探索學(xué)習(xí)。然而,問(wèn)題在于學(xué)生只能在自己已有知識(shí)范圍內(nèi)進(jìn)行優(yōu)化,很難真正學(xué)會(huì)全新的解題方法。
第二種方式叫做監(jiān)督微調(diào),這更像是傳統(tǒng)的課堂教學(xué)。老師會(huì)提供詳細(xì)的解題步驟和示范,學(xué)生通過(guò)模仿這些高質(zhì)量的解題過(guò)程來(lái)學(xué)習(xí)。這種方法的好處是能夠讓學(xué)生接觸到全新的知識(shí)和解題技巧,快速掌握復(fù)雜的解題方法。但缺點(diǎn)是需要大量高質(zhì)量的教學(xué)材料,而且學(xué)生可能過(guò)分依賴這些示范,在遇到稍有變化的題目時(shí)就不知所措。
研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:這兩種學(xué)習(xí)方式在處理不同難度的問(wèn)題時(shí)表現(xiàn)出截然不同的特點(diǎn)。對(duì)于相對(duì)簡(jiǎn)單的題目,強(qiáng)化學(xué)習(xí)表現(xiàn)更好,因?yàn)閷W(xué)生已經(jīng)具備了基本的解題能力,只需要通過(guò)練習(xí)來(lái)提高熟練度和準(zhǔn)確性。但對(duì)于真正困難的題目,監(jiān)督微調(diào)則更為有效,因?yàn)檫@些題目需要全新的思維方式和解題技巧,僅僅通過(guò)試錯(cuò)是很難掌握的。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)使用監(jiān)督微調(diào)方法時(shí),AI在處理簡(jiǎn)單題目的表現(xiàn)反而可能下降。這就像是一個(gè)學(xué)生在學(xué)習(xí)了復(fù)雜的高級(jí)解題方法后,反而在做簡(jiǎn)單題目時(shí)變得繁瑣復(fù)雜,不如之前那樣直接高效。這種現(xiàn)象提醒我們,不同的學(xué)習(xí)方法確實(shí)適用于不同類型的問(wèn)題。
通過(guò)對(duì)學(xué)習(xí)過(guò)程的詳細(xì)分析,研究團(tuán)隊(duì)將題目按難度分為四個(gè)等級(jí):簡(jiǎn)單、中等、困難和最困難。他們發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)在簡(jiǎn)單和中等題目上表現(xiàn)更好,能夠保持并提升原有能力,而監(jiān)督微調(diào)在最困難的題目上更有優(yōu)勢(shì),能夠幫助AI學(xué)習(xí)全新的解題方法。這個(gè)發(fā)現(xiàn)為設(shè)計(jì)更智能的學(xué)習(xí)策略奠定了基礎(chǔ)。
**二、ReLIFT:智能學(xué)習(xí)的完美平衡**
基于對(duì)兩種學(xué)習(xí)方式優(yōu)缺點(diǎn)的深入理解,研究團(tuán)隊(duì)設(shè)計(jì)了一種名為ReLIFT的創(chuàng)新學(xué)習(xí)方法。這個(gè)名字代表"強(qiáng)化學(xué)習(xí)與在線微調(diào)的交替進(jìn)行",但我們可以把它想象成一個(gè)非常聰明的學(xué)習(xí)助手,它知道在什么時(shí)候應(yīng)該讓學(xué)生自主練習(xí),什么時(shí)候應(yīng)該提供詳細(xì)指導(dǎo)。
ReLIFT的工作原理就像是一個(gè)有經(jīng)驗(yàn)的老師在課堂上的表現(xiàn)。大部分時(shí)間,這個(gè)老師讓學(xué)生通過(guò)做練習(xí)題來(lái)鞏固已學(xué)知識(shí),這相當(dāng)于強(qiáng)化學(xué)習(xí)的過(guò)程。但是當(dāng)學(xué)生遇到特別困難的題目,連續(xù)幾次都做不對(duì)時(shí),老師就會(huì)意識(shí)到僅靠學(xué)生自己摸索是不夠的,這時(shí)候就會(huì)暫停練習(xí),詳細(xì)講解這類難題的解法,這就相當(dāng)于監(jiān)督微調(diào)的過(guò)程。
具體來(lái)說(shuō),ReLIFT在運(yùn)行過(guò)程中會(huì)持續(xù)監(jiān)控AI的學(xué)習(xí)表現(xiàn)。當(dāng)AI在解題過(guò)程中遇到完全無(wú)法解決的難題時(shí),系統(tǒng)會(huì)自動(dòng)識(shí)別出這些"最困難"的題目,然后為這些題目收集或生成高質(zhì)量的解題示范。這些示范會(huì)被存儲(chǔ)在一個(gè)特殊的"學(xué)習(xí)緩沖區(qū)"中,就像是一個(gè)專門收集難題解法的筆記本。
當(dāng)緩沖區(qū)中積累了足夠多的難題解法后,系統(tǒng)就會(huì)暫停常規(guī)的強(qiáng)化學(xué)習(xí)訓(xùn)練,轉(zhuǎn)而讓AI專門學(xué)習(xí)這些難題的解法。這個(gè)過(guò)程就像是專門安排一節(jié)課來(lái)講解學(xué)生們普遍感到困難的題型。學(xué)完這些難題解法后,AI又會(huì)回到常規(guī)的強(qiáng)化學(xué)習(xí)訓(xùn)練中,繼續(xù)通過(guò)練習(xí)來(lái)鞏固所有技能。
這種設(shè)計(jì)的巧妙之處在于它的自適應(yīng)性。在學(xué)習(xí)初期,當(dāng)AI的能力還比較弱時(shí),它會(huì)遇到更多的難題,因此系統(tǒng)會(huì)更頻繁地提供詳細(xì)指導(dǎo)。隨著AI能力的提升,遇到的難題越來(lái)越少,系統(tǒng)就會(huì)更多地依靠強(qiáng)化學(xué)習(xí)來(lái)進(jìn)一步優(yōu)化性能。這就像是一個(gè)學(xué)生從新手到專家的自然成長(zhǎng)過(guò)程,初期需要更多指導(dǎo),后期更多依靠自主練習(xí)。
ReLIFT還有一個(gè)重要特點(diǎn)就是它的在線學(xué)習(xí)能力。傳統(tǒng)的方法通常需要事先準(zhǔn)備大量的教學(xué)材料,但ReLIFT可以在學(xué)習(xí)過(guò)程中即時(shí)識(shí)別難題并獲取相應(yīng)的解法示范。這就像是一個(gè)老師能夠根據(jù)學(xué)生的實(shí)時(shí)表現(xiàn)靈活調(diào)整教學(xué)內(nèi)容,而不是死板地按照預(yù)設(shè)的教學(xué)計(jì)劃進(jìn)行。
更值得一提的是,ReLIFT在保持學(xué)習(xí)效果的同時(shí),大大減少了對(duì)詳細(xì)教學(xué)數(shù)據(jù)的需求。實(shí)驗(yàn)結(jié)果顯示,它只需要傳統(tǒng)監(jiān)督學(xué)習(xí)方法13%的教學(xué)數(shù)據(jù)就能取得更好的效果。這就好比一個(gè)高效的學(xué)習(xí)方法,不需要大量的教學(xué)資源就能幫助學(xué)生取得更好的成績(jī)。
**三、令人矚目的實(shí)驗(yàn)成果**
為了驗(yàn)證ReLIFT方法的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列全面而嚴(yán)格的實(shí)驗(yàn)測(cè)試。他們選擇了五個(gè)極具挑戰(zhàn)性的數(shù)學(xué)競(jìng)賽級(jí)別測(cè)試集,這些測(cè)試就像是數(shù)學(xué)界的"奧林匹克競(jìng)賽",包括AIME 2024、AIME 2025、AMC、MATH500和OlympiadBench等。此外,他們還測(cè)試了AI在完全不同領(lǐng)域問(wèn)題上的表現(xiàn),以驗(yàn)證方法的通用性。
實(shí)驗(yàn)結(jié)果令人印象深刻。ReLIFT在所有測(cè)試中都取得了顯著的性能提升,總體平均準(zhǔn)確率達(dá)到了51.1%,比之前最好的方法提高了5.2個(gè)百分點(diǎn)。這個(gè)提升幅度在AI研究領(lǐng)域是相當(dāng)顯著的,就像是一個(gè)學(xué)生的考試成績(jī)從85分提高到90分以上,看似數(shù)字變化不大,但在高水平競(jìng)爭(zhēng)中這種提升是非常寶貴的。
更讓人驚喜的是ReLIFT在解題效率方面的表現(xiàn)。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法雖然能夠提高準(zhǔn)確率,但往往會(huì)產(chǎn)生冗長(zhǎng)復(fù)雜的解題過(guò)程,平均每個(gè)答案的長(zhǎng)度達(dá)到10,166個(gè)字符。相比之下,ReLIFT生成的答案更加簡(jiǎn)潔明了,平均長(zhǎng)度只有1,061個(gè)字符,減少了近10倍。這就像是一個(gè)學(xué)生不僅學(xué)會(huì)了正確解題,還掌握了簡(jiǎn)潔高效的解題方法,避免了不必要的繁瑣步驟。
在訓(xùn)練過(guò)程的動(dòng)態(tài)分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了ReLIFT的另一個(gè)重要優(yōu)勢(shì)。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)過(guò)程中,AI的探索能力會(huì)隨著訓(xùn)練的進(jìn)行而逐漸減弱,就像是一個(gè)學(xué)生在熟悉了常規(guī)題型后就不愿意嘗試新的解題思路。但ReLIFT能夠保持持續(xù)的探索能力,在整個(gè)訓(xùn)練過(guò)程中都保持著學(xué)習(xí)新知識(shí)的積極性。
實(shí)驗(yàn)數(shù)據(jù)顯示,ReLIFT在遇到的最困難題目數(shù)量上也表現(xiàn)出明顯優(yōu)勢(shì)。隨著訓(xùn)練的進(jìn)行,ReLIFT遇到的無(wú)法解決的題目越來(lái)越少,說(shuō)明它的確在不斷學(xué)習(xí)和掌握新的解題能力。同時(shí),它生成的答案長(zhǎng)度也在合理范圍內(nèi)逐漸增加,表明AI在處理復(fù)雜問(wèn)題時(shí)愿意投入更多的思考和計(jì)算資源。
為了驗(yàn)證方法的普適性,研究團(tuán)隊(duì)還在不同規(guī)模的AI模型上測(cè)試了ReLIFT的效果。無(wú)論是較小的1.5B參數(shù)模型,還是更大的7B參數(shù)模型,ReLIFT都能帶來(lái)顯著的性能提升。這說(shuō)明這種學(xué)習(xí)方法不僅僅適用于特定規(guī)模的AI系統(tǒng),而是具有廣泛的應(yīng)用價(jià)值。
特別值得注意的是,ReLIFT在處理完全不同領(lǐng)域的問(wèn)題時(shí)也表現(xiàn)出良好的泛化能力。在MMLU-Pro這個(gè)涵蓋多個(gè)學(xué)科領(lǐng)域的綜合測(cè)試中,ReLIFT同樣取得了優(yōu)異的成績(jī),證明了這種學(xué)習(xí)方法不僅適用于數(shù)學(xué)問(wèn)題,還能推廣到其他需要復(fù)雜推理的任務(wù)中。
**四、深入探索學(xué)習(xí)機(jī)制的奧秘**
為了更深入地理解ReLIFT為什么能夠取得如此優(yōu)異的效果,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的機(jī)制分析。他們發(fā)現(xiàn),關(guān)鍵在于準(zhǔn)確識(shí)別什么時(shí)候應(yīng)該進(jìn)行強(qiáng)化學(xué)習(xí),什么時(shí)候應(yīng)該進(jìn)行監(jiān)督學(xué)習(xí),以及如何選擇合適的學(xué)習(xí)材料。
通過(guò)對(duì)比實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了幾個(gè)重要的設(shè)計(jì)選擇。首先,他們測(cè)試了如果每次強(qiáng)化學(xué)習(xí)后都進(jìn)行監(jiān)督學(xué)習(xí)會(huì)發(fā)生什么。結(jié)果發(fā)現(xiàn)這種做法會(huì)導(dǎo)致AI性能急劇下降,就像是一個(gè)學(xué)生在還沒(méi)有充分練習(xí)基礎(chǔ)題目的情況下就被強(qiáng)迫學(xué)習(xí)高難度內(nèi)容,結(jié)果兩頭都沒(méi)學(xué)好。這說(shuō)明學(xué)習(xí)的時(shí)機(jī)選擇是非常重要的。
其次,他們測(cè)試了固定間隔進(jìn)行監(jiān)督學(xué)習(xí)的效果。這種方法雖然比完全隨機(jī)要好,但仍然不如根據(jù)AI實(shí)際遇到的困難程度來(lái)動(dòng)態(tài)調(diào)整學(xué)習(xí)策略。這就像是按照固定的時(shí)間表來(lái)補(bǔ)習(xí),而不是根據(jù)學(xué)生的實(shí)際需要來(lái)安排額外輔導(dǎo),效果自然不如后者。
最重要的發(fā)現(xiàn)是學(xué)習(xí)材料的選擇對(duì)效果有決定性影響。如果用隨機(jī)選擇的題目來(lái)進(jìn)行監(jiān)督學(xué)習(xí),而不是專門針對(duì)AI遇到困難的題目,效果會(huì)大打折扣。這驗(yàn)證了"對(duì)癥下藥"的重要性,只有針對(duì)真正的薄弱環(huán)節(jié)進(jìn)行專門訓(xùn)練,才能取得最佳的學(xué)習(xí)效果。
研究團(tuán)隊(duì)還分析了ReLIFT在不同學(xué)習(xí)階段的行為模式。在早期階段,當(dāng)AI能力還比較弱時(shí),它會(huì)遇到更多無(wú)法解決的難題,因此監(jiān)督學(xué)習(xí)的頻率更高。隨著能力的提升,監(jiān)督學(xué)習(xí)的頻率逐漸降低,更多地依靠強(qiáng)化學(xué)習(xí)來(lái)精煉技能。這種自然的學(xué)習(xí)節(jié)奏變化正是ReLIFT設(shè)計(jì)的巧妙之處。
通過(guò)觀察AI在訓(xùn)練過(guò)程中的"思考過(guò)程",研究團(tuán)隊(duì)發(fā)現(xiàn)ReLIFT培養(yǎng)出的AI不僅準(zhǔn)確率更高,解題思路也更加多樣化。這就像是一個(gè)全面發(fā)展的學(xué)生,不僅會(huì)做題,還能用多種方法來(lái)解決同一個(gè)問(wèn)題,顯示出真正的理解和掌握。
**五、突破傳統(tǒng)AI學(xué)習(xí)的根本局限**
這項(xiàng)研究的深層意義遠(yuǎn)不止于提高AI在數(shù)學(xué)題目上的表現(xiàn)。它揭示了當(dāng)前AI學(xué)習(xí)方法的一個(gè)根本性局限,并提出了突破這種局限的有效途徑。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,雖然在很多任務(wù)上都能取得不錯(cuò)的效果,但它本質(zhì)上是一種"在現(xiàn)有知識(shí)范圍內(nèi)優(yōu)化"的方法。就像是一個(gè)學(xué)生只能在自己已經(jīng)掌握的解題方法基礎(chǔ)上提高熟練度和準(zhǔn)確性,但很難真正學(xué)會(huì)全新的解題思路。這種局限性在面對(duì)需要?jiǎng)?chuàng)新思維或全新方法的復(fù)雜問(wèn)題時(shí)就顯得尤為突出。
相比之下,監(jiān)督學(xué)習(xí)雖然能夠引入新的知識(shí)和方法,但它需要大量高質(zhì)量的教學(xué)數(shù)據(jù),而且容易導(dǎo)致AI過(guò)分依賴這些示范,缺乏靈活性。這就像是一個(gè)學(xué)生雖然能夠背誦大量的解題模板,但在遇到稍有變化的題目時(shí)就不知道如何靈活應(yīng)用。
ReLIFT的創(chuàng)新之處在于它巧妙地結(jié)合了兩種方法的優(yōu)勢(shì),同時(shí)避免了各自的缺點(diǎn)。它讓AI在大部分時(shí)間里通過(guò)強(qiáng)化學(xué)習(xí)來(lái)鞏固和優(yōu)化已有技能,保持學(xué)習(xí)的自主性和靈活性。但當(dāng)遇到真正超出現(xiàn)有能力范圍的挑戰(zhàn)時(shí),它會(huì)及時(shí)引入高質(zhì)量的指導(dǎo),幫助AI突破能力邊界。
這種設(shè)計(jì)理念其實(shí)反映了人類學(xué)習(xí)的自然規(guī)律。我們?cè)趯W(xué)習(xí)新技能時(shí),大部分時(shí)間都是通過(guò)練習(xí)來(lái)提高熟練度,但在遇到完全陌生的概念或方法時(shí),我們需要老師的指導(dǎo)或參考權(quán)威資料。ReLIFT正是將這種自然的學(xué)習(xí)模式成功地應(yīng)用到了AI系統(tǒng)中。
更重要的是,ReLIFT證明了AI可以在學(xué)習(xí)過(guò)程中實(shí)現(xiàn)真正的能力擴(kuò)展,而不僅僅是在固定能力范圍內(nèi)的優(yōu)化。這為開(kāi)發(fā)更加智能和自適應(yīng)的AI系統(tǒng)開(kāi)辟了新的可能性。想象一下,如果AI能夠像人類一樣不斷學(xué)習(xí)新知識(shí)、掌握新技能,那么它在各個(gè)領(lǐng)域的應(yīng)用潛力將會(huì)大大擴(kuò)展。
**六、對(duì)未來(lái)AI發(fā)展的深遠(yuǎn)影響**
ReLIFT的成功不僅僅是一個(gè)技術(shù)突破,它更代表了AI學(xué)習(xí)范式的一次重要轉(zhuǎn)變。這種轉(zhuǎn)變可能會(huì)對(duì)整個(gè)AI領(lǐng)域的發(fā)展產(chǎn)生深遠(yuǎn)的影響。
首先,ReLIFT展示了如何在保持學(xué)習(xí)效率的同時(shí)大幅減少對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)的需求。在當(dāng)前AI發(fā)展中,獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)往往是最大的瓶頸之一。ReLIFT只需要傳統(tǒng)方法13%的數(shù)據(jù)就能取得更好的效果,這意味著AI的訓(xùn)練成本可以大大降低,同時(shí)訓(xùn)練效果還能得到提升。
其次,這種方法的自適應(yīng)特性為開(kāi)發(fā)更加智能的AI系統(tǒng)提供了新的思路。傳統(tǒng)的AI系統(tǒng)往往需要針對(duì)特定任務(wù)進(jìn)行專門設(shè)計(jì)和訓(xùn)練,而ReLIFT展示了一種能夠根據(jù)學(xué)習(xí)過(guò)程中遇到的實(shí)際挑戰(zhàn)自動(dòng)調(diào)整學(xué)習(xí)策略的方法。這種自適應(yīng)能力是通向真正智能AI系統(tǒng)的重要一步。
從更廣泛的應(yīng)用角度來(lái)看,ReLIFT的原理可以推廣到其他許多需要復(fù)雜推理的領(lǐng)域。無(wú)論是科學(xué)研究中的假設(shè)驗(yàn)證、工程設(shè)計(jì)中的問(wèn)題解決,還是商業(yè)決策中的策略制定,都可能受益于這種"在現(xiàn)有能力基礎(chǔ)上適時(shí)引入新知識(shí)"的學(xué)習(xí)模式。
這項(xiàng)研究還為我們思考AI與人類的關(guān)系提供了新的視角。ReLIFT展示的學(xué)習(xí)模式實(shí)際上非常接近人類的自然學(xué)習(xí)過(guò)程,這表明最有效的AI系統(tǒng)可能不是那些完全不同于人類思維的系統(tǒng),而是那些能夠模擬和增強(qiáng)人類學(xué)習(xí)能力的系統(tǒng)。
當(dāng)然,ReLIFT也面臨著一些挑戰(zhàn)和限制。目前的實(shí)驗(yàn)主要集中在數(shù)學(xué)推理任務(wù)上,雖然也在其他領(lǐng)域進(jìn)行了一些驗(yàn)證,但要證明這種方法在所有類型的智能任務(wù)上都有效,還需要更多的研究和實(shí)驗(yàn)。此外,如何在更大規(guī)模的AI系統(tǒng)上高效實(shí)現(xiàn)ReLIFT的機(jī)制,也是一個(gè)需要進(jìn)一步探索的技術(shù)問(wèn)題。
說(shuō)到底,ReLIFT為我們展示了一條通向更智能、更高效AI系統(tǒng)的可能路徑。它告訴我們,最好的學(xué)習(xí)方法不是單純地依賴某一種策略,而是要像一個(gè)聰明的學(xué)習(xí)者一樣,知道在什么時(shí)候應(yīng)該鞏固已有技能,什么時(shí)候應(yīng)該學(xué)習(xí)新知識(shí)。這種平衡和智慧,正是我們期待在未來(lái)AI系統(tǒng)中看到的品質(zhì)。
研究團(tuán)隊(duì)在論文中明確表示,未來(lái)的工作將專注于將ReLIFT擴(kuò)展到更大規(guī)模的模型上,并開(kāi)發(fā)更有效的策略來(lái)協(xié)調(diào)強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)。他們相信,這種方法將為開(kāi)發(fā)能夠持續(xù)學(xué)習(xí)和適應(yīng)的AI系統(tǒng)開(kāi)辟新的可能性。對(duì)于那些希望深入了解技術(shù)細(xì)節(jié)或者想要基于這項(xiàng)研究進(jìn)行進(jìn)一步開(kāi)發(fā)的研究者和工程師來(lái)說(shuō),完整的研究論文和相關(guān)代碼都可以通過(guò)GitHub項(xiàng)目頁(yè)面獲取,這也體現(xiàn)了開(kāi)放科學(xué)的精神,讓更多人能夠參與到這一重要研究方向的發(fā)展中來(lái)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。