說起人工智能的訓(xùn)練,大部分人可能會(huì)覺得這就像教小孩學(xué)東西一樣——練得越多,學(xué)得越好。但是浙江大學(xué)、新加坡國(guó)立大學(xué)和香港科技大學(xué)的研究團(tuán)隊(duì)最近發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI在學(xué)習(xí)時(shí)也會(huì)有"舒適圈",就像人一樣,在自己擅長(zhǎng)的領(lǐng)域里能夠快速進(jìn)步,而面對(duì)陌生任務(wù)時(shí)卻進(jìn)展緩慢。
這項(xiàng)研究由浙江大學(xué)的吳浩澤、新加坡國(guó)立大學(xué)的王程和香港科技大學(xué)的何俊賢等研究者共同完成,于2025年8月發(fā)表在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過https://github.com/hkust-nlp/model-task-align-rl訪問完整的研究代碼和數(shù)據(jù)。
研究團(tuán)隊(duì)關(guān)注的是一個(gè)令人困惑的現(xiàn)象:在訓(xùn)練大型語言模型時(shí),一些看似"不合常理"的訓(xùn)練方法竟然能取得出色效果。比如,有時(shí)候只用一個(gè)訓(xùn)練樣本就能達(dá)到用整個(gè)數(shù)據(jù)集訓(xùn)練的效果,有時(shí)候給AI錯(cuò)誤的獎(jiǎng)勵(lì)信號(hào)它依然能學(xué)得很好,甚至只用"負(fù)面教材"也能讓AI進(jìn)步。這些現(xiàn)象就像告訴我們,一個(gè)學(xué)生只看了一道例題就掌握了整章內(nèi)容,或者老師故意給錯(cuò)誤答案學(xué)生反而學(xué)得更好一樣,聽起來確實(shí)很神奇。
為了解開這個(gè)謎團(tuán),研究團(tuán)隊(duì)提出了一個(gè)叫做"模型-任務(wù)對(duì)齊"的概念。簡(jiǎn)單來說,就是看AI模型的現(xiàn)有能力和要完成的任務(wù)之間的匹配程度。就像一個(gè)已經(jīng)會(huì)彈鋼琴的人學(xué)習(xí)新曲子會(huì)比完全沒有音樂基礎(chǔ)的人容易很多一樣,當(dāng)AI模型本身就具備了某個(gè)領(lǐng)域的基礎(chǔ)能力時(shí),即使用一些"奇怪"的訓(xùn)練方法也能取得好效果。
研究團(tuán)隊(duì)用一個(gè)叫做"pass@k"的指標(biāo)來衡量這種對(duì)齊程度。這個(gè)指標(biāo)就像是給AI做一個(gè)"摸底考試",看它在沒有額外訓(xùn)練的情況下,生成k個(gè)答案中至少有一個(gè)正確答案的概率。如果這個(gè)概率很高,說明AI已經(jīng)具備了相當(dāng)?shù)幕A(chǔ)能力;如果很低,說明這個(gè)任務(wù)對(duì)AI來說還很陌生。
為了驗(yàn)證他們的想法,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)。他們選擇了兩個(gè)不同的AI模型——Qwen2.5-7B和Llama-3.1-8B,就像選擇兩個(gè)有著不同背景和特長(zhǎng)的學(xué)生一樣。然后,他們讓這些AI模型面對(duì)各種不同類型的任務(wù),包括數(shù)學(xué)推理和邏輯推理等。
通過大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)清晰的規(guī)律:當(dāng)AI模型和任務(wù)高度對(duì)齊時(shí)(也就是AI本來就比較擅長(zhǎng)這類任務(wù)),那些看似"不靠譜"的訓(xùn)練方法確實(shí)能發(fā)揮作用。但是當(dāng)對(duì)齊程度較低時(shí)(AI對(duì)這類任務(wù)比較陌生),這些方法就失效了,只有傳統(tǒng)的標(biāo)準(zhǔn)訓(xùn)練方法才能真正幫助AI學(xué)習(xí)。
**一、獎(jiǎng)勵(lì)信號(hào)的真實(shí)價(jià)值:并非越準(zhǔn)確越好**
在傳統(tǒng)的AI訓(xùn)練中,就像老師給學(xué)生打分一樣,準(zhǔn)確的反饋被認(rèn)為是學(xué)習(xí)成功的關(guān)鍵。但研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)"常識(shí)"在某些情況下并不成立。
當(dāng)研究團(tuán)隊(duì)測(cè)試不同類型的獎(jiǎng)勵(lì)信號(hào)時(shí),他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。對(duì)于Qwen模型在數(shù)學(xué)任務(wù)上的表現(xiàn),即使給它完全隨機(jī)的獎(jiǎng)勵(lì)信號(hào)(就像老師隨機(jī)給分一樣),它依然能夠取得不錯(cuò)的學(xué)習(xí)效果。在MATH500數(shù)學(xué)測(cè)試中,使用正確獎(jiǎng)勵(lì)信號(hào)的Qwen模型能從40.8分提升到71.0分,而使用隨機(jī)獎(jiǎng)勵(lì)的版本也能達(dá)到57.5分,這個(gè)差距相對(duì)來說并不算太大。
更令人驚訝的是,即使給模型完全錯(cuò)誤的獎(jiǎng)勵(lì)信號(hào)(相當(dāng)于把對(duì)的說成錯(cuò)的,錯(cuò)的說成對(duì)的),它在某些任務(wù)上仍然能夠?qū)W習(xí)。這就像一個(gè)數(shù)學(xué)很好的學(xué)生,即使老師給的反饋有問題,他依然能通過自己的理解來改進(jìn)。
但是這種"容錯(cuò)能力"并不是普遍存在的。當(dāng)同樣的實(shí)驗(yàn)應(yīng)用到Llama模型在數(shù)學(xué)任務(wù)上,或者兩個(gè)模型在它們不擅長(zhǎng)的邏輯推理任務(wù)上時(shí),結(jié)果就完全不同了。在這些情況下,錯(cuò)誤的獎(jiǎng)勵(lì)信號(hào)會(huì)嚴(yán)重阻礙學(xué)習(xí),只有準(zhǔn)確的反饋才能幫助模型真正進(jìn)步。
研究團(tuán)隊(duì)還探索了一種叫做"自獎(jiǎng)勵(lì)"的訓(xùn)練方法,就像讓學(xué)生自己給自己打分一樣。他們讓AI模型對(duì)同一個(gè)問題生成多個(gè)答案,然后通過投票或其他方式來確定哪個(gè)答案最好,以此作為訓(xùn)練信號(hào)。結(jié)果顯示,雖然這種方法在某些情況下有一定效果,但始終無法達(dá)到使用準(zhǔn)確外部反饋的效果。
這些發(fā)現(xiàn)揭示了一個(gè)重要的訓(xùn)練原理:當(dāng)AI模型已經(jīng)具備了某個(gè)領(lǐng)域的強(qiáng)大基礎(chǔ)能力時(shí),它能夠在一定程度上"自我糾錯(cuò)",即使外部反饋不夠準(zhǔn)確也能找到正確的學(xué)習(xí)方向。但對(duì)于陌生領(lǐng)域,準(zhǔn)確的指導(dǎo)仍然是不可替代的。
**二、測(cè)試時(shí)訓(xùn)練的奇妙效應(yīng)**
研究團(tuán)隊(duì)還探索了一種叫做"測(cè)試時(shí)強(qiáng)化學(xué)習(xí)"的方法,這種方法聽起來有點(diǎn)像"臨時(shí)抱佛腳"。具體來說,就是在正式考試時(shí),讓AI模型對(duì)每個(gè)題目生成多個(gè)答案,然后選擇出現(xiàn)頻率最高的答案作為"正確答案",再用這個(gè)答案來指導(dǎo)模型的即時(shí)學(xué)習(xí)。
這種做法在我們的日常生活中也有類似的情況。比如在考試時(shí)遇到不確定的題目,有些學(xué)生會(huì)快速在腦中考慮多種可能的答案,然后選擇最有把握的那個(gè),同時(shí)在這個(gè)過程中加深對(duì)相關(guān)知識(shí)的理解。
實(shí)驗(yàn)結(jié)果顯示,這種測(cè)試時(shí)訓(xùn)練對(duì)于不同模型和任務(wù)組合的效果差異很大。對(duì)于Qwen模型處理數(shù)學(xué)問題,這種方法能帶來顯著提升,在MATH500測(cè)試中能從基礎(chǔ)的40.8分提升到62.1分,提升幅度超過20分。同樣地,在Operation類型的邏輯推理任務(wù)中,模型表現(xiàn)也有類似的大幅改善。
但是當(dāng)同樣的方法應(yīng)用到模型不擅長(zhǎng)的任務(wù)上時(shí),效果就微乎其微了。比如Llama模型在數(shù)學(xué)任務(wù)上,或者兩個(gè)模型在復(fù)雜邏輯推理任務(wù)上,測(cè)試時(shí)訓(xùn)練帶來的改進(jìn)非常有限,有時(shí)甚至沒有任何提升。
研究團(tuán)隊(duì)還追蹤了訓(xùn)練過程中的一個(gè)關(guān)鍵指標(biāo)——多數(shù)投票準(zhǔn)確率。他們發(fā)現(xiàn),在那些測(cè)試時(shí)訓(xùn)練效果顯著的組合中,這個(gè)指標(biāo)會(huì)隨著訓(xùn)練的進(jìn)行而持續(xù)提升。這意味著模型確實(shí)在測(cè)試過程中不斷改進(jìn)自己的答案質(zhì)量,形成了一個(gè)正向的學(xué)習(xí)循環(huán)。
這個(gè)發(fā)現(xiàn)對(duì)AI應(yīng)用有著重要意義。它表明,對(duì)于AI已經(jīng)具備基礎(chǔ)能力的任務(wù),我們可以通過相對(duì)簡(jiǎn)單的測(cè)試時(shí)優(yōu)化來進(jìn)一步提升性能,而不需要大規(guī)模的重新訓(xùn)練。但對(duì)于全新的任務(wù)領(lǐng)域,我們?nèi)匀恍枰M(jìn)行充分的預(yù)訓(xùn)練或?qū)iT的訓(xùn)練過程。
**三、一個(gè)樣本的神奇力量**
在AI訓(xùn)練的傳統(tǒng)觀念中,數(shù)據(jù)越多越好似乎是一個(gè)不爭(zhēng)的事實(shí)。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)顛覆性的現(xiàn)象:在某些情況下,僅僅用一個(gè)精心選擇的訓(xùn)練樣本,就能達(dá)到用整個(gè)數(shù)據(jù)集訓(xùn)練的效果。
這種現(xiàn)象就像一個(gè)已經(jīng)有相當(dāng)數(shù)學(xué)基礎(chǔ)的學(xué)生,看了一道精心挑選的例題后,突然掌握了解決整類問題的方法。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),當(dāng)Qwen模型面對(duì)數(shù)學(xué)任務(wù)時(shí),用單個(gè)樣本訓(xùn)練能在MATH500測(cè)試中達(dá)到65.2分,而使用完整數(shù)據(jù)集訓(xùn)練的效果是71.0分,差距相對(duì)較小。
更有趣的是,樣本選擇的策略似乎并不像想象中那么重要。研究團(tuán)隊(duì)比較了精心挑選的樣本和隨機(jī)選擇的樣本,發(fā)現(xiàn)它們的訓(xùn)練效果相差無幾。這說明,當(dāng)模型已經(jīng)具備強(qiáng)大基礎(chǔ)能力時(shí),幾乎任何相關(guān)的訓(xùn)練樣本都能激發(fā)其潛在能力。
為了深入理解這種現(xiàn)象,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)有趣的實(shí)驗(yàn)。他們選擇了不同難度級(jí)別的單個(gè)樣本來訓(xùn)練模型,從簡(jiǎn)單到困難,觀察模型的學(xué)習(xí)過程。結(jié)果發(fā)現(xiàn),當(dāng)選擇的樣本在模型能力范圍內(nèi)(即模型至少能在某種程度上理解和處理這個(gè)樣本)時(shí),模型很快就能提高對(duì)該樣本的處理能力,并且這種改進(jìn)能夠泛化到同類型的其他問題上。
但是當(dāng)樣本完全超出模型的理解范圍時(shí),就像給一個(gè)從未學(xué)過高等數(shù)學(xué)的人看微積分題目一樣,無論訓(xùn)練多長(zhǎng)時(shí)間,模型都無法從中學(xué)到任何有用的東西。在這種情況下,模型的各項(xiàng)指標(biāo)都保持不變,就像完全沒有進(jìn)行訓(xùn)練一樣。
這種"單樣本學(xué)習(xí)"的現(xiàn)象在邏輯推理任務(wù)中表現(xiàn)得更加明顯。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)模型接觸到一個(gè)特定類型的邏輯推理問題時(shí),它很快就能掌握解決這類問題的方法,但這種能力很難泛化到其他類型的邏輯問題上。這說明單樣本學(xué)習(xí)更像是在激活模型已有的特定能力,而不是真正學(xué)習(xí)全新的技能。
這個(gè)發(fā)現(xiàn)對(duì)AI訓(xùn)練實(shí)踐有著深遠(yuǎn)的影響。它表明,對(duì)于某些應(yīng)用場(chǎng)景,我們可能不需要收集大量的訓(xùn)練數(shù)據(jù),而是可以通過精心設(shè)計(jì)少量高質(zhì)量的樣本來達(dá)到理想的訓(xùn)練效果。但同時(shí)也提醒我們,這種方法的適用范圍是有限的,主要適用于激發(fā)模型已有能力,而不是培養(yǎng)全新的能力。
**四、負(fù)面樣本的積極作用**
在傳統(tǒng)的教育理念中,我們通常認(rèn)為應(yīng)該多給學(xué)生展示正確的例子,讓他們從好的榜樣中學(xué)習(xí)。但研究團(tuán)隊(duì)發(fā)現(xiàn),在AI訓(xùn)練中,僅僅使用"負(fù)面教材"有時(shí)也能取得令人驚訝的效果。
這種訓(xùn)練方法就像只告訴學(xué)生什么是錯(cuò)的,而不直接告訴他們什么是對(duì)的。研究團(tuán)隊(duì)設(shè)計(jì)的實(shí)驗(yàn)中,模型只能看到錯(cuò)誤的答案和解題過程,然后通過避免這些錯(cuò)誤來改進(jìn)自己的表現(xiàn)。
在模型已經(jīng)具備強(qiáng)大基礎(chǔ)能力的任務(wù)上,這種"負(fù)面學(xué)習(xí)"展現(xiàn)出了驚人的效果。比如Qwen模型在數(shù)學(xué)任務(wù)上,僅通過負(fù)面樣本訓(xùn)練就能在MATH500測(cè)試中達(dá)到68.7分,相比完整正負(fù)樣本訓(xùn)練的71.0分,差距并不算大。這就像一個(gè)數(shù)學(xué)基礎(chǔ)很好的學(xué)生,即使老師只指出他的錯(cuò)誤而不給出正確答案,他依然能夠通過反思和自我糾正來提高成績(jī)。
但是這種方法的效果同樣受到模型-任務(wù)對(duì)齊程度的限制。當(dāng)應(yīng)用到模型不擅長(zhǎng)的任務(wù)上時(shí),僅僅指出錯(cuò)誤是遠(yuǎn)遠(yuǎn)不夠的。就像讓一個(gè)從未接觸過某個(gè)學(xué)科的學(xué)生只看錯(cuò)誤示例,他很難從中推導(dǎo)出正確的方法。在這些情況下,提供正面的指導(dǎo)和正確的示例仍然是不可替代的。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了負(fù)面樣本訓(xùn)練的一個(gè)額外好處:它能夠幫助模型保持一定的"探索能力"。通過分析訓(xùn)練過程中的熵值變化,他們發(fā)現(xiàn)使用負(fù)面樣本的模型在輸出多樣性方面表現(xiàn)更好,不容易陷入過于單一的思維模式。這就像告訴學(xué)生要避免某些錯(cuò)誤思路,反而讓他們?cè)诮忸}時(shí)保持更開闊的思維。
然而,研究團(tuán)隊(duì)也注意到,雖然負(fù)面樣本訓(xùn)練能夠保持更高的探索性,但這并不總是好事。在某些需要精確答案的任務(wù)中,過多的探索可能會(huì)影響最終的準(zhǔn)確性。因此,這種方法更適合作為一種補(bǔ)充手段,而不是完全替代傳統(tǒng)的正面樣本訓(xùn)練。
這些發(fā)現(xiàn)為AI訓(xùn)練提供了新的思路。在實(shí)際應(yīng)用中,我們可以根據(jù)模型的基礎(chǔ)能力和任務(wù)的特性來選擇合適的訓(xùn)練策略。對(duì)于模型已經(jīng)擅長(zhǎng)的領(lǐng)域,負(fù)面樣本訓(xùn)練可以作為一種高效的優(yōu)化手段;而對(duì)于全新的任務(wù)領(lǐng)域,我們?nèi)匀恍枰揽砍浞值恼嬷笇?dǎo)和示例。
**五、數(shù)據(jù)污染vs真實(shí)能力的辨析**
在AI研究中,一個(gè)長(zhǎng)期爭(zhēng)議的問題是:模型的優(yōu)秀表現(xiàn)到底來自于真實(shí)的學(xué)習(xí)能力,還是因?yàn)樵谟?xùn)練時(shí)"見過"了測(cè)試數(shù)據(jù),就像學(xué)生考前拿到了考試答案一樣?
針對(duì)這個(gè)問題,研究團(tuán)隊(duì)進(jìn)行了深入的調(diào)查。他們采用了一種巧妙的檢測(cè)方法:給模型展示測(cè)試題目的前半部分,看它是否能完整地"背出"后半部分。如果模型能夠精確地重現(xiàn)原始內(nèi)容,這就強(qiáng)烈暗示著數(shù)據(jù)污染的存在。
通過這種方法,研究團(tuán)隊(duì)確實(shí)在Qwen模型的數(shù)學(xué)任務(wù)測(cè)試中發(fā)現(xiàn)了潛在的數(shù)據(jù)污染跡象。當(dāng)給模型展示AMC23和MATH500測(cè)試題的部分內(nèi)容時(shí),模型能夠以相當(dāng)高的準(zhǔn)確率完成剩余部分,這表明這些測(cè)試數(shù)據(jù)可能在模型的預(yù)訓(xùn)練階段就被"見過"了。
但是,研究團(tuán)隊(duì)的發(fā)現(xiàn)遠(yuǎn)不止于此。他們注意到,即使在完全沒有數(shù)據(jù)污染的情況下,某些"反常規(guī)"的訓(xùn)練方法依然有效。比如在Operation和Counterfactual這兩類邏輯推理任務(wù)中,兩個(gè)模型都表現(xiàn)出強(qiáng)大的基礎(chǔ)能力,但檢測(cè)顯示這些數(shù)據(jù)完全沒有出現(xiàn)在預(yù)訓(xùn)練過程中。
更重要的是,即使在存在數(shù)據(jù)污染的情況下,不同訓(xùn)練方法的效果差異依然遵循著模型-任務(wù)對(duì)齊的規(guī)律。這說明數(shù)據(jù)污染雖然可能影響模型的基礎(chǔ)表現(xiàn),但它并不是解釋這些奇特現(xiàn)象的根本原因。真正的關(guān)鍵在于模型是否具備了處理特定類型任務(wù)的基礎(chǔ)能力,無論這種能力來自于預(yù)訓(xùn)練時(shí)的經(jīng)驗(yàn)積累還是其他形式的知識(shí)獲取。
研究團(tuán)隊(duì)還觀察到一個(gè)有趣的細(xì)節(jié):不同模型在相同任務(wù)上的表現(xiàn)模式存在顯著差異。Qwen模型在數(shù)學(xué)推理中傾向于使用代碼輔助的方法,而Llama模型更偏向于純語言推理。但是當(dāng)使用正確的獎(jiǎng)勵(lì)信號(hào)訓(xùn)練時(shí),Qwen模型會(huì)逐漸減少代碼的使用,轉(zhuǎn)向更自然的語言推理方式。這種行為模式的改變進(jìn)一步證明了,模型的學(xué)習(xí)過程確實(shí)在發(fā)生,而不僅僅是在復(fù)現(xiàn)預(yù)訓(xùn)練時(shí)見過的內(nèi)容。
這些發(fā)現(xiàn)為我們理解AI模型的學(xué)習(xí)機(jī)制提供了更細(xì)致的視角。數(shù)據(jù)污染確實(shí)是需要認(rèn)真對(duì)待的問題,但它不應(yīng)該成為我們忽視模型真實(shí)學(xué)習(xí)能力的借口。更重要的是理解模型在什么條件下能夠展現(xiàn)出真正的學(xué)習(xí)和適應(yīng)能力,以及如何設(shè)計(jì)更好的訓(xùn)練方法來充分發(fā)揮這些能力。
**六、實(shí)際應(yīng)用的啟示與思考**
這項(xiàng)研究的發(fā)現(xiàn)不僅僅是學(xué)術(shù)上的有趣現(xiàn)象,更對(duì)AI技術(shù)的實(shí)際應(yīng)用和發(fā)展策略產(chǎn)生了深遠(yuǎn)影響。
從技術(shù)開發(fā)的角度來看,這些發(fā)現(xiàn)提供了全新的優(yōu)化思路。對(duì)于已經(jīng)在特定領(lǐng)域表現(xiàn)出色的AI模型,我們可以采用更加高效的訓(xùn)練方法。比如,不需要收集大量新的訓(xùn)練數(shù)據(jù),而是可以通過精心設(shè)計(jì)的少量樣本或者創(chuàng)新的訓(xùn)練信號(hào)來進(jìn)一步提升性能。這對(duì)于那些數(shù)據(jù)獲取成本高昂或者標(biāo)注困難的應(yīng)用領(lǐng)域特別有價(jià)值。
同時(shí),研究結(jié)果也提醒我們需要重新思考AI能力評(píng)估的方法。傳統(tǒng)上,我們可能會(huì)認(rèn)為一個(gè)模型在某項(xiàng)任務(wù)上的優(yōu)秀表現(xiàn)就代表了它的全面能力。但這項(xiàng)研究表明,模型的表現(xiàn)很大程度上取決于其與任務(wù)的匹配程度。一個(gè)在數(shù)學(xué)推理上表現(xiàn)卓越的模型,可能在邏輯推理上表現(xiàn)平平,即使使用相同的先進(jìn)訓(xùn)練方法。
對(duì)于AI系統(tǒng)的設(shè)計(jì)和部署,這些發(fā)現(xiàn)也具有指導(dǎo)意義。在選擇或定制AI解決方案時(shí),我們需要更加關(guān)注模型的基礎(chǔ)能力與應(yīng)用需求之間的匹配度。如果匹配度較高,我們可以期待通過相對(duì)簡(jiǎn)單的優(yōu)化就獲得顯著的性能提升;如果匹配度較低,就需要做好投入更多資源進(jìn)行深度訓(xùn)練的準(zhǔn)備。
從更宏觀的角度來看,這項(xiàng)研究揭示了AI發(fā)展中的一個(gè)重要趨勢(shì):隨著模型規(guī)模和能力的不斷提升,訓(xùn)練策略也需要相應(yīng)地evolve。傳統(tǒng)的"一刀切"訓(xùn)練方法可能不再是最優(yōu)選擇,個(gè)性化的訓(xùn)練策略將變得越來越重要。
研究團(tuán)隊(duì)還指出了一個(gè)有趣的可能性:我們或許可以通過優(yōu)化模型的預(yù)訓(xùn)練或中期訓(xùn)練來增強(qiáng)其在特定領(lǐng)域的基礎(chǔ)能力,從而為后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練創(chuàng)造更好的條件。這種"分階段能力建構(gòu)"的思路可能會(huì)成為未來AI訓(xùn)練的新范式。
此外,這些發(fā)現(xiàn)也對(duì)AI安全和可信性研究提出了新的問題。如果模型的行為在很大程度上依賴于其與任務(wù)的對(duì)齊程度,那么我們?nèi)绾未_保模型在面對(duì)新型任務(wù)或者邊緣情況時(shí)仍然表現(xiàn)可靠?如何設(shè)計(jì)評(píng)估方法來全面測(cè)試模型的能力邊界?這些都是需要進(jìn)一步探索的重要問題。
說到底,這項(xiàng)研究讓我們對(duì)AI的學(xué)習(xí)過程有了更深入的理解。它告訴我們,AI系統(tǒng)并不是簡(jiǎn)單的"數(shù)據(jù)處理機(jī)器",而是具有復(fù)雜學(xué)習(xí)模式的智能體,其表現(xiàn)受到多種因素的共同影響。理解這些因素及其相互作用,對(duì)于開發(fā)更強(qiáng)大、更可靠的AI系統(tǒng)至關(guān)重要。
隨著AI技術(shù)的不斷發(fā)展,我們可以期待看到更多基于這些發(fā)現(xiàn)的創(chuàng)新應(yīng)用。無論是在教育、醫(yī)療、金融還是其他領(lǐng)域,這種對(duì)AI學(xué)習(xí)機(jī)制的深入理解都將幫助我們?cè)O(shè)計(jì)出更加高效和可靠的AI解決方案。同時(shí),這項(xiàng)研究也提醒我們,在AI能力評(píng)估和應(yīng)用規(guī)劃中需要保持更加細(xì)致和謹(jǐn)慎的態(tài)度,充分考慮模型能力與任務(wù)需求之間的匹配關(guān)系。
對(duì)于那些希望深入了解這一研究的讀者,建議訪問研究團(tuán)隊(duì)提供的GitHub代碼庫(kù),其中包含了完整的實(shí)驗(yàn)代碼和數(shù)據(jù),為進(jìn)一步的研究和應(yīng)用提供了寶貴的資源。
Q&A
Q1:什么是模型-任務(wù)對(duì)齊?它為什么重要?
A:模型-任務(wù)對(duì)齊是指AI模型的現(xiàn)有能力與要完成任務(wù)之間的匹配程度,就像一個(gè)會(huì)彈鋼琴的人學(xué)新曲子會(huì)比沒有音樂基礎(chǔ)的人容易很多。研究發(fā)現(xiàn),當(dāng)AI模型和任務(wù)高度對(duì)齊時(shí),一些看似"不靠譜"的訓(xùn)練方法(如用錯(cuò)誤獎(jiǎng)勵(lì)、單樣本訓(xùn)練)也能發(fā)揮作用;但對(duì)齊程度低時(shí),這些方法就會(huì)失效,只有標(biāo)準(zhǔn)訓(xùn)練方法才有效。這個(gè)概念幫助我們理解為什么相同的訓(xùn)練方法在不同情況下效果差異巨大。
Q2:為什么有些AI訓(xùn)練方法只用一個(gè)樣本就能達(dá)到整個(gè)數(shù)據(jù)集的效果?
A:這種現(xiàn)象主要出現(xiàn)在AI模型已經(jīng)具備強(qiáng)大基礎(chǔ)能力的領(lǐng)域。就像一個(gè)數(shù)學(xué)基礎(chǔ)很好的學(xué)生看了一道例題就能掌握整類問題的解法一樣,當(dāng)Qwen模型面對(duì)數(shù)學(xué)任務(wù)時(shí),單個(gè)樣本訓(xùn)練就能在MATH500測(cè)試中達(dá)到65.2分,與完整數(shù)據(jù)集訓(xùn)練的71.0分差距不大。但這種方法只在模型-任務(wù)高度對(duì)齊時(shí)有效,對(duì)于模型不熟悉的任務(wù)領(lǐng)域,仍然需要大量訓(xùn)練數(shù)據(jù)。
Q3:數(shù)據(jù)污染是否是造成這些奇特訓(xùn)練現(xiàn)象的根本原因?
A:研究發(fā)現(xiàn)數(shù)據(jù)污染不是根本原因。雖然在某些測(cè)試中確實(shí)發(fā)現(xiàn)了數(shù)據(jù)污染的跡象,但即使在完全沒有污染的任務(wù)(如Operation和Counterfactual邏輯推理)中,這些奇特的訓(xùn)練現(xiàn)象依然存在。真正的關(guān)鍵在于模型是否具備處理特定任務(wù)的基礎(chǔ)能力,無論這種能力來自預(yù)訓(xùn)練經(jīng)驗(yàn)還是其他知識(shí)獲取方式。數(shù)據(jù)污染可能影響模型基礎(chǔ)表現(xiàn),但不能解釋不同訓(xùn)練方法的效果差異規(guī)律。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。