這項(xiàng)由澳大利亞蒙納什大學(xué)數(shù)據(jù)科學(xué)與人工智能系的韓九洲、越南VinUniversity的Wray Buntine以及蒙納什大學(xué)的Ehsan Shareghi共同完成的研究,發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2508.01773v1)。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)https://github.com/Jiuzhouh/UnPRM訪問(wèn)相關(guān)代碼和數(shù)據(jù)。
當(dāng)我們看到一個(gè)學(xué)生在解數(shù)學(xué)題時(shí),通常能夠判斷他在哪一步開(kāi)始出錯(cuò)。但讓人工智能做到這一點(diǎn)卻困難得多。就像訓(xùn)練一位新手偵探不僅要識(shí)別最終的破案結(jié)果,還要評(píng)估推理過(guò)程中每一個(gè)環(huán)節(jié)的正確性一樣,讓AI在復(fù)雜的數(shù)學(xué)推理中準(zhǔn)確識(shí)別每個(gè)步驟的對(duì)錯(cuò),一直是個(gè)巨大挑戰(zhàn)。
目前的大語(yǔ)言模型在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí)表現(xiàn)出色,但它們?cè)诙嗖襟E推理過(guò)程中不可避免地會(huì)產(chǎn)生錯(cuò)誤。這就好比一位經(jīng)驗(yàn)豐富的偵探在調(diào)查復(fù)雜案件時(shí),可能在某個(gè)關(guān)鍵線索的分析上出現(xiàn)偏差,從而影響整個(gè)推理鏈條。為了解決這個(gè)問(wèn)題,研究人員開(kāi)發(fā)了過(guò)程級(jí)獎(jiǎng)勵(lì)模型(Process Reward Models,簡(jiǎn)稱(chēng)PRMs),這種模型能夠像資深督察一樣,對(duì)推理過(guò)程中的每個(gè)步驟進(jìn)行監(jiān)督和評(píng)估,從而有效提升模型的推理能力。
然而,訓(xùn)練有效的PRMs需要高質(zhì)量的過(guò)程獎(jiǎng)勵(lì)數(shù)據(jù),而現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往勞動(dòng)密集且效率低下。這就像培訓(xùn)一位督察需要大量經(jīng)過(guò)精心標(biāo)記的案例一樣,傳統(tǒng)方法要么依賴(lài)昂貴的人工標(biāo)注,要么使用計(jì)算成本高昂的自動(dòng)化方法。蒙納什大學(xué)的研究團(tuán)隊(duì)針對(duì)這一難題,提出了一套基于不確定性驅(qū)動(dòng)的自動(dòng)化過(guò)程獎(jiǎng)勵(lì)數(shù)據(jù)構(gòu)建框架,同時(shí)開(kāi)發(fā)了兩種創(chuàng)新的輸出聚合方法,顯著提升了數(shù)學(xué)推理的準(zhǔn)確性和效率。
一、破解數(shù)據(jù)構(gòu)建難題:不確定性成為破案線索
在傳統(tǒng)的偵探工作中,經(jīng)驗(yàn)豐富的老警探往往能夠憑借直覺(jué)察覺(jué)到證人證詞中的不確定之處,這些猶豫和矛盾往往指向案件的關(guān)鍵。研究團(tuán)隊(duì)發(fā)現(xiàn),人工智能在數(shù)學(xué)推理中的不確定性同樣具有重要價(jià)值。當(dāng)AI模型在某個(gè)推理步驟上表現(xiàn)出不確定性時(shí),這個(gè)步驟很可能包含錯(cuò)誤或存在問(wèn)題。
研究團(tuán)隊(duì)采用了基于熵的不確定性估計(jì)方法來(lái)量化每個(gè)候選解題方案的不確定性。具體來(lái)說(shuō),對(duì)于一個(gè)包含n個(gè)詞匯的解題方案,他們會(huì)提取模型為每個(gè)生成詞匯分配的對(duì)數(shù)概率。通過(guò)對(duì)這些概率應(yīng)用softmax函數(shù),得到概率分布,然后計(jì)算整個(gè)序列的熵值作為不確定性分?jǐn)?shù)。較高的熵值表明模型在生成過(guò)程中缺乏信心,而較低的值則表示更加確定和果斷的預(yù)測(cè)。
基于這種不確定性度量,研究團(tuán)隊(duì)設(shè)計(jì)了創(chuàng)新的PRM數(shù)據(jù)生成過(guò)程。他們首先為每個(gè)數(shù)學(xué)問(wèn)題采樣k個(gè)候選解答,并計(jì)算每個(gè)解答的不確定性分?jǐn)?shù)。然后根據(jù)最終答案的正確性將解答分為正確和錯(cuò)誤兩類(lèi)。關(guān)鍵的創(chuàng)新在于,他們專(zhuān)門(mén)選擇不確定性最高的正確解答和錯(cuò)誤解答來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)。這種策略就像專(zhuān)門(mén)收集那些看似正確但推理過(guò)程存在疑點(diǎn)的案例,以及那些明顯錯(cuò)誤但具有迷惑性的案例,這樣的訓(xùn)練數(shù)據(jù)能夠讓PRM學(xué)會(huì)更好地識(shí)別推理過(guò)程中的細(xì)微錯(cuò)誤。
這種有針對(duì)性的采樣策略鼓勵(lì)PRM從模糊或具有挑戰(zhàn)性的推理軌跡中學(xué)習(xí),從而提高其在推理過(guò)程中識(shí)別和區(qū)分步驟級(jí)正確性的能力。就像訓(xùn)練偵探時(shí)專(zhuān)門(mén)選擇那些疑點(diǎn)重重的案例進(jìn)行分析,這種方法能夠讓AI在面對(duì)復(fù)雜推理時(shí)具備更強(qiáng)的判斷力。
二、精準(zhǔn)定位錯(cuò)誤:不確定性驅(qū)動(dòng)的自動(dòng)標(biāo)注
確定了要分析哪些案例后,下一步就是準(zhǔn)確識(shí)別推理過(guò)程中的錯(cuò)誤步驟。傳統(tǒng)方法通常尋找第一個(gè)錯(cuò)誤步驟,就像偵探按時(shí)間順序?qū)ふ野讣械牡谝粋€(gè)疑點(diǎn)。但研究團(tuán)隊(duì)提出了一種更加精準(zhǔn)的方法:尋找不確定性最大的錯(cuò)誤步驟。
他們的自動(dòng)標(biāo)注算法首先為所有正確解答中的每個(gè)步驟分配"正確"標(biāo)簽,假設(shè)這些步驟都沒(méi)有錯(cuò)誤。對(duì)于錯(cuò)誤的解答,算法會(huì)計(jì)算每個(gè)步驟的不確定性,以及相鄰步驟之間的不確定性變化量(稱(chēng)為不確定性增量)。這些增量能夠識(shí)別模型不確定性急劇增加的位置,這些位置往往對(duì)應(yīng)著推理錯(cuò)誤發(fā)生的地方。
接下來(lái),算法按照不確定性增量的大小對(duì)步驟進(jìn)行排序,優(yōu)先處理那些不確定性變化最大的步驟。對(duì)于每個(gè)候選步驟,算法采用自適應(yīng)采樣策略,從該步驟開(kāi)始生成N個(gè)新的解答補(bǔ)全。然后使用蒙特卡羅方法計(jì)算基于困惑度的評(píng)分,這個(gè)評(píng)分反映了從該步驟開(kāi)始能夠得到正確最終答案的可能性。
如果某個(gè)步驟的蒙特卡羅困惑度評(píng)分低于預(yù)設(shè)閾值,就表明從這個(gè)步驟開(kāi)始很難得到正確答案,因此將該步驟之前的所有步驟標(biāo)記為正確,該步驟及之后的所有步驟標(biāo)記為錯(cuò)誤。這種方法不同于尋找第一個(gè)錯(cuò)誤步驟的傳統(tǒng)做法,而是專(zhuān)門(mén)定位推理過(guò)程中最不確定的錯(cuò)誤,這樣的訓(xùn)練數(shù)據(jù)能夠幫助PRM更好地學(xué)會(huì)識(shí)別推理中的關(guān)鍵問(wèn)題。
實(shí)驗(yàn)結(jié)果表明,這種不確定性驅(qū)動(dòng)的標(biāo)注方法在保持標(biāo)注質(zhì)量的同時(shí),顯著減少了計(jì)算成本。與傳統(tǒng)的自適應(yīng)二分搜索方法相比,新方法減少了52%的驗(yàn)證步驟數(shù)、34%的采樣次數(shù)和40%的生成詞匯量,大大提高了標(biāo)注效率。
三、智能輸出聚合:結(jié)合群體智慧與專(zhuān)家判斷
當(dāng)多位偵探對(duì)同一案件給出不同的推理結(jié)論時(shí),如何選擇最可靠的答案?傳統(tǒng)方法主要有兩種:多數(shù)表決(選擇大多數(shù)偵探支持的結(jié)論)和專(zhuān)家評(píng)判(選擇評(píng)分最高的專(zhuān)家意見(jiàn))。但這兩種方法都有局限性。多數(shù)表決在意見(jiàn)高度分散或者大多數(shù)人都犯同樣錯(cuò)誤時(shí)會(huì)失效,而專(zhuān)家評(píng)判可能在面對(duì)超出訓(xùn)練范圍的新問(wèn)題時(shí)判斷失誤。
研究團(tuán)隊(duì)針對(duì)這些局限性,提出了兩種創(chuàng)新的不確定性感知輸出聚合策略:混合多數(shù)獎(jiǎng)勵(lì)投票法(HMR)和加權(quán)獎(jiǎng)勵(lì)頻率投票法(WRF)。這兩種方法巧妙地結(jié)合了群體智慧的隱性信心信號(hào)和專(zhuān)家評(píng)判的顯性步驟級(jí)反饋。
混合多數(shù)獎(jiǎng)勵(lì)投票法采用了一種靈活的決策機(jī)制。當(dāng)某個(gè)答案在所有候選方案中出現(xiàn)的頻率達(dá)到一半以上時(shí),系統(tǒng)會(huì)直接選擇這個(gè)多數(shù)答案,相信群體的判斷。但如果沒(méi)有答案達(dá)到絕對(duì)多數(shù)(即最高頻答案的出現(xiàn)次數(shù)少于總數(shù)的一半),系統(tǒng)就會(huì)啟動(dòng)專(zhuān)家評(píng)判模式。在這種情況下,PRM會(huì)為每個(gè)候選解答計(jì)算步驟級(jí)評(píng)分,選擇評(píng)分最高的解答對(duì)應(yīng)的答案。這種策略結(jié)合了多數(shù)表決的穩(wěn)健性和PRM評(píng)估的精細(xì)性,在明確共識(shí)和模糊情況下都能做出合理決策。
加權(quán)獎(jiǎng)勵(lì)頻率投票法則提供了更加精細(xì)的聚合機(jī)制。該方法將每個(gè)候選答案的頻率信息和PRM質(zhì)量評(píng)估進(jìn)行綜合考慮。對(duì)于每個(gè)獨(dú)特的答案,算法計(jì)算其平均PRM獎(jiǎng)勵(lì)分?jǐn)?shù)和出現(xiàn)頻率,然后對(duì)這兩個(gè)指標(biāo)進(jìn)行歸一化處理,確保它們?cè)谕怀叨壬媳容^。最終的綜合分?jǐn)?shù)通過(guò)加權(quán)平均計(jì)算得出,其中權(quán)重參數(shù)α控制獎(jiǎng)勵(lì)質(zhì)量和頻率信息的相對(duì)重要性。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)將α設(shè)置為0.5,給兩個(gè)因素相等的權(quán)重。
這種方法的優(yōu)勢(shì)在于它能夠在不同情況下自動(dòng)調(diào)整決策策略。當(dāng)群體意見(jiàn)一致時(shí),頻率信息占主導(dǎo);當(dāng)意見(jiàn)分散但某些解答質(zhì)量明顯更高時(shí),PRM評(píng)分發(fā)揮更大作用。通過(guò)整合候選解答的共識(shí)程度和步驟級(jí)PRM獎(jiǎng)勵(lì)得出的置信度,WRF投票方法為答案聚合提供了更加細(xì)致和精確的機(jī)制。
四、實(shí)驗(yàn)驗(yàn)證:三個(gè)測(cè)試場(chǎng)景全面驗(yàn)證效果
為了驗(yàn)證這套方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了全面的實(shí)驗(yàn)評(píng)估體系,就像一次大規(guī)模的偵探技能測(cè)試。他們使用了MATH數(shù)據(jù)集中的3500個(gè)具有挑戰(zhàn)性的競(jìng)賽級(jí)數(shù)學(xué)問(wèn)題來(lái)構(gòu)建PRM訓(xùn)練數(shù)據(jù)。為了增加解題方案的多樣性,團(tuán)隊(duì)采用了三種不同的大語(yǔ)言模型:Llama-3.1-8B-Instruct、Qwen2.5-7B-Instruct和Mistral-7B-Instruct。
對(duì)于每個(gè)模型,研究團(tuán)隊(duì)設(shè)置采樣溫度為0.8,為每個(gè)數(shù)學(xué)問(wèn)題生成32個(gè)解答方案。然后應(yīng)用不確定性驅(qū)動(dòng)的PRM數(shù)據(jù)生成方法,選擇不確定性最高的2個(gè)正確解答和6個(gè)錯(cuò)誤解答。經(jīng)過(guò)格式過(guò)濾和步驟分割后,他們使用自動(dòng)化的不確定性驅(qū)動(dòng)步驟標(biāo)簽標(biāo)注方法,為來(lái)自三個(gè)模型的候選解答分配真假標(biāo)簽,最終產(chǎn)生了40000個(gè)標(biāo)記訓(xùn)練樣本,稱(chēng)為UnPRM40K。
為了進(jìn)行對(duì)比驗(yàn)證,研究團(tuán)隊(duì)還構(gòu)建了幾個(gè)基準(zhǔn)數(shù)據(jù)集。SimPRM40K使用相似性而非不確定性作為選擇標(biāo)準(zhǔn),選擇余弦相似度分?jǐn)?shù)最低的候選解答,然后使用相同的不確定性驅(qū)動(dòng)標(biāo)注方法進(jìn)行標(biāo)注。EpicPRM40K對(duì)相同的40000個(gè)樣本使用自適應(yīng)二分搜索方法重新標(biāo)注,這種方法基于第一個(gè)錯(cuò)誤步驟而非最不確定錯(cuò)誤進(jìn)行標(biāo)注。RanPRM40K則隨機(jī)選擇錯(cuò)誤步驟位置,作為控制組來(lái)評(píng)估錯(cuò)誤步驟位置對(duì)模型性能的影響。
在PRM訓(xùn)練方面,研究團(tuán)隊(duì)使用Qwen2.5-Math-7B-Instruct作為基礎(chǔ)模型。訓(xùn)練過(guò)程采用監(jiān)督微調(diào)方法,輸入包括問(wèn)題陳述和中間推理步驟,各步驟之間用特殊標(biāo)記分隔。模型使用二元交叉熵?fù)p失進(jìn)行優(yōu)化,目標(biāo)是預(yù)測(cè)每個(gè)標(biāo)注步驟的正確性。所有PRM都在單個(gè)A100 GPU上使用LoRA技術(shù)進(jìn)行參數(shù)高效適應(yīng),訓(xùn)練三個(gè)周期。
實(shí)驗(yàn)結(jié)果令人印象深刻。在所有配置下,UnPRM40K始終優(yōu)于SimPRM40K,證明了不確定性驅(qū)動(dòng)的PRM數(shù)據(jù)生成比相似性驅(qū)動(dòng)方法更有效。UnPRM40K的表現(xiàn)也與EpicPRM40K相當(dāng),驗(yàn)證了不確定性驅(qū)動(dòng)標(biāo)注方法的效率和有效性。正如預(yù)期,RanPRM40K表現(xiàn)最差,但由于正確解答的準(zhǔn)確標(biāo)記,仍顯示出一定改進(jìn)。
在輸出聚合策略的測(cè)試中,兩種不確定性感知方法(WRF和HMR)在所有PRM中都持續(xù)優(yōu)于標(biāo)準(zhǔn)多數(shù)表決和傳統(tǒng)PRM方法。性能隨樣本數(shù)量增加而提升。特別值得注意的是,當(dāng)標(biāo)準(zhǔn)PRM方法表現(xiàn)不如多數(shù)表決時(shí),使用HMR和WRF能帶來(lái)顯著的性能提升。在兩種不確定性感知聚合策略中,WRF在大多數(shù)場(chǎng)景下表現(xiàn)出更好的穩(wěn)健性。
五、深度分析:揭示不確定性的指導(dǎo)價(jià)值
為了更深入理解這套方法的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析實(shí)驗(yàn)。他們發(fā)現(xiàn),在使用Qwen2.5-Math-7B-Instruct在MATH數(shù)據(jù)集上的128個(gè)輸出樣本中,超過(guò)一半的問(wèn)題模型都能在所有128次嘗試中consistently預(yù)測(cè)出正確答案。相反地,大約100個(gè)問(wèn)題模型連一次都無(wú)法給出正確答案。這種分布顯示了廣泛的頻率范圍,表明相當(dāng)比例的問(wèn)題在答案選擇上并非簡(jiǎn)單明了。
通過(guò)可視化分析四種輸出聚合方法(多數(shù)表決、PRM、HMR、WRF)在不同金標(biāo)準(zhǔn)答案頻率下的正確性,研究團(tuán)隊(duì)發(fā)現(xiàn)了有趣的模式。當(dāng)金標(biāo)準(zhǔn)答案出現(xiàn)頻率很高(超過(guò)60次)時(shí),多數(shù)表決方法能夠可靠地選擇正確答案,顯示出強(qiáng)的模型置信度。然而,當(dāng)金標(biāo)準(zhǔn)答案頻率降至20以下時(shí),多數(shù)表決的性能急劇下降,經(jīng)常無(wú)法恢復(fù)正確響應(yīng)。
相比之下,PRM方法即使在金標(biāo)準(zhǔn)答案不頻繁(低于20)時(shí)仍能識(shí)別一些正確答案,盡管在高頻場(chǎng)景下可能會(huì)犯錯(cuò)誤。HMR和WRF策略通過(guò)整合多數(shù)表決和PRM信號(hào),明顯減少了在高頻區(qū)域PRM單獨(dú)使用時(shí)的錯(cuò)誤。此外,WRF在中頻范圍(20到40之間)優(yōu)于HMR,產(chǎn)生更多正確預(yù)測(cè)。
研究團(tuán)隊(duì)還分析了標(biāo)注數(shù)據(jù)集UnPRM40K的統(tǒng)計(jì)特性。該數(shù)據(jù)集是使用三種不同的大語(yǔ)言模型生成和標(biāo)注的,統(tǒng)計(jì)數(shù)據(jù)顯示了算法的效率。平均采樣步驟數(shù)反映了不確定性驅(qū)動(dòng)搜索算法平均需要驗(yàn)證多少步驟才能定位到最不確定的錯(cuò)誤步驟,其中1代表最優(yōu)效率。在所有三個(gè)模型中,結(jié)果都非常接近1,表明不確定性驅(qū)動(dòng)搜索算法在精確定位最不確定錯(cuò)誤方面高度高效。
平均錯(cuò)誤步驟不確定性排名顯示了識(shí)別的錯(cuò)誤步驟的不確定性排名,0為最優(yōu)值。結(jié)果在所有三個(gè)模型中都consistent接近0,證明不確定性確實(shí)是定位錯(cuò)誤的有效代理。這些發(fā)現(xiàn)與直覺(jué)一致,即大語(yǔ)言模型更可能在輸出不太確定的地方犯錯(cuò)誤。
六、計(jì)算效率的顯著提升
在實(shí)際應(yīng)用中,計(jì)算效率往往決定了一種方法是否具有實(shí)用價(jià)值。研究團(tuán)隊(duì)對(duì)兩種自動(dòng)化PRM數(shù)據(jù)標(biāo)注算法的計(jì)算成本進(jìn)行了詳細(xì)比較。他們使用相同的1500個(gè)解答(包括460個(gè)正確解答和1040個(gè)錯(cuò)誤解答)進(jìn)行測(cè)試,兩種方法都在單個(gè)A100 GPU上運(yùn)行。
自適應(yīng)二分搜索方法(用于EpicPRM40K)通過(guò)二分搜索過(guò)程標(biāo)注數(shù)據(jù),識(shí)別第一個(gè)錯(cuò)誤步驟。相比之下,不確定性驅(qū)動(dòng)搜索方法(用于UnPRM40K)定位最不確定的錯(cuò)誤步驟進(jìn)行標(biāo)注。由于正確解答的標(biāo)注不需要任何采樣,計(jì)算成本主要由錯(cuò)誤解答的標(biāo)注驅(qū)動(dòng)。
結(jié)果顯示,不確定性驅(qū)動(dòng)方法顯著減少了驗(yàn)證步驟數(shù)(減少52%)、采樣實(shí)例數(shù)(減少34%)和生成詞匯數(shù)(減少40%)。這種計(jì)算效率的提升不僅使方法更具成本效益,同時(shí)還實(shí)現(xiàn)了與自適應(yīng)二分搜索相當(dāng)?shù)男阅堋?/p>
這種效率提升的原因在于不確定性驅(qū)動(dòng)方法能夠更直接地定位到問(wèn)題所在,而不需要按順序搜索每個(gè)可能的錯(cuò)誤位置。就像經(jīng)驗(yàn)豐富的偵探能夠根據(jù)線索直接鎖定關(guān)鍵疑點(diǎn),而不需要逐一排查每個(gè)細(xì)節(jié)一樣,不確定性信號(hào)為錯(cuò)誤定位提供了有效的導(dǎo)航。
七、局限性與未來(lái)展望
研究團(tuán)隊(duì)客觀地指出了這套方法的局限性。雖然不確定性感知聚合方法整合了答案頻率信息,但它們的性能可能受到多數(shù)表決基線質(zhì)量的影響。在多數(shù)表決表現(xiàn)較差的場(chǎng)景中,將其與基于PRM的方法結(jié)合可能不會(huì)產(chǎn)生額外改進(jìn),甚至可能影響整體性能。
不過(guò),研究發(fā)現(xiàn)這些聚合策略在多數(shù)表決表現(xiàn)更好或與PRM相當(dāng)時(shí)特別有效。這就像在團(tuán)隊(duì)決策中,當(dāng)團(tuán)隊(duì)成員意見(jiàn)相對(duì)一致時(shí),結(jié)合個(gè)人專(zhuān)業(yè)判斷往往能取得更好效果;但當(dāng)團(tuán)隊(duì)整體判斷力較差時(shí),簡(jiǎn)單的組合可能不會(huì)帶來(lái)顯著改善。
盡管存在這些局限性,這項(xiàng)研究為提高大語(yǔ)言模型在數(shù)學(xué)推理任務(wù)中的性能開(kāi)辟了新的方向。不確定性驅(qū)動(dòng)的數(shù)據(jù)構(gòu)建框架不僅提高了效率,還為理解和改進(jìn)AI推理能力提供了新的視角。兩種創(chuàng)新的輸出聚合策略展示了結(jié)合不同信息源進(jìn)行決策的潛力,這種思路可能在其他需要復(fù)雜推理的任務(wù)中也具有應(yīng)用價(jià)值。
說(shuō)到底,這項(xiàng)研究就像為AI訓(xùn)練了一套完整的"偵探技能"。通過(guò)不確定性這個(gè)關(guān)鍵線索,AI不僅能夠更有效地學(xué)習(xí)如何識(shí)別推理錯(cuò)誤,還能在面對(duì)復(fù)雜問(wèn)題時(shí)做出更可靠的判斷。隨著這些技術(shù)的進(jìn)一步發(fā)展和完善,我們有理由相信,AI在數(shù)學(xué)推理等需要精密邏輯思維的領(lǐng)域?qū)⒄宫F(xiàn)出更加強(qiáng)大和可靠的能力。
對(duì)于普通讀者來(lái)說(shuō),這項(xiàng)研究的意義在于它讓我們看到了AI系統(tǒng)如何變得更加"智能"和"可靠"。當(dāng)我們?cè)谌粘I钪行枰狝I幫助解決復(fù)雜問(wèn)題時(shí),這種能夠自我監(jiān)督、自我糾錯(cuò)的能力將使AI成為更值得信賴(lài)的助手。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪問(wèn)研究團(tuán)隊(duì)在GitHub上公開(kāi)的代碼和數(shù)據(jù),親自體驗(yàn)這項(xiàng)技術(shù)的實(shí)際效果。
Q&A
Q1:不確定性驅(qū)動(dòng)的PRM數(shù)據(jù)構(gòu)建方法具體是如何工作的?
A:這種方法類(lèi)似于訓(xùn)練偵探時(shí)專(zhuān)門(mén)選擇疑點(diǎn)重重的案例。系統(tǒng)首先計(jì)算AI在每個(gè)解題步驟中的不確定性程度,然后專(zhuān)門(mén)挑選那些不確定性最高的正確答案和錯(cuò)誤答案來(lái)訓(xùn)練模型。這樣能讓AI學(xué)會(huì)識(shí)別推理過(guò)程中最容易出錯(cuò)的關(guān)鍵環(huán)節(jié),就像讓偵探重點(diǎn)關(guān)注案件中最可疑的線索一樣。
Q2:混合多數(shù)獎(jiǎng)勵(lì)投票法和加權(quán)獎(jiǎng)勵(lì)頻率投票法有什么區(qū)別?
A:混合多數(shù)獎(jiǎng)勵(lì)投票法像是有條件的民主決策:當(dāng)超過(guò)一半的答案一致時(shí)就采用多數(shù)表決,否則就聽(tīng)專(zhuān)家意見(jiàn)。而加權(quán)獎(jiǎng)勵(lì)頻率投票法更像是綜合評(píng)議,同時(shí)考慮答案的流行度和專(zhuān)業(yè)評(píng)分,通過(guò)加權(quán)平均得出最終結(jié)論,通常在各種情況下都更穩(wěn)定可靠。
Q3:這項(xiàng)研究對(duì)普通人使用AI有什么實(shí)際意義?
A:這項(xiàng)研究讓AI在解決復(fù)雜數(shù)學(xué)問(wèn)題時(shí)變得更加可靠和值得信賴(lài)。當(dāng)我們需要AI幫助處理需要多步驟推理的問(wèn)題時(shí),比如財(cái)務(wù)計(jì)算、工程設(shè)計(jì)或?qū)W習(xí)輔導(dǎo),AI將能夠更準(zhǔn)確地識(shí)別自己的推理錯(cuò)誤,給出更可靠的答案,減少因AI推理錯(cuò)誤而產(chǎn)生的問(wèn)題。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。