在人工智能領(lǐng)域,評(píng)估大型語(yǔ)言模型(LLM)的輸出質(zhì)量一直是個(gè)難題。2025年6月,麻省理工大學(xué)的Aishwarya Sahoo、Jeevana Kruthi Karnuthala、Tushar Parmanand Budhwani、Pranchal Agarwal和Sankaran Vaidyanathan,與Adobe Research的Alexa Siu、Franck Dernoncourt、Jennifer Healey、Nedim Lipka、Ryan Rossi、Uttaran Bhattacharya和Branislav Kveton共同發(fā)表了一篇?jiǎng)?chuàng)新性研究論文,題為《量化LLM評(píng)價(jià)者》(Quantitative LLM Judges)。這篇發(fā)表在arXiv預(yù)印本平臺(tái)上的研究(arXiv:2506.02945v1)提出了一種全新的方法,使AI評(píng)價(jià)AI變得更加精準(zhǔn)且符合人類判斷標(biāo)準(zhǔn)。
想象一下,你請(qǐng)了兩位朋友品嘗你做的菜肴。一位朋友是美食評(píng)論家,能給出專業(yè)的品評(píng)和1-10分的評(píng)分;另一位是普通人,評(píng)價(jià)可能更符合大眾口味。如果你想讓美食評(píng)論家的評(píng)分更接近普通人的口味,你會(huì)怎么做?這正是這項(xiàng)研究要解決的核心問(wèn)題。
在LLM評(píng)估領(lǐng)域,目前流行的"LLM作為評(píng)價(jià)者"方法就像那位美食評(píng)論家,它可以自動(dòng)評(píng)估其他LLM的輸出質(zhì)量。然而,這些評(píng)價(jià)者往往與人類的判斷存在差距—評(píng)分可能偏高或偏低,評(píng)價(jià)標(biāo)準(zhǔn)可能與人類期望不符。研究團(tuán)隊(duì)注意到,現(xiàn)有的LLM評(píng)價(jià)者在給出文本評(píng)價(jià)(定性分析)和數(shù)值評(píng)分(定量分析)時(shí),這兩種任務(wù)其實(shí)需要不同的能力,但當(dāng)前模型將它們混為一談。
這就像讓一位擅長(zhǎng)描述食物風(fēng)味的美食評(píng)論家,同時(shí)精準(zhǔn)打出與大眾口味一致的分?jǐn)?shù)—這兩項(xiàng)技能并不總是能完美結(jié)合。研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:為什么不讓LLM專注于它擅長(zhǎng)的文本評(píng)價(jià),然后用另一個(gè)專門(mén)的工具來(lái)調(diào)整數(shù)值評(píng)分,使其更符合人類判斷呢?
這就是"量化LLM評(píng)價(jià)者"的誕生背景。接下來(lái),讓我們深入了解這項(xiàng)創(chuàng)新研究如何讓AI評(píng)價(jià)變得更加精準(zhǔn)、高效且符合人類標(biāo)準(zhǔn)。
一、量化評(píng)價(jià)者:巧妙分離定性與定量評(píng)估
傳統(tǒng)的LLM評(píng)價(jià)模型面臨一個(gè)根本性挑戰(zhàn):它們?cè)噲D同時(shí)完成兩項(xiàng)本質(zhì)上不同的任務(wù)。研究團(tuán)隊(duì)解釋說(shuō),大型語(yǔ)言模型天生擅長(zhǎng)生成結(jié)構(gòu)化的文本評(píng)價(jià)和語(yǔ)義嵌入,但它們?cè)陬A(yù)測(cè)人類評(píng)分或偏好方面表現(xiàn)較差。這就像一位才華橫溢的美食評(píng)論家,他能完美描述出菜肴的香氣、口感和層次感,但給出的分?jǐn)?shù)可能與普通食客的喜好不符。
"這種不匹配引發(fā)了一個(gè)自然問(wèn)題:我們能否將定性總結(jié)與定量評(píng)分預(yù)測(cè)分離,以實(shí)現(xiàn)更準(zhǔn)確的評(píng)價(jià)?"研究團(tuán)隊(duì)這樣提出他們的核心思路。通過(guò)這種分離,LLM可以專注于其優(yōu)勢(shì)—通過(guò)推理生成文本評(píng)價(jià)—而準(zhǔn)確的數(shù)值評(píng)分預(yù)測(cè)則交給經(jīng)典機(jī)器學(xué)習(xí)模型處理,這些模型在處理數(shù)值預(yù)測(cè)任務(wù)時(shí)更為穩(wěn)健。
這個(gè)觀點(diǎn)得到了之前在可解釋性和探測(cè)研究中的支持。那些研究表明,當(dāng)模型表示中包含與下游任務(wù)相關(guān)的信息時(shí),簡(jiǎn)單的線性解碼器就能有效地提取這些信息。換句話說(shuō),LLM的評(píng)價(jià)文本中已經(jīng)包含了有價(jià)值的信息,我們只需要一個(gè)簡(jiǎn)單的模型來(lái)"翻譯"這些信息為準(zhǔn)確的數(shù)值評(píng)分。
基于這一洞察,研究團(tuán)隊(duì)提出了"量化評(píng)價(jià)者"框架,它通過(guò)使用基礎(chǔ)評(píng)價(jià)者的文本評(píng)價(jià)來(lái)預(yù)測(cè)更準(zhǔn)確的數(shù)值評(píng)分,從而增強(qiáng)原始評(píng)價(jià)者的能力。具體來(lái)說(shuō),他們?cè)O(shè)計(jì)了四種不同的量化評(píng)價(jià)者,分別用于絕對(duì)評(píng)分和相對(duì)偏好預(yù)測(cè)任務(wù)。每個(gè)評(píng)價(jià)者都分為兩個(gè)階段:在定性階段,一個(gè)凍結(jié)的LLM評(píng)價(jià)者生成文本評(píng)價(jià)和初始評(píng)分;在定量階段,這些輸出被用來(lái)預(yù)測(cè)更好的評(píng)分。
這就像在美食評(píng)論家評(píng)價(jià)之后,加入一位"翻譯官",他能理解評(píng)論家的專業(yè)術(shù)語(yǔ)和細(xì)微表達(dá),然后將其轉(zhuǎn)化為符合普通人口味的評(píng)分標(biāo)準(zhǔn)。這種設(shè)計(jì)具有三大優(yōu)勢(shì):通用性、統(tǒng)計(jì)效率和計(jì)算效率。
二、四種評(píng)價(jià)者模型:不同場(chǎng)景下的精準(zhǔn)評(píng)分
研究團(tuán)隊(duì)開(kāi)發(fā)的四種量化評(píng)價(jià)者模型就像四種不同的"翻譯官",每一種都有特定的專長(zhǎng)和應(yīng)用場(chǎng)景。這些模型都建立在一個(gè)共同的框架上:它們使用基礎(chǔ)LLM評(píng)價(jià)者的文本評(píng)價(jià)和評(píng)分作為輸入,然后應(yīng)用廣義線性模型(GLM)來(lái)預(yù)測(cè)更準(zhǔn)確的人類評(píng)分。
首先,讓我們了解這四種模型的共同點(diǎn)。每個(gè)模型都將基礎(chǔ)評(píng)價(jià)者的文本評(píng)價(jià)轉(zhuǎn)化為向量嵌入表示(φ(e)),同時(shí)使用基礎(chǔ)評(píng)價(jià)者的評(píng)分(b)或評(píng)分概率分布(p)。在推理階段,模型從這些信息預(yù)測(cè)人類評(píng)分;而在訓(xùn)練階段,它們使用真實(shí)的人類評(píng)分(s)來(lái)學(xué)習(xí)如何進(jìn)行這種預(yù)測(cè)。
現(xiàn)在,讓我們逐一認(rèn)識(shí)這四位"翻譯官":
第一位是"最小二乘評(píng)價(jià)者"(LS評(píng)價(jià)者)。這位翻譯官專注于絕對(duì)評(píng)分任務(wù),比如為單個(gè)回答打分。他的工作方式非常直接:將文本評(píng)價(jià)的嵌入向量和基礎(chǔ)評(píng)價(jià)者的評(píng)分結(jié)合起來(lái),通過(guò)一個(gè)簡(jiǎn)單的線性方程預(yù)測(cè)更準(zhǔn)確的分?jǐn)?shù)。LS評(píng)價(jià)者通過(guò)最小化預(yù)測(cè)分?jǐn)?shù)與真實(shí)人類分?jǐn)?shù)之間的平方差來(lái)學(xué)習(xí),就像一位不斷調(diào)整自己理解,直到能準(zhǔn)確"翻譯"專業(yè)評(píng)論為大眾口味評(píng)分的助手。
第二位是"多項(xiàng)式評(píng)價(jià)者"(MN評(píng)價(jià)者)。這位翻譯官專長(zhǎng)于處理分類型評(píng)分,如李克特量表(Likert scale)等級(jí)評(píng)分。他不是簡(jiǎn)單地預(yù)測(cè)一個(gè)數(shù)值,而是計(jì)算不同評(píng)分類別的概率分布。想象一下,他不是說(shuō)"這道菜是7分",而是說(shuō)"這道菜有60%的可能是7分,30%的可能是6分,10%的可能是8分"。這種方法特別適合當(dāng)評(píng)分是固定的幾個(gè)等級(jí)而非連續(xù)數(shù)值時(shí)。
第三位是"Bradley-Terry-Luce評(píng)價(jià)者"(BTL評(píng)價(jià)者)。這位翻譯官專注于相對(duì)偏好評(píng)估,也就是比較兩個(gè)回答哪個(gè)更好。他基于人類偏好建模中最流行的離散選擇模型,計(jì)算第一個(gè)回答優(yōu)于第二個(gè)回答的概率。BTL評(píng)價(jià)者就像一位比賽裁判,他不是單獨(dú)為每位參賽者打分,而是直接判斷誰(shuí)更勝一籌。
最后一位是"雙頭BTL評(píng)價(jià)者"(BTL2評(píng)價(jià)者)。這位翻譯官在BTL評(píng)價(jià)者的基礎(chǔ)上更進(jìn)一步,他不是通過(guò)一個(gè)相對(duì)評(píng)價(jià),而是通過(guò)兩個(gè)單獨(dú)的絕對(duì)評(píng)價(jià)來(lái)估計(jì)偏好。研究表明,逐點(diǎn)評(píng)價(jià)者往往更穩(wěn)健,而成對(duì)評(píng)價(jià)者可能受到LLM內(nèi)在偏見(jiàn)的影響。BTL2評(píng)價(jià)者結(jié)合了兩種方法的優(yōu)勢(shì),就像一位既能獨(dú)立評(píng)價(jià)每道菜肴,又能準(zhǔn)確比較菜肴優(yōu)劣的全能裁判。
這些量化評(píng)價(jià)者的美妙之處在于,它們都被設(shè)計(jì)為至少與基礎(chǔ)評(píng)價(jià)者一樣好。研究團(tuán)隊(duì)巧妙地將基礎(chǔ)評(píng)價(jià)者的評(píng)分融入模型中,確保即使在最糟糕的情況下,量化評(píng)價(jià)者也能達(dá)到基礎(chǔ)評(píng)價(jià)者的表現(xiàn)。而在大多數(shù)情況下,它們會(huì)表現(xiàn)得更好,因?yàn)樗鼈儗W(xué)習(xí)了如何將LLM的文本評(píng)價(jià)與人類的評(píng)分標(biāo)準(zhǔn)對(duì)齊。
三、實(shí)驗(yàn)結(jié)果:量化評(píng)價(jià)者的優(yōu)異表現(xiàn)
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn),測(cè)試了所有提出的量化評(píng)價(jià)者在四個(gè)數(shù)據(jù)集上的表現(xiàn)。這些數(shù)據(jù)集涵蓋了絕對(duì)評(píng)分和相對(duì)偏好預(yù)測(cè)兩種任務(wù)類型,為評(píng)價(jià)者提供了多樣化的挑戰(zhàn)環(huán)境。
在實(shí)驗(yàn)中,團(tuán)隊(duì)使用了兩個(gè)基礎(chǔ)評(píng)價(jià)者:專門(mén)為評(píng)價(jià)任務(wù)微調(diào)的Prometheus和通用指令型模型Llama 3.1。這種選擇很巧妙,它讓研究團(tuán)隊(duì)能夠驗(yàn)證他們的框架不僅適用于專門(mén)的評(píng)價(jià)模型,也適用于一般的大型語(yǔ)言模型。
首先,讓我們看看在絕對(duì)評(píng)分任務(wù)上的表現(xiàn)。研究團(tuán)隊(duì)使用了"Summarize from Feedback"和"HelpSteer2"兩個(gè)數(shù)據(jù)集。前者包含了按7分制評(píng)分的摘要回答,后者包含了按5分制評(píng)分的指令跟隨回答。
結(jié)果令人印象深刻:以Prometheus為基礎(chǔ)的LS評(píng)價(jià)者在"Summarize from Feedback"數(shù)據(jù)集上將均方誤差(MSE)從6.346降低到了2.626,降幅超過(guò)50%!同時(shí),MN評(píng)價(jià)者將準(zhǔn)確率從16.8%提高到22.9%,提升了36%。這就像是將一位專業(yè)但與大眾口味有些脫節(jié)的評(píng)論家的評(píng)分,調(diào)整得更符合普通人的判斷標(biāo)準(zhǔn),而且調(diào)整效果顯著。
在"HelpSteer2"數(shù)據(jù)集上,量化評(píng)價(jià)者同樣表現(xiàn)出色。LS評(píng)價(jià)者不僅降低了誤差,還顯著提高了與人類評(píng)分的相關(guān)性。這證明了量化評(píng)價(jià)者能夠有效地學(xué)習(xí)人類在特定領(lǐng)域的評(píng)價(jià)標(biāo)準(zhǔn)。
接下來(lái),在相對(duì)偏好預(yù)測(cè)任務(wù)上,研究團(tuán)隊(duì)使用了"Offset Bias"和"Nectar"兩個(gè)數(shù)據(jù)集。"Offset Bias"是一個(gè)專門(mén)設(shè)計(jì)來(lái)混淆評(píng)價(jià)者的數(shù)據(jù)集,它包含一個(gè)提示和兩個(gè)回答:一個(gè)是好的回答,另一個(gè)是高質(zhì)量但有關(guān)鍵缺陷的回答。"Nectar"則是一個(gè)大規(guī)模偏好數(shù)據(jù)集,其中GPT-4對(duì)七個(gè)不同模型的回答進(jìn)行排名。
在這些任務(wù)上,BTL2評(píng)價(jià)者表現(xiàn)尤為出色。以Llama為基礎(chǔ)的BTL2評(píng)價(jià)者在"Offset Bias"數(shù)據(jù)集上將準(zhǔn)確率從61.5%提高到80.0%,皮爾遜相關(guān)系數(shù)從0.229提高到0.657。這相當(dāng)于將一位能力一般的比賽裁判培訓(xùn)成了一位幾乎能與頂級(jí)裁判媲美的專家。
值得注意的是,量化評(píng)價(jià)者不僅在性能上超越了基礎(chǔ)評(píng)價(jià)者,在某些情況下甚至超越了直接微調(diào)的模型(SFT)。而且,它們的訓(xùn)練時(shí)間只是SFT的一小部分。例如,在"Offset Bias"數(shù)據(jù)集上,BTL2評(píng)價(jià)者的訓(xùn)練時(shí)間是SFT的1/6.93,但在所有指標(biāo)上都優(yōu)于SFT。這就像是找到了一種更快、更有效的方法來(lái)培訓(xùn)評(píng)判專家,而且培訓(xùn)出的專家還更精準(zhǔn)!
這些實(shí)驗(yàn)結(jié)果清晰地表明,量化評(píng)價(jià)者框架能夠有效地改善現(xiàn)有評(píng)價(jià)者的預(yù)測(cè)能力,同時(shí)保持計(jì)算效率和數(shù)據(jù)效率。它們特別適合那些人類反饋有限的實(shí)際應(yīng)用場(chǎng)景,這也是該工作的大多數(shù)應(yīng)用場(chǎng)景。
四、深入剖析:為什么量化評(píng)價(jià)者如此高效?
量化評(píng)價(jià)者的成功并非偶然。研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)消融研究,深入探索了影響模型性能的關(guān)鍵因素,包括訓(xùn)練集大小、正則化強(qiáng)度和嵌入選擇。
首先,關(guān)于訓(xùn)練集大小的影響。研究發(fā)現(xiàn),LS評(píng)價(jià)者的均方誤差隨著訓(xùn)練數(shù)據(jù)量的增加而減少。雖然監(jiān)督微調(diào)(SFT)也表現(xiàn)出類似趨勢(shì),但LS評(píng)價(jià)者通常能夠在更少的數(shù)據(jù)上達(dá)到更低的誤差,或者只有在大量數(shù)據(jù)下SFT才能達(dá)到與LS評(píng)價(jià)者相當(dāng)?shù)男阅堋_@表明量化評(píng)價(jià)者在數(shù)據(jù)效率方面確實(shí)具有優(yōu)勢(shì),特別是在人類反饋有限的情況下。
想象一下,如果你只有少量的美食評(píng)價(jià)樣本來(lái)調(diào)整評(píng)論家的評(píng)分標(biāo)準(zhǔn),量化評(píng)價(jià)者就像一位學(xué)習(xí)效率極高的助手,能夠從這些有限的樣本中快速掌握轉(zhuǎn)換規(guī)則。相比之下,直接微調(diào)整個(gè)評(píng)論家則需要更多的樣本才能達(dá)到相同的效果。
關(guān)于正則化強(qiáng)度的影響,研究表明適度的正則化能夠改善泛化性能,而過(guò)度或不足的正則化都會(huì)導(dǎo)致性能下降。這強(qiáng)調(diào)了調(diào)整正則化參數(shù)的重要性。研究團(tuán)隊(duì)建議通過(guò)k折交叉驗(yàn)證自動(dòng)設(shè)置正則化強(qiáng)度,以避免人工調(diào)參的負(fù)擔(dān)。
最后,關(guān)于嵌入選擇的影響,研究發(fā)現(xiàn)在評(píng)分預(yù)測(cè)任務(wù)上,使用基礎(chǔ)評(píng)價(jià)者的嵌入與使用其他嵌入(如all-MiniLM-L6-v2)相比沒(méi)有明顯的優(yōu)勢(shì)。但在偏好預(yù)測(cè)任務(wù)上,基礎(chǔ)評(píng)價(jià)者的嵌入始終優(yōu)于其他嵌入。這可能是因?yàn)槠妙A(yù)測(cè)任務(wù)的判別性質(zhì),使得原始評(píng)價(jià)者的嵌入更為適合。
這些發(fā)現(xiàn)進(jìn)一步證實(shí)了量化評(píng)價(jià)者框架的靈活性和穩(wěn)健性。它們可以在各種條件下有效工作,并且可以根據(jù)具體任務(wù)和可用資源進(jìn)行調(diào)整。
五、比較與現(xiàn)有方法:計(jì)算效率的顯著優(yōu)勢(shì)
量化評(píng)價(jià)者框架與現(xiàn)有方法相比有什么優(yōu)勢(shì)?研究團(tuán)隊(duì)提供了詳細(xì)的計(jì)算時(shí)間比較,結(jié)果令人印象深刻。
在NVIDIA-A100-SXM4-80GB GPU上,量化評(píng)價(jià)者的訓(xùn)練時(shí)間通常比監(jiān)督微調(diào)(SFT)低一個(gè)數(shù)量級(jí)。例如,在"Offset Bias"數(shù)據(jù)集上,BTL2評(píng)價(jià)者的訓(xùn)練時(shí)間是SFT的1/6.93(2.785分鐘對(duì)比19.3分鐘)。
這種計(jì)算效率的顯著提升源于兩個(gè)因素:首先,量化評(píng)價(jià)者不需要更新基礎(chǔ)LLM的參數(shù),它們只學(xué)習(xí)如何解釋LLM的輸出;其次,廣義線性模型的訓(xùn)練本身就比深度神經(jīng)網(wǎng)絡(luò)的微調(diào)更高效。
在推理階段,量化評(píng)價(jià)者的計(jì)算開(kāi)銷幾乎可以忽略不計(jì)。當(dāng)實(shí)現(xiàn)得當(dāng)時(shí),基礎(chǔ)評(píng)價(jià)者的嵌入φ(e)在生成評(píng)價(jià)e時(shí)就已經(jīng)可用,而評(píng)分b或其概率p也可以在O(1)時(shí)間內(nèi)獲得。
這種計(jì)算效率的提升就像是找到了一條捷徑:不必重新培訓(xùn)整個(gè)專家團(tuán)隊(duì),而是只需訓(xùn)練一位"翻譯官"來(lái)調(diào)整他們的評(píng)分標(biāo)準(zhǔn)。這不僅節(jié)省了大量計(jì)算資源,還使得在資源受限的環(huán)境中部署高質(zhì)量評(píng)價(jià)系統(tǒng)成為可能。
六、局限性與未來(lái)方向:繼續(xù)完善評(píng)價(jià)框架
盡管量化評(píng)價(jià)者框架表現(xiàn)出色,研究團(tuán)隊(duì)也坦誠(chéng)地指出了它的一些局限性。與預(yù)訓(xùn)練的LLM評(píng)價(jià)者相比,量化評(píng)價(jià)者需要人類數(shù)據(jù)進(jìn)行訓(xùn)練,這可能在某些應(yīng)用場(chǎng)景中構(gòu)成限制。不過(guò),正如消融研究所示,量化評(píng)價(jià)者在數(shù)據(jù)效率方面表現(xiàn)良好,即使在有限的人類反饋下也能取得良好的性能。
另一個(gè)潛在的局限是,量化評(píng)價(jià)者的質(zhì)量依賴于基礎(chǔ)評(píng)價(jià)者的文本評(píng)價(jià)嵌入的質(zhì)量。為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)實(shí)驗(yàn)了兩種基礎(chǔ)評(píng)價(jià)者并進(jìn)行了嵌入的消融研究。
展望未來(lái),研究團(tuán)隊(duì)提出了幾個(gè)可能的擴(kuò)展方向。例如,BTL和BTL2評(píng)價(jià)者可以通過(guò)將Bradley-Terry-Luce模型替換為Plackett-Luce模型來(lái)擴(kuò)展到成對(duì)比較之外。此外,研究團(tuán)隊(duì)認(rèn)為L(zhǎng)LM評(píng)價(jià)者中的思維鏈(CoT)過(guò)程和生成的嵌入可以進(jìn)一步優(yōu)化,以產(chǎn)生更好的評(píng)分,類似于"學(xué)習(xí)推理"的方法。
這些未來(lái)方向表明,量化評(píng)價(jià)者框架不僅在當(dāng)前表現(xiàn)出色,還有巨大的改進(jìn)潛力。隨著更多研究的進(jìn)行,我們可以期待這一框架在未來(lái)變得更加強(qiáng)大和通用。
七、結(jié)論:量化評(píng)價(jià)者開(kāi)啟AI評(píng)估的新紀(jì)元
這項(xiàng)研究提出的量化評(píng)價(jià)者框架代表了LLM評(píng)估領(lǐng)域的一個(gè)重要進(jìn)步。通過(guò)將定性推理與定量評(píng)分預(yù)測(cè)分離,研究團(tuán)隊(duì)成功地解決了當(dāng)前LLM評(píng)價(jià)者面臨的一個(gè)核心問(wèn)題:評(píng)分與人類判斷不一致。
量化評(píng)價(jià)者的兩階段設(shè)計(jì)—凍結(jié)的LLM評(píng)價(jià)者生成評(píng)價(jià),輕量級(jí)模型預(yù)測(cè)人類評(píng)分—不僅提高了評(píng)價(jià)的準(zhǔn)確性,還保持了高計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,這一框架在各種評(píng)價(jià)任務(wù)上都能有效地改善基礎(chǔ)評(píng)價(jià)者的性能,有時(shí)甚至能夠在質(zhì)量和計(jì)算效率上同時(shí)超越監(jiān)督微調(diào)。
正如研究團(tuán)隊(duì)所說(shuō):"量化評(píng)價(jià)者為定量和可解釋的LLM評(píng)估提供了一個(gè)有前途的新方向,且?guī)缀醪恍枰~外的成本。"這一框架的簡(jiǎn)單性、通用性和效率使其成為實(shí)際應(yīng)用中的理想選擇,特別是在人類反饋有限的情況下。
這項(xiàng)研究不僅提供了一個(gè)實(shí)用的解決方案,還為我們思考AI評(píng)估提供了一個(gè)新視角:有時(shí)候,我們不需要完全重新設(shè)計(jì)系統(tǒng),而是可以通過(guò)巧妙地組合現(xiàn)有組件來(lái)實(shí)現(xiàn)顯著的改進(jìn)。就像在美食評(píng)價(jià)中,我們不必重新培訓(xùn)整個(gè)評(píng)論家,而是可以添加一位理解力強(qiáng)的"翻譯官",將專業(yè)評(píng)價(jià)轉(zhuǎn)化為符合大眾口味的評(píng)分。
隨著AI系統(tǒng)在各個(gè)領(lǐng)域的應(yīng)用不斷擴(kuò)大,準(zhǔn)確、可靠且高效的評(píng)估變得越來(lái)越重要。量化評(píng)價(jià)者框架為解決這一挑戰(zhàn)提供了一個(gè)創(chuàng)新且實(shí)用的方法,為AI評(píng)估開(kāi)啟了一個(gè)新紀(jì)元。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。