av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 馬里蘭大學(xué)團(tuán)隊(duì)突破AI評(píng)價(jià)瓶頸:讓機(jī)器學(xué)會(huì)"品味"文章好壞的秘密武器

馬里蘭大學(xué)團(tuán)隊(duì)突破AI評(píng)價(jià)瓶頸:讓機(jī)器學(xué)會(huì)"品味"文章好壞的秘密武器

2025-06-24 13:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-24 13:50 ? 科技行者

這項(xiàng)由馬里蘭大學(xué)的李宗霞、常雅培、周宇航、吳西陽、梁志超、成有妍、Jordan Lee Boyd-Graber等研究者領(lǐng)導(dǎo)的研究發(fā)表于2025年,有興趣深入了解的讀者可以通過https://github.com/zli12321/long_form_rl訪問完整代碼和論文。

當(dāng)我們讓AI寫一篇文章或回答一個(gè)問題時(shí),最頭疼的問題是什么?不是讓它寫得更長,而是讓它寫得更好。就像教一個(gè)學(xué)生寫作文一樣,我們很容易告訴他"再寫500個(gè)字",但很難告訴他"寫得更有深度、更有邏輯、更吸引人"。這個(gè)看似簡單的問題,實(shí)際上是人工智能領(lǐng)域一個(gè)非常棘手的挑戰(zhàn)。

馬里蘭大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問題的核心所在。目前的AI訓(xùn)練就像是在用一把尺子來評(píng)判文章質(zhì)量——傳統(tǒng)的評(píng)價(jià)方法只會(huì)機(jī)械地比較詞匯重復(fù)率或者句子相似度,完全無法理解文章的真正價(jià)值。這就好比讓一個(gè)從未讀過書的人去評(píng)判兩篇文章的優(yōu)劣,他只能數(shù)數(shù)哪篇字?jǐn)?shù)更多,哪篇用了更復(fù)雜的詞匯,但完全看不出哪篇更有說服力、更清晰易懂或者更有創(chuàng)意。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前最先進(jìn)的AI訓(xùn)練方法GRPO(群體相對(duì)策略優(yōu)化)在處理數(shù)學(xué)題這樣有標(biāo)準(zhǔn)答案的任務(wù)時(shí)表現(xiàn)出色,但在處理開放性寫作任務(wù)時(shí)卻顯得力不從心。這就像是一個(gè)優(yōu)秀的數(shù)學(xué)老師試圖去教語文寫作——他知道數(shù)學(xué)題的對(duì)錯(cuò),但面對(duì)一篇散文時(shí)卻不知道該如何評(píng)價(jià)其好壞。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為PrefBERT的智能評(píng)價(jià)系統(tǒng)。這個(gè)系統(tǒng)就像是培養(yǎng)了一位有經(jīng)驗(yàn)的語文老師,專門負(fù)責(zé)評(píng)判文章質(zhì)量。與傳統(tǒng)方法不同的是,PrefBERT接受了大量人類評(píng)分員標(biāo)注的文章質(zhì)量數(shù)據(jù)訓(xùn)練,學(xué)會(huì)了從人類的角度來理解什么是好文章。

PrefBERT的工作原理相當(dāng)巧妙。研究團(tuán)隊(duì)使用了兩個(gè)包含豐富評(píng)分?jǐn)?shù)據(jù)的數(shù)據(jù)集來訓(xùn)練這個(gè)系統(tǒng)。第一個(gè)是Prometheus-preference數(shù)據(jù)集,包含20萬個(gè)經(jīng)過精細(xì)評(píng)分的長篇回答,評(píng)分維度包括適應(yīng)性交流、情感智能等十個(gè)方面。第二個(gè)是MOCHA數(shù)據(jù)集,專門用于評(píng)判中長篇文章的整體正確性。這兩個(gè)數(shù)據(jù)集就像是給PrefBERT提供了大量的"標(biāo)準(zhǔn)答案",讓它學(xué)會(huì)了人類專家的評(píng)判標(biāo)準(zhǔn)。

在具體實(shí)現(xiàn)上,PrefBERT基于ModernBERT模型構(gòu)建,這是一個(gè)相對(duì)輕量級(jí)的模型,只有1.5億個(gè)參數(shù)。這個(gè)設(shè)計(jì)選擇非常聰明——它既保證了評(píng)價(jià)的準(zhǔn)確性,又確保了訓(xùn)練和使用時(shí)的效率。系統(tǒng)的工作流程是這樣的:給定一個(gè)參考答案和一個(gè)待評(píng)價(jià)答案,PrefBERT會(huì)將它們拼接在一起,通過深度學(xué)習(xí)網(wǎng)絡(luò)處理后,輸出一個(gè)0到1之間的質(zhì)量分?jǐn)?shù)。

研究團(tuán)隊(duì)在三個(gè)不同類型的數(shù)據(jù)集上測試了PrefBERT的效果。第一個(gè)是ELI5數(shù)據(jù)集,來源于Reddit上的"像給五歲孩子解釋一樣"社區(qū),包含各種需要用通俗語言解釋復(fù)雜概念的問答。第二個(gè)是Alpaca數(shù)據(jù)集,包含5.2萬個(gè)由GPT-3生成的指令-回答對(duì),涵蓋了各種不同類型的任務(wù)。第三個(gè)是LongForm數(shù)據(jù)集,包含從維基百科、Common Crawl等來源構(gòu)建的長篇文檔,配有由AI生成的反向指令。

實(shí)驗(yàn)結(jié)果令人印象深刻。當(dāng)研究團(tuán)隊(duì)使用PrefBERT作為獎(jiǎng)勵(lì)信號(hào)來訓(xùn)練AI模型時(shí),即使是相對(duì)較小的模型(如Qwen2.5-3B)也能產(chǎn)生接近大型模型(如Qwen2.5-7B)質(zhì)量的回答。這就像是一個(gè)經(jīng)驗(yàn)豐富的教練能夠讓普通運(yùn)動(dòng)員發(fā)揮出接近專業(yè)選手的水平。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)的評(píng)價(jià)指標(biāo)存在嚴(yán)重缺陷。比如ROUGE和BERTScore這樣的傳統(tǒng)指標(biāo),在面對(duì)明顯質(zhì)量差異很大的兩篇文章時(shí),居然給出了幾乎相同的分?jǐn)?shù)。這就像是一個(gè)色盲的人試圖區(qū)分紅綠燈——完全無法識(shí)別出關(guān)鍵差異。

而一些通用的大型獎(jiǎng)勵(lì)模型雖然能夠提供更好的評(píng)價(jià),但它們往往傾向于偏愛更長的回答,而不是更好的回答。這創(chuàng)造了一種"獎(jiǎng)勵(lì)欺騙"現(xiàn)象——AI學(xué)會(huì)了通過寫得更冗長而不是更有價(jià)值來獲得高分。這就像是一個(gè)學(xué)生發(fā)現(xiàn)老師只看作文的字?jǐn)?shù),于是開始大量使用廢話來湊字?jǐn)?shù)。

為了驗(yàn)證PrefBERT的真實(shí)效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的人工評(píng)價(jià)實(shí)驗(yàn)。他們隨機(jī)選擇了150個(gè)測試問題,收集了七個(gè)不同模型的回答,然后讓人類專家進(jìn)行盲評(píng)。結(jié)果顯示,使用PrefBERT訓(xùn)練的模型在人類評(píng)價(jià)中表現(xiàn)優(yōu)異,平均評(píng)分達(dá)到3.36分(滿分5分),成功率達(dá)到51%。

特別值得注意的是,人類評(píng)價(jià)結(jié)果揭示了一個(gè)重要問題:那些在自動(dòng)評(píng)價(jià)中得分很高的冗長回答,在人類專家眼中實(shí)際上質(zhì)量較低。使用通用大型獎(jiǎng)勵(lì)模型訓(xùn)練的AI平均生成710個(gè)詞的回答,幾乎是PrefBERT訓(xùn)練模型(258詞)的三倍,但人類專家認(rèn)為這些冗長的回答缺乏重點(diǎn)且難以閱讀。

研究團(tuán)隊(duì)還深入分析了不同訓(xùn)練方法產(chǎn)生的差異。使用PrefBERT訓(xùn)練的模型展現(xiàn)出了兩個(gè)主要優(yōu)勢(shì):更好的指令遵循能力和更自然的語調(diào)流暢度。當(dāng)面對(duì)有具體約束的指令(如"用兩句話解釋")時(shí),基礎(chǔ)模型經(jīng)常無法遵守這些限制,而PrefBERT訓(xùn)練的模型能夠準(zhǔn)確遵循。同時(shí),PrefBERT訓(xùn)練的模型還能產(chǎn)生更加流暢、連貫的回答,避免了基礎(chǔ)模型那種機(jī)械拼湊的感覺。

有趣的是,研究發(fā)現(xiàn)PrefBERT訓(xùn)練的模型更傾向于使用結(jié)構(gòu)化的輸出格式,如Markdown標(biāo)記。這種結(jié)構(gòu)化不僅提高了可讀性,也顯示了模型對(duì)內(nèi)容組織的更深理解。相比之下,使用傳統(tǒng)指標(biāo)訓(xùn)練的模型往往產(chǎn)生通用化的回答,有時(shí)還會(huì)出現(xiàn)嚴(yán)重的重復(fù)問題。

與傳統(tǒng)的監(jiān)督微調(diào)方法相比,GRPO結(jié)合PrefBERT的訓(xùn)練方式顯示出明顯優(yōu)勢(shì)。監(jiān)督微調(diào)的模型往往產(chǎn)生模糊、過于簡化的回答,有時(shí)甚至?xí)乇軉栴}。而使用強(qiáng)大獎(jiǎng)勵(lì)信號(hào)訓(xùn)練的GRPO模型能夠更好地利用模型的內(nèi)在能力,產(chǎn)生更高質(zhì)量的回答。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它為AI系統(tǒng)如何學(xué)習(xí)人類偏好提供了新的思路,特別是在那些沒有標(biāo)準(zhǔn)答案的開放性任務(wù)中。這種方法可能會(huì)被應(yīng)用到創(chuàng)意寫作、研究設(shè)計(jì)、開放性數(shù)學(xué)問題等多個(gè)領(lǐng)域。

當(dāng)然,這項(xiàng)研究也有其局限性。研究團(tuán)隊(duì)坦承,他們沒有嘗試使用更大規(guī)模的語言模型作為獎(jiǎng)勵(lì)提供者,主要是由于計(jì)算資源的限制。更大的評(píng)價(jià)模型可能提供更可靠、語義上更準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào),但也會(huì)顯著增加GPU內(nèi)存使用和訓(xùn)練時(shí)間。

此外,研究團(tuán)隊(duì)使用的訓(xùn)練數(shù)據(jù)相對(duì)較小——PrefBERT只使用了1.9萬個(gè)樣本進(jìn)行訓(xùn)練,而對(duì)比的通用獎(jiǎng)勵(lì)模型使用了8萬個(gè)樣本。這種規(guī)模差異可能影響了不同方法的公平比較。

展望未來,這項(xiàng)研究為AI訓(xùn)練開辟了新的方向。研究團(tuán)隊(duì)建議,未來的工作可以擴(kuò)展到更多樣化的開放性生成任務(wù),如創(chuàng)意寫作、創(chuàng)意研究設(shè)計(jì)或開放性數(shù)學(xué)問題。同時(shí),開發(fā)更高效、更強(qiáng)大的可驗(yàn)證獎(jiǎng)勵(lì)模型也是一個(gè)重要方向。

說到底,這項(xiàng)研究解決的是一個(gè)根本性問題:如何讓AI不僅能夠生成內(nèi)容,更能生成高質(zhì)量的內(nèi)容。這就像是從教會(huì)一個(gè)人說話,進(jìn)步到教會(huì)他說有價(jià)值的話。在AI越來越深入我們生活的今天,這種質(zhì)量導(dǎo)向的訓(xùn)練方法可能會(huì)根本性地改變我們與AI交互的體驗(yàn),讓AI助手變得真正智能、真正有用。

Q&A

Q1:PrefBERT是什么?它能做什么? A:PrefBERT是馬里蘭大學(xué)團(tuán)隊(duì)開發(fā)的AI文章質(zhì)量評(píng)價(jià)系統(tǒng),專門用來判斷AI生成文章的好壞。它通過學(xué)習(xí)人類專家的評(píng)分標(biāo)準(zhǔn),能夠像有經(jīng)驗(yàn)的語文老師一樣評(píng)判文章質(zhì)量,而不是簡單地比較字?jǐn)?shù)或詞匯相似度。

Q2:為什么傳統(tǒng)的AI評(píng)價(jià)方法不好用? A:傳統(tǒng)方法就像讓一個(gè)從未讀過書的人評(píng)判文章優(yōu)劣,只能機(jī)械地比較詞匯重復(fù)率或句子相似度,完全無法理解文章的真正價(jià)值。面對(duì)質(zhì)量差異很大的兩篇文章,傳統(tǒng)方法居然會(huì)給出幾乎相同的分?jǐn)?shù),根本起不到指導(dǎo)作用。

Q3:使用PrefBERT訓(xùn)練的AI有什么特別之處? A:使用PrefBERT訓(xùn)練的AI模型能寫出更高質(zhì)量的文章,表現(xiàn)在兩個(gè)方面:一是更好地遵循具體指令要求,二是語言更自然流暢。即使是較小的模型也能達(dá)到接近大型模型的質(zhì)量水平,而且避免了冗長廢話的問題。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-