av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 斯坦福大學(xué)突破:AI能否像人類一樣判斷創(chuàng)意寫作的好壞?

斯坦福大學(xué)突破:AI能否像人類一樣判斷創(chuàng)意寫作的好壞?

2025-07-11 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-11 09:48 ? 科技行者

這項(xiàng)由斯坦福大學(xué)的Daniel Fein、Sebastian Russo、Violet Xiang等研究團(tuán)隊領(lǐng)導(dǎo)的研究發(fā)表于2025年7月,論文標(biāo)題為"LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing"。有興趣深入了解的讀者可以通過arXiv:2507.00769v1訪問完整論文。

創(chuàng)意寫作一直被認(rèn)為是人類獨(dú)有的藝術(shù)天賦,但隨著人工智能技術(shù)的飛速發(fā)展,越來越多的AI開始嘗試寫小說、詩歌和故事。然而,一個關(guān)鍵問題隨之而來:如何判斷AI寫出的故事是否真的精彩?這就像請一位從未品嘗過美食的機(jī)器人來評判廚師大賽一樣困難。

傳統(tǒng)上,數(shù)學(xué)題和編程題有標(biāo)準(zhǔn)答案,就像1+1永遠(yuǎn)等于2,程序運(yùn)行正確與否一目了然。但創(chuàng)意寫作完全不同,就如同問"哪首歌更動聽"或"哪幅畫更美"一樣,答案往往因人而異。同樣的寫作題目,不同作者可能寫出風(fēng)格迥異但同樣精彩的故事,這種主觀性讓AI評判變得極其復(fù)雜。

目前,研究人員主要依靠兩種方法來評判AI創(chuàng)作的質(zhì)量。一種是請人類專家仔細(xì)閱讀并打分,這種方法雖然可靠,但成本高昂且耗時巨大,就像請米其林星級廚師品嘗每一道菜一樣奢侈。另一種是讓現(xiàn)成的大型語言模型充當(dāng)評委,直接判斷哪個故事更好,這種方法雖然便宜快捷,但其可靠性一直存疑。

斯坦福團(tuán)隊意識到,要想推動AI創(chuàng)意寫作的發(fā)展,必須先解決評判標(biāo)準(zhǔn)這個根本問題。他們就像建立一套標(biāo)準(zhǔn)化的美食評判體系一樣,創(chuàng)建了全球首個專門針對創(chuàng)意寫作的標(biāo)準(zhǔn)化評估基準(zhǔn)——LitBench。這套系統(tǒng)不僅能測試現(xiàn)有AI評委的水平,還能幫助訓(xùn)練更好的AI評判員。

**一、從Reddit挖掘人類的創(chuàng)作偏好**

研究團(tuán)隊選擇了一個聰明的數(shù)據(jù)來源:Reddit的寫作版塊。這個擁有1890萬訂閱者的社區(qū)就像一個巨大的創(chuàng)作競技場,用戶在這里響應(yīng)各種寫作提示,創(chuàng)作短篇故事,其他人則通過點(diǎn)贊表達(dá)喜好。這種自然形成的"群眾評審"機(jī)制為研究提供了寶貴的人類偏好數(shù)據(jù)。

不過,直接使用這些數(shù)據(jù)就像從嘈雜的市場中挑選優(yōu)質(zhì)商品一樣需要仔細(xì)篩選。研究團(tuán)隊發(fā)現(xiàn),并非所有的點(diǎn)贊數(shù)據(jù)都能準(zhǔn)確反映故事質(zhì)量。有些故事可能僅僅因?yàn)榘l(fā)布時間較早而獲得更多曝光,就像早到的顧客總是能搶到更好的座位一樣。

為了解決這個問題,研究團(tuán)隊制定了嚴(yán)格的篩選標(biāo)準(zhǔn)。他們只選擇那些獲得至少10個點(diǎn)贊的故事,確保有足夠的關(guān)注度。同時,他們要求被比較的兩個故事之間的點(diǎn)贊差距至少達(dá)到25%,這樣才能確信差距不是隨機(jī)波動造成的。更巧妙的是,他們只保留那些點(diǎn)贊更多的故事發(fā)布時間更晚的配對,這樣可以排除時間因素的干擾。

最具挑戰(zhàn)性的是長度偏見問題。研究團(tuán)隊發(fā)現(xiàn),在原始數(shù)據(jù)中,有65.25%的高贊故事比低贊故事更長,這就像人們可能因?yàn)榉至扛愣珢勰车啦耍钦嬲驗(yàn)槲兜栏?。為了消除這種偏見,研究團(tuán)隊采用了一種巧妙的平衡策略,確保在最終數(shù)據(jù)集中,長故事和短故事都有同等機(jī)會獲得高分。

經(jīng)過這一系列精心篩選,研究團(tuán)隊最終構(gòu)建了一個包含2480對故事比較的測試集,涵蓋3543個獨(dú)特故事,平均長度約550詞。這些故事全部來自2023年1月之后,確保不會與訓(xùn)練數(shù)據(jù)重疊。同時,他們還建立了一個包含43827對比較的訓(xùn)練數(shù)據(jù)集,為后續(xù)的AI模型訓(xùn)練提供素材。

**二、揭秘獲勝故事的特質(zhì)**

為了深入理解什么樣的故事更受歡迎,研究團(tuán)隊仔細(xì)閱讀并分析了50對故事配比。這種質(zhì)性分析就像品酒師品嘗不同年份的紅酒,試圖找出其中的微妙差別。

獲勝的故事往往具有幾個共同特征。首先是意外轉(zhuǎn)折和幽默元素,就像一場精彩的魔術(shù)表演,最后的揭秘總是出人意料。研究團(tuán)隊讀到了一個關(guān)于暴君女王的故事,她沒有通過戰(zhàn)爭而是通過荒誕的禮貌征服了反對者,這種顛覆性的情節(jié)設(shè)計讓讀者眼前一亮。另一個故事講述了一個女人和她強(qiáng)大的綁架者"毀滅者"之間的故事,作者巧妙地在黑暗主題中注入幽默,在邊緣化和猥褻之間游走,既驚險又有趣。

相比之下,落選的故事通常顯得平淡乏味,缺乏情感沖擊力。有些故事因?yàn)閿⑹龌靵y或用詞奇怪而讓人難以讀完,就像一道調(diào)料搭配不當(dāng)?shù)牟穗?,讓人食之無味。研究團(tuán)隊特別提到了一個科幻故事,里面角色過多:有"時代模型"士兵、名叫"加比"的女人、變形怪物等等,對于短篇小說來說角色太多,加上視角快速切換,讓讀者感到困惑。

有趣的是,語法錯誤和敘述不連貫雖然在落選作品中偶有出現(xiàn),但并非主要特征。這說明讀者更看重的是故事的創(chuàng)意和情感表達(dá),而非技術(shù)完美度,就像人們欣賞一幅畫時,更在意其藝術(shù)表現(xiàn)力而非每一筆的精確度。

**三、AI評委大比拼:誰是最佳裁判**

研究團(tuán)隊對多種AI評判方法進(jìn)行了全面測試,就像組織一場大規(guī)模的評委選拔賽。他們測試了三類主要的評判方法:現(xiàn)成的大型語言模型作為零樣本評委、經(jīng)過訓(xùn)練的Bradley-Terry判別式獎勵模型,以及生成式獎勵模型。

在零樣本評委測試中,Claude-3.7-Sonnet表現(xiàn)最佳,達(dá)到73%的人類一致性,就像一位有一定文學(xué)素養(yǎng)的普通讀者。其他模型的表現(xiàn)則參差不齊,GPT-4.1和DeepSeek-V3都達(dá)到了70%左右的準(zhǔn)確率,而較小的開源模型如Llama-3.1-8B和Qwen-2.5-7B則只能達(dá)到56-60%的準(zhǔn)確率,基本接近隨機(jī)猜測的水平。

這種結(jié)果模式揭示了一個重要現(xiàn)象:模型大小與評判能力并非簡單的線性關(guān)系。就像烹飪技能不完全取決于廚師的年齡一樣,AI模型的參數(shù)數(shù)量并不能完全決定其文學(xué)鑒賞能力。一些大型的專有模型表現(xiàn)出色,而某些小型開源模型則顯得力不從心。

更令人驚訝的是訓(xùn)練專門獎勵模型帶來的顯著提升。使用LitBench訓(xùn)練數(shù)據(jù)微調(diào)的Bradley-Terry模型(基于Llama-8B)達(dá)到了78%的準(zhǔn)確率,超越了所有零樣本評委。這就像專門訓(xùn)練的品酒師比普通人更能準(zhǔn)確判斷紅酒品質(zhì)一樣,專業(yè)化訓(xùn)練確實(shí)能顯著提升AI的文學(xué)評判能力。

生成式獎勵模型也表現(xiàn)出色,基于Qwen的模型同樣達(dá)到了78%的準(zhǔn)確率。但研究團(tuán)隊發(fā)現(xiàn)了一個反直覺的現(xiàn)象:添加思維鏈推理(Chain-of-Thought)實(shí)際上降低了生成式模型的表現(xiàn),準(zhǔn)確率下降到72%。這與數(shù)學(xué)和編程領(lǐng)域的發(fā)現(xiàn)截然不同,說明創(chuàng)意寫作評判可能需要更直覺性的判斷,而非逐步的邏輯推理。

**四、解碼AI的評判邏輯**

為了理解AI評委是如何做出判斷的,研究團(tuán)隊深入分析了這些模型生成的解釋文本。他們統(tǒng)計了各種解釋特征與判斷準(zhǔn)確性之間的關(guān)系,就像分析一位影評人的評論風(fēng)格如何影響其判斷質(zhì)量。

結(jié)果顯示,討論情節(jié)內(nèi)容是最能預(yù)測正確判斷的因素,特別是對于Anthropic系列模型,這一特征能帶來14.8%的準(zhǔn)確率提升。這說明關(guān)注故事的核心內(nèi)容而非表面特征是準(zhǔn)確評判的關(guān)鍵,就像優(yōu)秀的文學(xué)評論家總是深入分析作品的主題和情節(jié)發(fā)展。

然而,大多數(shù)其他解釋文本特征與準(zhǔn)確性的關(guān)聯(lián)度都很微弱。這個發(fā)現(xiàn)有些令人困惑,說明我們對AI文學(xué)評判的內(nèi)在機(jī)制還知之甚少,就像我們難以完全理解人類審美偏好的形成機(jī)制一樣。

不同規(guī)模模型的表現(xiàn)scaling規(guī)律也呈現(xiàn)出復(fù)雜的模式。生成式模型(特別是帶思維鏈的版本)在小規(guī)模時表現(xiàn)較差,但隨著規(guī)模增大會穩(wěn)步改善。相比之下,不帶思維鏈的生成式模型在不同規(guī)模下表現(xiàn)相對穩(wěn)定,這意味著即使使用1B或1.5B參數(shù)的小模型也能獲得不錯的性能,大大降低了實(shí)際應(yīng)用的成本。

**五、真實(shí)世界驗(yàn)證:AI評委的實(shí)戰(zhàn)表現(xiàn)**

為了驗(yàn)證LitBench訓(xùn)練出的獎勵模型在真實(shí)場景中的表現(xiàn),研究團(tuán)隊進(jìn)行了一項(xiàng)在線人類研究。他們使用GPT-4.1和GPT-4o生成了40個不同提示下的各64個故事,然后用訓(xùn)練好的Llama-8B Bradley-Terry獎勵模型對這些故事進(jìn)行排名,選出每個提示下的最佳和最差故事。

接著,他們邀請了46名來自美國和英國的眾包工作者對這些故事配對進(jìn)行評判,每對故事有10-13名評判員。這就像組織一場盲品測試,看看AI推薦的"最佳"和"最差"故事是否真的符合人類口味。

結(jié)果令人鼓舞:人類評判員在57%的情況下選擇了AI推薦的"最佳"故事,只有41%的情況下選擇了"最差"故事。雖然這個優(yōu)勢并不壓倒性,但明顯超過了隨機(jī)選擇的50%基線,也超過了最佳零樣本評委Claude-3.7-Sonnet在類似設(shè)置下的表現(xiàn)。

這個結(jié)果證明了LitBench訓(xùn)練的獎勵模型確實(shí)能夠推廣到全新的創(chuàng)作任務(wù)上,不僅僅是在Reddit數(shù)據(jù)上"死記硬背"。同時,40%的分歧率也提醒我們,人類對創(chuàng)意寫作的偏好仍然存在很大的主觀性空間,未來的改進(jìn)可能需要更豐富的監(jiān)督信號,比如基于評判標(biāo)準(zhǔn)的反饋或理由蒸餾。

**六、數(shù)據(jù)處理策略的重要性驗(yàn)證**

研究團(tuán)隊還通過對照實(shí)驗(yàn)驗(yàn)證了他們精心設(shè)計的數(shù)據(jù)篩選策略的重要性。他們創(chuàng)建了幾個使用不同篩選標(biāo)準(zhǔn)的數(shù)據(jù)集版本,就像用不同方法處理同一批食材,看看哪種方法能烹飪出最美味的菜肴。

第一個對照版本只是輕度篩選,僅移除了點(diǎn)贊數(shù)少于10的故事和基于點(diǎn)贊差異的配對,結(jié)果得到了39.5萬對數(shù)據(jù)。第二個版本完全不進(jìn)行時間戳篩選,僅按點(diǎn)贊差異配對,得到了103萬對數(shù)據(jù)。盡管數(shù)據(jù)量大大增加,但使用這些數(shù)據(jù)訓(xùn)練的模型在LitBench上的表現(xiàn)卻顯著較差。

未經(jīng)時間戳篩選的數(shù)據(jù)集訓(xùn)練的模型準(zhǔn)確率只能達(dá)到65%,遠(yuǎn)低于完整篩選數(shù)據(jù)集的78%。不進(jìn)行長度平衡的數(shù)據(jù)集雖然能達(dá)到70%的準(zhǔn)確率,但模型嚴(yán)重偏向于選擇較長的故事,在大多數(shù)情況下都會偏好長度較長的選項(xiàng)。

這個實(shí)驗(yàn)清楚地證明了"數(shù)據(jù)質(zhì)量勝過數(shù)量"這一原則。就像制作高品質(zhì)紅酒需要精心挑選葡萄一樣,構(gòu)建有效的AI訓(xùn)練數(shù)據(jù)需要仔細(xì)的策劃和篩選,而非簡單地追求數(shù)據(jù)規(guī)模。

**七、研究的局限性與未來展望**

研究團(tuán)隊坦誠地討論了研究的幾個重要局限性。首先,整個研究基于一個基本假設(shè):Reddit的點(diǎn)贊數(shù)據(jù)能夠反映人類對創(chuàng)意寫作的真實(shí)偏好。雖然他們通過人類評估驗(yàn)證了這一假設(shè)在一定程度上成立,但點(diǎn)贊行為可能受到多種因素影響,包括個人動機(jī)、社交壓力和利他主義等,就像人們在朋友圈點(diǎn)贊時可能考慮的不僅僅是內(nèi)容質(zhì)量。

其次,創(chuàng)意寫作評判的主觀性問題始終存在。雖然有研究表明,某些寫作特征能夠與人類評分產(chǎn)生關(guān)聯(lián),也有證據(jù)顯示專家評委在評判詩歌和散文時能達(dá)到較高一致性,但不同個體的審美偏好差異仍然很大。這就像音樂欣賞一樣,即使有一些普遍認(rèn)可的經(jīng)典作品,個人喜好仍然千差萬別。

另一個更深層的哲學(xué)問題是,AI生成的創(chuàng)意寫作是否真的具有"創(chuàng)意"。一些學(xué)者認(rèn)為,人工生成的文本"使意義變得無意義",因?yàn)樗鼈兇淼默F(xiàn)實(shí)和語境并非真正發(fā)生在歷史中。研究團(tuán)隊承認(rèn),他們的驗(yàn)證器因?yàn)槊撾x了真實(shí)的、個體化的人類經(jīng)驗(yàn)而存在根本性限制,而這些經(jīng)驗(yàn)恰恰是所有創(chuàng)意寫作的基礎(chǔ)。

最后,研究數(shù)據(jù)來源的人口統(tǒng)計學(xué)偏見也不容忽視。Reddit用戶群體據(jù)報告主要為男性、受過良好教育的中年人群,這意味著LitBench及其相關(guān)數(shù)據(jù)集實(shí)際上反映的是這一特定群體的共識偏好,而非更廣泛人群的審美標(biāo)準(zhǔn)。

盡管存在這些局限性,研究團(tuán)隊的工作仍然為創(chuàng)意寫作的自動化評估開辟了新的道路。他們的發(fā)現(xiàn)表明,專門訓(xùn)練的小型獎勵模型能夠以相對較低的成本超越大型專有模型的表現(xiàn),這為實(shí)際應(yīng)用提供了可行的解決方案。同時,這項(xiàng)研究也為未來的改進(jìn)指明了方向:開發(fā)更豐富的監(jiān)督信號、納入更多樣化的人群偏好,以及探索如何更好地捕捉創(chuàng)意寫作的本質(zhì)特征。

說到底,這項(xiàng)研究雖然不能解決創(chuàng)意寫作評判的所有難題,但它確實(shí)向前邁出了重要一步。就像早期的攝影技術(shù)雖然無法完全取代繪畫,但最終發(fā)展出了獨(dú)特的藝術(shù)表現(xiàn)力一樣,AI在創(chuàng)意寫作領(lǐng)域的應(yīng)用也可能會開辟出全新的可能性。研究團(tuán)隊已經(jīng)將LitBench數(shù)據(jù)集和訓(xùn)練好的獎勵模型公開發(fā)布,為整個學(xué)術(shù)界和工業(yè)界提供了寶貴的研究工具。有興趣的研究者可以通過SAA-Lab/LitBench在Hugging Face平臺上訪問這些資源,進(jìn)一步推動這個領(lǐng)域的發(fā)展。

Q&A

Q1:LitBench是什么?它能做什么? A:LitBench是斯坦福大學(xué)開發(fā)的全球首個創(chuàng)意寫作評估基準(zhǔn),包含2480對人類標(biāo)注的故事比較數(shù)據(jù)。它主要用來測試和訓(xùn)練AI模型判斷創(chuàng)意寫作質(zhì)量的能力,就像給AI提供一套標(biāo)準(zhǔn)化的"文學(xué)品味"訓(xùn)練教材。

Q2:AI評委會不會取代人類文學(xué)評論家? A:目前不會完全取代。研究顯示最好的AI評委準(zhǔn)確率約78%,仍有22%的判斷與人類不一致。AI更適合作為輔助工具,幫助初步篩選和評估大量文本,而最終的深度文學(xué)批評仍需要人類的情感理解和文化洞察。

Q3:普通人如何使用這項(xiàng)研究成果? A:目前主要面向研究者和開發(fā)者。數(shù)據(jù)集和模型已在Hugging Face平臺的SAA-Lab/LitBench公開發(fā)布。未來可能集成到寫作軟件中,為作者提供即時反饋,或用于在線平臺的內(nèi)容質(zhì)量評估,幫助讀者發(fā)現(xiàn)優(yōu)質(zhì)創(chuàng)作。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-