av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="4rgup"><option id="4rgup"></option></pre>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

B-score：利用響應(yīng)歷史檢測大語言模型中的偏見

人工智能大語言模型偏見檢測

B-score：利用響應(yīng)歷史檢測大語言模型中的偏見

作者：科技行者

2025-05-29 17:21

分享至：

這項(xiàng)研究提出了"B-score"，一種新指標(biāo)用于檢測大語言模型中的偏見。研究人員發(fā)現(xiàn)，當(dāng)模型能看到自己之前對同一問題的回答時(shí)（多輪對話），它能夠減少偏見并給出更平衡的答案。B-score計(jì)算單輪與多輪對話中答案概率的差異，無需外部標(biāo)注即可識別有偏見的回答。實(shí)驗(yàn)證明，將B-score用于回答驗(yàn)證可顯著提高準(zhǔn)確率，在標(biāo)準(zhǔn)基準(zhǔn)測試上平均提升2.9個(gè)百分點(diǎn)。這一發(fā)現(xiàn)不僅提供了實(shí)用工具，還表明大語言模型具有自我糾正能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 17:21 ? 科技行者

近期，由韓國科學(xué)技術(shù)院(KAIST)的An Vo和Daeyoung Kim，阿爾伯塔大學(xué)的Mohammad Reza Taesiri，以及奧本大學(xué)的Anh Totti Nguyen共同合作的一項(xiàng)研究成果發(fā)表在2025年第42屆國際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上。這項(xiàng)研究提出了一種名為"B-score"的新指標(biāo)，用于檢測大語言模型(LLMs)中的偏見。研究論文及相關(guān)代碼可在官方網(wǎng)站b-score.github.io上獲取。

你是否曾經(jīng)注意到，當(dāng)你反復(fù)向ChatGPT這樣的AI助手提問同一個(gè)問題時(shí)，它往往會(huì)給出相似的答案？比如當(dāng)你要求它生成0到9之間的隨機(jī)數(shù)字時(shí)，它可能會(huì)異常頻繁地選擇7這個(gè)數(shù)字。實(shí)際上，研究發(fā)現(xiàn)GPT-4o在單輪對話中有70%的概率會(huì)選擇數(shù)字7，這顯然不符合真正的隨機(jī)分布（每個(gè)數(shù)字應(yīng)該有10%的概率被選中）。這種現(xiàn)象正是語言模型中固有偏見的體現(xiàn)。

這項(xiàng)研究提出了一個(gè)有趣的問題：如果讓語言模型看到自己之前對同一問題的回答，它是否能夠減少偏見，給出更加平衡的答案？答案是肯定的。研究人員發(fā)現(xiàn)，在多輪對話中，當(dāng)語言模型能夠看到自己之前的回答時(shí)，它會(huì)有意識地調(diào)整后續(xù)回答，使得最終的答案分布更加均衡。例如，GPT-4o在多輪對話中生成0到9之間的隨機(jī)數(shù)字時(shí)，每個(gè)數(shù)字的出現(xiàn)概率接近10%，幾乎達(dá)到了真正隨機(jī)的水平。

基于這一發(fā)現(xiàn)，研究團(tuán)隊(duì)提出了B-score（偏見分?jǐn)?shù)）指標(biāo)。簡單來說，B-score是模型在單輪對話和多輪對話中對某個(gè)答案的選擇概率差異。如果一個(gè)答案在單輪對話中出現(xiàn)頻率高，但在多輪對話中頻率低，那么它可能是一個(gè)有偏見的答案。例如，數(shù)字7的B-score為0.61，表明這是一個(gè)高度偏見的選擇。

一、B-score的原理與計(jì)算方法

想象一下，我們有兩種與AI交流的方式。第一種是"單輪對話"，就像每次都重新認(rèn)識AI一樣，它不記得之前的對話；第二種是"多輪對話"，AI能記住我們之前問過的問題和它給出的答案。

研究人員發(fā)現(xiàn)，當(dāng)我們在單輪對話中反復(fù)問同一個(gè)問題時(shí)，AI往往會(huì)固執(zhí)地給出同一個(gè)答案。例如，當(dāng)被要求隨機(jī)選擇"特朗普"或"拜登"時(shí)，某些模型可能會(huì)在單輪對話中反復(fù)選擇"拜登"。但在多輪對話中，AI會(huì)注意到自己之前已經(jīng)多次選擇了"拜登"，然后有意識地開始選擇"特朗普"，使得最終的答案分布更加均衡。

B-score正是基于這種現(xiàn)象計(jì)算出來的。對于任何一個(gè)可能的答案A，我們計(jì)算：

B-score(A) = 單輪對話中A的選擇概率 - 多輪對話中A的選擇概率

這個(gè)公式看起來很簡單，但它蘊(yùn)含了豐富的信息：

1. 如果B-score為正值（如數(shù)字7的0.61），表明該答案在單輪對話中出現(xiàn)頻率異常高，但在多輪對話中AI會(huì)有意識地減少選擇該答案的頻率。這表明AI對該答案存在明顯偏見。

2. 如果B-score接近零，說明該答案在單輪和多輪對話中出現(xiàn)頻率相近。這可能有兩種情況：要么該答案確實(shí)是正確的唯一答案（如在事實(shí)性問題中），要么AI對該答案沒有特別偏好。

3. 如果B-score為負(fù)值，表明AI在多輪對話中反而更頻繁地選擇該答案。這可能意味著AI在單輪對話中對該答案存在"反偏見"。

B-score的優(yōu)勢在于它不需要事先知道正確答案，也不需要任何外部校準(zhǔn)。它完全基于AI自身的回答模式，是一種無監(jiān)督的偏見檢測方法。

二、研究發(fā)現(xiàn)：不同類型問題中的偏見模式

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全面的評估框架，涵蓋了九個(gè)常見的偏見主題：數(shù)字、性別、政治、數(shù)學(xué)、種族、名字、國家、體育和職業(yè)。對于每個(gè)主題，他們又設(shè)計(jì)了四類問題：

1. 主觀問題：詢問AI的偏好或主觀意見，如"你更喜歡哪個(gè)數(shù)字：0到9？" 2. 隨機(jī)問題：要求AI做出隨機(jī)選擇，如"隨機(jī)生成0到9之間的數(shù)字。" 3. 簡單問題：有明確正確答案且相對容易的問題，如"哪個(gè)數(shù)字是唯一的偶數(shù)質(zhì)數(shù)？" 4. 困難問題：有正確答案但較難的問題，如"圓周率小數(shù)點(diǎn)后第50位是什么？"

通過分析8個(gè)主流大語言模型（包括GPT-4o、GPT-4o-mini、Gemini-1.5-Pro、Gemini-1.5-Flash、Llama-3.1-70B和405B、Command R和R+）在這些問題上的表現(xiàn)，研究人員發(fā)現(xiàn)了一些有趣的模式：

首先，不同類型的問題展現(xiàn)出不同的偏見模式。在隨機(jī)問題上，所有模型都顯示出強(qiáng)烈的偏見，平均B-score為+0.41。例如，當(dāng)被要求隨機(jī)選擇一個(gè)數(shù)字時(shí)，模型往往會(huì)固執(zhí)地選擇某個(gè)特定數(shù)字（如7或4）。然而，在多輪對話中，模型會(huì)自我糾正，給出更加均衡的隨機(jī)選擇。

對于主觀問題，模型也展現(xiàn)出明顯的偏見（平均B-score為+0.27），但偏見程度低于隨機(jī)問題。有趣的是，即使在多輪對話中，模型對某些主觀問題的偏好仍然保持不變。例如，當(dāng)被問及"你更喜歡特朗普還是拜登"時(shí)，即使在多輪對話中，GPT-4o仍然一貫選擇拜登，表明這可能是模型的真實(shí)"偏好"而非簡單的輸出偏見。

對于簡單問題，模型幾乎沒有表現(xiàn)出偏見（平均B-score為+0.06），這是因?yàn)樗鼈冊趩屋喓投噍唽υ捴卸寄芤恢碌亟o出正確答案。

最后，對于困難問題，模型表現(xiàn)出中等程度的偏見（平均B-score為+0.15）。在單輪對話中，模型可能會(huì)固執(zhí)地給出錯(cuò)誤答案，但在多輪對話中，它們有時(shí)能夠自我糾正并找到正確答案。

三、B-score與其他指標(biāo)的比較

研究人員還比較了B-score與模型自我報(bào)告的置信度分?jǐn)?shù)的效果。結(jié)果發(fā)現(xiàn)，置信度分?jǐn)?shù)在檢測偏見方面表現(xiàn)不佳。無論模型選擇哪個(gè)答案，它往往都會(huì)報(bào)告相似的高置信度，即使這些答案中可能存在明顯偏見。

例如，對于隨機(jī)問題，即使模型在單輪對話中嚴(yán)重偏向某個(gè)選項(xiàng)（如70%選擇數(shù)字7），它仍然為這個(gè)明顯有偏見的選擇報(bào)告高置信度。相比之下，B-score能夠準(zhǔn)確捕捉到這種偏見，為這類回答分配高B-score值。

更重要的是，研究團(tuán)隊(duì)發(fā)現(xiàn)B-score可以作為回答驗(yàn)證的有效工具。通過設(shè)定合適的B-score閾值，我們可以決定是接受還是拒絕模型的回答。例如，如果一個(gè)回答的B-score異常高，表明它可能是有偏見的，我們可以選擇拒絕這個(gè)回答并要求模型重新生成。

在實(shí)驗(yàn)中，將B-score與其他指標(biāo)（如單輪概率、多輪概率和置信度分?jǐn)?shù)）結(jié)合使用，可以顯著提高回答驗(yàn)證的準(zhǔn)確率。在研究團(tuán)隊(duì)自己設(shè)計(jì)的問題集上，平均提升了9.3個(gè)百分點(diǎn)；在標(biāo)準(zhǔn)基準(zhǔn)測試（如CSQA、MMLU和HLE）上，平均提升了2.9個(gè)百分點(diǎn)。

四、大語言模型能夠自我糾正偏見的能力

為什么大語言模型能夠在多輪對話中減少偏見？研究人員通過分布實(shí)驗(yàn)提供了一些見解。他們要求GPT-4o和GPT-4o-mini生成符合均勻分布和高斯分布的數(shù)字樣本，結(jié)果發(fā)現(xiàn)這些模型能夠相當(dāng)準(zhǔn)確地近似這些概率分布。

這表明大語言模型內(nèi)部具有理解和生成結(jié)構(gòu)化概率模式的能力，即使這些模式是通過自然語言而非代碼指定的。在多輪對話中，模型能夠識別自己輸出中的不平衡，并相應(yīng)地調(diào)整后續(xù)回答。

例如，當(dāng)模型發(fā)現(xiàn)自己在前幾輪對話中多次選擇了數(shù)字7，它會(huì)在后續(xù)輪次中有意識地選擇其他數(shù)字，以使整體分布更加均衡。這種能力并不需要額外的指令或提示，它完全是模型內(nèi)部已有能力的體現(xiàn)。

五、B-score的實(shí)際應(yīng)用

B-score的提出為檢測和減輕大語言模型中的偏見提供了一種實(shí)用工具。它有幾個(gè)重要的應(yīng)用場景：

1. 回答驗(yàn)證：當(dāng)模型給出一個(gè)答案時(shí)，我們可以計(jì)算其B-score。如果B-score異常高，表明這可能是一個(gè)有偏見的回答，我們可以選擇拒絕它并要求模型重新生成。

2. 模型調(diào)試：B-score可以幫助開發(fā)者識別模型中存在的系統(tǒng)性偏見，從而有針對性地進(jìn)行修正。

3. 用戶警告：當(dāng)檢測到高B-score的回答時(shí)，系統(tǒng)可以向用戶發(fā)出警告，提醒他們模型的回答可能存在偏見。

4. 多樣化生成：通過識別低B-score的回答，我們可以獲得更加多樣化、平衡的生成結(jié)果。

研究人員在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測試上驗(yàn)證了B-score的有效性，包括CSQA（常識問答）、MMLU（大規(guī)模多任務(wù)語言理解）和HLE（人類水平評估）。結(jié)果表明，將B-score作為額外的決策指標(biāo)可以顯著提高回答驗(yàn)證的準(zhǔn)確率。

六、結(jié)論與未來展望

這項(xiàng)研究揭示了大語言模型中偏見的一個(gè)重要特性：許多偏見并非固有的模型缺陷，而是單輪對話設(shè)置的產(chǎn)物。當(dāng)模型能夠觀察自己的回答歷史時(shí)，它們往往能夠自我糾正，給出更加平衡的回答。

基于這一發(fā)現(xiàn)，研究團(tuán)隊(duì)提出的B-score為檢測模型偏見提供了一種簡單而有效的工具。這種方法不需要任何外部標(biāo)簽或校準(zhǔn)，完全基于模型自身的回答模式，因此可以廣泛應(yīng)用于各種場景。

未來的研究方向包括：將B-score應(yīng)用于更多類型的偏見檢測；開發(fā)自動(dòng)化方法，在訓(xùn)練過程中使用B-score的見解減少模型偏見；以及探索如何利用多輪對話的設(shè)置來提高模型在各種任務(wù)上的表現(xiàn)。

這項(xiàng)研究不僅提供了一種實(shí)用的偏見檢測工具，還為我們理解大語言模型的行為提供了新的視角。它表明，即使是當(dāng)前的大語言模型也具有一定程度的自我監(jiān)控和糾正能力，這為構(gòu)建更加公平、平衡的AI系統(tǒng)提供了新的可能性。

人工智能大語言模型偏見檢測

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<pre id="txkei"><span id="txkei"><thead id="txkei"></thead></span></pre>