av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 大語言模型的認知偏見從何而來?以色列理工學院和希伯來大學揭示AI模型的"成長煩惱"

大語言模型的認知偏見從何而來?以色列理工學院和希伯來大學揭示AI模型的"成長煩惱"

2025-07-22 10:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-22 10:21 ? 科技行者

這項由以色列理工學院的葉納坦·貝林科夫教授和希伯來大學的加布里埃爾·斯坦諾夫斯基教授領導的研究團隊,經過深入實驗發(fā)現了一個令人意外的真相:那些看起來聰明伶俐的大語言模型,實際上也會像人類一樣產生各種認知偏見。這項發(fā)表于2025年COLM會議的研究論文,首次通過嚴格的實驗方法揭示了這些AI"思維誤區(qū)"的真正來源。有興趣深入了解的讀者可以通過論文的GitHub頁面(https://itay1itzhak.github.io/planted-in-pretraining)訪問完整的研究代碼和數據。

認知偏見就像是人類大腦中的"自動駕駛系統(tǒng)",它讓我們在面對復雜情況時能夠快速做出決定,但有時也會把我們帶向錯誤的方向。比如,當醫(yī)生告訴你一個手術有"90%的成功率"時,你可能會比聽到"10%的失敗率"更愿意接受,盡管這兩個表述在數學上完全等價。這種現象被稱為"框架效應",是認知偏見的一個典型例子。

令人驚訝的是,研究團隊發(fā)現,那些被訓練來幫助人類的大語言模型竟然也會表現出類似的偏見行為。當同樣的信息以不同方式呈現時,這些AI模型會給出不同的答案,就像人類一樣會被表達方式所影響。這個發(fā)現讓研究者們產生了一個更深層的疑問:這些AI模型的偏見到底是從哪里來的?

一、AI模型的"成長經歷":從預訓練到微調的完整過程

要理解AI模型的偏見來源,我們首先需要了解這些模型是如何"成長"的。這個過程就像是培養(yǎng)一個孩子,需要經歷多個階段。

第一個階段叫做"預訓練",這就像是讓孩子在圖書館里閱讀海量的書籍。在這個階段,AI模型會"閱讀"互聯網上的無數文本,從新聞報道到小說,從科學論文到社交媒體帖子,應有盡有。通過這個過程,模型學會了語言的基本規(guī)律,理解了詞語之間的關系,掌握了各種知識和常識。

第二個階段叫做"微調"或"指令調優(yōu)",這就像是讓已經博覽群書的孩子學習如何與人對話。在這個階段,研究人員會給模型展示大量的問答對話示例,教它如何理解人類的問題并給出有幫助的回答。經過這個訓練后,原本只會"讀書"的模型變成了能夠與人類自然對話的助手。

以往的研究發(fā)現,經過微調的模型比原始的預訓練模型表現出更強的認知偏見。這個發(fā)現就像是發(fā)現原本單純的孩子在學會社交技能后反而變得更加"世故"。這引發(fā)了研究者們的深思:是微調過程本身導致了偏見的產生,還是這些偏見早就存在于預訓練階段,只是被微調過程激發(fā)了出來?

二、設計巧妙的實驗:用"對調訓練"揭示偏見的真正來源

面對這個復雜的問題,研究團隊設計了一個極其巧妙的實驗方案。他們的思路就像是偵探破案,需要通過精心設計的實驗來找出真正的"罪魁禍首"。

研究團隊首先選擇了兩個完全開源的大語言模型:OLMo-7B和T5-11B。選擇這兩個模型是因為它們的訓練數據和訓練方法都完全公開,就像是有著完整成長記錄的孩子,研究者可以清楚地知道它們經歷了什么。

更重要的是,研究團隊發(fā)現這兩個模型在某些認知偏見上表現出了完全相反的趨勢。比如在"確定性效應"這個偏見上,T5模型在微調后偏見變得更強,而OLMo模型在微調后偏見反而變弱了。這種對比就像是找到了兩個性格截然不同的孩子,為后續(xù)的實驗提供了理想的對照條件。

實驗的核心設計被稱為"對調訓練"。研究團隊將兩個模型的訓練數據進行了"交換":用原本訓練T5的數據來訓練OLMo,用原本訓練OLMo的數據來訓練T5。這就像是讓兩個孩子交換成長環(huán)境,看看他們的性格特征會發(fā)生怎樣的變化。

如果認知偏見主要來自于微調階段的訓練數據,那么經過對調訓練后,兩個模型的偏見模式應該會發(fā)生明顯的變化。反之,如果偏見主要來自于預訓練階段,那么即使交換了微調數據,每個模型仍然會保持其原有的偏見特征。

三、排除隨機干擾:訓練過程中的"運氣成分"

在進行主要實驗之前,研究團隊還需要解決一個重要問題:訓練過程中的隨機性。就像是同一個老師用相同的方法教兩個學生,由于各種偶然因素,學生的表現可能會有所不同。

在AI模型的訓練過程中,也存在類似的隨機性。比如訓練數據的呈現順序、模型參數的初始化值等都可能影響最終結果。為了排除這種隨機性的干擾,研究團隊對每個實驗都進行了多次重復,使用不同的"隨機種子"來控制這些偶然因素。

通過這種方法,研究團隊發(fā)現訓練過程中的隨機性確實會對模型的偏見程度產生一定影響,但這種影響相對較小。更重要的是,他們發(fā)現通過對多次實驗結果進行平均,可以有效地消除隨機性的干擾,揭示出模型偏見的真正模式。

這個發(fā)現就像是發(fā)現雖然每次考試的成績可能有所波動,但學生的真實水平是相對穩(wěn)定的。通過多次測試的平均結果,我們可以更準確地評估學生的真實能力。

四、令人意外的發(fā)現:偏見的"遺傳性"

經過大量的實驗和分析,研究團隊得出了一個令人意外的結論:大語言模型的認知偏見主要來自于預訓練階段,而不是微調階段。

這個發(fā)現就像是發(fā)現孩子的性格特征更多地受到遺傳因素影響,而不是后天的教育環(huán)境。具體來說,研究團隊發(fā)現,即使兩個模型使用了完全相同的微調數據,它們的偏見模式仍然更像是使用了相同預訓練數據的模型,而不是使用了相同微調數據的模型。

為了驗證這個發(fā)現,研究團隊使用了一種叫做"聚類分析"的方法。他們將每個模型在32種不同認知偏見上的表現記錄下來,形成一個"偏見指紋"。然后,他們檢查這些"指紋"是否更容易按照預訓練模型來分組,還是按照微調數據來分組。

結果非常清晰:使用相同預訓練數據的模型聚集在一起,而使用相同微調數據的模型則分散在不同的組中。這就像是發(fā)現同卵雙胞胎即使在不同家庭長大,性格特征仍然比在同一家庭長大的非血緣兄弟姐妹更相似。

五、深入分析:32種認知偏見的全面考察

為了確保研究結果的全面性和可靠性,研究團隊對32種不同類型的認知偏見進行了詳細分析。這些偏見涵蓋了人類思維中的各個方面,從決策制定到社交判斷,從記憶回憶到風險評估。

比如"錨定偏見",當人們被要求估計一個數值時,往往會被之前聽到的任何數字所影響,即使這個數字完全不相關。研究團隊發(fā)現,AI模型同樣表現出這種偏見:當問題中包含一個看似不相關的數字時,模型的回答會明顯偏向這個數字。

又比如"損失厭惡",人們往往更害怕失去已有的東西,而不是獲得同等價值的新東西。AI模型也表現出類似的傾向:當同樣的選擇以"避免損失"的方式呈現時,模型更傾向于選擇它,而不是以"獲得收益"的方式呈現。

通過對這32種偏見的全面分析,研究團隊發(fā)現了一個一致的模式:無論是哪種類型的偏見,模型的表現都更多地受到預訓練階段的影響,而不是微調階段。

六、外部驗證:在其他模型上的重復實驗

為了確保研究結果的普遍性,研究團隊還在其他模型上進行了驗證實驗。他們選擇了社區(qū)中已經訓練好的Llama2-7B和Mistral-7B模型,這些模型使用了不同的訓練數據和方法。

令人欣慰的是,在這些不同的模型上,研究團隊觀察到了完全相同的模式。即使是在不同的模型架構、不同的訓練數據、不同的訓練方法下,預訓練階段對認知偏見的決定性影響仍然存在。

這個發(fā)現就像是在不同的城市、不同的學校中都觀察到了同樣的教育現象,證明了這個發(fā)現的普遍性和可靠性。

七、技術細節(jié):如何準確測量AI的"思維偏見"

為了準確測量AI模型的認知偏見,研究團隊采用了一種精巧的對比實驗方法。他們?yōu)槊糠N偏見設計了兩個版本的問題:一個是"中性版本",不包含任何可能引起偏見的元素;另一個是"誘導版本",包含了可能引起偏見的特定元素。

比如在測試"框架效應"時,中性版本可能會問:"這個治療方案的效果如何?"而誘導版本則會說:"這個治療方案有90%的成功率"或"這個治療方案有10%的失敗率"。雖然兩種表述在邏輯上完全等價,但如果模型存在框架效應偏見,它對這兩種表述的反應會有所不同。

研究團隊通過比較模型對這兩種版本問題的不同反應,計算出一個偏見分數。這個分數介于-1到1之間,接近0表示沒有偏見,偏向1或-1表示存在明顯的偏見。

八、數據分析:用數字說話的科學證據

通過大量的數據分析,研究團隊用數字證明了他們的發(fā)現。在聚類分析中,按照預訓練模型進行分組的效果明顯優(yōu)于按照微調數據進行分組。具體來說,使用預訓練模型分組的Silhouette分數(一個衡量聚類質量的指標)達到了0.104,而使用微調數據分組的分數只有0.028。

這種差異就像是發(fā)現按照血型分組的準確率遠高于按照星座分組的準確率,清楚地表明了哪個因素更重要。

更令人印象深刻的是,在主成分分析中,研究團隊發(fā)現第一主成分幾乎完全按照預訓練模型來分離不同的樣本。這意味著在所有影響模型偏見的因素中,預訓練是最重要的那個。

九、實際影響:這項研究對AI發(fā)展的深遠意義

這項研究的發(fā)現對AI的發(fā)展具有深遠的影響。首先,它告訴我們,如果想要減少AI模型的認知偏見,僅僅在微調階段下功夫是不夠的,必須從預訓練階段就開始關注這個問題。

這就像是發(fā)現要培養(yǎng)一個品格優(yōu)良的孩子,不能只在青春期才開始關注品德教育,而應該從幼兒期就開始重視。對于AI模型來說,這意味著我們需要更加仔細地選擇和處理預訓練數據,確保這些數據不會引入過多的偏見。

其次,這項研究也為我們理解AI模型的行為提供了新的視角。以前,人們往往認為AI模型的最終表現主要由微調階段決定,但現在我們知道,預訓練階段的影響可能更加根本和持久。

十、未來展望:如何打造更公正的AI系統(tǒng)

基于這項研究的發(fā)現,研究團隊提出了幾個改進AI系統(tǒng)的方向。首先,在預訓練階段,我們需要更加仔細地篩選和處理訓練數據,識別并減少可能導致偏見的內容。

這就像是為孩子選擇更好的閱讀材料,避免讓他們接觸到有害或偏頗的信息。對于AI模型來說,這可能意味著開發(fā)更好的數據過濾技術,或者設計新的訓練方法來減少偏見的形成。

其次,雖然微調階段的影響相對較小,但仍然可以用來調整和改善模型的行為。研究團隊發(fā)現,通過精心設計的指令和對話示例,可以在一定程度上減少某些類型的偏見。

最后,這項研究也提醒我們,在評估AI系統(tǒng)的公正性時,需要使用更全面和深入的方法。僅僅測試模型在特定任務上的表現是不夠的,我們需要系統(tǒng)地評估模型在各種情況下的偏見表現。

這項由以色列理工學院和希伯來大學聯合開展的研究,為我們理解AI模型的認知偏見提供了前所未有的深入洞察。通過巧妙的實驗設計和嚴格的數據分析,研究團隊不僅發(fā)現了偏見的真正來源,還為未來開發(fā)更公正、更可靠的AI系統(tǒng)指明了方向。

說到底,這項研究告訴我們一個重要的道理:AI模型就像人類一樣,它們的"性格"和"思維習慣"很大程度上是在早期的"成長經歷"中形成的。如果我們想要培養(yǎng)出更加公正和可靠的AI助手,就必須從最開始的訓練階段就給予足夠的重視和關注。這不僅是技術發(fā)展的需要,更是我們對未來智能社會的責任。

Q&A

Q1:什么是認知偏見?AI模型為什么會有認知偏見? A:認知偏見是指在做決定時偏離理性判斷的心理傾向,比如同樣的信息用不同方式表達會影響我們的選擇。AI模型之所以會有認知偏見,是因為它們是通過學習人類創(chuàng)造的大量文本數據來訓練的,這些數據本身就包含了人類的各種偏見和思維習慣。

Q2:這項研究發(fā)現AI的偏見主要來自哪個階段? A:研究發(fā)現AI模型的認知偏見主要來自預訓練階段,而不是后續(xù)的微調階段。這就像是孩子的性格特征更多受到遺傳因素影響,而不是后天教育環(huán)境。即使使用相同的微調數據,不同預訓練模型的偏見模式仍然保持各自的特征。

Q3:如何減少AI模型的認知偏見? A:基于這項研究的發(fā)現,減少AI偏見需要從預訓練階段就開始重視。具體包括:更仔細地篩選和處理訓練數據,開發(fā)更好的數據過濾技術,設計新的訓練方法來減少偏見形成。同時,在微調階段通過精心設計的指令和對話示例也能在一定程度上改善模型行為。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-