當(dāng)我們談?wù)撊斯ぶ悄艿墓叫詴r(shí),大多數(shù)人首先想到的可能是招聘算法對(duì)某些群體的偏見(jiàn),或者人臉識(shí)別系統(tǒng)對(duì)不同膚色人群的識(shí)別準(zhǔn)確率差異。但有一個(gè)同樣重要卻較少被關(guān)注的領(lǐng)域——圖神經(jīng)網(wǎng)絡(luò)的公平性問(wèn)題。這項(xiàng)由法國(guó)巴黎薩克雷大學(xué)中央理工學(xué)院的研究團(tuán)隊(duì)完成的工作,首次系統(tǒng)性地解決了圖擴(kuò)散模型在生成網(wǎng)絡(luò)數(shù)據(jù)時(shí)存在的公平性問(wèn)題。
這項(xiàng)研究發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2507.03728v1。研究團(tuán)隊(duì)包括五位來(lái)自巴黎薩克雷大學(xué)、中央理工學(xué)院和法國(guó)國(guó)家信息與自動(dòng)化研究院的學(xué)者:Abdennacer Badaoui、Oussama Kharouiche、Hatim Mrabet、Daniele Malitesta和Fragkiskos D. Malliaros。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv平臺(tái)訪問(wèn)完整論文。
要理解這項(xiàng)研究的重要性,我們需要先了解什么是圖神經(jīng)網(wǎng)絡(luò)以及它們?cè)诂F(xiàn)實(shí)生活中的應(yīng)用。可以把圖神經(jīng)網(wǎng)絡(luò)想象成一個(gè)能夠理解人際關(guān)系的智能系統(tǒng)。在社交網(wǎng)絡(luò)中,它能分析誰(shuí)和誰(shuí)是朋友,誰(shuí)可能會(huì)喜歡某個(gè)產(chǎn)品,或者誰(shuí)可能會(huì)點(diǎn)擊某個(gè)廣告。在藥物研發(fā)中,它能理解分子之間的相互作用。在交通規(guī)劃中,它能分析道路網(wǎng)絡(luò)的流量模式。
這些系統(tǒng)的核心是"圖"——一個(gè)由節(jié)點(diǎn)(可以理解為人、分子或地點(diǎn))和邊(代表它們之間的關(guān)系)組成的網(wǎng)絡(luò)結(jié)構(gòu)。正如真實(shí)世界中的社交網(wǎng)絡(luò)一樣,這些圖數(shù)據(jù)往往存在著各種偏見(jiàn)。比如,在職業(yè)推薦系統(tǒng)中,算法可能會(huì)因?yàn)闅v史數(shù)據(jù)的偏見(jiàn)而更傾向于向男性推薦技術(shù)崗位,向女性推薦服務(wù)崗位。
近年來(lái),圖擴(kuò)散模型成為了生成人工圖數(shù)據(jù)的重要工具。這種技術(shù)就像一個(gè)能夠"學(xué)習(xí)"真實(shí)網(wǎng)絡(luò)結(jié)構(gòu)的畫家,它先觀察真實(shí)的社交網(wǎng)絡(luò)或生物網(wǎng)絡(luò),然后能夠畫出看起來(lái)非常逼真的新網(wǎng)絡(luò)。這些人工生成的網(wǎng)絡(luò)數(shù)據(jù)在保護(hù)隱私、補(bǔ)充稀缺數(shù)據(jù)方面具有重要價(jià)值。
然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)嚴(yán)重問(wèn)題:這些"畫家"在學(xué)習(xí)過(guò)程中會(huì)不自覺(jué)地放大原始數(shù)據(jù)中的偏見(jiàn)。就好比一個(gè)畫家觀察了一個(gè)性別分化嚴(yán)重的職場(chǎng)后,在創(chuàng)作新作品時(shí)會(huì)無(wú)意識(shí)地加重這種分化程度。這種偏見(jiàn)放大效應(yīng)會(huì)導(dǎo)致生成的網(wǎng)絡(luò)數(shù)據(jù)在用于訓(xùn)練其他AI系統(tǒng)時(shí),進(jìn)一步加劇不公平現(xiàn)象。
傳統(tǒng)的解決方案通常采用重新訓(xùn)練的方式,就像讓畫家重新學(xué)習(xí)繪畫技巧一樣。但這種方法不僅耗時(shí)耗力,還可能影響模型的整體性能。巴黎薩克雷大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)更加巧妙的解決方案——FAROS(Fair graph geneRatiOn via attribute Switching)框架。
FAROS的核心思想是在圖擴(kuò)散模型的生成過(guò)程中進(jìn)行精準(zhǔn)干預(yù),而不是重新訓(xùn)練整個(gè)模型??梢园堰@個(gè)過(guò)程比作一個(gè)電影導(dǎo)演在拍攝過(guò)程中實(shí)時(shí)調(diào)整演員的表演,而不是重新培訓(xùn)所有演員。具體來(lái)說(shuō),F(xiàn)AROS會(huì)在生成過(guò)程中的特定時(shí)刻,智能地改變部分節(jié)點(diǎn)的敏感屬性(如性別、種族等),從而平衡網(wǎng)絡(luò)中的偏見(jiàn)。
這個(gè)方法的精妙之處在于它的三個(gè)核心創(chuàng)新。首先是"最優(yōu)切換節(jié)點(diǎn)比例"的計(jì)算。系統(tǒng)會(huì)自動(dòng)分析原始網(wǎng)絡(luò)中同組內(nèi)連接(比如男性之間的連接)和跨組連接(比如男性和女性之間的連接)的不平衡程度,然后數(shù)學(xué)化地計(jì)算出需要改變多少個(gè)節(jié)點(diǎn)的屬性才能達(dá)到平衡。這就像一個(gè)精明的調(diào)酒師,知道在雞尾酒中加入多少檸檬汁才能中和過(guò)甜的味道。
其次是"智能屬性切換機(jī)制"。FAROS提供了兩種切換策略:均勻采樣和先驗(yàn)采樣。均勻采樣就像抽簽一樣,給每個(gè)可能的新屬性相等的機(jī)會(huì)。先驗(yàn)采樣則更加智能,它會(huì)根據(jù)原始數(shù)據(jù)中各個(gè)屬性的分布比例來(lái)分配概率,就像一個(gè)了解當(dāng)?shù)厝丝诮Y(jié)構(gòu)的城市規(guī)劃師在設(shè)計(jì)社區(qū)時(shí)會(huì)考慮實(shí)際的人口比例。
第三個(gè)創(chuàng)新是"多標(biāo)準(zhǔn)時(shí)機(jī)選擇"。FAROS需要決定在生成過(guò)程的哪個(gè)時(shí)刻進(jìn)行屬性切換。這就像廚師需要知道在炒菜過(guò)程中的哪個(gè)時(shí)候加入調(diào)料效果最好。系統(tǒng)會(huì)同時(shí)考慮兩個(gè)目標(biāo):保持生成網(wǎng)絡(luò)的結(jié)構(gòu)質(zhì)量(準(zhǔn)確性代理)和確保邊與敏感屬性的獨(dú)立性(公平性代理)。通過(guò)數(shù)學(xué)優(yōu)化,系統(tǒng)能找到最佳的切換時(shí)機(jī)。
為了驗(yàn)證FAROS的有效性,研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn):CORA、CITESEER和AMAZON PHOTO。這些數(shù)據(jù)集分別代表了學(xué)術(shù)引用網(wǎng)絡(luò)、另一個(gè)學(xué)術(shù)網(wǎng)絡(luò)和商品共購(gòu)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果令人鼓舞:FAROS不僅顯著減少了公平性差異,還保持了甚至提高了預(yù)測(cè)準(zhǔn)確性。
在CORA數(shù)據(jù)集上,F(xiàn)AROS-Prior版本達(dá)到了89.08%的準(zhǔn)確率,同時(shí)將公平性指標(biāo)ΔEO降低到了4.30,遠(yuǎn)優(yōu)于傳統(tǒng)的GraphMaker方法的14.45。更重要的是,在某些設(shè)置下,F(xiàn)AROS實(shí)現(xiàn)了帕累托最優(yōu)的準(zhǔn)確性-公平性權(quán)衡,這意味著它在不犧牲準(zhǔn)確性的情況下實(shí)現(xiàn)了更好的公平性。
研究團(tuán)隊(duì)還探索了FAROS在不同擴(kuò)散模型上的表現(xiàn)。他們發(fā)現(xiàn),F(xiàn)AROS不僅能夠與GraphMaker的同步版本良好配合,還能有效支持異步版本,甚至能夠增強(qiáng)已經(jīng)具有公平性考慮的FairWire系統(tǒng)。這種靈活性使得FAROS成為一個(gè)通用的公平性增強(qiáng)工具。
特別值得關(guān)注的是,F(xiàn)AROS在保持網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)方面表現(xiàn)出色。研究團(tuán)隊(duì)使用了Fused Gromov-Wasserstein距離來(lái)測(cè)量生成網(wǎng)絡(luò)與原始網(wǎng)絡(luò)的差異,發(fā)現(xiàn)FAROS生成的網(wǎng)絡(luò)在節(jié)點(diǎn)度分布和聚類系數(shù)方面都與原始網(wǎng)絡(luò)高度相似。這意味著在追求公平性的同時(shí),系統(tǒng)并沒(méi)有破壞網(wǎng)絡(luò)的內(nèi)在結(jié)構(gòu)特征。
從技術(shù)角度來(lái)看,F(xiàn)AROS的另一個(gè)重要貢獻(xiàn)是提供了一個(gè)無(wú)需重新訓(xùn)練的解決方案。傳統(tǒng)的公平性增強(qiáng)方法需要在訓(xùn)練階段就加入公平性約束,這不僅增加了計(jì)算成本,還可能影響模型的核心功能。FAROS則可以直接應(yīng)用于已經(jīng)訓(xùn)練好的模型,就像給現(xiàn)有的系統(tǒng)加裝一個(gè)"公平性過(guò)濾器"。
實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象:不同的屬性切換策略在不同數(shù)據(jù)集上的表現(xiàn)存在差異。在某些情況下,均勻采樣策略更有效,而在其他情況下,先驗(yàn)采樣策略表現(xiàn)更好。這種差異反映了不同網(wǎng)絡(luò)結(jié)構(gòu)和屬性分布的復(fù)雜性,也為未來(lái)的研究提供了方向。
研究團(tuán)隊(duì)通過(guò)詳細(xì)的消融研究驗(yàn)證了每個(gè)組件的重要性。他們發(fā)現(xiàn),最優(yōu)節(jié)點(diǎn)比例的計(jì)算確實(shí)比簡(jiǎn)單的全節(jié)點(diǎn)切換或無(wú)切換策略更有效。多標(biāo)準(zhǔn)時(shí)機(jī)選擇也被證明是關(guān)鍵的,選擇錯(cuò)誤的切換時(shí)機(jī)會(huì)顯著影響最終效果。
從實(shí)際應(yīng)用的角度來(lái)看,F(xiàn)AROS的影響是深遠(yuǎn)的。在社交媒體推薦系統(tǒng)中,它能幫助減少信息繭房和群體偏見(jiàn)的傳播。在招聘平臺(tái)中,它能促進(jìn)更公平的職位匹配。在醫(yī)療健康領(lǐng)域,它能幫助構(gòu)建更具代表性的患者網(wǎng)絡(luò)數(shù)據(jù),從而支持更公平的診斷和治療算法。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,F(xiàn)AROS目前主要針對(duì)鏈接預(yù)測(cè)任務(wù)進(jìn)行了優(yōu)化和測(cè)試,對(duì)于其他圖機(jī)器學(xué)習(xí)任務(wù)(如節(jié)點(diǎn)分類)的效果還需要進(jìn)一步驗(yàn)證。其次,雖然FAROS在現(xiàn)有的大規(guī)模圖生成模型上表現(xiàn)良好,但隨著更新的擴(kuò)散模型出現(xiàn),其適應(yīng)性還需要持續(xù)評(píng)估。
研究團(tuán)隊(duì)也坦誠(chéng)地討論了方法的理論假設(shè)。FAROS假設(shè)預(yù)訓(xùn)練的圖擴(kuò)散模型能夠完美模擬原始圖的邊分布,并且節(jié)點(diǎn)間連接的存在僅依賴于它們的敏感屬性。雖然這些假設(shè)在實(shí)際應(yīng)用中可能不完全成立,但實(shí)驗(yàn)結(jié)果表明這些簡(jiǎn)化假設(shè)并不會(huì)嚴(yán)重影響方法的有效性。
從更宏觀的角度來(lái)看,這項(xiàng)研究代表了AI公平性研究的一個(gè)重要進(jìn)展。它不僅提供了一個(gè)實(shí)用的技術(shù)解決方案,更重要的是展示了如何在不犧牲系統(tǒng)性能的前提下實(shí)現(xiàn)公平性目標(biāo)。這種"后處理"式的公平性增強(qiáng)方法可能會(huì)啟發(fā)更多類似的研究。
研究團(tuán)隊(duì)在論文中也提到了這項(xiàng)工作的更廣泛社會(huì)影響。在數(shù)據(jù)隱私保護(hù)日益重要的今天,能夠生成公平、無(wú)偏見(jiàn)的合成網(wǎng)絡(luò)數(shù)據(jù)對(duì)于保護(hù)個(gè)人隱私同時(shí)支持AI研究具有重要意義。FAROS的出現(xiàn)使得我們能夠在享受合成數(shù)據(jù)帶來(lái)的便利的同時(shí),避免偏見(jiàn)的傳播和放大。
值得注意的是,這項(xiàng)研究還為未來(lái)的工作指明了方向。研究團(tuán)隊(duì)建議將FAROS的理念擴(kuò)展到其他類型的圖擴(kuò)散模型,特別是那些分別生成節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)的模型。他們認(rèn)為,節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)之間的相互作用可能是導(dǎo)致偏見(jiàn)的重要因素,直接在這種相互作用上進(jìn)行干預(yù)可能會(huì)帶來(lái)更好的效果。
總的來(lái)說(shuō),巴黎薩克雷大學(xué)團(tuán)隊(duì)的這項(xiàng)研究為圖神經(jīng)網(wǎng)絡(luò)的公平性問(wèn)題提供了一個(gè)創(chuàng)新性的解決方案。FAROS不僅在技術(shù)上具有優(yōu)勢(shì),在實(shí)際應(yīng)用中也展現(xiàn)了廣闊的前景。隨著AI系統(tǒng)在社會(huì)各個(gè)領(lǐng)域的廣泛應(yīng)用,確保這些系統(tǒng)的公平性變得越來(lái)越重要。FAROS的出現(xiàn)為我們提供了一個(gè)強(qiáng)有力的工具,讓我們能夠在享受AI帶來(lái)便利的同時(shí),構(gòu)建一個(gè)更加公平、包容的數(shù)字社會(huì)。
對(duì)于關(guān)注AI倫理和公平性的研究者和從業(yè)者來(lái)說(shuō),這項(xiàng)工作提供了一個(gè)可以直接應(yīng)用的實(shí)用框架。對(duì)于普通用戶來(lái)說(shuō),雖然可能不會(huì)直接接觸到這項(xiàng)技術(shù),但它的應(yīng)用將使我們?cè)谑褂酶鞣N在線服務(wù)時(shí)享受到更公平、更少偏見(jiàn)的體驗(yàn)。這也許就是技術(shù)進(jìn)步的最好體現(xiàn)——不僅讓我們的生活更便利,更讓我們的社會(huì)更公正。
Q&A
Q1:FAROS是什么?它能解決什么問(wèn)題?
A:FAROS是由法國(guó)巴黎薩克雷大學(xué)開(kāi)發(fā)的圖神經(jīng)網(wǎng)絡(luò)公平性增強(qiáng)框架。它主要解決圖擴(kuò)散模型在生成網(wǎng)絡(luò)數(shù)據(jù)時(shí)會(huì)放大原始數(shù)據(jù)中偏見(jiàn)的問(wèn)題。就像給AI系統(tǒng)加裝一個(gè)"公平性過(guò)濾器",能讓生成的網(wǎng)絡(luò)數(shù)據(jù)更加公平,避免在推薦系統(tǒng)、招聘平臺(tái)等應(yīng)用中出現(xiàn)群體偏見(jiàn)。
Q2:FAROS會(huì)不會(huì)影響AI系統(tǒng)的準(zhǔn)確性?
A:不會(huì),實(shí)際上FAROS在保持甚至提高準(zhǔn)確性的同時(shí)實(shí)現(xiàn)了更好的公平性。實(shí)驗(yàn)顯示,在某些情況下FAROS甚至比傳統(tǒng)方法表現(xiàn)更好,實(shí)現(xiàn)了帕累托最優(yōu)的準(zhǔn)確性-公平性權(quán)衡,這意味著它是真正的"雙贏"解決方案。
Q3:FAROS如何工作?需要重新訓(xùn)練AI模型嗎?
A:FAROS的最大優(yōu)勢(shì)是不需要重新訓(xùn)練現(xiàn)有模型。它通過(guò)在生成過(guò)程中智能地改變部分節(jié)點(diǎn)的敏感屬性(如性別、種族等)來(lái)平衡偏見(jiàn),就像在拍電影時(shí)實(shí)時(shí)調(diào)整演員表演而不是重新培訓(xùn)演員。系統(tǒng)會(huì)自動(dòng)計(jì)算最優(yōu)的節(jié)點(diǎn)切換比例和時(shí)機(jī)。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。