科技行者 5月15日 北京消息:
▲ 圖:Facebook認(rèn)為,要確認(rèn)「惡意圖文」,就需要計算出“無害短語”和“無害圖像”之間的交集函數(shù)。Facebook用人工示例來說明這個問題的本質(zhì)所在。
惡意圖文(Meme,又譯迷因或模因),是一種基于宗教或種族等特征的、用于貶低他人的文字和圖像組合。Facebook認(rèn)為,惡意圖文對于機(jī)器學(xué)習(xí)程序而言是一個有趣的挑戰(zhàn),機(jī)器學(xué)習(xí)在短時間內(nèi)還找不到完美的解決方法。而Facebook最新研究表明——深度學(xué)習(xí)的人工智能形式在“檢測”惡意模因的能力方面遠(yuǎn)遠(yuǎn)落后于人類。
Facebook本周公布的一篇題為《惡意模因挑戰(zhàn):在多模式模因中檢測仇恨言論(The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes)》的研究論文,文章搜集了網(wǎng)上(包括Facebook上)的10,000個惡意模因,建了個示例數(shù)據(jù)集,作者比較了各種最先進(jìn)的深度學(xué)習(xí)模型檢測及人類檢測結(jié)果。
論文的主要結(jié)論是:“還有很大的改進(jìn)空間”。作者發(fā)表博文《Hateful Memes Challenge and Data Set》(https://ai.facebook.com/hatefulmemes)概述了這項(xiàng)研究。另外幾個Facebook研究人員發(fā)表的另一篇博文《AI advances to better detect hate speech》(https://ai.facebook.com/blog/ai-advances-to-better-detect-hate-speech)廣泛地探討了AI檢測仇恨言論的話題。
他們就這個有趣的機(jī)器學(xué)習(xí)課題發(fā)表博文,是因?yàn)椤笎阂鈭D文檢測」只是作者提出的“多模式”學(xué)習(xí)的一個示例。科學(xué)家研究的多模式,就是結(jié)合各種機(jī)器學(xué)習(xí)程序,處理兩種或多種信號。博文里的例子則是對文本和圖像的處理。
作者在博文里提到,臭鼬圖片本身沒什么惡意,文字“喜歡你的味道”本身也沒有惡意,但將二者結(jié)合起來就“惡意”了。因此,計算機(jī)程序不一定能用一個函數(shù)計算出文字和圖像的交集函數(shù),該交集是一種誹謗或其他仇恨言論。
他們做的測試非常簡單。作者從不同地方(包括Facebook)收集了100萬個模因樣本,他們移除了任何違反Facebook服務(wù)條款的模因,例如含色情內(nèi)容的模因,結(jié)果剩下162,000個模因。然后,他們重新將文本復(fù)制到一張新圖片上,重新創(chuàng)建了模因,新圖片來源是與庫存圖片授權(quán)公司Getty Images合作獲得的。這樣做是為了消除原始模因創(chuàng)建方式中的特質(zhì),這種特質(zhì)可能會扭曲測試結(jié)果。
然后,他們讓人工審核人員判斷這些模因是否內(nèi)含“惡意”,一旦有多數(shù)人對同一個模因意見相同,就留下這個模因,最后得到10,000個模因,這10,000個模因是機(jī)器學(xué)習(xí)的訓(xùn)練和測試數(shù)據(jù)集。他們還納入了“混雜因素”, 混雜因素指那些意思反過來的模因,就是原本是“惡意”的模因,然后轉(zhuǎn)換成“贊賞”或“恭維”的模因。作者寫道,這樣做是為了擾亂機(jī)器學(xué)習(xí)系統(tǒng)里可能存在的“偏見”,“偏見”會令機(jī)器學(xué)習(xí)系統(tǒng)輕松地評估模因的惡意程度。
文章沒有列舉模因的實(shí)際例子,文章認(rèn)為這樣做不適合重新定位內(nèi)容,那些希望了解模因的人可以下載數(shù)據(jù)庫(https://github.com/facebookresearch/mmf/commit/ef04cc2de0cf58e3e31c662ed49f679d876cf9a3)。相反,作者使用的圖文是暗示性復(fù)制品,例如本文上圖里的模因,那個文本是“喜歡你今天的味道”的臭鼬圖片。
然后,一個人類“專家”復(fù)核者需猜測面前每個模因的惡意度,每個模因在這里成了該測試的人類基準(zhǔn)。不同的機(jī)器學(xué)習(xí)計算機(jī)程序,都必須做同樣的事,計算惡意度。
人類在估測“模因”惡意度的平均準(zhǔn)確度得分為84.7(滿分為100),最佳的深度學(xué)習(xí)模型得分僅為64.73。
模因數(shù)據(jù)可以從網(wǎng)絡(luò)下載,是Facebook《模因挑戰(zhàn)賽》用的模因數(shù)據(jù)集,《模因挑戰(zhàn)賽》模因數(shù)據(jù)集有點(diǎn)仿ImageNet數(shù)據(jù)集的意思,ImageNet數(shù)據(jù)集幾年前推動了圖像識別的發(fā)展。Facebook通過托管在線挑戰(zhàn)的合作公司DrivenData,為參加挑戰(zhàn)賽人士提供了總計100,000美元的獎勵, 一等獎50,000美元。
Facebook表示,挑戰(zhàn)賽會是今年NeurIPS AI會議的挑戰(zhàn)之一。有關(guān)錄入日期等數(shù)據(jù)可從DataDriven的網(wǎng)站上獲得(https://www.drivendata.org/competitions/64/hatefulmemes/?fbclid=IwAR2NFrckKiT9yiQbARrK7AD2g_Cq_HTCm7J-kuOI9PEEfk1YHK3uCq5ILNI)。用于挑戰(zhàn)賽評估參賽程序的模因示例,是未在模因數(shù)據(jù)集里出現(xiàn)的模因。
文章里提到的測試?yán)锬壳暗梅肿罡叩哪P褪荲iLBERT和Visual BERT,ViLBERT是佐治亞理工學(xué)院的Jiasen Lu及其同事是去年提出的(https://arxiv.org/pdf/1908.02265.pdf),ViLBERT模型技術(shù)將視覺和語言處理結(jié)合在一起;Visual BERT(https://arxiv.org/pdf/1908.03557.pdf)的作者是UCLA的Liunian Harold Li及其同事,也是去年提出的。
▲ 圖:不同的深度學(xué)習(xí)模型計算模因“惡意”度以及人類估測“惡意”度的結(jié)果。性能最佳的模型是ViLBERT和Visual BERT,兩個模型都是基于 “融合”文本和圖像處理開發(fā)的。
可以從名字看出來,兩個模型都是從谷歌的BERT系統(tǒng)派生出來的,而BERT系統(tǒng)則是基于“Transformer”方法進(jìn)行語言建模。Kiela及其Facebook同事在測試中發(fā)現(xiàn),在推導(dǎo)一個模因的惡意度方面,這些視覺語言聯(lián)合體,比那些只看模因文本的模型要好。例如,與VisualBERT的64.73分相比,純BERT模型的得分僅為59.2。
筆者用電子郵件向文章作者提了幾個問題。其中的一個問題是“人類注釋者是什么人?”,由于文章作者在文中提到了“人類注釋者承擔(dān)了構(gòu)建模因數(shù)據(jù)集及提供基線人類評分的任務(wù)”。Facebook拒絕置評。
第二個問題是“Facebook上的仇恨言論問題的嚴(yán)重程度”。這項(xiàng)工作的出發(fā)點(diǎn)是利用人工智能清理社交媒體上的仇恨言論,所以就要知道Facebook是不是需要定期刪除仇恨言論,或是到目前為止一共刪了多少仇恨言論,這一點(diǎn)很重要。Facebook也拒絕置評。
文章的第一作者Kiela倒是回答了筆者提出的幾個重要技術(shù)問題。其中一個技術(shù)問題是,“這些尖端模型(如Visual BERT)要縮小與人類的差距,還缺什么東西?”
Kiela在給筆者的電子郵件里表示,“假若我們知道缺的是什么,要修補(bǔ)人工智能與人類之間的差距就容易了??偟膩碚f,我們需要在改進(jìn)多模式的理解和推理方面做工作。”
他表示,“我們知道人工智能基準(zhǔn)在推動該領(lǐng)域的發(fā)展可以起重要作用。我們的文章,試圖推動該研究方向上更多的工作,以及在我們?nèi)〉玫娜魏芜M(jìn)展時提供具體的衡量方式。”
筆者還在電郵里問到“Facebook在利用現(xiàn)有模型處理仇恨言論方面的進(jìn)展”。Kiela在回郵里表示,F(xiàn)acebook現(xiàn)在用的模型與純文本BERT模型很接近,是Facebook最近發(fā)明的,名為RoBERTa和XLM-R(https://www.zdnet.com/article/facebooks-latest-giant-language-ai-hits-computing-wall-at-500-nvidia-gpus/),兩個模型都是非常大的自然語言處理程序。Kiela在電郵里強(qiáng)調(diào),RoBERTa和XLM-R仍然是“單模模型”,因此兩個模型都是僅處理文本,不是處理圖像的程序,因此,兩個模型用于處理多模模型時的性能還存在差距。
筆者還問到一些有關(guān)數(shù)據(jù)集的問題,那個數(shù)據(jù)集一開始含一百萬個示例模因,最終的數(shù)據(jù)集縮減到10,000個示例。筆者問,為什么是這兩個數(shù)字?當(dāng)然,兩個數(shù)字都似乎是任意的,而且數(shù)據(jù)集最后只有10,000個樣本,似乎很小的數(shù)字。
Kiela在電子郵件中告訴筆者,“我們用了許多圖像縮減到一萬個樣本的數(shù)據(jù)集,這個故事是要說明,我們花了很大的心思設(shè)計該數(shù)據(jù)集。通常,人工智能數(shù)據(jù)集(尤其是單模人工智能數(shù)據(jù)集)比這個數(shù)據(jù)集更好一些,因此我們覺得有必須向人工智能社區(qū)解釋一下,為什么該數(shù)據(jù)集相對較小。”
Kiela 表示,“原因是我們用了訓(xùn)練有素的注釋者,我們非常謹(jǐn)慎地確保,其他人可以將數(shù)據(jù)集用于研究目的,而且我們對數(shù)據(jù)集進(jìn)行了大量過濾處理,以確保數(shù)據(jù)集的高質(zhì)量。”
▲ 圖:Facebook示意圖:組合多種信號類型進(jìn)行多模式機(jī)器學(xué)習(xí)的說明。
由于這項(xiàng)研究強(qiáng)調(diào)“多模式”方法在深度學(xué)習(xí)中的重要性,因此筆者最后問了“當(dāng)今哪種模型最能代表這方面未來的研究方向”。Kiela告訴筆者,朝著ViLBERT及“多模雙變換器”方向看。Facebook的Dhruv Batra和Devi Parikh參與了ViLBERT的研發(fā)。Kiela和同事研發(fā)了多模雙變換器,是去年發(fā)表的(https://arxiv.org/pdf/1909.02950.pdf)。
ViLBERT和其他多模式人工智能程序的示例代碼,可以在Facebook AI的 “ MMF”網(wǎng)站(https://mmf.readthedocs.io/en/latest/)上找到,示例代碼內(nèi)置了各種用PyTorch實(shí)現(xiàn)的功能。
從這里開始將如何進(jìn)一步發(fā)展,取決于業(yè)界的科學(xué)家是否覺得Facebook挑戰(zhàn)有其價值,以及對應(yīng)的數(shù)據(jù)集是否足以為引導(dǎo)新方法的開發(fā)提高基準(zhǔn)。
Facebook的想法倒是對到點(diǎn)子上,從總體上解決仇恨言論問題需要自動化,原因是,靠人類構(gòu)建的數(shù)據(jù)集本身無法從總體上解決仇恨言論問題。
正如Kiela和同事所說的那樣,“靠人類檢查每個數(shù)據(jù)點(diǎn),無法應(yīng)付惡意內(nèi)容的處理。”
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。