最近,一篇來自斯坦福和谷歌于2017年的研究在twitter和reddit上被熱議。
在這一研究里,為了完成圖像轉(zhuǎn)換的任務(wù),CycleGAN在訓(xùn)練過程中通過人類無法察覺的某種“隱寫術(shù)”,騙過了它的研究人員,給自己留下了隱秘的“小抄”,然后順利完成了任務(wù)。
此項研究催生的論文也因此被命名為“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”,公布于ICCV17(2017年神經(jīng)信息處理系統(tǒng)大會),被當年的NeurIPs收錄。
這項研究與兩大關(guān)鍵詞密不可分:恐怖/迷人。CycleGAN——一套經(jīng)過大量實驗的深度神經(jīng)網(wǎng)絡(luò),旨在將航拍圖像轉(zhuǎn)換為街道地圖,但研究人員發(fā)現(xiàn)為了達到理想的評分,該系統(tǒng)在背景當中隱藏了一些“幾乎難以察覺的高頻信號”信息——這意味著其明顯是在作弊。
這種情況表明,人工智能技術(shù)終于突破了計算機自發(fā)明以來所一直無法突破的障礙:只會按照操作者的要求行動。
一望而知,研究人員的初始意圖是利用該項目加快將衛(wèi)星圖像轉(zhuǎn)換為谷歌精確地圖圖像的過程,同時提升其轉(zhuǎn)換質(zhì)量。為此,該團隊使用了CycleGAN,它能夠?qū)W會如何有效且準確地將X與Y型圖像進行相互轉(zhuǎn)換。
在一部分早期結(jié)果當中,CycleGAN帶來了不錯表現(xiàn)——事實上,表現(xiàn)太過良好,以致令人難以相信。最令研究人員們困惑的是,在CycleGAN將街道地圖重構(gòu)為航空照片時,后者會莫名其妙地出現(xiàn)大量并不存在于前者中的細節(jié)。舉例來說,在創(chuàng)建街道地圖過程中被消除的屋頂天窗部分,在CycleGAN進行反向創(chuàng)建過程時,又神奇地重新出現(xiàn)了:
圖:左側(cè)為原始地圖;中央為由該原始圖生成的街景地圖;右側(cè)則為以街景地圖為素材生成的俯瞰地圖。請注意,兩張俯瞰圖上存在的這些點從未出現(xiàn)在街道地圖當中。
盡管很難深入理解神經(jīng)網(wǎng)絡(luò)流程的內(nèi)部工作原理,但該團隊卻能夠輕松審查由神經(jīng)網(wǎng)絡(luò)生成的數(shù)據(jù)。通過一系列實驗,他們發(fā)現(xiàn)CycleGAN確實存在“作弊”行為。
CycleGAN的終極目標,在于學(xué)會解釋任何一種地圖特征,并將其與另一種地圖形式中的正確特征相匹配。然而,CycleGAN所交付成果的實際評分方式,主要體現(xiàn)為俯瞰圖與原始圖之間的相近程度,以及街景地圖的清晰度水平。
因此,CycleGAN實際上并沒有學(xué)會如何在兩種地圖形式之間進行轉(zhuǎn)換。相反,它只是學(xué)會了如何將一種特征以巧妙的方式編碼為一種特征的噪聲模式之內(nèi)。俯瞰地圖中的細節(jié)被悄悄寫入街道地圖的實際視覺數(shù)據(jù)之內(nèi):人眼不會注意到其中存在的數(shù)千個微小顏色變化,但計算機卻能夠輕松將其檢測出來。
事實上,計算機非常擅長將這些細節(jié)引入街景地圖,CycleGAN其實學(xué)會了將任何俯瞰地圖編碼至任意街景地圖當中!它甚至不必關(guān)注“真實”街景地圖——重建俯瞰地圖所需要的全部數(shù)據(jù)都能夠被悄無聲息地疊加在另一份完全不同的街景地圖上。研究人員們還證實了以下結(jié)論:
圖:右側(cè)的地圖被編碼至左側(cè)的地圖當中,且不會出現(xiàn)任何明顯的視覺變化。
(c)中的彩色地圖存在著計算機以系統(tǒng)化方式引入的細微視覺變化??梢钥吹?,這些變化共同構(gòu)成了俯瞰地圖的整體形態(tài)。然而,如果不是研究人員將其放大并突出顯示對應(yīng)部分,肉眼或許永遠不會注意到這些差異。
將數(shù)據(jù)編碼至圖像中的做法并不新鮮,這是一種被稱為“隱寫術(shù)”的成熟科學(xué),一直用于添加水印圖像、或者向攝像機畫面中添加元數(shù)據(jù)等應(yīng)用場景,然而,計算機自行創(chuàng)建隱寫方法以逃避研究人員檢查的情況倒是頭一次。(這項研究結(jié)果公布于2017年,所以可能也不算太新,但趣味性和新穎性是毋庸置疑的。)
很多人可能認為,“機器是不是變得越來越聰明了”,但事實恰恰相反。這臺機器正是由于不夠聰明,無法完成將這些復(fù)雜的圖像類型相互轉(zhuǎn)換這一困難工作,所以才找出這樣一種利用人類不善于檢測的特性,實施“欺詐”行為。如果要避免這種情況,就是要對CycleGAN的產(chǎn)出結(jié)果進行更嚴格評估,且可以肯定的是,研究人員必然會采取這樣的應(yīng)對辦法。
與以往一樣,計算機仍在完全按照人類的要求進行運作,因此我們必須精心整理提交給計算機的問題。在本次案例中,計算機拿出了一種有趣的解決方案,并揭示出此類神經(jīng)網(wǎng)絡(luò)中可能存在的一大弱點——如果沒有明確禁止,計算機會找到一種將細節(jié)透露給自己的方法,以便快速輕松地解決特定問題。
這其實也是計算機科學(xué)中最古老的原則之一,即PEBKAC——“問題存在于鍵盤與計算機之間”?;蛘哒纭?001太空漫游》中的HAL計算機所說,“一切錯誤都源自人類。”
【注】谷歌和斯坦福論文“CycleGAN, a Master of Steganography(CycleGAN,一位隱寫術(shù)大師)”獲取方式:關(guān)注科技行者微信公眾號(ID:itechwalker),回復(fù)關(guān)鍵詞“AI作弊”,即可獲得。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。