▲ 桌子上面的到底是井蓋還是蜻蜓?(圖片提供:Dan Hendrycks)
▲ 照片中的是一只綠鬣蜥,還是一只松鼠?(圖片提供:Dan Hendrycks)
▲這是獨(dú)輪車,還是一只穿越馬路的鱷魚?(圖片提供:Dan Hendrycks)
對人類而言,這些答案顯而易見。然而,世界上最強(qiáng)大的圖像識別人工智能卻還無法解決上述難題。
之所以會這樣,是因?yàn)槊恳粡堈掌冀?jīng)過精心挑選,專門用來“欺騙”圖像識別技術(shù)。這些照片來自一套專門的數(shù)據(jù)集,其中的7000張照片由加州大學(xué)伯克利分校、華盛頓大學(xué)以及芝加哥大學(xué)的研究人員們共同整理完成。
加州大學(xué)伯克利分校計算機(jī)科學(xué)博士生、論文作者Dan Hendrycks表示:“目前的(機(jī)器學(xué)習(xí))模型還不夠完善。雖然已經(jīng)有不少研究嘗試?yán)萌斯?shù)據(jù)提升模型的能力,但我們發(fā)現(xiàn),這些模型在面對某些真實(shí)數(shù)據(jù)(來自真實(shí)照片)時往往會出現(xiàn)嚴(yán)重且高度一致的錯誤判斷。
為了解釋這個問題的重要意義,我們首先對圖像識別技術(shù)的發(fā)展做一下回顧。
過去幾年以來,圖像識別工具已經(jīng)變得越來越好,識別速度也越來越快。這在很大程度上要?dú)w功于斯坦福大學(xué)創(chuàng)建的,并且其規(guī)模仍在持續(xù)拓展的開放數(shù)據(jù)集ImageNet。該數(shù)據(jù)集目前已經(jīng)包含超過1400萬張照片,每張照片都配有“樹”、“天空”之類的標(biāo)記。這個龐大的數(shù)據(jù)庫成為人工智能重要的訓(xùn)練素材集合,也可以作為新AI系統(tǒng)的參考基準(zhǔn),用于訓(xùn)練系統(tǒng)進(jìn)行圖像識別。打個比方,它就像是一本專供幼兒學(xué)習(xí)新單詞的看圖學(xué)話繪本。目前,利用ImageNet訓(xùn)練出的人工智能擁有極高的準(zhǔn)確率,其物體識別精度可達(dá)95%,這一水平已經(jīng)優(yōu)于人類的圖像內(nèi)容分辨效果。
然而,解決這最后5%的準(zhǔn)確度缺口是個巨大的挑戰(zhàn)。自2017年以來,計算機(jī)在識別圖像的準(zhǔn)確度方面一直比較羸弱。正因?yàn)槿绱?,研究人員們才嘗試探索其中的原因——即計算機(jī)為什么無法解析某些特定圖像。
通過這套新的圖像集合,研究人員們以手工方式搜索Flickr(雅虎旗下的圖片分享網(wǎng)站),尋找可能會令A(yù)I軟件陷入混亂的照片。然后,他們利用由ImageNet數(shù)據(jù)集訓(xùn)練而成的AI模型進(jìn)行測試,如果模型確實(shí)無法識別照片內(nèi)容,則將其添加到這套名為ImageNet-A的新數(shù)據(jù)集內(nèi)(很明顯,這個名稱代表的就是反ImageNet之意)。在識別這7000張照片時,AI的準(zhǔn)確度從90%迅速降低至2%。是的,您沒有看錯,世界上最先進(jìn)的視覺AI模型確實(shí)無法正確識別其中98%的照片。
至于AI系統(tǒng)為什么無法理解這些圖像,則是個相當(dāng)復(fù)雜的問題。
目前的AI訓(xùn)練基本上就是把大量數(shù)據(jù)投入“黑匣子”當(dāng)中——換句話說,我們只能根據(jù)最終結(jié)果來判斷其準(zhǔn)確性。比如,如果“黑匣子”見過足夠多樣的樹木圖像,它就會開始在新照片中認(rèn)出樹木對象,而我們就認(rèn)為訓(xùn)練獲得成功(這類重復(fù)任務(wù)被稱為機(jī)器學(xué)習(xí))。但問題是,我們并不知道AI是依靠哪些指標(biāo)識別樹木的——是形狀?顏色?背景?質(zhì)地?還是說樹木具有某種人類從未意識到的統(tǒng)一核心幾何樣式?對于這個問題,目前科學(xué)家們也回答不了。
總而言之,AI能力的判斷由結(jié)果實(shí)現(xiàn),而非通過推理過程實(shí)現(xiàn)。這意味著我們可能會從AI當(dāng)中發(fā)現(xiàn)種種令人意想不到的偏見,而這又進(jìn)一步影響到AI系統(tǒng)在無人駕駛汽車或者刑事司法領(lǐng)域的實(shí)際應(yīng)用。除此之外,這也意味著圖像識別系統(tǒng)并不算是真正實(shí)現(xiàn)的智能化,而更像是一種強(qiáng)大的匹配工具。
構(gòu)建ImageNet-A數(shù)據(jù)集,正是為了“欺騙”AI,從而總結(jié)為什么這些圖像會讓系統(tǒng)找不到正確答案。舉例來說,當(dāng)AI錯把一張松鼠的圖片誤認(rèn)為是海獅時,其缺少深層智慧與推理能力的問題就會被直接暴露出來。該系統(tǒng)可能僅依賴于這些動物的紋理——而非對象的相對大小或形狀——進(jìn)行識別。Hendrycks表示:“那些需要根據(jù)物體形狀才能做出正確判斷的照片,似乎最有可能騙過AI模型。”
利用ImageNet-A,研究人員們成功從視覺AI當(dāng)中找到7000個盲點(diǎn)。但是,這是否意味著可以將這些圖像構(gòu)建成新的訓(xùn)練集,從而修復(fù)AI模型的這個大毛?。看鸢缚峙率欠穸ǖ?。Hendrycks指出,“由于現(xiàn)實(shí)世界中存在著大量多樣性與復(fù)雜性因素,因此利用這些圖像進(jìn)行訓(xùn)練可能無法教會模型如何真正可靠地管理全方位的視覺輸入信息。比方說,也許收集并標(biāo)記1萬億張圖像足以解決一部分模型盲點(diǎn),但當(dāng)出現(xiàn)新的場景或者環(huán)境發(fā)生變化時,以往修復(fù)的各個盲點(diǎn)可能會再次暴露出來。”
換言之,簡單將更多照片添加到機(jī)器學(xué)習(xí)數(shù)據(jù)集當(dāng)中,無法解決AI模型在邏輯層面的核心缺陷,畢竟總會出現(xiàn)計算機(jī)之前從未見過的圖像。那么,研究人員們該如何解決這最后5%的準(zhǔn)確性空白?Hendrycks解釋稱,他們需要在現(xiàn)代機(jī)器學(xué)習(xí)范圍之外開發(fā)出新的方法,從而創(chuàng)建起更加復(fù)雜的AI系統(tǒng)。而在他們實(shí)現(xiàn)這一目標(biāo)之前,人類仍然可以繼續(xù)保持一點(diǎn)小小的優(yōu)越感——截至當(dāng)下,AI在某些方面仍無法與人類相匹敵。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。