數(shù)字世界中,最引人注目的主題之一,無(wú)疑在于如何將數(shù)據(jù)浪潮、計(jì)算能力以及AI技術(shù)完美融合,從而實(shí)現(xiàn)更為宏大的社會(huì)利益。雖然當(dāng)前圍繞這一主題的多數(shù)對(duì)話都側(cè)重于商業(yè)利潤(rùn),但這些技術(shù)確實(shí)存在巨大潛力,能夠重塑我們理解世界的方式、并為整個(gè)人類社會(huì)帶來(lái)積極變化:從繪制全球漁業(yè)船隊(duì)去向,到為不斷變化的森林建立圖表等等。
如果我們能夠?qū)?span>數(shù)據(jù)、計(jì)算與AI技術(shù)的結(jié)合應(yīng)用于全球污染,特別是非法垃圾傾倒領(lǐng)域,結(jié)果會(huì)怎么樣?
四年前,筆者與Let’s Do It基金會(huì)的Kadi Kenk進(jìn)行過(guò)交流。該基金會(huì)旨在“聯(lián)系并賦能全世界的人們,組織大家改善整個(gè)星球的浪費(fèi)問(wèn)題。”目前,已經(jīng)有來(lái)自113個(gè)國(guó)家的1500萬(wàn)志愿者開始清理位于世界各地的垃圾非法傾倒場(chǎng)。該組織的核心使命在于,不斷繪制出全球范圍內(nèi)未授權(quán)垃圾傾倒場(chǎng)所的位置圖,而這項(xiàng)工作原本只能依靠志愿者手動(dòng)完成。
關(guān)于增強(qiáng)民眾對(duì)垃圾傾倒范圍的貢獻(xiàn)能力,一大重要思路在于,利用《精靈寶可夢(mèng)Go!(Pokémon Go)》等高人氣增強(qiáng)現(xiàn)實(shí)游戲,將地圖繪制平臺(tái)交付至每一位參與者手中。
簡(jiǎn)單而言,游戲開發(fā)者也許能夠在自己的應(yīng)用程序中添加一個(gè)通用型按鈕,允許用戶借此在游戲過(guò)程中報(bào)告他們?cè)谡鎸?shí)世界層面遇到的種種基礎(chǔ)設(shè)施問(wèn)題——包括地面坑洼,墻面涂鴉,以及可能危及行人正常散步的步道位置垃圾堆。這些數(shù)據(jù)集能夠配合地理標(biāo)記,甚至允許用戶上傳照片,所有報(bào)告匯總起來(lái),以供社會(huì)組織、政府以及研究人員用于解決與之對(duì)應(yīng)的具體問(wèn)題。
當(dāng)然,這種基于地理位置的報(bào)告方法存在諸多局限,例如普通人群是否有意愿投入時(shí)間幫助改善城市環(huán)境。更重要的是,即使游戲制作者們同意向應(yīng)用程序中添加這類與游戲玩法沒(méi)有直接關(guān)系的額外功能,用戶本身相對(duì)有限的行進(jìn)路線也意味著游戲提供的報(bào)告只覆蓋到地球上的很小一部分區(qū)域。
那么,我們?cè)撊绾沃匦吕靡延械臄?shù)據(jù),以發(fā)現(xiàn)非法垃圾傾倒行為?AI算法是一個(gè)解決方案。
開放數(shù)據(jù)GDELT項(xiàng)目每天利用Google Cloud Vision API對(duì)近百萬(wàn)幅全球新聞圖片進(jìn)行編目。目前,GDELT已經(jīng)將近5億張新聞圖片納入索引,這些圖像涵蓋近三年半以來(lái)的各類全球性事件。在相關(guān)目錄標(biāo)簽中,有不少都與污染以及垃圾廢物相關(guān),包括出現(xiàn)在每日新聞圖像背景中的垃圾。
問(wèn)題又來(lái)了,如果希望每天都能直接掃描全球新聞與社交媒體圖像以搜索垃圾位置,該如何著手?盡管部分圖像可能會(huì)突出顯示出垃圾堆等目標(biāo),但考慮到原本的拍攝目的在于展示垃圾,因此必須聚焦于僅出現(xiàn)在背景當(dāng)中的垃圾對(duì)象,對(duì)其進(jìn)行編目,最后利用圖像元數(shù)據(jù)與視覺(jué)地理編碼方法,實(shí)時(shí)清點(diǎn)世界范圍內(nèi)的垃圾分布狀況。
該項(xiàng)目利用AI技術(shù)為近三個(gè)月收集到的全球垃圾新聞圖像進(jìn)行整理,希望了解非法垃圾傾倒會(huì)給我們的星球產(chǎn)生怎樣的影響,以及AI方案如何快速篩選日常圖像并能夠帶來(lái)怎樣的垃圾識(shí)別效果。
這套模型雖然功能強(qiáng)大,但仍然存在著一大短板——它無(wú)法運(yùn)行在手機(jī)上,這意味著快速生成大量移動(dòng)數(shù)據(jù)的社交媒體發(fā)布者與記者無(wú)法加入到這一項(xiàng)目中來(lái)。事實(shí)上,全球大部分非法垃圾傾倒場(chǎng)都位于邊遠(yuǎn)鄉(xiāng)村,而我們的模型在這里幾乎毫無(wú)作用。
筆者最近在與Kadi的同事Merli Vares會(huì)面時(shí),就談到了這個(gè)問(wèn)題,即隨著圖像處理技術(shù)的發(fā)展,還有哪些方式能夠?qū)崿F(xiàn)全球垃圾傾倒活動(dòng)的實(shí)時(shí)繪制,特別是AI的圖像大規(guī)模處理方案。在這方面,Let’s Do It基金會(huì)一直在與合作伙伴攜手探索。
如今,世界各地的企業(yè)正在高度關(guān)注商業(yè)衛(wèi)星圖像在可用性及分辨率層面的提升。將這些與AI圖像識(shí)別配合起來(lái),我們將能以更強(qiáng)大可行的方式,實(shí)時(shí)觀察我們的星球。可以肯定的是,AI公益類應(yīng)用程序正越來(lái)越多地將衛(wèi)星圖像整理為自然地球觀測(cè)集,那么我們能否在垃圾追蹤層面實(shí)現(xiàn)同樣的效果?
想象一下,如果有一款應(yīng)用程序能夠每周對(duì)主要商業(yè)衛(wèi)星圖像進(jìn)行一輪掃描,從而清點(diǎn)世界各地所有大規(guī)模非正規(guī)垃圾存放點(diǎn)的情況,結(jié)果會(huì)如何。這樣的圖像也許無(wú)法及時(shí)發(fā)現(xiàn)人們丟棄在路旁的瓶子,但隨著分辨率的提升,Let’s Do It這樣的志愿者機(jī)構(gòu)絕對(duì)能夠借此發(fā)現(xiàn)各類值得關(guān)注并另以追蹤的廢物傾倒活動(dòng)。
一旦某個(gè)區(qū)域被確定為存在非法垃圾堆放情況,又會(huì)怎樣?商業(yè)衛(wèi)星圖像能夠識(shí)別出大規(guī)模垃圾傾倒區(qū)域,但其周邊可能還散布著無(wú)數(shù)小塊垃圾殘余,特別是在森林邊緣及其它一些商業(yè)衛(wèi)星無(wú)法準(zhǔn)確體現(xiàn)的位置。
在這方面,現(xiàn)代商用無(wú)人機(jī)的自主飛行控制與機(jī)載AI視頻處理技術(shù)將發(fā)揮作用。目前的無(wú)人機(jī)單位可以快速前往原本難以抵達(dá)的地理邊界位置,在空中巡弋并自動(dòng)搜索整個(gè)區(qū)域,同時(shí)避開樹木與建筑等障礙物。利用機(jī)載AI識(shí)別算法、GPS標(biāo)記與拍攝庫(kù),無(wú)人機(jī)甚至能夠?qū)崟r(shí)識(shí)別出視頻流中的預(yù)定義對(duì)象。當(dāng)前被用于軍事用途的商業(yè)無(wú)人機(jī)系統(tǒng),其搭載的自主飛行軟件與飛行續(xù)航能力,足以在單次巡弋過(guò)程中對(duì)整個(gè)社區(qū)或者中等規(guī)模的園區(qū)進(jìn)行自動(dòng)掃描與編目。
也就是說(shuō),擁有執(zhí)照的無(wú)人機(jī)操作員可以與當(dāng)?shù)卣熬用襁M(jìn)行協(xié)調(diào),并前往掃描群眾上報(bào)的非正式垃圾傾倒場(chǎng)地。垃圾探測(cè)無(wú)人機(jī)飛離航空箱,從空中快速穿過(guò)整個(gè)傾倒區(qū)并以結(jié)構(gòu)化網(wǎng)格的形式進(jìn)行逐片掃描。機(jī)載AI方案對(duì)攝像機(jī)的饋送內(nèi)容進(jìn)行實(shí)時(shí)處理、GPS標(biāo)記并保存其發(fā)現(xiàn)的每塊垃圾,包括估計(jì)得出的垃圾數(shù)量、類型以及每一種垃圾的具體占比。這些結(jié)果將通過(guò)無(wú)線鏈接被發(fā)送回操作員身邊的計(jì)算機(jī),在這里進(jìn)行GIS地圖與電子表格填寫,從而快速清點(diǎn)目標(biāo)區(qū)域內(nèi)的垃圾填埋情況。完成之后,無(wú)人機(jī)返回操作員身邊并安全著陸,一次探測(cè)即告結(jié)束。
接下來(lái),這份分辨率可觀的垃圾地圖將進(jìn)行拆分并分發(fā)給對(duì)應(yīng)的志愿者隊(duì)伍。他們會(huì)很快抵達(dá)目標(biāo)位置以清理這一區(qū)域,這意味著,地圖將成為清潔工作的指導(dǎo),而非清潔團(tuán)隊(duì)必須完成的日常任務(wù)。
雖然乍看上去,這種覆蓋能力極強(qiáng)的無(wú)人機(jī)垃圾分布繪制有點(diǎn)像是科幻小說(shuō)中的情景,但實(shí)際上實(shí)現(xiàn)這套方案的所有技術(shù)目前都已經(jīng)客觀存在。愈發(fā)強(qiáng)大的民用/商用無(wú)人機(jī)、自主導(dǎo)航系統(tǒng)、機(jī)載AI視頻處理方案、能夠嵌入AI模型的算法、無(wú)線鏈路以及充足的電池電量當(dāng)下都成為現(xiàn)實(shí),不少軍方機(jī)構(gòu)已經(jīng)在利用其進(jìn)行類似的編目活動(dòng)。因此,除了對(duì)機(jī)載AI模型進(jìn)行更新之外,我們幾乎能夠直接利用現(xiàn)有技術(shù)實(shí)現(xiàn)公益目的。
綜上所述,面對(duì)這個(gè)大規(guī)模實(shí)時(shí)數(shù)據(jù)、近乎無(wú)限的計(jì)算能力以及先進(jìn)AI方案相融合的世界,我們擁有著利用這些系統(tǒng)實(shí)現(xiàn)社會(huì)效益的、前所未有的重大機(jī)遇。從解決流行病到保護(hù)野生動(dòng)植物,再到處理環(huán)境污染等問(wèn)題,隨著這些技術(shù)由商業(yè)世界轉(zhuǎn)向非營(yíng)利性領(lǐng)域,一切都帶來(lái)了令人難以置信的可能性,并重新構(gòu)建著我們對(duì)自然世界的理解方式,甚至最終將為我們帶來(lái)實(shí)現(xiàn)基礎(chǔ)性社會(huì)變革所必需的實(shí)時(shí)定量數(shù)據(jù)集。
最后,也許有一天,這些無(wú)與倫比的技術(shù)不再僅僅被用于進(jìn)行針對(duì)性廣告投放,而是真正幫助我們拯救這顆作為全人類家園的蔚藍(lán)行星。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。