維多利亞警察局是澳大利亞維多利亞州的主要執(zhí)法機(jī)構(gòu)。在過(guò)去一年里,州內(nèi)共有1.6萬(wàn)多輛車(chē)被盜,涉案費(fèi)用約1.7億美元,對(duì)此維多利亞警方十分頭疼,開(kāi)始嘗試技術(shù)手段去抓偷車(chē)賊。
為防止被盜汽車(chē)被進(jìn)一步欺詐性銷(xiāo)售,維州公路局先是啟用了一項(xiàng)網(wǎng)絡(luò)服務(wù),以檢查車(chē)輛注冊(cè)狀況,接著又打算投資研發(fā)一套汽車(chē)牌照掃描儀——基于計(jì)算機(jī)視覺(jué)識(shí)別系統(tǒng)、可掃描過(guò)往車(chē)輛、自動(dòng)識(shí)別被盜汽車(chē)的固定三腳架攝像機(jī)。
然而整套裝置價(jià)格高昂,約8600萬(wàn)美元。有業(yè)內(nèi)評(píng)論員分析,要想將這個(gè)成本共計(jì)8600萬(wàn)美元的系統(tǒng)配置在220輛車(chē)上,相當(dāng)于每輛車(chē)支出390909美元。
警方的舉措引起了網(wǎng)友Tait Brown的注意。Tait是一名開(kāi)發(fā)者和設(shè)計(jì)師,他覺(jué)得維州警局的做法太浪費(fèi)錢(qián),于是突發(fā)奇想,準(zhǔn)備用開(kāi)源技術(shù)動(dòng)手做一個(gè)車(chē)牌掃描儀模型,如果車(chē)輛被盜或未被注冊(cè),它就會(huì)自動(dòng)通知車(chē)主。
圖:現(xiàn)有的車(chē)牌識(shí)別系統(tǒng)
在開(kāi)始之前,Tait簡(jiǎn)單列出了車(chē)牌掃描儀產(chǎn)品的三個(gè)關(guān)鍵點(diǎn)。
將直播視頻流傳給中央處理器,似乎是解決問(wèn)題最差的方法了。因?yàn)檫@除了會(huì)產(chǎn)生昂貴的數(shù)據(jù)流量費(fèi),還會(huì)加劇網(wǎng)絡(luò)延遲問(wèn)題。
盡管,集中式的機(jī)器學(xué)習(xí)算法很有效,因?yàn)?span>系統(tǒng)會(huì)隨著深度學(xué)習(xí)的過(guò)程而變得更精確,但Tait更想知道,如果在本地設(shè)備實(shí)現(xiàn)這一功能是否就已經(jīng)“足夠好”。
由于Tait手頭沒(méi)有Raspberry Pi(樹(shù)莓派,微型電腦)攝像頭或USB網(wǎng)絡(luò)攝像頭,所以他就用現(xiàn)成的Dashcam鏡頭替代——一個(gè)隨時(shí)可用的樣本數(shù)據(jù)來(lái)源,Dashcam鏡頭還有一個(gè)好處,它的視頻成像效果,與車(chē)載攝像頭所拍攝的視頻質(zhì)量差不多。
如果依賴(lài)于一個(gè)專(zhuān)有軟件打造設(shè)備,意味著后續(xù)每一次請(qǐng)求都將付費(fèi)。相比之下,開(kāi)源技術(shù)省錢(qián)是毋庸置疑的。
整個(gè)解決方案很簡(jiǎn)單
產(chǎn)品設(shè)計(jì)好了以后,就可以操作了。Tait的解決方案是,從Dashcam視頻中獲取圖像,然后通過(guò)一個(gè)本地安裝在車(chē)牌掃描儀設(shè)備上的開(kāi)源車(chē)牌識(shí)別系統(tǒng)抓取圖像,來(lái)查詢(xún)汽車(chē)的注冊(cè)檢查服務(wù),并顯示結(jié)果。
傳輸?shù)桨惭b在執(zhí)法車(chē)輛的設(shè)備數(shù)據(jù)包括:汽車(chē)出廠型號(hào)(只有汽車(chē)被盜時(shí)才會(huì)核實(shí))、注冊(cè)狀態(tài)以及車(chē)輛被盜時(shí)的通知報(bào)告。
聽(tīng)起來(lái)是不是很簡(jiǎn)單。例如,圖像處理都可以交由openalpr庫(kù)處理。這涉及到識(shí)別車(chē)牌上的字符:
PS:公共訪問(wèn)維州公路局的API接口是不可用的,因此Tait從官方網(wǎng)絡(luò)下載數(shù)據(jù),來(lái)進(jìn)行車(chē)牌識(shí)別測(cè)試。
以下是他測(cè)試的過(guò)程:
但結(jié)果出乎意料的準(zhǔn)確
測(cè)試結(jié)果讓Tait感到驚喜。他此前還擔(dān)心用開(kāi)源系統(tǒng)識(shí)別車(chē)牌的效果會(huì)不理想,并且圖像識(shí)別算法很可能并未針對(duì)澳大利亞車(chē)牌進(jìn)行優(yōu)化。
然而最終的解決方案卻能夠在寬廣的視野中識(shí)別車(chē)牌。
圖:反光和攝像頭失真也不影響車(chē)牌識(shí)別
不過(guò)難以避免的,解決方案有時(shí)候也會(huì)出錯(cuò)。
圖:讀數(shù)不正確,誤將M識(shí)別為H
但是,解決方案最終還是會(huì)糾正錯(cuò)誤,給出正確反饋。
圖:幾幀后,M已被正確識(shí)別,而且有著更高的置信度評(píng)分
如以上兩張圖所示,圖像處理的置信度評(píng)分從原來(lái)的87%上升到了91%以上。
這讓Tait確信,通過(guò)提高采樣率可以提高準(zhǔn)確率,然后按最高置信度進(jìn)行排序?;蛘撸部梢哉{(diào)整閾值,設(shè)置成僅在置信度大于90%的情況下才接受汽車(chē)牌照號(hào)的驗(yàn)證。
這些都是很直接的代碼優(yōu)先解決方案(code-first),并且不排除使用本地?cái)?shù)據(jù)集,來(lái)訓(xùn)練車(chē)牌識(shí)別軟件。
關(guān)于8600萬(wàn)美元的問(wèn)題
做完了以上試驗(yàn)之后,Tait完全想不明白為什么要花費(fèi)8600萬(wàn)美元,也沒(méi)覺(jué)得,經(jīng)過(guò)本地化訓(xùn)練的開(kāi)源工具比BlueNet系統(tǒng)(第三方技術(shù)服務(wù))的準(zhǔn)確性低。
Tait預(yù)計(jì),這筆預(yù)算其中一部分還包括:對(duì)幾個(gè)遺留數(shù)據(jù)庫(kù)和軟件應(yīng)用程序的更新,以支持每秒對(duì)每輛車(chē)進(jìn)行高頻率、低延遲的車(chē)牌查詢(xún)。
另一方面,如果每輛車(chē)的識(shí)別成本在39.1萬(wàn)美元左右,確實(shí)挺貴,尤其是如果BlueNet系統(tǒng)的識(shí)別結(jié)果并非特別準(zhǔn)確,而且沒(méi)有大規(guī)模的IT項(xiàng)目停產(chǎn)或升級(jí)相關(guān)系統(tǒng)的情況下,根本花不了那么多錢(qián)。
試想一下,未來(lái)這種車(chē)牌識(shí)別系統(tǒng)可以有很多應(yīng)用場(chǎng)景。譬如,系統(tǒng)自動(dòng)掃描綁匪之后,自動(dòng)報(bào)警并告知家屬綁匪當(dāng)前的位置和方向,那該有多酷。
如今特斯拉汽車(chē)已經(jīng)配置了攝像頭和傳感器,能夠接收OTA更新,這就相當(dāng)于目擊者。當(dāng)然,Uber和Lyft司機(jī)也可以配備這些設(shè)備,來(lái)增加安全性。
簡(jiǎn)而言之,使用開(kāi)源技術(shù)和現(xiàn)有組件,似乎有可能提供一個(gè)回報(bào)率更高、更省錢(qián)的解決方案,投資遠(yuǎn)遠(yuǎn)低于8600萬(wàn)美元哦!
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線(xiàn)性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話(huà)問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。