維多利亞警察局是澳大利亞維多利亞州的主要執(zhí)法機構(gòu)。在過去一年里,州內(nèi)共有1.6萬多輛車被盜,涉案費用約1.7億美元,對此維多利亞警方十分頭疼,開始嘗試技術(shù)手段去抓偷車賊。
為防止被盜汽車被進一步欺詐性銷售,維州公路局先是啟用了一項網(wǎng)絡(luò)服務(wù),以檢查車輛注冊狀況,接著又打算投資研發(fā)一套汽車牌照掃描儀——基于計算機視覺識別系統(tǒng)、可掃描過往車輛、自動識別被盜汽車的固定三腳架攝像機。
然而整套裝置價格高昂,約8600萬美元。有業(yè)內(nèi)評論員分析,要想將這個成本共計8600萬美元的系統(tǒng)配置在220輛車上,相當(dāng)于每輛車支出390909美元。
警方的舉措引起了網(wǎng)友Tait Brown的注意。Tait是一名開發(fā)者和設(shè)計師,他覺得維州警局的做法太浪費錢,于是突發(fā)奇想,準(zhǔn)備用開源技術(shù)動手做一個車牌掃描儀模型,如果車輛被盜或未被注冊,它就會自動通知車主。
圖:現(xiàn)有的車牌識別系統(tǒng)
在開始之前,Tait簡單列出了車牌掃描儀產(chǎn)品的三個關(guān)鍵點。
將直播視頻流傳給中央處理器,似乎是解決問題最差的方法了。因為這除了會產(chǎn)生昂貴的數(shù)據(jù)流量費,還會加劇網(wǎng)絡(luò)延遲問題。
盡管,集中式的機器學(xué)習(xí)算法很有效,因為系統(tǒng)會隨著深度學(xué)習(xí)的過程而變得更精確,但Tait更想知道,如果在本地設(shè)備實現(xiàn)這一功能是否就已經(jīng)“足夠好”。
由于Tait手頭沒有Raspberry Pi(樹莓派,微型電腦)攝像頭或USB網(wǎng)絡(luò)攝像頭,所以他就用現(xiàn)成的Dashcam鏡頭替代——一個隨時可用的樣本數(shù)據(jù)來源,Dashcam鏡頭還有一個好處,它的視頻成像效果,與車載攝像頭所拍攝的視頻質(zhì)量差不多。
如果依賴于一個專有軟件打造設(shè)備,意味著后續(xù)每一次請求都將付費。相比之下,開源技術(shù)省錢是毋庸置疑的。
整個解決方案很簡單
產(chǎn)品設(shè)計好了以后,就可以操作了。Tait的解決方案是,從Dashcam視頻中獲取圖像,然后通過一個本地安裝在車牌掃描儀設(shè)備上的開源車牌識別系統(tǒng)抓取圖像,來查詢汽車的注冊檢查服務(wù),并顯示結(jié)果。
傳輸?shù)桨惭b在執(zhí)法車輛的設(shè)備數(shù)據(jù)包括:汽車出廠型號(只有汽車被盜時才會核實)、注冊狀態(tài)以及車輛被盜時的通知報告。
聽起來是不是很簡單。例如,圖像處理都可以交由openalpr庫處理。這涉及到識別車牌上的字符:
PS:公共訪問維州公路局的API接口是不可用的,因此Tait從官方網(wǎng)絡(luò)下載數(shù)據(jù),來進行車牌識別測試。
以下是他測試的過程:
但結(jié)果出乎意料的準(zhǔn)確
測試結(jié)果讓Tait感到驚喜。他此前還擔(dān)心用開源系統(tǒng)識別車牌的效果會不理想,并且圖像識別算法很可能并未針對澳大利亞車牌進行優(yōu)化。
然而最終的解決方案卻能夠在寬廣的視野中識別車牌。
圖:反光和攝像頭失真也不影響車牌識別
不過難以避免的,解決方案有時候也會出錯。
圖:讀數(shù)不正確,誤將M識別為H
但是,解決方案最終還是會糾正錯誤,給出正確反饋。
圖:幾幀后,M已被正確識別,而且有著更高的置信度評分
如以上兩張圖所示,圖像處理的置信度評分從原來的87%上升到了91%以上。
這讓Tait確信,通過提高采樣率可以提高準(zhǔn)確率,然后按最高置信度進行排序?;蛘?,也可以調(diào)整閾值,設(shè)置成僅在置信度大于90%的情況下才接受汽車牌照號的驗證。
這些都是很直接的代碼優(yōu)先解決方案(code-first),并且不排除使用本地數(shù)據(jù)集,來訓(xùn)練車牌識別軟件。
關(guān)于8600萬美元的問題
做完了以上試驗之后,Tait完全想不明白為什么要花費8600萬美元,也沒覺得,經(jīng)過本地化訓(xùn)練的開源工具比BlueNet系統(tǒng)(第三方技術(shù)服務(wù))的準(zhǔn)確性低。
Tait預(yù)計,這筆預(yù)算其中一部分還包括:對幾個遺留數(shù)據(jù)庫和軟件應(yīng)用程序的更新,以支持每秒對每輛車進行高頻率、低延遲的車牌查詢。
另一方面,如果每輛車的識別成本在39.1萬美元左右,確實挺貴,尤其是如果BlueNet系統(tǒng)的識別結(jié)果并非特別準(zhǔn)確,而且沒有大規(guī)模的IT項目停產(chǎn)或升級相關(guān)系統(tǒng)的情況下,根本花不了那么多錢。
試想一下,未來這種車牌識別系統(tǒng)可以有很多應(yīng)用場景。譬如,系統(tǒng)自動掃描綁匪之后,自動報警并告知家屬綁匪當(dāng)前的位置和方向,那該有多酷。
如今特斯拉汽車已經(jīng)配置了攝像頭和傳感器,能夠接收OTA更新,這就相當(dāng)于目擊者。當(dāng)然,Uber和Lyft司機也可以配備這些設(shè)備,來增加安全性。
簡而言之,使用開源技術(shù)和現(xiàn)有組件,似乎有可能提供一個回報率更高、更省錢的解決方案,投資遠遠低于8600萬美元哦!
好文章,需要你的鼓勵
北航團隊推出Easy Dataset框架,通過直觀的圖形界面和角色驅(qū)動的生成方法,讓普通用戶能夠輕松將各種格式文檔轉(zhuǎn)換為高質(zhì)量的AI訓(xùn)練數(shù)據(jù)。該工具集成了智能文檔解析、混合分塊策略和個性化問答生成功能,在金融領(lǐng)域?qū)嶒炛酗@著提升了AI模型的專業(yè)表現(xiàn),同時保持通用能力。項目已開源并獲得超過9000顆GitHub星標(biāo)。
盧森堡計算機事件響應(yīng)中心開發(fā)的VLAI系統(tǒng),基于RoBERTa模型,能夠通過閱讀漏洞描述自動判斷危險等級。該系統(tǒng)在60萬個真實漏洞數(shù)據(jù)上訓(xùn)練,準(zhǔn)確率達82.8%,已集成到實際安全服務(wù)中。研究采用開源方式,為網(wǎng)絡(luò)安全專家提供快速漏洞風(fēng)險評估工具,有效解決了官方評分發(fā)布前的安全決策難題。
中國電信研究院等機構(gòu)聯(lián)合開發(fā)的xVerify系統(tǒng),專門解決復(fù)雜AI推理模型的評估難題。該系統(tǒng)能夠準(zhǔn)確判斷包含多步推理過程的AI輸出,在準(zhǔn)確率和效率方面均超越現(xiàn)有方法,為AI評估領(lǐng)域提供了重要突破。
昆侖公司Skywork AI團隊開發(fā)的Skywork R1V模型,成功將文本推理能力擴展到視覺領(lǐng)域。該模型僅用380億參數(shù)就實現(xiàn)了與大型閉源模型相媲美的多模態(tài)推理性能,在MMMU測試中達到69.0分,在MathVista獲得67.5分,同時保持了優(yōu)秀的文本推理能力。研究團隊采用高效的多模態(tài)遷移、混合優(yōu)化框架和自適應(yīng)推理鏈蒸餾三項核心技術(shù),成功實現(xiàn)了視覺理解與邏輯推理的完美結(jié)合,并將所有代碼和權(quán)重完全開源。