上海,中國 – 2021年1月19日- 在國際權(quán)威的多目標(biāo)跟蹤挑戰(zhàn)(Multiple Object Tracking Challenge,MOT)MOT20榜單上,紫光展銳多媒體算法的mota指標(biāo)超過70分,拿下全球冠軍。這也是MOT20 Challenge榜單上唯一一家超過70分的企業(yè),彰顯了紫光展銳在多目標(biāo)跟蹤領(lǐng)域的業(yè)界領(lǐng)先水平。
MOT Challenge是多目標(biāo)跟蹤領(lǐng)域最權(quán)威的國際測(cè)評(píng)平臺(tái),由慕尼黑工業(yè)大學(xué)、阿德萊德大學(xué)、蘇黎世聯(lián)邦理工學(xué)院以及達(dá)姆施塔特工業(yè)大學(xué)聯(lián)合創(chuàng)辦。MOT Challenge 提供了非常準(zhǔn)確的標(biāo)注數(shù)據(jù)和全面的評(píng)估指標(biāo),用以評(píng)估跟蹤算法、行人檢測(cè)器的性能。
其中,MOT 20 benchmark包含8份新的視頻序列、密集且極具挑戰(zhàn)性的場(chǎng)景。這份數(shù)據(jù)集在4th BMTT MOT Challenge Workshop,CVPR 2019上首次發(fā)布,平均每幀高達(dá)246個(gè)行人,相比之前的挑戰(zhàn)賽數(shù)據(jù)集增加了夜晚數(shù)據(jù)集,對(duì)現(xiàn)有SOTA的MOT算法在解決極端稠密場(chǎng)景、算法泛化性等方面提出了艱巨挑戰(zhàn)。
紫光展銳在多媒體算法中針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、損失函數(shù)、訓(xùn)練數(shù)據(jù)處理等方面進(jìn)行了大量的創(chuàng)新和探索。針對(duì)競賽中訓(xùn)練集沒有涉及到的場(chǎng)景,紫光展銳創(chuàng)新性的采用端到端同時(shí)檢測(cè)、行人識(shí)別策略,保障了算法在實(shí)際落地時(shí)的實(shí)時(shí)性,同時(shí)針對(duì)不同的端側(cè)算力靈活調(diào)整網(wǎng)絡(luò)大小,可靈活配套多種芯片方案的部署。
同時(shí)參與本次競賽的還包括牛津大學(xué)、卡耐基梅隆大學(xué)、清華大學(xué)、慕尼黑工業(yè)大學(xué)、中科院、微軟等多家企業(yè)、大學(xué)和科研機(jī)構(gòu)的相關(guān)團(tuán)隊(duì)。
多目標(biāo)追蹤技術(shù)作為承載監(jiān)控、車載、無人機(jī)、賽事直播等應(yīng)用的關(guān)鍵技術(shù),可準(zhǔn)確捕捉視頻中的關(guān)鍵信息,為進(jìn)一步的信息提取提供支持,將在智慧城市、物聯(lián)網(wǎng)等領(lǐng)域得到越來越廣泛的應(yīng)用。
在智能監(jiān)控場(chǎng)景中,算法可實(shí)現(xiàn)復(fù)雜場(chǎng)景下的目標(biāo)自動(dòng)提取、跟蹤、識(shí)別,理解目標(biāo)的活動(dòng)狀態(tài),進(jìn)而實(shí)現(xiàn)場(chǎng)景狀態(tài)監(jiān)測(cè)、識(shí)別等。多目標(biāo)追蹤技術(shù)的應(yīng)用可大幅減少人工重復(fù)勞動(dòng)、提高工作效率和監(jiān)控系統(tǒng)的智能性、安全性;在賽事直播場(chǎng)景中,算法可自動(dòng)提取運(yùn)動(dòng)員的運(yùn)動(dòng)狀態(tài),從而實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)、自動(dòng)導(dǎo)播等功能,挖掘更多的數(shù)據(jù)價(jià)值;在智能車載場(chǎng)景中,算法可獲取道路中車輛、行人的運(yùn)動(dòng)信息,為自動(dòng)駕駛、安全輔助等應(yīng)用提供必要的決策數(shù)據(jù)支持。
圖像算法正在深度融合到越來越多的垂直行業(yè),形成乘法效應(yīng),衍生出創(chuàng)新的業(yè)務(wù)和應(yīng)用,讓人們的生活更加美好和便捷。
MOT challenge榜單官網(wǎng):https://motchallenge.net/results/MOT20/?det=All
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。