CNET科技資訊網(wǎng) 8月15日 北京消息: 昨天,小米科技聯(lián)合創(chuàng)始人黃江吉在微博上宣布小米人臉檢測算法團隊研發(fā)的新算法在FDDB人臉檢測準確率榜上取得排名第一,隨后小米科技董事長兼CEO雷軍也第一時間轉(zhuǎn)發(fā)了這條微博,指出FDDB是由馬薩諸塞大學計算機系維護的全世界最具權威的人臉檢測評測平臺,并恭喜小米研發(fā)人員取得全球第一成績。
這項以萬韶華博士為首的小米團隊研發(fā)的新算法基于深度卷積檢測網(wǎng)絡(Faster RCNN Bootstrapped by Hard Negative Mining),它的作用簡單說就是,利用深度卷積檢測網(wǎng)絡,同時學習人臉和非人臉特征,從而準確識別出人臉的位置和大小。下圖是FDDB官網(wǎng)上最新公布的人臉檢測準確率召回率曲線圖,橫軸表示誤檢人臉數(shù),縱軸表示檢出率。曲線越陡峭,曲線上的點越接近(0,1),表示檢測器性能越好。從離散情況來看,小米團隊在人臉識別檢出率上明顯高于其他研究團隊。
FDDB (Face Detection Data Set and Benchmark),是由馬薩諸塞大學計算機系維護的一套公開數(shù)據(jù)庫,為來自全世界的研究者提供一個標準的人臉檢測評測平臺,其中涵蓋在自然環(huán)境下的各種姿態(tài)的人臉。像百度、騰訊、360等國內(nèi)互聯(lián)網(wǎng)大公司也都建立了人臉檢測算法團隊,積極參與FDDB平臺的評測。小米的研發(fā)團隊能夠在眾多的國內(nèi)外團隊中脫穎而出,取得全球排行榜第一,標志著小米在人臉檢測評測方面取得了突破性的進展。
目前小米云相冊服務每天存儲量已達1.2億張,總量超過500億張。未來小米人臉檢測新算法會在優(yōu)化及測試后替代老的算法,會有助于小米手機用戶使用相冊服務時檢測到更多的人臉。
2015年6月5日,MIUI發(fā)布了一個新功能——面孔相冊。小米云相冊利用圖像分析技術,可以自動地對云相冊照片內(nèi)容按照面孔進行分類整理。憑借此項技術實現(xiàn),小米成為國內(nèi)首家在手機系統(tǒng)層面發(fā)布該功能的手機廠商,極大地提高了用戶在茫茫手機相冊中找人的效率。
小米的早期員工都是來自于谷歌、微軟、金山等國內(nèi)外優(yōu)秀的高科技公司,這次取得世界領先水平的研究成果,也首次將其從事人臉算法研發(fā)的團隊曝光,通過領英網(wǎng)站上可以查詢到這一新算法項目的帶頭人萬韶華博士畢業(yè)于美國得克薩斯州立大學奧斯汀分校計算機視覺專業(yè),由此可見小米已經(jīng)吸引到不少高水平的計算機視覺領域科研人員。
人臉檢測技術是很多技術與應用的基礎,既需要大量數(shù)據(jù),也需要強大的算法與其匹配。小米本來已經(jīng)在大數(shù)據(jù)+云服務方面走在各國產(chǎn)手機廠商的前面,這次在人臉檢測算法上達到世界第一的水平,也預示著小米在人臉識別、圖像理解和分類等方面正在逐漸積累自己的科技創(chuàng)新成果,未來有助于形成新的產(chǎn)品競爭力。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。