av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 微軟字符識(shí)別新研究:OCR提升自然場(chǎng)景下文字識(shí)別度

微軟字符識(shí)別新研究:OCR提升自然場(chǎng)景下文字識(shí)別度

2015-04-01 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2015-04-01 16:49 ? CNET科技資訊網(wǎng)

把手機(jī)攝像頭對(duì)準(zhǔn)菜單上的法語(yǔ)菜名,屏幕上實(shí)時(shí)顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉(zhuǎn)化為電子書;街景車游走于大街小巷,拍攝街景的同時(shí)也從街景圖像中自動(dòng)提取文字標(biāo)識(shí),讓地圖信息更豐富更準(zhǔn)確……這些場(chǎng)景的背后有一個(gè)共同的關(guān)鍵技術(shù)——OCR (Optical Character Recognition),光學(xué)字符識(shí)別。

OCR讓電腦“讀”懂世界

鼠標(biāo)發(fā)明人Douglas Engelbart曾經(jīng)針對(duì)人工智能的簡(jiǎn)稱AI提出了另一個(gè)理念——Augmented Intelligence,即增強(qiáng)智能。在他看來(lái),人已經(jīng)足夠聰明,我們無(wú)需再去復(fù)制人類,而是可以從更加實(shí)用的角度,將人類的智能進(jìn)一步延伸,讓機(jī)器去增強(qiáng)人的智能。

智能眼鏡就是這樣的產(chǎn)品,去超市的時(shí)候帶上一副,看到心儀商品上的文字,自動(dòng)搜索出詳細(xì)信息:生產(chǎn)商情況、在不同電商平臺(tái)的價(jià)格等等。讓智能眼鏡讀懂文字的正是OCR技術(shù)。OCR本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像,今天可以是手機(jī)、照相機(jī),未來(lái)可以是智能眼鏡、可穿戴設(shè)備等,就像人的眼睛一樣,只要有文字,就去認(rèn)出來(lái)。

我們也可以設(shè)想一下OCR在未來(lái)工作中的應(yīng)用場(chǎng)景:每次工作會(huì)議后,無(wú)需再把白板上的討論內(nèi)容抄寫下來(lái),然后群發(fā)郵件布置任務(wù),只要將白板用手機(jī)等智能設(shè)備拍照留存,系統(tǒng)便能自動(dòng)識(shí)別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項(xiàng)自動(dòng)存放到各自的電子日歷中。

事實(shí)上,我們已經(jīng)向這個(gè)場(chǎng)景邁進(jìn)了一步,微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過(guò)視覺(jué)計(jì)算技術(shù)自動(dòng)對(duì)圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對(duì)圖片進(jìn)行文字識(shí)別,隨后你就可以擁有一個(gè)可編輯、可搜索的數(shù)字文件,為上述未來(lái)應(yīng)用場(chǎng)景打下基礎(chǔ)。微軟幾年前推出的手機(jī)應(yīng)用Translator,除了支持文本和語(yǔ)音翻譯外,還能用手機(jī)拍攝不同語(yǔ)言的菜單或指示牌,翻譯結(jié)果立即浮現(xiàn)于原文之上。Office Lens和Translator這兩款產(chǎn)品中的“中日韓”OCR核心技術(shù)就來(lái)自微軟亞洲研究院的語(yǔ)音團(tuán)隊(duì)。

微軟OCR兩層優(yōu)化提升自然場(chǎng)景下的文字識(shí)別精度

OCR (Optical Character Recognition,光學(xué)字符識(shí)別)就是這樣的一項(xiàng)技術(shù),它的本質(zhì)上是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,將人眼的能力延伸到機(jī)器上。本文將介紹OCR技術(shù)在移動(dòng)環(huán)境下面臨的新挑戰(zhàn),以及在自然場(chǎng)景圖像下微軟研究院文字識(shí)別技術(shù)的進(jìn)展。

OCR的新挑戰(zhàn)

回過(guò)頭來(lái)看,OCR技術(shù)經(jīng)歷了怎樣的發(fā)展歷程呢?早在20世紀(jì)50年代,IBM就開(kāi)始利用OCR技術(shù)實(shí)現(xiàn)各類文檔的數(shù)字化,早期的OCR設(shè)備龐大而復(fù)雜,只能處理干凈背景下的某種印刷字體。20世紀(jì)80年代,平板掃描儀的誕生讓OCR進(jìn)入商用階段,設(shè)備更為輕便靈巧,可以處理的字體數(shù)量也增多,但對(duì)文字的背景要求仍然很高,需要很好的成像質(zhì)量。

平板掃描儀對(duì)印刷體文本的識(shí)別率在20世紀(jì)90年代就已經(jīng)達(dá)到99%以上,可謂OCR應(yīng)用迎來(lái)的第一個(gè)高潮。當(dāng)時(shí)最著名事件是谷歌數(shù)字圖書館,谷歌還申請(qǐng)了圖書掃描專利,實(shí)現(xiàn)了批量化的高速掃描。在此期間,手寫字體的識(shí)別也在并行發(fā)展,被廣泛用于郵件分揀、支票分類、手寫表格數(shù)字化等領(lǐng)域。

這樣的成就一度讓大家誤以為OCR技術(shù)已經(jīng)登峰造極,但從21世紀(jì)開(kāi)始,準(zhǔn)確地說(shuō)是自從2004年擁有300萬(wàn)像素?cái)z像頭的智能手機(jī)誕生之日起,這一情況發(fā)生了根本改變。越來(lái)越多的人隨手拿起手機(jī)拍攝所看到的事物和場(chǎng)景,而此類自然場(chǎng)景中的文字識(shí)別難度遠(yuǎn)遠(yuǎn)高于平板掃描儀時(shí)期,即便是印刷字體,也不能得到很高的識(shí)別率,更別說(shuō)手寫體了。學(xué)術(shù)界因此將自然場(chǎng)景中的文字識(shí)別作為全新的課題來(lái)對(duì)待。

與此同時(shí),云計(jì)算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,實(shí)現(xiàn)了智能手機(jī)的24小時(shí)在線,前端采用手機(jī)攝像頭進(jìn)行文字捕捉,后端可以對(duì)其進(jìn)行實(shí)時(shí)分析和處理,二者的結(jié)合讓OCR的未來(lái)應(yīng)用模式充滿想象。因此,對(duì)OCR的研究再度成為學(xué)術(shù)界的焦點(diǎn),無(wú)論是前端識(shí)別技術(shù)還是后端的關(guān)聯(lián)應(yīng)用領(lǐng)域,都有著無(wú)限可能。

自然場(chǎng)景下的文字檢測(cè)獲突破性進(jìn)展

自然場(chǎng)景圖像中的文字識(shí)別大大難于掃描儀圖像中的文字識(shí)別,因?yàn)樗哂袠O大的多樣性和明顯的不確定性。如文字中包含多種語(yǔ)言,每種語(yǔ)言含有多種字母,每個(gè)字母又可以有不同的大小、字體、顏色、亮度、對(duì)比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和對(duì)齊方式,橫向、豎向、彎曲都有可能;因拍攝圖像的隨意性,圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視和仿射變換)、殘缺、模糊斷裂等現(xiàn)象。

微軟字符識(shí)別新研究:OCR提升自然場(chǎng)景下文字識(shí)別度

自然場(chǎng)景圖片中的文字多樣性示例

與傳統(tǒng) OCR 技術(shù)中的掃描文檔圖像相比,自然場(chǎng)景圖像的背景更為復(fù)雜。如文字可能不是寫在平面上而是在曲面上;文字區(qū)域附近有非常復(fù)雜的紋理和噪聲;圖像中的非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹(shù)葉、柵欄、磚墻等。這些復(fù)雜背景會(huì)極大增加誤檢率。

由于自然場(chǎng)景下的文字識(shí)別難度大,微軟亞洲研究院團(tuán)隊(duì)對(duì)相關(guān)技術(shù)和算法進(jìn)行了針對(duì)性的優(yōu)化和創(chuàng)新,從三個(gè)方面對(duì)文本檢測(cè)技術(shù)進(jìn)行了改進(jìn),并取得突破。通常,OCR識(shí)別的步驟可以分為兩步:首先是文本檢測(cè)(Text detection),將文字從圖片中提取出來(lái);然后,對(duì)文本進(jìn)行識(shí)別(Recognition),此次的突破主要是在文本檢測(cè)環(huán)節(jié)的兩個(gè)子階段。

階段①:采用對(duì)比極值區(qū)域CER檢測(cè)方法

一個(gè)字母或文字通??梢苑譃槿舾蓚€(gè)連通區(qū)域,如o就擁有一個(gè)連通區(qū)域,i則擁有兩個(gè)連通區(qū)域,文本檢測(cè)首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,然后再對(duì)其進(jìn)行文字/非文字分類。

在確定候選連通區(qū)域階段,微軟亞洲研究院團(tuán)隊(duì)在傳統(tǒng)檢測(cè)方法ER(Extremal Region,極值區(qū)域)和MSER(Maximally Stable Extremal Region,最大平穩(wěn)極值區(qū)域)基礎(chǔ)之上采用了對(duì)比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對(duì)比度的極值區(qū)域,這個(gè)對(duì)比度至少要強(qiáng)到能夠被人眼感知到,在低對(duì)比度的圖像上比MSER效果更好,而且獲得的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,候選范圍大大縮小,提高了算法的效率。

為了提高所獲得的候選連通區(qū)域的質(zhì)量,微軟亞洲研究院團(tuán)隊(duì)決定增加一個(gè)算法環(huán)節(jié)去增強(qiáng)CER。尤其在圖像模糊、分辨率低或者噪聲較多時(shí),提取出來(lái)的CER有可能會(huì)含有冗余像素或者噪聲,這些冗余像素或者噪聲的存在會(huì)使得后面的文字/非文字分類問(wèn)題變得更為復(fù)雜。

采用基于感知的光照不變(Perception-based Illumination Invariant, PII)顏色空間中的顏色信息去增強(qiáng)CER可算是此次算法優(yōu)化的另一個(gè)創(chuàng)新之舉,利用顏色信息盡可能濾除CER中的冗余像素或者噪聲,從而得到Color-enhanced CER。該顏色空間具有視覺(jué)感知一致性,而且對(duì)光照不敏感,更接近人眼對(duì)顏色的判斷。

在實(shí)際操作中,并不是每個(gè)CER都需要通過(guò)顏色信息來(lái)增強(qiáng),因?yàn)橛泻芏郈ER本身顏色均勻,沒(méi)有噪聲,尤其是在圖片質(zhì)量很高的時(shí)候。因此,在對(duì)CER進(jìn)行增強(qiáng)操作之前我們會(huì)先判斷該CER是否需要增強(qiáng)操作,以減少不必要的計(jì)算復(fù)雜度。

對(duì)CER的顏色增強(qiáng)效果示例

算法提取出來(lái)的候選連通區(qū)域結(jié)果示例

階段②:基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法

當(dāng)獲得了高質(zhì)量的候選連通區(qū)域,就需要對(duì)其中的字符進(jìn)行分辨,確定其是否為文字或非文字,微軟亞洲研究院團(tuán)隊(duì)提出了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,比以往的算法更加有效。

該算法根據(jù)文字本身的特性采用分治策略將原始問(wèn)題空間劃分為5個(gè)子空間,每個(gè)子空間對(duì)應(yīng)一類文字樣本,分別命名為L(zhǎng)ong類,Thin類,F(xiàn)ill類,Square-large類和 Square-small類(如下圖所示),于是每個(gè)候選連通區(qū)域被劃分到這5類中的一種。

文字類問(wèn)題空間劃分示例

在每個(gè)子空間中,微軟亞洲研究院團(tuán)隊(duì)利用無(wú)歧義學(xué)習(xí)策略訓(xùn)練一個(gè)相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,我們可以將該神經(jīng)網(wǎng)絡(luò)看作是一個(gè)黑盒子,在經(jīng)過(guò)大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。

每次分類動(dòng)作包括兩個(gè)階段——預(yù)剪枝(Pre-pruning)階段和驗(yàn)證(Verification)階段。在預(yù)剪枝階段,分類器的任務(wù)是盡可能濾除無(wú)歧義的非文字候選連通區(qū)域;在驗(yàn)證階段,則通過(guò)引入更多信息來(lái)消除孤立連通區(qū)域的歧義性,從而進(jìn)一步濾除有歧義的非文字候選連通區(qū)域。

改進(jìn)的有效性得到了驗(yàn)證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國(guó)際模式識(shí)別大會(huì)(ICPR)上,微軟亞洲研究院團(tuán)隊(duì)公布的研究成果在自然場(chǎng)景文字檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR-2013測(cè)試集)上取得了92.1%的檢測(cè)精度和92.3%的召回率。此前業(yè)界最好技術(shù)的檢測(cè)精度是88.5%,而召回率只有66.5%,多年來(lái)這些數(shù)字每年增長(zhǎng)只有幾個(gè)百分點(diǎn)。

應(yīng)用前景分析

人類需求牽引科技發(fā)展走到今天,智慧的無(wú)限延伸決定了世界的無(wú)限潛能。10年前的簡(jiǎn)單通訊工具手機(jī)如今已成為智慧生活的伴侶,曾經(jīng)只被掃描儀應(yīng)用的OCR技術(shù)亦已煥發(fā)新機(jī)。隨著OCR研究工作的不斷突破,云計(jì)算、大數(shù)據(jù)以及通訊網(wǎng)絡(luò)的快速發(fā)展,以及智能眼鏡、可穿戴設(shè)備等智能設(shè)備的推陳出新,OCR的應(yīng)用也將充滿無(wú)限機(jī)會(huì)、無(wú)限可能性。

我們也可以設(shè)想一下OCR在未來(lái)工作中的應(yīng)用場(chǎng)景:每次工作會(huì)議后,無(wú)需再把白板上的討論內(nèi)容抄寫下來(lái),然后群發(fā)郵件布置任務(wù),前端只要將白板用手機(jī)等智能設(shè)備拍照留存,后端可以對(duì)其進(jìn)行實(shí)時(shí)分析和處理,系統(tǒng)便能自動(dòng)識(shí)別并分檢出相關(guān)人員的后續(xù)工作,并將待辦事項(xiàng)自動(dòng)存放到各自的電子日歷中。

事實(shí)上,基于微軟亞洲研究院的OCR核心技術(shù),微軟前不久推出的Office Lens應(yīng)用,已經(jīng)可以通過(guò)視覺(jué)計(jì)算技術(shù)自動(dòng)對(duì)圖像進(jìn)行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術(shù)將對(duì)圖片進(jìn)行文字識(shí)別,隨后用戶就可以擁有一個(gè)可編輯、可搜索的數(shù)字文件,這為上述未來(lái)應(yīng)用場(chǎng)景打下了基礎(chǔ)。

作者簡(jiǎn)介:

霍強(qiáng)博士,微軟亞洲研究院首席研究員

Qiang Huo is a Principal Research Manager of Speech Group in Microsoft Research Asia (MSRA), Beijing, China. Prior to joining MSRA in August 2007, he had been a faculty member at the Department of Computer Science, The University of Hong Kong since 1998. From 1995 to 1997, Dr. Huo worked at Advanced Telecommunications Research Institute (ATR) in Kyoto, Japan. In the past 30 years, he has been doing research and making contributions in the areas of speech recognition, handwriting recognition, OCR, gesture recognition, biometric-based user authentication, hardware design for speech and image processing.

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-