蘋果Siri在語音識別技術(shù)領(lǐng)域引領(lǐng)了一次革命,但遠遠不夠。語音識別技術(shù)要全面影響人機交互,必須要讓語音識別技術(shù)普及到每一個國家、每一個地區(qū)、每一個人。特別是當(dāng)前智能終端的高速發(fā)展,可穿戴設(shè)備、無人駕駛汽車、智能電視、智能家居……更需要懂得不同地域自然人的語言。
德國知名學(xué)者威廉·馮·洪堡曾說過:“每種語言都反映了一個民族的精神和智慧。”盡管文字、圖片、動作、表情等能傳遞人們的思想,但語言是其中最重要的媒介,是人類文明多樣化成果的載體。保護民族語言和搶救瀕危語言就是保護多樣性的民族文化,同時也是保障各民族成員的平等權(quán)利。
我國56個民族有多達129種獨立語言,特定使用區(qū)域和人群具有不同發(fā)音、詞匯和語法體系,除了統(tǒng)一標(biāo)準的普通話,諸多地方方言素有“十里不同音”之說。針對這一現(xiàn)象科大訊飛最新研發(fā)了前沿的方言語音識別技術(shù),讓機器能夠聽懂粵語、四川話、東北話、上海話、閩南話、湖南話、河南話等各地方言,極大滿足了各行業(yè)需求。
那么,科大訊飛此項技術(shù)是如何突破方言識別難題的?從基本層面來看,普通話有400個單音節(jié)聲音,根據(jù)聲調(diào)予以區(qū)別;而方言發(fā)音則相對復(fù)雜,需要根據(jù)不同發(fā)音特性采用不同的特征識別方法,大致為:聲類特征識別、韻類特征識別、調(diào)類特征識別和方言詞匯識別??拼笥嶏w針對方言定制出專有語音識別引擎,使用純正的方言語料庫進行訓(xùn)練,確保能夠用于口音較重的方言用戶使用。
從2012年起,訊飛語音云在聲學(xué)和語言建模中取得很多成果,同時在噪音和口音等方面都突破了技術(shù)難題,在全行業(yè)遙遙領(lǐng)先。“方言語音識別”是公司在云計算語音聽寫技術(shù)基礎(chǔ)上,為擴大語音使用群體,滿足不同地域用戶自然便捷的語音使用需求而進行的技術(shù)創(chuàng)新,具有自適應(yīng)性和穩(wěn)定性。該技術(shù)成果將形成明顯的差異化競爭優(yōu)勢,為公司主營業(yè)務(wù)帶來積極影響,還能提高相關(guān)應(yīng)用的用戶黏性。
一般而言語音識別技術(shù)最先應(yīng)用于語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、簡單的聽寫數(shù)據(jù)錄入等,但此次方言語音識別技術(shù)將率先應(yīng)用于手機輸入法,并逐步推廣到其他應(yīng)用中。目前,智能手機和平板電腦都已拋棄鼠標(biāo)鍵盤,語音輸入正成為日常習(xí)慣,對老人和小孩都很適用;同時,手機輸入法作為移動互聯(lián)網(wǎng)新型入口,面向休閑娛樂、商務(wù)辦公、人際交流、教育教學(xué)等生活中的方方面面,具有海量的使用人群,能夠更快的提升應(yīng)用能力。因此,手機輸入法是語音應(yīng)用的最好形態(tài)。
方言語音識別技術(shù)是繼離線語音之后科大訊飛又一次率先推出的革命性技術(shù),除了支持中文普通話、英文,方言語音識別能夠讓更多用戶擁有近乎完美、沒有錯誤的語音輸入體驗。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。