CNET科技行者 8月10日 北京消息(文/周雅):就在一周前搜狗宣布赴美上市計(jì)劃的當(dāng)天,搜狗公司CEO王小川在員工內(nèi)部信中寫(xiě)了這樣一句話:“已經(jīng)沒(méi)有人會(huì)懷疑搜狗的生存問(wèn)題了,唯一的懸念是搜狗是否能在搜索領(lǐng)域?qū)崿F(xiàn)顛覆,是否能在人工智能領(lǐng)域引領(lǐng)重大的創(chuàng)新。”一時(shí)間,王小川的“懸念”成為看點(diǎn)——8月8日,搜狗正式迎來(lái)了第一款語(yǔ)音技術(shù)產(chǎn)品“搜狗聽(tīng)寫(xiě)”。
搜狗聽(tīng)寫(xiě)的定位是“文字工作者的速記工具”。針對(duì)寫(xiě)文章、采訪錄音、會(huì)議記錄、筆記整理 、日常記事等場(chǎng)景,以實(shí)現(xiàn)高效記錄和信息輸入。
搜狗聽(tīng)寫(xiě)最亮眼的功能在于“聽(tīng)寫(xiě)”和“轉(zhuǎn)寫(xiě)”兩種模式。“聽(tīng)寫(xiě)”模式下,錄音的同時(shí)可以實(shí)時(shí)識(shí)別結(jié)果;而“轉(zhuǎn)寫(xiě)”模式下則可以離線錄音,錄音完成后一次性獲取文字結(jié)果。
除此之外還有諸如支持手機(jī)邊聽(tīng)邊改、無(wú)線標(biāo)重點(diǎn)(藍(lán)牙打點(diǎn))、多客戶端同步、信息分享、摘要、斷點(diǎn)續(xù)錄等人性化功能,另外,針對(duì)圖書(shū)館、咖啡廳等安靜場(chǎng)所,搜狗聽(tīng)寫(xiě)提供耳語(yǔ)識(shí)別技術(shù)——人說(shuō)話音量低至30分貝時(shí),依然可以準(zhǔn)確識(shí)別。
被牛露云稱作“大殺器”的一個(gè)功能,是搜狗聽(tīng)寫(xiě)與搜狗輸入法的個(gè)人詞庫(kù)已經(jīng)打通,可以視為媒體撰稿人之間文字互通的功能。
關(guān)于下載,搜狗聽(tīng)寫(xiě)除了支持Android、IOS版本之外,還開(kāi)發(fā)了Windows版,Windows版特別針對(duì)會(huì)議場(chǎng)景,觀眾可以直接看到會(huì)議演講者的實(shí)時(shí)字幕,字幕可能是直接文字的轉(zhuǎn)寫(xiě)結(jié)果,也有可能是雙語(yǔ)、多語(yǔ)對(duì)照結(jié)果,觀眾甚至可以直接掃碼獲取當(dāng)天的錄音和文本結(jié)果。
這樣一款語(yǔ)音識(shí)別產(chǎn)品,實(shí)際上是基于深度學(xué)習(xí)技術(shù),以提升復(fù)雜場(chǎng)景識(shí)別效果。
說(shuō)到深度學(xué)習(xí),離不開(kāi)三要素:有沒(méi)有大數(shù)據(jù),有沒(méi)有好的深度學(xué)習(xí)算法,以及能不能讓深度學(xué)習(xí)算法在深度學(xué)習(xí)平臺(tái)上高效運(yùn)轉(zhuǎn)。
搜狗語(yǔ)音交互中心技術(shù)總監(jiān)陳偉介紹,關(guān)于大數(shù)據(jù),“搜狗輸入法每天語(yǔ)音識(shí)別的PV是2.6億次,產(chǎn)生的語(yǔ)料規(guī)模是22萬(wàn)小時(shí)。”關(guān)于算法,搜狗早期較多使用深度神經(jīng)網(wǎng)絡(luò),隨后嘗試了CN算法、LSTM的算法,現(xiàn)在轉(zhuǎn)為CN+LSTM+DN的端到端的算法,可以更高效,準(zhǔn)確率更高。
有了數(shù)據(jù)+算法,接下來(lái)就是運(yùn)算,如何高效的給出模型以快速部署到線上,關(guān)鍵在于搜狗的深度學(xué)習(xí)平臺(tái)。“我們可以在自有的深度學(xué)習(xí)平臺(tái)上調(diào)動(dòng)上百塊算卡,快速的給出模型。”陳偉說(shuō)。
實(shí)際上,目前市場(chǎng)不乏與搜狗聽(tīng)寫(xiě)同類(lèi)型的語(yǔ)音識(shí)別產(chǎn)品,譬如科大訊飛早期推出的訊飛聽(tīng)見(jiàn)等,相較而言,搜狗聽(tīng)寫(xiě)的差異化在哪?搜狗語(yǔ)音交互中心負(fù)責(zé)人王硯峰答道,搜狗聽(tīng)寫(xiě)存在優(yōu)勢(shì):
1、訊飛對(duì)應(yīng)的產(chǎn)品,如訊飛聽(tīng)見(jiàn)、訊飛錄音寶等,是不能支持長(zhǎng)時(shí)間錄音、并且免費(fèi)轉(zhuǎn)寫(xiě)的。而搜狗是首次做了長(zhǎng)時(shí)錄音設(shè)置,并且支持免費(fèi)轉(zhuǎn)寫(xiě)。
2、搜狗的產(chǎn)品是面向垂直場(chǎng)景,包括記者采訪的場(chǎng)景、作家寫(xiě)作的場(chǎng)景等等。這些功能雖小,但很關(guān)鍵,體現(xiàn)在具體場(chǎng)景下,怎么絞盡腦汁的想盡辦法,幫朋友解決問(wèn)題。
3、搜狗聽(tīng)寫(xiě)支持手機(jī)端和Windows,還有語(yǔ)音實(shí)時(shí)轉(zhuǎn)文字、邊聽(tīng)邊改、標(biāo)重點(diǎn)、快速查找、多端同步、不限時(shí)長(zhǎng)錄音等人性化功能。
4、依托搜狗日均超過(guò)2.6億次的語(yǔ)音請(qǐng)求,搜狗擁有海量的真實(shí)語(yǔ)料數(shù)據(jù),可以使機(jī)器不斷學(xué)習(xí),不斷提升識(shí)別準(zhǔn)確率,可應(yīng)用的場(chǎng)景也越來(lái)越廣泛。
對(duì)于搜狗轉(zhuǎn)寫(xiě)是否永久免費(fèi)這個(gè)問(wèn)題,王硯峰坦言,目前肯定是免費(fèi)的,至于之后會(huì)不會(huì)收費(fèi),并不完全確定。至少按照現(xiàn)有的產(chǎn)品形態(tài),可以肯定的是,在相當(dāng)長(zhǎng)時(shí)間內(nèi)不考慮使用這個(gè)產(chǎn)品來(lái)賺錢(qián)。“作為一家互聯(lián)網(wǎng)公司,通過(guò)技術(shù)來(lái)收取技術(shù)服務(wù)費(fèi)不是搜狗的商業(yè)邏輯。至少到現(xiàn)在為止,搜狗還不想通過(guò)產(chǎn)品收費(fèi)的方式來(lái)進(jìn)行商業(yè)變現(xiàn)。”
搜狗語(yǔ)音交互中心負(fù)責(zé)人王硯峰
搜狗聽(tīng)寫(xiě)不會(huì)是搜狗唯一的一款人工智能產(chǎn)品,在王小川的規(guī)劃中,人工智能是搜狗下一階段的重要戰(zhàn)略。
早在2012年,搜狗便開(kāi)始研發(fā)智能語(yǔ)音技術(shù),并開(kāi)始布局相關(guān)產(chǎn)品的落地。去年8月3日,搜狗舉行知音引擎發(fā)布會(huì),取得機(jī)器翻譯的突破。跟進(jìn)當(dāng)時(shí)世界上最領(lǐng)先的機(jī)器翻譯的深度學(xué)習(xí)框架(基于attion的端到端的框架),加上搜狗之前的語(yǔ)音識(shí)別基礎(chǔ),用3個(gè)月時(shí)間,搭建起知音引擎,成功的應(yīng)用于去年的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì),該引擎在今年5月份奪得WMT2017中英機(jī)器翻譯的全球冠軍;去年11月份,搜狗又推出機(jī)器同傳,率先商用化...
這樣的案例很多。比如搜狗去年年底推出的答題機(jī)器人“汪仔”,“汪仔”面向搜索引擎,實(shí)時(shí)的抓取海量信息,根據(jù)問(wèn)題的上下文,通過(guò)文本的分析、自然語(yǔ)言處理的能力,把用戶想要的答案提取出來(lái)。在今年5月份GMIS2017會(huì)上,“汪仔”與人工速記進(jìn)行了五輪PK,最終以4:1完勝。
“到現(xiàn)在為止,我們可以很堅(jiān)定的說(shuō),機(jī)器的識(shí)別能力與人工速記相比,已經(jīng)取得了本質(zhì)性的領(lǐng)先。”王硯峰說(shuō)。
然而盡管如此,語(yǔ)音識(shí)別同樣存在挑戰(zhàn)。王硯峰說(shuō),語(yǔ)音識(shí)別產(chǎn)品未來(lái)要解決的,一是遠(yuǎn)場(chǎng)的問(wèn)題——人與人之間的遠(yuǎn)距離喊話,大家可以聽(tīng)得很清楚,但機(jī)器的遠(yuǎn)距離識(shí)別是不好的;二是噪聲聲音識(shí)別問(wèn)題。
彼時(shí)搜狗的人工智能戰(zhàn)略還只是個(gè)輪廓:自然交互+知識(shí)計(jì)算,如今,輪廓變?yōu)榭蚣埽压芬呀?jīng)形成一個(gè)AI技術(shù)體系及平臺(tái)。
平臺(tái)由四個(gè)階層組成,底層是大數(shù)據(jù)和深度學(xué)習(xí)技術(shù);倒數(shù)第二層是語(yǔ)言的AI、語(yǔ)音的AI、圖像的AI——搜狗的核心是語(yǔ)言,圖像和語(yǔ)音都是圍繞語(yǔ)言的交互方式;再上一層就是應(yīng)用;最頂層就是搜狗的輸入法和搜索兩款主打產(chǎn)品。
至于接下來(lái)的規(guī)劃,王硯峰透露,搜狗下半年將在硬件、軟件等場(chǎng)景集中一波攻勢(shì):
1、在可穿戴、車(chē)載、客廳場(chǎng)景下,自主研發(fā)更多的硬件。比如搜狗在上個(gè)月已經(jīng)發(fā)布了一款產(chǎn)品“智能副駕”,主打的模式就是通過(guò)多輪對(duì)話、地圖知識(shí)和對(duì)話能力的結(jié)合,打造一個(gè)全程純語(yǔ)音交互的導(dǎo)航。
2、搜狗AI云平臺(tái)、AI云服務(wù)將會(huì)服務(wù)更多的行業(yè)伙伴。
3、在更多的垂直場(chǎng)景下做智能垂直產(chǎn)品。
基于搜狗的語(yǔ)音能力和自然交互能力,在非巨頭壟斷的行業(yè),搜狗還將嘗試做更多硬件產(chǎn)品的自研、試水、投資,或自己研發(fā),或投資一些公司,以合作的方式把這些產(chǎn)品做出來(lái)。
在王硯峰看來(lái),不論是車(chē)載市場(chǎng)、家庭場(chǎng)景,還是可穿戴市場(chǎng),雖然玩家很多,但市場(chǎng)格局還未定型。因此,王硯峰認(rèn)為搜狗完全有信心拿出更多爆款產(chǎn)品或有量產(chǎn)品,來(lái)?yè)屨际袌?chǎng)份額。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。