CNET科技行者 8月10日 北京消息(文/周雅):就在一周前搜狗宣布赴美上市計(jì)劃的當(dāng)天,搜狗公司CEO王小川在員工內(nèi)部信中寫了這樣一句話:“已經(jīng)沒有人會(huì)懷疑搜狗的生存問題了,唯一的懸念是搜狗是否能在搜索領(lǐng)域?qū)崿F(xiàn)顛覆,是否能在人工智能領(lǐng)域引領(lǐng)重大的創(chuàng)新。”一時(shí)間,王小川的“懸念”成為看點(diǎn)——8月8日,搜狗正式迎來了第一款語音技術(shù)產(chǎn)品“搜狗聽寫”。
搜狗聽寫的定位是“文字工作者的速記工具”。針對寫文章、采訪錄音、會(huì)議記錄、筆記整理 、日常記事等場景,以實(shí)現(xiàn)高效記錄和信息輸入。
搜狗聽寫最亮眼的功能在于“聽寫”和“轉(zhuǎn)寫”兩種模式。“聽寫”模式下,錄音的同時(shí)可以實(shí)時(shí)識別結(jié)果;而“轉(zhuǎn)寫”模式下則可以離線錄音,錄音完成后一次性獲取文字結(jié)果。
除此之外還有諸如支持手機(jī)邊聽邊改、無線標(biāo)重點(diǎn)(藍(lán)牙打點(diǎn))、多客戶端同步、信息分享、摘要、斷點(diǎn)續(xù)錄等人性化功能,另外,針對圖書館、咖啡廳等安靜場所,搜狗聽寫提供耳語識別技術(shù)——人說話音量低至30分貝時(shí),依然可以準(zhǔn)確識別。
被牛露云稱作“大殺器”的一個(gè)功能,是搜狗聽寫與搜狗輸入法的個(gè)人詞庫已經(jīng)打通,可以視為媒體撰稿人之間文字互通的功能。
關(guān)于下載,搜狗聽寫除了支持Android、IOS版本之外,還開發(fā)了Windows版,Windows版特別針對會(huì)議場景,觀眾可以直接看到會(huì)議演講者的實(shí)時(shí)字幕,字幕可能是直接文字的轉(zhuǎn)寫結(jié)果,也有可能是雙語、多語對照結(jié)果,觀眾甚至可以直接掃碼獲取當(dāng)天的錄音和文本結(jié)果。
這樣一款語音識別產(chǎn)品,實(shí)際上是基于深度學(xué)習(xí)技術(shù),以提升復(fù)雜場景識別效果。
說到深度學(xué)習(xí),離不開三要素:有沒有大數(shù)據(jù),有沒有好的深度學(xué)習(xí)算法,以及能不能讓深度學(xué)習(xí)算法在深度學(xué)習(xí)平臺(tái)上高效運(yùn)轉(zhuǎn)。
搜狗語音交互中心技術(shù)總監(jiān)陳偉介紹,關(guān)于大數(shù)據(jù),“搜狗輸入法每天語音識別的PV是2.6億次,產(chǎn)生的語料規(guī)模是22萬小時(shí)。”關(guān)于算法,搜狗早期較多使用深度神經(jīng)網(wǎng)絡(luò),隨后嘗試了CN算法、LSTM的算法,現(xiàn)在轉(zhuǎn)為CN+LSTM+DN的端到端的算法,可以更高效,準(zhǔn)確率更高。
有了數(shù)據(jù)+算法,接下來就是運(yùn)算,如何高效的給出模型以快速部署到線上,關(guān)鍵在于搜狗的深度學(xué)習(xí)平臺(tái)。“我們可以在自有的深度學(xué)習(xí)平臺(tái)上調(diào)動(dòng)上百塊算卡,快速的給出模型。”陳偉說。
實(shí)際上,目前市場不乏與搜狗聽寫同類型的語音識別產(chǎn)品,譬如科大訊飛早期推出的訊飛聽見等,相較而言,搜狗聽寫的差異化在哪?搜狗語音交互中心負(fù)責(zé)人王硯峰答道,搜狗聽寫存在優(yōu)勢:
1、訊飛對應(yīng)的產(chǎn)品,如訊飛聽見、訊飛錄音寶等,是不能支持長時(shí)間錄音、并且免費(fèi)轉(zhuǎn)寫的。而搜狗是首次做了長時(shí)錄音設(shè)置,并且支持免費(fèi)轉(zhuǎn)寫。
2、搜狗的產(chǎn)品是面向垂直場景,包括記者采訪的場景、作家寫作的場景等等。這些功能雖小,但很關(guān)鍵,體現(xiàn)在具體場景下,怎么絞盡腦汁的想盡辦法,幫朋友解決問題。
3、搜狗聽寫支持手機(jī)端和Windows,還有語音實(shí)時(shí)轉(zhuǎn)文字、邊聽邊改、標(biāo)重點(diǎn)、快速查找、多端同步、不限時(shí)長錄音等人性化功能。
4、依托搜狗日均超過2.6億次的語音請求,搜狗擁有海量的真實(shí)語料數(shù)據(jù),可以使機(jī)器不斷學(xué)習(xí),不斷提升識別準(zhǔn)確率,可應(yīng)用的場景也越來越廣泛。
對于搜狗轉(zhuǎn)寫是否永久免費(fèi)這個(gè)問題,王硯峰坦言,目前肯定是免費(fèi)的,至于之后會(huì)不會(huì)收費(fèi),并不完全確定。至少按照現(xiàn)有的產(chǎn)品形態(tài),可以肯定的是,在相當(dāng)長時(shí)間內(nèi)不考慮使用這個(gè)產(chǎn)品來賺錢。“作為一家互聯(lián)網(wǎng)公司,通過技術(shù)來收取技術(shù)服務(wù)費(fèi)不是搜狗的商業(yè)邏輯。至少到現(xiàn)在為止,搜狗還不想通過產(chǎn)品收費(fèi)的方式來進(jìn)行商業(yè)變現(xiàn)。”
搜狗語音交互中心負(fù)責(zé)人王硯峰
搜狗聽寫不會(huì)是搜狗唯一的一款人工智能產(chǎn)品,在王小川的規(guī)劃中,人工智能是搜狗下一階段的重要戰(zhàn)略。
早在2012年,搜狗便開始研發(fā)智能語音技術(shù),并開始布局相關(guān)產(chǎn)品的落地。去年8月3日,搜狗舉行知音引擎發(fā)布會(huì),取得機(jī)器翻譯的突破。跟進(jìn)當(dāng)時(shí)世界上最領(lǐng)先的機(jī)器翻譯的深度學(xué)習(xí)框架(基于attion的端到端的框架),加上搜狗之前的語音識別基礎(chǔ),用3個(gè)月時(shí)間,搭建起知音引擎,成功的應(yīng)用于去年的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì),該引擎在今年5月份奪得WMT2017中英機(jī)器翻譯的全球冠軍;去年11月份,搜狗又推出機(jī)器同傳,率先商用化...
這樣的案例很多。比如搜狗去年年底推出的答題機(jī)器人“汪仔”,“汪仔”面向搜索引擎,實(shí)時(shí)的抓取海量信息,根據(jù)問題的上下文,通過文本的分析、自然語言處理的能力,把用戶想要的答案提取出來。在今年5月份GMIS2017會(huì)上,“汪仔”與人工速記進(jìn)行了五輪PK,最終以4:1完勝。
“到現(xiàn)在為止,我們可以很堅(jiān)定的說,機(jī)器的識別能力與人工速記相比,已經(jīng)取得了本質(zhì)性的領(lǐng)先。”王硯峰說。
然而盡管如此,語音識別同樣存在挑戰(zhàn)。王硯峰說,語音識別產(chǎn)品未來要解決的,一是遠(yuǎn)場的問題——人與人之間的遠(yuǎn)距離喊話,大家可以聽得很清楚,但機(jī)器的遠(yuǎn)距離識別是不好的;二是噪聲聲音識別問題。
彼時(shí)搜狗的人工智能戰(zhàn)略還只是個(gè)輪廓:自然交互+知識計(jì)算,如今,輪廓變?yōu)榭蚣?,搜狗已?jīng)形成一個(gè)AI技術(shù)體系及平臺(tái)。
平臺(tái)由四個(gè)階層組成,底層是大數(shù)據(jù)和深度學(xué)習(xí)技術(shù);倒數(shù)第二層是語言的AI、語音的AI、圖像的AI——搜狗的核心是語言,圖像和語音都是圍繞語言的交互方式;再上一層就是應(yīng)用;最頂層就是搜狗的輸入法和搜索兩款主打產(chǎn)品。
至于接下來的規(guī)劃,王硯峰透露,搜狗下半年將在硬件、軟件等場景集中一波攻勢:
1、在可穿戴、車載、客廳場景下,自主研發(fā)更多的硬件。比如搜狗在上個(gè)月已經(jīng)發(fā)布了一款產(chǎn)品“智能副駕”,主打的模式就是通過多輪對話、地圖知識和對話能力的結(jié)合,打造一個(gè)全程純語音交互的導(dǎo)航。
2、搜狗AI云平臺(tái)、AI云服務(wù)將會(huì)服務(wù)更多的行業(yè)伙伴。
3、在更多的垂直場景下做智能垂直產(chǎn)品。
基于搜狗的語音能力和自然交互能力,在非巨頭壟斷的行業(yè),搜狗還將嘗試做更多硬件產(chǎn)品的自研、試水、投資,或自己研發(fā),或投資一些公司,以合作的方式把這些產(chǎn)品做出來。
在王硯峰看來,不論是車載市場、家庭場景,還是可穿戴市場,雖然玩家很多,但市場格局還未定型。因此,王硯峰認(rèn)為搜狗完全有信心拿出更多爆款產(chǎn)品或有量產(chǎn)品,來搶占市場份額。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。