av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<style id="ufvmu"><rp id="ufvmu"></rp></style>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

一款“語音實(shí)時(shí)轉(zhuǎn)文字”工具，引出搜狗人工智能戰(zhàn)略

搜狗搜狗聽寫語音識別人工智能深度學(xué)習(xí)速記

一款“語音實(shí)時(shí)轉(zhuǎn)文字”工具，引出搜狗人工智能戰(zhàn)略

作者：周雅

2017-08-10 10:45

分享至：

就在一周前搜狗宣布赴美上市計(jì)劃的當(dāng)天，搜狗公司CEO王小川在員工內(nèi)部信中寫了這樣一句話：“已經(jīng)沒有人會(huì)懷疑搜狗的生存問題了，唯一的懸念是搜狗是否能在搜索領(lǐng)域?qū)崿F(xiàn)顛覆，是否能在人工智能領(lǐng)域引領(lǐng)重大的創(chuàng)新?！币粫r(shí)間，王小川的“懸念”成為看點(diǎn)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2017-08-10 10:45 ? 周雅

CNET科技行者 8月10日北京消息（文/周雅）：就在一周前搜狗宣布赴美上市計(jì)劃的當(dāng)天，搜狗公司CEO王小川在員工內(nèi)部信中寫了這樣一句話：“已經(jīng)沒有人會(huì)懷疑搜狗的生存問題了，唯一的懸念是搜狗是否能在搜索領(lǐng)域?qū)崿F(xiàn)顛覆，是否能在人工智能領(lǐng)域引領(lǐng)重大的創(chuàng)新。”一時(shí)間，王小川的“懸念”成為看點(diǎn)——8月8日，搜狗正式迎來了第一款語音技術(shù)產(chǎn)品“搜狗聽寫”。

語音實(shí)時(shí)轉(zhuǎn)文字背后有深度學(xué)習(xí)技術(shù)

搜狗聽寫的定位是“文字工作者的速記工具”。針對寫文章、采訪錄音、會(huì)議記錄、筆記整理、日常記事等場景，以實(shí)現(xiàn)高效記錄和信息輸入。

搜狗聽寫最亮眼的功能在于“聽寫”和“轉(zhuǎn)寫”兩種模式。“聽寫”模式下，錄音的同時(shí)可以實(shí)時(shí)識別結(jié)果；而“轉(zhuǎn)寫”模式下則可以離線錄音，錄音完成后一次性獲取文字結(jié)果。

除此之外還有諸如支持手機(jī)邊聽邊改、無線標(biāo)重點(diǎn)（藍(lán)牙打點(diǎn)）、多客戶端同步、信息分享、摘要、斷點(diǎn)續(xù)錄等人性化功能，另外，針對圖書館、咖啡廳等安靜場所，搜狗聽寫提供耳語識別技術(shù)——人說話音量低至30分貝時(shí)，依然可以準(zhǔn)確識別。

被牛露云稱作“大殺器”的一個(gè)功能，是搜狗聽寫與搜狗輸入法的個(gè)人詞庫已經(jīng)打通，可以視為媒體撰稿人之間文字互通的功能。

關(guān)于下載，搜狗聽寫除了支持Android、IOS版本之外，還開發(fā)了Windows版，Windows版特別針對會(huì)議場景，觀眾可以直接看到會(huì)議演講者的實(shí)時(shí)字幕，字幕可能是直接文字的轉(zhuǎn)寫結(jié)果，也有可能是雙語、多語對照結(jié)果，觀眾甚至可以直接掃碼獲取當(dāng)天的錄音和文本結(jié)果。

這樣一款語音識別產(chǎn)品，實(shí)際上是基于深度學(xué)習(xí)技術(shù)，以提升復(fù)雜場景識別效果。

說到深度學(xué)習(xí)，離不開三要素：有沒有大數(shù)據(jù)，有沒有好的深度學(xué)習(xí)算法，以及能不能讓深度學(xué)習(xí)算法在深度學(xué)習(xí)平臺(tái)上高效運(yùn)轉(zhuǎn)。

搜狗語音交互中心技術(shù)總監(jiān)陳偉介紹，關(guān)于大數(shù)據(jù)，“搜狗輸入法每天語音識別的PV是2.6億次，產(chǎn)生的語料規(guī)模是22萬小時(shí)。”關(guān)于算法，搜狗早期較多使用深度神經(jīng)網(wǎng)絡(luò)，隨后嘗試了CN算法、LSTM的算法，現(xiàn)在轉(zhuǎn)為CN+LSTM+DN的端到端的算法，可以更高效，準(zhǔn)確率更高。

有了數(shù)據(jù)+算法，接下來就是運(yùn)算，如何高效的給出模型以快速部署到線上，關(guān)鍵在于搜狗的深度學(xué)習(xí)平臺(tái)。“我們可以在自有的深度學(xué)習(xí)平臺(tái)上調(diào)動(dòng)上百塊算卡，快速的給出模型。”陳偉說。

實(shí)際上，目前市場不乏與搜狗聽寫同類型的語音識別產(chǎn)品，譬如科大訊飛早期推出的訊飛聽見等，相較而言，搜狗聽寫的差異化在哪？搜狗語音交互中心負(fù)責(zé)人王硯峰答道，搜狗聽寫存在優(yōu)勢：

1、訊飛對應(yīng)的產(chǎn)品，如訊飛聽見、訊飛錄音寶等，是不能支持長時(shí)間錄音、并且免費(fèi)轉(zhuǎn)寫的。而搜狗是首次做了長時(shí)錄音設(shè)置，并且支持免費(fèi)轉(zhuǎn)寫。

2、搜狗的產(chǎn)品是面向垂直場景，包括記者采訪的場景、作家寫作的場景等等。這些功能雖小，但很關(guān)鍵，體現(xiàn)在具體場景下，怎么絞盡腦汁的想盡辦法，幫朋友解決問題。

3、搜狗聽寫支持手機(jī)端和Windows，還有語音實(shí)時(shí)轉(zhuǎn)文字、邊聽邊改、標(biāo)重點(diǎn)、快速查找、多端同步、不限時(shí)長錄音等人性化功能。

4、依托搜狗日均超過2.6億次的語音請求，搜狗擁有海量的真實(shí)語料數(shù)據(jù)，可以使機(jī)器不斷學(xué)習(xí)，不斷提升識別準(zhǔn)確率，可應(yīng)用的場景也越來越廣泛。

對于搜狗轉(zhuǎn)寫是否永久免費(fèi)這個(gè)問題，王硯峰坦言，目前肯定是免費(fèi)的，至于之后會(huì)不會(huì)收費(fèi)，并不完全確定。至少按照現(xiàn)有的產(chǎn)品形態(tài)，可以肯定的是，在相當(dāng)長時(shí)間內(nèi)不考慮使用這個(gè)產(chǎn)品來賺錢。“作為一家互聯(lián)網(wǎng)公司，通過技術(shù)來收取技術(shù)服務(wù)費(fèi)不是搜狗的商業(yè)邏輯。至少到現(xiàn)在為止，搜狗還不想通過產(chǎn)品收費(fèi)的方式來進(jìn)行商業(yè)變現(xiàn)。”

搜狗語音交互中心負(fù)責(zé)人王硯峰

自然交互+知識計(jì)算背后是AI平臺(tái)

搜狗聽寫不會(huì)是搜狗唯一的一款人工智能產(chǎn)品，在王小川的規(guī)劃中，人工智能是搜狗下一階段的重要戰(zhàn)略。

早在2012年，搜狗便開始研發(fā)智能語音技術(shù)，并開始布局相關(guān)產(chǎn)品的落地。去年8月3日，搜狗舉行知音引擎發(fā)布會(huì)，取得機(jī)器翻譯的突破。跟進(jìn)當(dāng)時(shí)世界上最領(lǐng)先的機(jī)器翻譯的深度學(xué)習(xí)框架（基于attion的端到端的框架），加上搜狗之前的語音識別基礎(chǔ)，用3個(gè)月時(shí)間，搭建起知音引擎，成功的應(yīng)用于去年的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)，該引擎在今年5月份奪得WMT2017中英機(jī)器翻譯的全球冠軍；去年11月份，搜狗又推出機(jī)器同傳，率先商用化...

這樣的案例很多。比如搜狗去年年底推出的答題機(jī)器人“汪仔”，“汪仔”面向搜索引擎，實(shí)時(shí)的抓取海量信息，根據(jù)問題的上下文，通過文本的分析、自然語言處理的能力，把用戶想要的答案提取出來。在今年5月份GMIS2017會(huì)上，“汪仔”與人工速記進(jìn)行了五輪PK，最終以4：1完勝。

“到現(xiàn)在為止，我們可以很堅(jiān)定的說，機(jī)器的識別能力與人工速記相比，已經(jīng)取得了本質(zhì)性的領(lǐng)先。”王硯峰說。

然而盡管如此，語音識別同樣存在挑戰(zhàn)。王硯峰說，語音識別產(chǎn)品未來要解決的，一是遠(yuǎn)場的問題——人與人之間的遠(yuǎn)距離喊話，大家可以聽得很清楚，但機(jī)器的遠(yuǎn)距離識別是不好的；二是噪聲聲音識別問題。

彼時(shí)搜狗的人工智能戰(zhàn)略還只是個(gè)輪廓：自然交互+知識計(jì)算，如今，輪廓變?yōu)榭蚣?，搜狗已?jīng)形成一個(gè)AI技術(shù)體系及平臺(tái)。

平臺(tái)由四個(gè)階層組成，底層是大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)；倒數(shù)第二層是語言的AI、語音的AI、圖像的AI——搜狗的核心是語言，圖像和語音都是圍繞語言的交互方式；再上一層就是應(yīng)用；最頂層就是搜狗的輸入法和搜索兩款主打產(chǎn)品。

至于接下來的規(guī)劃，王硯峰透露，搜狗下半年將在硬件、軟件等場景集中一波攻勢：

1、在可穿戴、車載、客廳場景下，自主研發(fā)更多的硬件。比如搜狗在上個(gè)月已經(jīng)發(fā)布了一款產(chǎn)品“智能副駕”，主打的模式就是通過多輪對話、地圖知識和對話能力的結(jié)合，打造一個(gè)全程純語音交互的導(dǎo)航。

2、搜狗AI云平臺(tái)、AI云服務(wù)將會(huì)服務(wù)更多的行業(yè)伙伴。

3、在更多的垂直場景下做智能垂直產(chǎn)品。

基于搜狗的語音能力和自然交互能力，在非巨頭壟斷的行業(yè)，搜狗還將嘗試做更多硬件產(chǎn)品的自研、試水、投資，或自己研發(fā)，或投資一些公司，以合作的方式把這些產(chǎn)品做出來。

在王硯峰看來，不論是車載市場、家庭場景，還是可穿戴市場，雖然玩家很多，但市場格局還未定型。因此，王硯峰認(rèn)為搜狗完全有信心拿出更多爆款產(chǎn)品或有量產(chǎn)品，來搶占市場份額。

搜狗搜狗聽寫語音識別人工智能深度學(xué)習(xí)速記

分享至

0贊

好文章，需要你的鼓勵(lì)

周雅

Miranda

關(guān)注科技創(chuàng)新、技術(shù)投資。以文會(huì)友，左手硬核科技，右手浪漫主義。

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng)，首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習(xí)
多模態(tài)學(xué)習(xí)

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息，顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量，在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價(jià)值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn)，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平，為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報(bào)

2025-09-09 10:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào)，準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實(shí)驗(yàn)室團(tuán)隊(duì)AudioStory突破性進(jìn)展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動(dòng)起來不再是奢望

2025-09-09 13:57

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

上海AI實(shí)驗(yàn)室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價(jià)值觀對齊難題

2025-09-09 13:56

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

谷歌研究團(tuán)隊(duì)發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報(bào)員一樣預(yù)測全球大氣變化

2025-09-09 10:56

周雅

主編

關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友，左手硬核科技，右手浪漫主義。
最近文章：
- 釘釘十年，無招終于等來了AI這把“錘子”
- 對話谷歌副總裁Karen Teo：“短劇”“AI應(yīng)用”現(xiàn)象級出海，我們看到中國開發(fā)者的三種內(nèi)核

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<cite id="yqati"><track id="yqati"><dfn id="yqati"></dfn></track></cite>

<legend id="yqati"></legend>