科技行者 8月30日 北京消息:28日,搜狗在京舉辦了開放聽寫服務暨AI創(chuàng)新聯(lián)盟發(fā)布會。發(fā)布會現(xiàn)場,搜狗官宣開放“搜狗聽寫”服務,讓更多的錄音筆廠商享受AI紅利,并與愛國者,索尼,紐曼,萬城集團四大頭部錄音筆廠商成立AI創(chuàng)新聯(lián)盟。
搜狗介紹,目前搜狗輸入法語音請求峰值已超7億次,穩(wěn)居全球最大的中文語音應用,依托于此,搜狗聽寫服務背后的轉寫技術已處于行業(yè)領先地位。其中,實時語音轉寫運用了搜狗自研的延遲可控的Adaptive Attention-based端到端建模技術,非實時語音轉寫功能使用業(yè)界領先的深層Transformer-based端到端語音識別技術,語音轉寫準確率可達95%以上;在語音增強方面,搜狗自研的Smart Voice麥克風陣列算法能夠對噪聲和混響進行多重深度優(yōu)化,確保人聲的高保真還原;在智能輔助編輯方面,搜狗語音轉寫可以通過云端智能糾錯編輯技術,基于詞圖搜索和輸入糾錯模型,針對置信度低的轉寫結果提供多個候選詞,幫助用戶對轉寫結果進行糾正,同時還具備了良好的自動區(qū)分說話人、智能文本順滑和標點預測等能力,可以為用戶提供更多便捷功能。
搜狗表示,自今年3月份發(fā)布一代搜狗智能錄音筆C1后,Q2時間里C1多次榮獲各大主流電商平臺銷冠,并宣布上周又發(fā)布了黃、紅、白等時尚炫彩版智能錄音筆,以滿足用戶多元化的需求。據(jù)悉,錄音筆C1擁有實時互譯、云端分享、中英同傳等多種AI功能。
值得一提的是,本次搜狗聽寫服務實現(xiàn)了與搜狗輸入法的打通,這不僅為聽寫服務帶來了流量和數(shù)據(jù)上的巨大優(yōu)勢,同時更是搜狗輸入法“表達信息更簡單”使命的延伸,也是搜狗聽寫服務相比其他語音轉寫平臺的優(yōu)勢所在。目前搜狗輸入法在PC端占有99%的市場份額,在手機端用戶日活超4.5億,搜狗聽寫服務基于搜狗輸入法的用戶使用習慣,能夠自動構建個性化識別網(wǎng)絡,使用戶常用語錯誤率下降40%。搜狗開放聽寫服務后,可以為市場上90%以上的錄音筆產(chǎn)品提供接入服務,讓所有有需求的用戶享受“錄音1小時,出稿5分鐘”的極致體驗。
會上,搜狗與錄音筆行業(yè)的幾家頭部企業(yè)達成AI創(chuàng)新聯(lián)盟。聯(lián)盟達成將使錄音筆行業(yè)從以硬件為主的單一收益模式向硬件+服務的多種收益模式轉變,促進錄音筆行業(yè)實現(xiàn)全面智能升級,與AI創(chuàng)新深度融合。通過AI錄音筆創(chuàng)新、開放搜狗語音轉寫服務、建立AI創(chuàng)新聯(lián)盟,搜狗正從產(chǎn)品、技術與產(chǎn)業(yè)鏈三個方向,引領著錄音筆行業(yè)進入AI時代。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結合大語言模型的敘事推理能力與音頻生成技術,通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠將復雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術,通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術僅需添加兩個線性層就能大幅提升運動質量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質量管控方法,讓AI在保持技術能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術,通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領域帶來了效率和精度的雙重突破。