科技行者 8月30日 北京消息:28日,搜狗在京舉辦了開放聽寫服務(wù)暨AI創(chuàng)新聯(lián)盟發(fā)布會。發(fā)布會現(xiàn)場,搜狗官宣開放“搜狗聽寫”服務(wù),讓更多的錄音筆廠商享受AI紅利,并與愛國者,索尼,紐曼,萬城集團四大頭部錄音筆廠商成立AI創(chuàng)新聯(lián)盟。
搜狗介紹,目前搜狗輸入法語音請求峰值已超7億次,穩(wěn)居全球最大的中文語音應(yīng)用,依托于此,搜狗聽寫服務(wù)背后的轉(zhuǎn)寫技術(shù)已處于行業(yè)領(lǐng)先地位。其中,實時語音轉(zhuǎn)寫運用了搜狗自研的延遲可控的Adaptive Attention-based端到端建模技術(shù),非實時語音轉(zhuǎn)寫功能使用業(yè)界領(lǐng)先的深層Transformer-based端到端語音識別技術(shù),語音轉(zhuǎn)寫準確率可達95%以上;在語音增強方面,搜狗自研的Smart Voice麥克風陣列算法能夠?qū)υ肼暫突祉戇M行多重深度優(yōu)化,確保人聲的高保真還原;在智能輔助編輯方面,搜狗語音轉(zhuǎn)寫可以通過云端智能糾錯編輯技術(shù),基于詞圖搜索和輸入糾錯模型,針對置信度低的轉(zhuǎn)寫結(jié)果提供多個候選詞,幫助用戶對轉(zhuǎn)寫結(jié)果進行糾正,同時還具備了良好的自動區(qū)分說話人、智能文本順滑和標點預(yù)測等能力,可以為用戶提供更多便捷功能。
搜狗表示,自今年3月份發(fā)布一代搜狗智能錄音筆C1后,Q2時間里C1多次榮獲各大主流電商平臺銷冠,并宣布上周又發(fā)布了黃、紅、白等時尚炫彩版智能錄音筆,以滿足用戶多元化的需求。據(jù)悉,錄音筆C1擁有實時互譯、云端分享、中英同傳等多種AI功能。
值得一提的是,本次搜狗聽寫服務(wù)實現(xiàn)了與搜狗輸入法的打通,這不僅為聽寫服務(wù)帶來了流量和數(shù)據(jù)上的巨大優(yōu)勢,同時更是搜狗輸入法“表達信息更簡單”使命的延伸,也是搜狗聽寫服務(wù)相比其他語音轉(zhuǎn)寫平臺的優(yōu)勢所在。目前搜狗輸入法在PC端占有99%的市場份額,在手機端用戶日活超4.5億,搜狗聽寫服務(wù)基于搜狗輸入法的用戶使用習慣,能夠自動構(gòu)建個性化識別網(wǎng)絡(luò),使用戶常用語錯誤率下降40%。搜狗開放聽寫服務(wù)后,可以為市場上90%以上的錄音筆產(chǎn)品提供接入服務(wù),讓所有有需求的用戶享受“錄音1小時,出稿5分鐘”的極致體驗。
會上,搜狗與錄音筆行業(yè)的幾家頭部企業(yè)達成AI創(chuàng)新聯(lián)盟。聯(lián)盟達成將使錄音筆行業(yè)從以硬件為主的單一收益模式向硬件+服務(wù)的多種收益模式轉(zhuǎn)變,促進錄音筆行業(yè)實現(xiàn)全面智能升級,與AI創(chuàng)新深度融合。通過AI錄音筆創(chuàng)新、開放搜狗語音轉(zhuǎn)寫服務(wù)、建立AI創(chuàng)新聯(lián)盟,搜狗正從產(chǎn)品、技術(shù)與產(chǎn)業(yè)鏈三個方向,引領(lǐng)著錄音筆行業(yè)進入AI時代。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務(wù)上驗證有效性。