自2014年12月Skype Translator 推出英文和西班牙文之間的實(shí)時語音翻譯之后,此次在中國市場的發(fā)布是Skype Translator旅程中又一迭新,Skype Translator預(yù)覽版適用于Windows 8.1或Windows 10技術(shù)預(yù)覽版的客戶端或平板電腦客戶端。除了英文和中文普通話的語音翻譯之外,還支持四十多種語言的即時文本翻譯。
Skype Translator構(gòu)建于機(jī)器學(xué)習(xí)平臺之上。通過在預(yù)覽版階段獲取的訓(xùn)練數(shù)據(jù),加之其中的細(xì)微差別,軟件就能夠針對真實(shí)使用者的不同話題、口音與語言轉(zhuǎn)換進(jìn)行學(xué)習(xí),實(shí)現(xiàn)更好的識別和翻譯。
Skype Translator的機(jī)器學(xué)習(xí)協(xié)議訓(xùn)練并優(yōu)化語音識別和機(jī)器翻譯任務(wù),該協(xié)議促進(jìn)對被識別的文本進(jìn)行更好的翻譯。這個過程包括去除造成不流利的字詞(例如“啊”“嗯”以及重復(fù)措辭)、將文本分解成句子、添加標(biāo)點(diǎn)符號和大小寫識別。
語音識別和機(jī)器翻譯的訓(xùn)練數(shù)據(jù)來源多種多樣,包括翻譯的網(wǎng)頁、配有字幕的視頻,以及預(yù)先翻譯且轉(zhuǎn)錄成文字的一對一談話。Skype Translator通過記錄這些對話,來分析對話文本并訓(xùn)練系統(tǒng)更好地“學(xué)習(xí)”各種語言。微軟官方稱,已經(jīng)有很多人與分享了他們過去的對話記錄,微軟對其進(jìn)行了分析并為統(tǒng)計(jì)模型創(chuàng)造訓(xùn)練數(shù)據(jù),該統(tǒng)計(jì)模型教會語音識別和機(jī)器翻譯引擎如何將收集到的語音轉(zhuǎn)換為文本信息,然后將文本信息轉(zhuǎn)換為另一種語言。使用Skype Translator的用戶都會在對話開始前得到清晰的系統(tǒng)提示,即對話將被錄制并用于提高微軟翻譯和語音識別服務(wù)的質(zhì)量。
在準(zhǔn)備好的數(shù)據(jù)被錄入機(jī)器學(xué)習(xí)系統(tǒng)后,機(jī)器學(xué)習(xí)軟件會在這些對話和環(huán)境涉及到的單詞中搭建一個統(tǒng)計(jì)模型。當(dāng)用戶說話時,軟件會在該統(tǒng)計(jì)模型中尋找相似的內(nèi)容,之后應(yīng)用到預(yù)先“學(xué)到”的轉(zhuǎn)化程序中,使得音頻轉(zhuǎn)換為文本再從文本轉(zhuǎn)換成另一種語言。
雖然語音識別一直是近幾十年來的重要研究課題,但是該技術(shù)的發(fā)展普遍被錯誤率高、麥克風(fēng)敏感度差異、噪音環(huán)境等因素阻礙。微軟研究院率先將深層神經(jīng)網(wǎng)絡(luò)(DNNs)技術(shù)引入語音識別,極大程度地降低了錯誤率,提高了可靠性,最終使這項(xiàng)語音翻譯技術(shù)得以更廣泛地應(yīng)用,包括Skype Translator。
Skype Translator的機(jī)器翻譯部分負(fù)責(zé)將文本從一種語言翻譯成另一種語言。它采用了和必應(yīng)在線翻譯同樣的技術(shù):開創(chuàng)性地結(jié)合了句法和統(tǒng)計(jì)模型,此外更加有針對性地訓(xùn)練對話性語言。這點(diǎn)非常有挑戰(zhàn)性,因?yàn)楝F(xiàn)在用來搭建文本翻譯系統(tǒng)的典型訓(xùn)練數(shù)據(jù)都是優(yōu)化過的清晰、結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)臅嬲Z言。我們的系統(tǒng)在包含必應(yīng)翻譯的豐富語言知識的同時,還額外加入了口語對話中出現(xiàn)的單詞及短語。
另外,我們創(chuàng)造了一個定制化的機(jī)器人程式來協(xié)調(diào)整個產(chǎn)品體驗(yàn)。如電話中的第三方一樣,它負(fù)責(zé)建立電話連接、發(fā)送音頻流至語音引擎獲取翻譯文本,并分別在雙方結(jié)束說話時翻譯其所說的內(nèi)容。
要創(chuàng)造這樣的程式,需要微軟研究院和Skype團(tuán)隊(duì)集合雙方共同的專業(yè)知識和工程能力,形成一個復(fù)雜的架構(gòu),但希望對用戶來說獲取的則是簡單而直接的體驗(yàn)。
另外,在語言翻譯的用戶體驗(yàn)中也存在一些固有的挑戰(zhàn)。比如,Skype Translator的自動翻譯器會以類似于第三方通話者的角色出現(xiàn)。Skype發(fā)現(xiàn),過去使用過現(xiàn)場翻譯服務(wù)的用戶能很快適應(yīng)這種溝通方式,而其他用戶則需要更多的時間來適應(yīng)。
相較于2014年12 月推出的英文和西班牙文之間的實(shí)時語音對話,本次推出中文預(yù)覽版的功能更新如下:
用戶可以通過語音收聽到對話方發(fā)送給自己的即時消息,語音的語言可以自選。
在對方發(fā)送語音信息期間可持續(xù)性的進(jìn)行文字翻譯。
用戶對話方可以在實(shí)時語音翻譯期間不間斷地說話。同時,用戶可收聽到較高音量的語音翻譯,對話方本身的語音信息呈現(xiàn)出較低音量,所以只要將注意力集中在語音翻譯上即可,這可以保證翻譯信息的收聽流暢。
可以任意開啟或關(guān)閉語音翻譯的聲音,并直接讀取文字翻譯。
除了語音翻譯現(xiàn)有的四種語言(英語,西班牙語,中文普通話,意大利語), Skype Translator 的即時通訊文本翻譯更是在原有40多種語言的基礎(chǔ)上加入了塞爾維亞語,波斯尼亞語,克羅地亞語,瑪雅語和奧托米語。
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。