這項(xiàng)由捷克布爾諾理工大學(xué)Speech@FIT實(shí)驗(yàn)室的Alexander Polok、Jiangyu Han、Dominik Klement等人,以及美國卡耐基梅隆大學(xué)語言技術(shù)研究所的Samuele Cornell和Jan Cernocky、Lukás Burget共同完成的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺(論文編號:arXiv:2506.13414v1)。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
在我們?nèi)粘I钪?,多人同時(shí)說話的情況隨處可見——會議室里的激烈討論、朋友聚會時(shí)的熱鬧對話、家庭聚餐時(shí)的歡聲笑語。但對于計(jì)算機(jī)來說,這種看似簡單的場景卻是一個(gè)巨大的挑戰(zhàn)。就像一個(gè)人要在嘈雜的菜市場里準(zhǔn)確聽出每個(gè)攤販在說什么一樣困難。
目前的語音識別技術(shù)在面對單人說話時(shí)表現(xiàn)出色,但一旦遇到多人對話,就容易"暈頭轉(zhuǎn)向"。這就好比一個(gè)優(yōu)秀的速記員在安靜的辦公室里能完美記錄老板的講話,但在熱鬧的酒吧里卻無法分辨出朋友們各自說了什么。
這個(gè)問題的核心在于兩個(gè)關(guān)鍵挑戰(zhàn):首先,機(jī)器需要準(zhǔn)確判斷"誰在什么時(shí)候說話",這被稱為說話人分離技術(shù);其次,機(jī)器還要準(zhǔn)確理解"每個(gè)人具體說了什么",這就是語音識別技術(shù)。傳統(tǒng)的解決方案通常是將這兩個(gè)步驟分開處理,就像先用一個(gè)濾網(wǎng)把不同顏色的豆子分開,再用另一個(gè)工具逐一識別每種豆子的品種。
研究團(tuán)隊(duì)提出了一個(gè)全新的解決方案,他們將這個(gè)復(fù)雜的問題比作指揮一個(gè)交響樂團(tuán)。在交響樂演出中,指揮需要同時(shí)關(guān)注每個(gè)樂器的演奏,并將它們協(xié)調(diào)成一個(gè)和諧的整體。類似地,他們的系統(tǒng)能夠同時(shí)處理多個(gè)說話人的語音,并準(zhǔn)確識別出每個(gè)人說的內(nèi)容。
他們的方法結(jié)合了兩個(gè)核心技術(shù):DiCoW(Diarization-Conditioned Whisper,分離條件化的Whisper)和DiariZen。如果把語音識別比作烹飪,那么DiCoW就像是一個(gè)經(jīng)驗(yàn)豐富的廚師,能夠根據(jù)不同食材的特點(diǎn)調(diào)整烹飪方法,而DiariZen則像是一個(gè)敏銳的品鑒師,能夠精確分辨出菜品中每種食材的味道。
最終,他們的系統(tǒng)在國際多語言對話識別挑戰(zhàn)賽中獲得了第二名的優(yōu)異成績,在15種不同語言的測試中都表現(xiàn)出色。更令人驚喜的是,即使這個(gè)系統(tǒng)主要用英語進(jìn)行訓(xùn)練,它仍然能夠很好地處理其他語言的對話,展現(xiàn)出了強(qiáng)大的適應(yīng)能力。
一、破解說話人分離的秘密武器:DiariZen
在多人對話的場景中,最基礎(chǔ)也是最關(guān)鍵的一步就是準(zhǔn)確判斷"誰在什么時(shí)候說話"。這就像在一個(gè)熱鬧的聚會上,你需要準(zhǔn)確地分辨出每個(gè)朋友的聲音,并知道他們各自在什么時(shí)候開口說話。
傳統(tǒng)的說話人分離系統(tǒng)就像是一個(gè)經(jīng)驗(yàn)不足的服務(wù)員,在嘈雜的餐廳里經(jīng)常搞混不同桌客人的點(diǎn)菜聲音。而研究團(tuán)隊(duì)開發(fā)的DiariZen則像是一個(gè)訓(xùn)練有素的專業(yè)調(diào)音師,能夠在復(fù)雜的聲音環(huán)境中精確分離出每個(gè)說話人的聲音。
DiariZen的工作原理可以用拼圖游戲來類比。傳統(tǒng)方法是將一段長時(shí)間的錄音直接作為一個(gè)巨大的拼圖來處理,這樣做既費(fèi)時(shí)又容易出錯(cuò)。而DiariZen采用了"分而治之"的策略,它首先將長錄音切割成若干個(gè)較短的片段,就像將一個(gè)復(fù)雜的大拼圖分解成若干個(gè)小拼圖塊。
對于每個(gè)小片段,DiariZen都會進(jìn)行精細(xì)的分析。它使用了一個(gè)叫做WavLM的先進(jìn)語音分析模型作為基礎(chǔ),這個(gè)模型就像是一個(gè)經(jīng)驗(yàn)豐富的聲學(xué)專家,能夠從聲音中提取出豐富的特征信息。然后,它再使用一個(gè)名為Conformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)一步處理這些特征,Conformer就像是一個(gè)智能的模式識別器,能夠識別出不同說話人的聲音模式。
在處理完每個(gè)小片段后,DiariZen還需要解決一個(gè)重要問題:如何確定不同片段中的說話人是否為同一人?這就像是在不同的照片中識別出同一個(gè)人的臉。DiariZen通過提取每個(gè)說話人的"聲音指紋"—— 一種獨(dú)特的數(shù)字化聲音特征,然后使用聚類算法將相同的聲音指紋歸為一類,從而確定整段錄音中的說話人身份。
在實(shí)際測試中,DiariZen在15種不同語言的測試中都顯著超越了傳統(tǒng)的基準(zhǔn)系統(tǒng)。以英語為例,傳統(tǒng)方法的錯(cuò)誤率為20.2%,而DiariZen將錯(cuò)誤率降低到了15.9%。這種改進(jìn)不僅體現(xiàn)在英語上,在其他語言如法語、德語、日語等方面也都有顯著提升。
更令人印象深刻的是,即使在沒有針對特定語言進(jìn)行專門訓(xùn)練的情況下,DiariZen仍然表現(xiàn)出色。這就像是一個(gè)多語言翻譯官,即使沒有專門學(xué)習(xí)某種方言,也能憑借豐富的語言經(jīng)驗(yàn)做出準(zhǔn)確的判斷。
二、智能語音識別的新突破:DiCoW系統(tǒng)
解決了"誰在說話"的問題后,下一個(gè)挑戰(zhàn)就是準(zhǔn)確理解"每個(gè)人具體說了什么"。這就像是在嘈雜的火車站里,你不僅要聽出朋友的聲音,還要準(zhǔn)確理解他說的每一個(gè)詞。
傳統(tǒng)的語音識別系統(tǒng)在處理多人對話時(shí)就像是一個(gè)"選擇恐懼癥"患者,面對多個(gè)說話人時(shí)往往不知道該關(guān)注誰,結(jié)果經(jīng)常出現(xiàn)混亂和錯(cuò)誤。而研究團(tuán)隊(duì)開發(fā)的DiCoW(Diarization-Conditioned Whisper)系統(tǒng)則像是一個(gè)訓(xùn)練有素的同聲傳譯員,能夠根據(jù)指令專注于特定說話人的聲音,并準(zhǔn)確轉(zhuǎn)錄其內(nèi)容。
DiCoW的核心創(chuàng)新在于它將說話人分離信息直接融入了語音識別過程中。這就像是給一個(gè)翻譯員配備了一副特殊的耳機(jī),這副耳機(jī)不僅能接收所有人的聲音,還能根據(jù)需要調(diào)節(jié)音量,突出特定說話人的聲音。
具體來說,DiCoW基于著名的Whisper語音識別模型進(jìn)行改進(jìn)。Whisper就像是一個(gè)經(jīng)驗(yàn)豐富的語言學(xué)家,在大量文本和語音數(shù)據(jù)上接受過訓(xùn)練,具備強(qiáng)大的語音理解能力。但原始的Whisper在面對多人對話時(shí)就像是一個(gè)沒有經(jīng)過專門訓(xùn)練的語言學(xué)家,雖然語言功底深厚,但缺乏在嘈雜環(huán)境中工作的經(jīng)驗(yàn)。
DiCoW的改進(jìn)就像是給這位語言學(xué)家配備了一套專業(yè)的工作流程。它為每個(gè)語音片段創(chuàng)建了一個(gè)"聲音地圖",這個(gè)地圖包含四種不同的信息:安靜時(shí)刻(沒有人說話)、目標(biāo)說話人活躍時(shí)刻、其他說話人活躍時(shí)刻,以及多人同時(shí)說話的重疊時(shí)刻。這就像是給翻譯員提供了一個(gè)詳細(xì)的"聲音導(dǎo)航圖",告訴他在什么時(shí)候應(yīng)該重點(diǎn)關(guān)注哪個(gè)方向的聲音。
更巧妙的是,DiCoW將這些信息以概率的形式融入到識別過程中。它不是簡單地告訴系統(tǒng)"現(xiàn)在只聽A說話,忽略B",而是說"現(xiàn)在A說話的可能性是80%,B說話的可能性是20%,請相應(yīng)地調(diào)整注意力"。這種靈活的處理方式使得系統(tǒng)能夠更好地應(yīng)對復(fù)雜的真實(shí)對話場景。
在技術(shù)實(shí)現(xiàn)上,DiCoW在Whisper的每個(gè)處理層中都添加了特殊的"條件化變換"模塊。這些模塊就像是一組智能的音量調(diào)節(jié)器,能夠根據(jù)當(dāng)前的說話人情況自動(dòng)調(diào)整對不同聲音成分的敏感度。當(dāng)系統(tǒng)檢測到目標(biāo)說話人正在說話時(shí),相應(yīng)的調(diào)節(jié)器就會提高對該說話人聲音的敏感度;當(dāng)檢測到其他干擾聲音時(shí),調(diào)節(jié)器就會降低對這些聲音的關(guān)注。
三、跨語言能力的意外發(fā)現(xiàn)
在測試過程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚喜的現(xiàn)象:盡管DiCoW主要使用英語數(shù)據(jù)進(jìn)行訓(xùn)練,但它在處理其他語言時(shí)仍然表現(xiàn)出色。這就像是一個(gè)主要說中文的人,在學(xué)會了高級的傾聽技巧后,即使面對其他語言的對話也能更好地分辨出不同說話人的聲音。
這個(gè)發(fā)現(xiàn)對于實(shí)際應(yīng)用具有重要意義。在全球化的今天,我們經(jīng)常需要處理多語言的會議錄音或國際電話會議。傳統(tǒng)的方法需要為每種語言單獨(dú)訓(xùn)練系統(tǒng),這不僅耗時(shí)耗力,還可能導(dǎo)致不同語言版本之間的性能差異。
DiCoW的跨語言能力表明,說話人分離技能在某種程度上是"語言無關(guān)"的。這就像是學(xué)會了在嘈雜環(huán)境中集中注意力的技能,這種技能不僅在中文環(huán)境中有用,在英文或其他語言環(huán)境中同樣適用。
在15種不同語言的測試中,DiCoW都顯示出了穩(wěn)定的性能。即使在一些語言上的表現(xiàn)略遜于專門訓(xùn)練的系統(tǒng),但考慮到它的通用性和訓(xùn)練成本,這種性能已經(jīng)相當(dāng)令人滿意。這為開發(fā)真正的多語言智能語音助手提供了新的可能性。
四、真實(shí)世界的挑戰(zhàn)與解決方案
在將系統(tǒng)應(yīng)用到真實(shí)世界的數(shù)據(jù)時(shí),研究團(tuán)隊(duì)遇到了一個(gè)意想不到的問題:訓(xùn)練數(shù)據(jù)中存在標(biāo)注不一致的情況。這就像是在學(xué)習(xí)識別不同鳥類的叫聲時(shí),發(fā)現(xiàn)教材中有些鳥的叫聲被錯(cuò)誤標(biāo)注,或者有些明明是鳥叫的聲音卻被標(biāo)記為"安靜"。
這些標(biāo)注問題主要表現(xiàn)在兩個(gè)方面:一是有些實(shí)際的說話片段沒有被標(biāo)注出來,系統(tǒng)在學(xué)習(xí)時(shí)就會認(rèn)為這些片段是安靜的;二是有些被標(biāo)注為說話的片段實(shí)際上包含了很長的靜音時(shí)間。這種不一致會導(dǎo)致系統(tǒng)學(xué)習(xí)到錯(cuò)誤的模式,就像是一個(gè)學(xué)生從錯(cuò)誤的教材中學(xué)到了錯(cuò)誤的知識。
為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了一個(gè)聰明的策略:他們引入了一個(gè)專門的"聲音活動(dòng)檢測器"(VAD)來輔助判斷。這個(gè)檢測器就像是一個(gè)經(jīng)驗(yàn)豐富的錄音師,能夠準(zhǔn)確判斷什么時(shí)候有人在說話,什么時(shí)候是真正的安靜。
通過將這個(gè)輔助檢測器的判斷結(jié)果與原始的說話人分離結(jié)果進(jìn)行融合,系統(tǒng)的性能得到了顯著提升。在模擬真實(shí)測試環(huán)境的數(shù)據(jù)上,這種方法將錯(cuò)誤率從22.4%降低到了17.9%,在實(shí)際測試集上的表現(xiàn)也從28.6%提升到了17.4%。
這個(gè)發(fā)現(xiàn)提醒我們,在開發(fā)人工智能系統(tǒng)時(shí),數(shù)據(jù)質(zhì)量的重要性往往被低估。即使有了最先進(jìn)的算法,如果訓(xùn)練數(shù)據(jù)存在問題,系統(tǒng)的性能仍然會受到影響。就像是再好的廚師,如果食材不新鮮,也很難做出美味的菜肴。
五、性能表現(xiàn)與國際競爭
在國際多語言對話識別挑戰(zhàn)賽(MLC-SLM Challenge)中,研究團(tuán)隊(duì)的系統(tǒng)獲得了第二名的優(yōu)異成績。這項(xiàng)比賽就像是語音識別領(lǐng)域的"奧運(yùn)會",吸引了來自世界各地的頂尖研究團(tuán)隊(duì)參與。
他們的系統(tǒng)在綜合評估中達(dá)到了16.75%的錯(cuò)誤率,這個(gè)數(shù)字看起來可能不夠完美,但考慮到任務(wù)的復(fù)雜性,這已經(jīng)是相當(dāng)出色的成績。要知道,這個(gè)系統(tǒng)需要同時(shí)處理15種不同的語言,包括各種口音的英語、法語、德語、意大利語、日語、韓語、葡萄牙語、俄語、西班牙語、泰語和越南語等。
在某些語言上,系統(tǒng)的表現(xiàn)尤其出色。比如在印度英語上,錯(cuò)誤率只有6.0%,在意大利語上為8.9%,在西班牙語上為10.8%。這些數(shù)字意味著,在10個(gè)單詞中,系統(tǒng)可能只會錯(cuò)1個(gè)或更少,這對于自動(dòng)化的會議記錄或?qū)崟r(shí)翻譯應(yīng)用來說已經(jīng)是相當(dāng)實(shí)用的水平。
更重要的是,與傳統(tǒng)的基準(zhǔn)系統(tǒng)相比,新系統(tǒng)在所有語言上都顯示出了顯著的改進(jìn)。這種一致性的提升表明,他們的方法不是針對某種特定語言的優(yōu)化,而是一種真正通用的解決方案。
六、技術(shù)實(shí)現(xiàn)的精妙之處
從技術(shù)角度來看,這個(gè)系統(tǒng)的成功在于它巧妙地平衡了復(fù)雜性和實(shí)用性。整個(gè)系統(tǒng)的架構(gòu)就像是一個(gè)精密的手表,每個(gè)組件都經(jīng)過精心設(shè)計(jì)和調(diào)試。
在訓(xùn)練過程中,研究團(tuán)隊(duì)采用了一個(gè)三階段的策略。首先是"預(yù)熱"階段,系統(tǒng)使用大量的單人語音數(shù)據(jù)學(xué)習(xí)基礎(chǔ)的語音識別能力,就像是一個(gè)學(xué)生先學(xué)習(xí)基礎(chǔ)知識。然后是"適應(yīng)"階段,系統(tǒng)開始接觸多人對話的數(shù)據(jù),學(xué)習(xí)如何在復(fù)雜環(huán)境中工作。最后是"精調(diào)"階段,系統(tǒng)在特定的目標(biāo)數(shù)據(jù)上進(jìn)行最終的優(yōu)化。
這種漸進(jìn)式的訓(xùn)練方法確保了系統(tǒng)既保持了原有的強(qiáng)大語音識別能力,又獲得了處理多人對話的新技能。這就像是一個(gè)已經(jīng)精通單人演奏的音樂家,通過逐步訓(xùn)練學(xué)會了在樂團(tuán)中協(xié)調(diào)演奏。
在處理長時(shí)間錄音時(shí),系統(tǒng)采用了"滑動(dòng)窗口"的方法。它不是試圖一次性處理整個(gè)錄音,而是將其分解成若干個(gè)30秒的片段,逐個(gè)處理后再將結(jié)果拼接起來。這種方法既保證了處理的準(zhǔn)確性,又使得系統(tǒng)能夠處理任意長度的錄音。
七、實(shí)際應(yīng)用前景與局限性
這項(xiàng)研究的成果對于實(shí)際應(yīng)用具有廣泛的意義。在商業(yè)會議記錄領(lǐng)域,這種技術(shù)可以自動(dòng)生成準(zhǔn)確的會議紀(jì)要,標(biāo)注出每個(gè)發(fā)言人的具體內(nèi)容。對于教育行業(yè),它可以幫助制作更準(zhǔn)確的課堂錄音轉(zhuǎn)錄。在法律領(lǐng)域,它可以協(xié)助處理法庭辯論記錄或證人證言。
特別是在全球化的商業(yè)環(huán)境中,跨國公司經(jīng)常需要處理多語言的會議錄音。傳統(tǒng)的人工轉(zhuǎn)錄不僅成本高昂,而且效率低下。這種自動(dòng)化系統(tǒng)可以大大降低成本,提高效率,同時(shí)保證相當(dāng)高的準(zhǔn)確性。
然而,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前系統(tǒng)的一些局限性。首先,雖然系統(tǒng)在多種語言上都表現(xiàn)良好,但在某些語言(如泰語)上的性能仍有改進(jìn)空間。其次,當(dāng)前系統(tǒng)主要針對兩人對話進(jìn)行了優(yōu)化,對于更多人同時(shí)說話的場景,性能可能會有所下降。
此外,系統(tǒng)在處理方言、非標(biāo)準(zhǔn)發(fā)音或極度嘈雜的環(huán)境時(shí)仍然面臨挑戰(zhàn)。這就像是一個(gè)優(yōu)秀的翻譯員在面對濃重口音或背景噪音很大的環(huán)境時(shí)也會感到困難。
八、開源貢獻(xiàn)與未來發(fā)展
值得贊賞的是,研究團(tuán)隊(duì)決定將他們的成果開源,這意味著全世界的研究人員和開發(fā)者都可以使用和改進(jìn)這些技術(shù)。他們發(fā)布了兩個(gè)主要的模型:DiCoW和DiariZen,分別可以通過Hugging Face平臺獲取。
這種開源的做法對于整個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界都具有重要意義。它不僅加速了技術(shù)的傳播和應(yīng)用,還為后續(xù)的研究提供了堅(jiān)實(shí)的基礎(chǔ)。其他研究團(tuán)隊(duì)可以在此基礎(chǔ)上進(jìn)行改進(jìn),探索新的應(yīng)用場景,或者將這些技術(shù)與其他先進(jìn)技術(shù)結(jié)合。
展望未來,研究團(tuán)隊(duì)提出了幾個(gè)可能的改進(jìn)方向。首先是擴(kuò)展到更多說話人的場景,目前系統(tǒng)主要針對兩人對話,未來可以考慮三人、四人甚至更多人的復(fù)雜對話場景。其次是進(jìn)一步提高跨語言的泛化能力,特別是對于資源較少的語言。
另一個(gè)有趣的發(fā)展方向是將這種技術(shù)與大型語言模型結(jié)合。隨著ChatGPT等大型語言模型的興起,將精確的語音識別與強(qiáng)大的語言理解能力結(jié)合,可能會產(chǎn)生更加智能的對話理解系統(tǒng)。
研究團(tuán)隊(duì)還指出,未來的工作可能會探索更好的數(shù)據(jù)標(biāo)注方法,以解決他們在研究中發(fā)現(xiàn)的標(biāo)注不一致問題。這不僅會改善系統(tǒng)性能,還會為整個(gè)領(lǐng)域的發(fā)展提供更好的數(shù)據(jù)基礎(chǔ)。
說到底,這項(xiàng)研究代表了人工智能在理解人類對話方面的一個(gè)重要進(jìn)步。雖然我們距離完全解決多人對話理解問題還有一段路要走,但這種將說話人分離與語音識別巧妙結(jié)合的方法,為我們提供了一個(gè)新的思路和強(qiáng)大的工具。
歸根結(jié)底,這項(xiàng)技術(shù)的價(jià)值不僅在于它的技術(shù)創(chuàng)新,更在于它為人機(jī)交互開辟了新的可能性。當(dāng)我們的設(shè)備能夠更好地理解復(fù)雜的人類對話時(shí),它們就能更好地服務(wù)于我們的生活和工作。無論是在會議室里記錄重要決策,還是在家庭聚會中保存珍貴回憶,這種技術(shù)都有可能讓我們的生活變得更加便利和豐富。
對于那些對技術(shù)細(xì)節(jié)感興趣的讀者,建議查閱原始論文以獲取更深入的理解。同時(shí),開源的代碼和模型也為實(shí)際應(yīng)用和進(jìn)一步研究提供了寶貴的資源。這項(xiàng)工作不僅推進(jìn)了學(xué)術(shù)研究的邊界,也為實(shí)際應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。
Q&A
Q1:DiCoW和DiariZen是什么?它們有什么區(qū)別? A:DiCoW是一個(gè)智能語音識別系統(tǒng),專門用于理解多人對話中每個(gè)人說的具體內(nèi)容;DiariZen是一個(gè)說話人分離系統(tǒng),用于判斷"誰在什么時(shí)候說話"??梢园袲iCoW比作一個(gè)專業(yè)翻譯員,DiariZen比作一個(gè)聲音導(dǎo)航儀。兩者配合使用,就能準(zhǔn)確處理復(fù)雜的多人對話場景。
Q2:這個(gè)系統(tǒng)會不會只能處理英語對話? A:不會。雖然系統(tǒng)主要用英語數(shù)據(jù)訓(xùn)練,但它能夠處理15種不同語言,包括法語、德語、日語、韓語等。這就像學(xué)會了在嘈雜環(huán)境中集中注意力的技能,這種技能在不同語言環(huán)境中都適用。測試結(jié)果顯示,系統(tǒng)在多種語言上都有良好表現(xiàn)。
Q3:普通人如何使用這項(xiàng)技術(shù)?有什么實(shí)際應(yīng)用? A:目前研究團(tuán)隊(duì)已經(jīng)將技術(shù)開源,開發(fā)者可以通過Hugging Face平臺獲取模型。實(shí)際應(yīng)用包括會議記錄自動(dòng)轉(zhuǎn)錄、多語言電話會議處理、法庭辯論記錄等。未來可能會集成到各種語音助手、會議軟件或教育平臺中,讓普通用戶能夠更便捷地使用。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。