這項(xiàng)由華為巴黎研究中心的文森佐·科勒等人領(lǐng)導(dǎo)的研究團(tuán)隊(duì),聯(lián)合意大利卡西諾大學(xué)和阿聯(lián)酋哈利法科技大學(xué),于2025年6月發(fā)表的突破性研究,首次專門針對大型語言模型在電信領(lǐng)域數(shù)學(xué)問題求解能力進(jìn)行了系統(tǒng)性評估。研究團(tuán)隊(duì)發(fā)布了名為TeleMath的數(shù)據(jù)集,感興趣的讀者可以通過https://huggingface.co/datasets/netop/TeleMath訪問完整數(shù)據(jù)集。
想象一下,如果有一天你可以向ChatGPT這樣的AI助手詢問復(fù)雜的通信工程問題,比如"在3.5GHz頻段下,距離200米的信號損耗是多少?"或者"要達(dá)到15dB的信噪比需要多大的發(fā)射功率?"這樣的AI助手能夠像一位經(jīng)驗(yàn)豐富的通信工程師一樣,準(zhǔn)確地進(jìn)行數(shù)學(xué)計(jì)算并給出正確答案嗎?這正是華為研究團(tuán)隊(duì)想要探索的問題。
隨著5G網(wǎng)絡(luò)的普及和6G技術(shù)的臨近,通信行業(yè)正在經(jīng)歷前所未有的技術(shù)革命。在這個(gè)過程中,人工智能和機(jī)器學(xué)習(xí)技術(shù)扮演著越來越重要的角色。大型語言模型作為AI領(lǐng)域的明星,已經(jīng)在文本生成、代碼編寫等方面表現(xiàn)出色,甚至在一般性的數(shù)學(xué)推理方面也有了顯著進(jìn)步。然而,通信領(lǐng)域的數(shù)學(xué)問題往往具有高度專業(yè)性,不僅需要精確的數(shù)值計(jì)算,還需要深入理解信號處理、網(wǎng)絡(luò)優(yōu)化、性能分析等專業(yè)知識。
這就好比一個(gè)普通的數(shù)學(xué)老師和一個(gè)專業(yè)的航空工程師之間的差別。雖然兩人都精通數(shù)學(xué),但當(dāng)面臨具體的飛機(jī)設(shè)計(jì)計(jì)算時(shí),航空工程師的專業(yè)知識就顯得至關(guān)重要。同樣,當(dāng)大型語言模型面對通信工程的專業(yè)數(shù)學(xué)問題時(shí),它們是否具備足夠的領(lǐng)域知識和計(jì)算能力,這個(gè)問題此前一直沒有得到系統(tǒng)性的研究。
雖然已經(jīng)有一些研究評估了大型語言模型在廣泛數(shù)學(xué)問題上的表現(xiàn),比如著名的MATH和GSM8K數(shù)據(jù)集,也有一些研究關(guān)注了AI在通信相關(guān)任務(wù)上的能力,如協(xié)議總結(jié)、標(biāo)準(zhǔn)文檔分類等,但專門針對通信領(lǐng)域數(shù)學(xué)問題求解能力的評估卻一直是個(gè)空白。最近雖然有研究探索了大型語言模型在通信問題建模和方程完成方面的能力,但對于實(shí)際求解數(shù)學(xué)問題這一核心技能,仍然缺乏深入的研究。
華為研究團(tuán)隊(duì)的這項(xiàng)工作填補(bǔ)了這一重要空白。他們不僅構(gòu)建了首個(gè)專門用于評估大型語言模型在通信領(lǐng)域數(shù)學(xué)問題求解能力的基準(zhǔn)數(shù)據(jù)集TeleMath,還設(shè)計(jì)了一套創(chuàng)新的數(shù)據(jù)生成框架,能夠從少量專家設(shè)計(jì)的種子問題出發(fā),自動(dòng)生成大量高質(zhì)量的問題答案對。更重要的是,他們對多個(gè)主流開源大型語言模型進(jìn)行了全面的評估,發(fā)現(xiàn)了一些令人驚訝的結(jié)果:專門為數(shù)學(xué)或邏輯推理設(shè)計(jì)的模型表現(xiàn)明顯優(yōu)于通用模型,即使后者擁有更多的參數(shù)。
這項(xiàng)研究的意義不僅在于學(xué)術(shù)層面,更在于它為通信行業(yè)的AI應(yīng)用指明了方向。如果大型語言模型能夠準(zhǔn)確解決通信工程中的復(fù)雜數(shù)學(xué)問題,那么它們就可以成為工程師們的得力助手,幫助自動(dòng)化復(fù)雜的優(yōu)化任務(wù)、預(yù)測分析,甚至協(xié)助網(wǎng)絡(luò)配置和故障診斷。這將大大提高通信行業(yè)的工作效率,推動(dòng)智能化網(wǎng)絡(luò)的發(fā)展。
一、構(gòu)建通信數(shù)學(xué)題庫:像建造圖書館一樣的系統(tǒng)工程
要評估大型語言模型在通信領(lǐng)域的數(shù)學(xué)能力,首先需要一個(gè)高質(zhì)量的測試題庫。這就像要測試學(xué)生的數(shù)學(xué)水平,你需要先準(zhǔn)備一套涵蓋各個(gè)知識點(diǎn)的試卷一樣。華為研究團(tuán)隊(duì)面臨的挑戰(zhàn)是,如何創(chuàng)建一個(gè)既全面又準(zhǔn)確的通信數(shù)學(xué)問題集合。
研究團(tuán)隊(duì)首先邀請了10位通信領(lǐng)域的專家,就像邀請資深教師來出題一樣。這些專家精心設(shè)計(jì)了50個(gè)涵蓋通信各個(gè)分支的數(shù)學(xué)問題,從基礎(chǔ)概念到高級應(yīng)用都有涉及。每個(gè)問題不僅包含標(biāo)準(zhǔn)答案,還附帶了詳細(xì)的步驟解析,就像優(yōu)秀的數(shù)學(xué)參考書會(huì)提供完整的解題過程一樣。這50個(gè)問題構(gòu)成了整個(gè)數(shù)據(jù)集的"種子",就像園丁播種時(shí)選擇的優(yōu)質(zhì)種子,將來要從中培育出更多的"植株"。
但是僅僅50個(gè)問題顯然不夠用來全面評估AI的能力。想象一下,如果你只用50道題就想測試一個(gè)學(xué)生的整體數(shù)學(xué)水平,這顯然是不夠的。因此,研究團(tuán)隊(duì)設(shè)計(jì)了一套巧妙的"問題繁殖"系統(tǒng),能夠從這50個(gè)種子問題中自動(dòng)生成大量新的問題。
這個(gè)過程有點(diǎn)像復(fù)制DNA的過程。研究團(tuán)隊(duì)首先讓AI助手分析每個(gè)專家問題,將復(fù)雜的問題分解成更小的子問題,就像把一道復(fù)雜的應(yīng)用題拆分成幾個(gè)簡單的計(jì)算步驟。然后,他們從每個(gè)子問題中提取出可重復(fù)使用的"模板"或"藍(lán)圖",這些藍(lán)圖包含了問題的基本結(jié)構(gòu)和計(jì)算方法,但參數(shù)是可以變化的。
比如說,專家設(shè)計(jì)了一個(gè)關(guān)于計(jì)算5G小基站在3.5GHz頻段、距離200米時(shí)信號損耗的問題。AI助手會(huì)分析這個(gè)問題,提取出一個(gè)通用的"自由空間路徑損耗計(jì)算"藍(lán)圖。然后,這個(gè)藍(lán)圖就可以用來生成無數(shù)個(gè)類似但參數(shù)不同的新問題:比如在2.4GHz頻段、距離500米的情況,或者在28GHz頻段、距離50米的情況等等。
最終的TeleMath數(shù)據(jù)集包含了500個(gè)問題答案對,覆蓋了通信工程的七個(gè)主要分支。其中通信工程類問題占最大比例(30.6%),這很合理,因?yàn)檫@是該領(lǐng)域的核心。概率統(tǒng)計(jì)類問題占21.8%,運(yùn)籌學(xué)類問題占18.6%,信號處理類問題占13.6%,信息論類問題占8.8%,計(jì)算機(jī)網(wǎng)絡(luò)類問題占4.8%,電氣工程類問題占1.8%。這個(gè)分布就像一個(gè)營養(yǎng)均衡的餐盤,確保了各個(gè)重要領(lǐng)域都得到了適當(dāng)?shù)年P(guān)注。
特別值得一提的是,研究團(tuán)隊(duì)決定讓所有問題的答案都是數(shù)值,而不是復(fù)雜的數(shù)學(xué)公式。這個(gè)決定很有實(shí)用價(jià)值,因?yàn)樵趯?shí)際的通信工程工作中,工程師們最終需要的往往是具體的數(shù)字結(jié)果來指導(dǎo)實(shí)際決策,比如"天線增益應(yīng)該設(shè)置為多少dB"或"傳輸功率應(yīng)該是多少瓦"。同時(shí),數(shù)值答案也讓評估變得更加簡單可靠,避免了因?yàn)閿?shù)學(xué)表達(dá)式的不同寫法而導(dǎo)致的判斷困難。
為了保證數(shù)據(jù)集的質(zhì)量和一致性,每個(gè)問題都按照統(tǒng)一的JSON格式進(jìn)行標(biāo)準(zhǔn)化,包含問題描述、數(shù)值答案、所屬類別、詳細(xì)標(biāo)簽和難度等級等信息。這就像給每本圖書都貼上了詳細(xì)的分類標(biāo)簽,方便后續(xù)的查找和使用。
二、智能問題生成:讓AI成為出題專家
創(chuàng)建TeleMath數(shù)據(jù)集最核心的挑戰(zhàn)在于如何從有限的專家問題中自動(dòng)生成大量高質(zhì)量的新問題。這個(gè)過程就像訓(xùn)練一個(gè)機(jī)器人成為出題專家,讓它能夠理解專家的思路,然后創(chuàng)造出風(fēng)格相似但內(nèi)容不同的新題目。
整個(gè)生成過程可以比作一個(gè)精密的生產(chǎn)流水線,包含四個(gè)關(guān)鍵環(huán)節(jié):問題分解、藍(lán)圖生成、合成數(shù)據(jù)生成和后期處理。每個(gè)環(huán)節(jié)都有其獨(dú)特的作用,就像汽車生產(chǎn)線上的不同工位一樣。
問題分解階段就像把一個(gè)復(fù)雜的機(jī)械裝置拆解成各個(gè)零部件進(jìn)行研究。研究團(tuán)隊(duì)使用了Qwen2.5-72B-Instruct這個(gè)AI模型,讓它仔細(xì)分析專家提供的每個(gè)復(fù)雜問題。AI需要做的就是把一個(gè)多步驟的復(fù)雜問題拆分成若干個(gè)獨(dú)立的子問題,每個(gè)子問題都應(yīng)該是自包含的,不需要依賴其他信息就能獨(dú)立求解。
舉個(gè)具體例子來說明這個(gè)過程。假設(shè)專家設(shè)計(jì)了一個(gè)關(guān)于無線通信系統(tǒng)綜合設(shè)計(jì)的問題:要求計(jì)算在特定條件下的自由空間路徑損耗、接收機(jī)噪聲功率、所需發(fā)射功率,以及驗(yàn)證是否符合功率限制要求。AI助手會(huì)把這個(gè)復(fù)雜問題分解成幾個(gè)獨(dú)立的子問題:第一個(gè)子問題專門計(jì)算自由空間路徑損耗,第二個(gè)子問題計(jì)算接收機(jī)噪聲功率,第三個(gè)子問題確定最小發(fā)射功率,第四個(gè)子問題驗(yàn)證功率合規(guī)性。每個(gè)子問題都可以獨(dú)立存在,有自己完整的輸入條件和計(jì)算過程。
分解完成后,AI還會(huì)進(jìn)行一次"質(zhì)量檢查",確保每個(gè)子問題都是明確、無歧義且自包含的。這就像質(zhì)檢員檢查生產(chǎn)線上的產(chǎn)品一樣,確保每個(gè)子問題都符合標(biāo)準(zhǔn)要求。
接下來是藍(lán)圖生成階段,這是整個(gè)系統(tǒng)最具創(chuàng)新性的部分。研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的藍(lán)圖生成方法,就像兩種不同的食譜制作方式。
第一種是代碼驅(qū)動(dòng)的藍(lán)圖生成。這種方法把數(shù)學(xué)問題轉(zhuǎn)換成可執(zhí)行的Python代碼,就像把烹飪步驟寫成詳細(xì)的程序指令。研究團(tuán)隊(duì)使用Qwen2.5-Coder-32B-Instruct模型來完成這個(gè)任務(wù),因?yàn)檫@個(gè)模型在代碼生成方面表現(xiàn)優(yōu)秀。AI會(huì)根據(jù)子問題和詳細(xì)解答過程,編寫出相應(yīng)的Python函數(shù)。比如,對于自由空間路徑損耗的計(jì)算,AI會(huì)生成一個(gè)包含頻率和距離作為輸入?yún)?shù)的函數(shù),函數(shù)內(nèi)部包含了標(biāo)準(zhǔn)的路徑損耗計(jì)算公式。
生成的代碼會(huì)立即用原始問題的參數(shù)進(jìn)行測試。如果計(jì)算結(jié)果與預(yù)期答案不符,這個(gè)代碼藍(lán)圖就會(huì)被丟棄,確保只保留準(zhǔn)確可靠的藍(lán)圖。這就像廚師試做新菜譜,如果味道不對就會(huì)調(diào)整配方一樣。
第二種是符號數(shù)學(xué)驅(qū)動(dòng)的藍(lán)圖生成。這種方法專門處理那些解答涉及推導(dǎo)數(shù)學(xué)方程的問題。AI首先將解答中的數(shù)學(xué)表達(dá)式標(biāo)準(zhǔn)化為LaTeX格式,然后使用SymPy這個(gè)Python數(shù)學(xué)庫將其轉(zhuǎn)換為結(jié)構(gòu)化的代數(shù)形式。這個(gè)過程就像把手寫的數(shù)學(xué)公式轉(zhuǎn)換成計(jì)算機(jī)能夠理解和操作的標(biāo)準(zhǔn)格式。
在合成數(shù)據(jù)生成階段,AI需要為每個(gè)藍(lán)圖生成合理的新參數(shù)。這個(gè)過程特別有趣,因?yàn)锳I不能隨意選擇參數(shù),而是需要根據(jù)實(shí)際的通信工程場景來生成現(xiàn)實(shí)可行的數(shù)值。比如,如果原問題涉及5G小基站的信號損耗計(jì)算,AI就會(huì)基于其訓(xùn)練數(shù)據(jù)中的知識,提出其他適合小基站場景的頻率和距離組合,而不是胡亂選擇數(shù)字。
這就像一個(gè)有經(jīng)驗(yàn)的工程師在設(shè)計(jì)新的測試場景,他會(huì)根據(jù)實(shí)際應(yīng)用的可能性來選擇參數(shù),確保生成的問題在現(xiàn)實(shí)中是有意義的。AI利用其龐大的訓(xùn)練數(shù)據(jù),能夠"記住"什么樣的參數(shù)組合在特定的通信場景中是合理的。
最后是后期處理階段,這就像工廠的最終質(zhì)檢和包裝環(huán)節(jié)。系統(tǒng)會(huì)進(jìn)行三個(gè)重要的處理步驟。
首先是過濾環(huán)節(jié),剔除那些數(shù)值過于極端或不合理的問題。比如,如果生成的距離是負(fù)數(shù),或者頻率高得超出了現(xiàn)實(shí)技術(shù)范圍,這樣的問題就會(huì)被自動(dòng)過濾掉。
然后是問題編輯環(huán)節(jié),AI需要將新生成的數(shù)值參數(shù)自然地融入到原始問題的表述中。這就像一個(gè)編輯在修改文章,需要保持原文的風(fēng)格和結(jié)構(gòu),只是替換其中的具體數(shù)值。AI會(huì)收到原始問題和新參數(shù)的對照表,然后巧妙地進(jìn)行替換,確保新問題讀起來自然流暢。
最后是語義驗(yàn)證環(huán)節(jié),這是一個(gè)特別重要的質(zhì)量保證步驟。另一個(gè)AI驗(yàn)證器會(huì)仔細(xì)比較新生成的問題和原始問題,確保兩者在結(jié)構(gòu)上等價(jià),需要的解題步驟相同,涉及的物理量和單位也保持一致。這就像讓另一位老師檢查新題目是否與原題目考查相同的知識點(diǎn)。
整個(gè)生成流水線完成后,每個(gè)新問題還會(huì)被自動(dòng)標(biāo)注類別、標(biāo)簽和難度等級。AI會(huì)分析問題內(nèi)容,將其歸類到相應(yīng)的技術(shù)分支,添加描述具體概念的標(biāo)簽,并根據(jù)解答的復(fù)雜程度判斷難度等級。那些需要更多解題步驟和更長解答的問題被標(biāo)記為高級難度,而相對簡單直接的問題則被標(biāo)記為基礎(chǔ)難度。
通過這套精心設(shè)計(jì)的流水線,研究團(tuán)隊(duì)成功地從50個(gè)專家問題擴(kuò)展出了500個(gè)高質(zhì)量的測試問題,為評估大型語言模型在通信數(shù)學(xué)領(lǐng)域的能力提供了豐富而可靠的測試材料。
三、AI模型大比拼:誰是通信數(shù)學(xué)的冠軍
為了全面評估不同AI模型在通信數(shù)學(xué)問題上的表現(xiàn),研究團(tuán)隊(duì)組織了一場"AI數(shù)學(xué)競賽"。這場比賽的規(guī)則很有趣:每個(gè)AI模型需要回答TeleMath數(shù)據(jù)集中的所有500個(gè)問題,而且每道題要嘗試16次,就像給每個(gè)考生16次答題機(jī)會(huì),然后看看它們的表現(xiàn)如何。
評判標(biāo)準(zhǔn)也很直觀,就像學(xué)校考試一樣。第一個(gè)指標(biāo)叫做"pass@1",就是看AI第一次嘗試就答對的概率,這反映了模型的即時(shí)準(zhǔn)確性。第二個(gè)指標(biāo)叫做"cons@16",是看16次嘗試中最常出現(xiàn)的答案是否正確,這就像民主投票一樣,相信"多數(shù)派"的選擇。
研究團(tuán)隊(duì)測試了八個(gè)不同的AI模型,它們可以分為兩大陣營:專門為推理和數(shù)學(xué)設(shè)計(jì)的"數(shù)學(xué)專家"模型,以及功能更全面的"通用型"模型。
在數(shù)學(xué)專家陣營中,Qwen3-32B表現(xiàn)最為出色,就像班里的數(shù)學(xué)課代表一樣。它的第一次答對率達(dá)到了69.51%,16次投票的準(zhǔn)確率更是高達(dá)76%。這意味著在大部分通信數(shù)學(xué)問題上,它都能給出正確答案,表現(xiàn)相當(dāng)可靠。
緊隨其后的是DeepSeek-R1-Distill-Llama-70B和Phi-4-reasoning+,它們的表現(xiàn)形成了第二梯隊(duì)。前者的第一次答對率為53.21%,后者為53.56%,雖然比不上Qwen3-32B,但仍然展現(xiàn)出了不錯(cuò)的數(shù)學(xué)推理能力。
特別令人驚訝的是,規(guī)模最小的推理模型Qwen3-4B,雖然參數(shù)量遠(yuǎn)小于一些通用大模型,但它的表現(xiàn)卻超越了許多體積龐大的競爭對手。這就像一個(gè)身材瘦小但訓(xùn)練有素的專業(yè)運(yùn)動(dòng)員,能夠擊敗體格更強(qiáng)壯但缺乏專業(yè)訓(xùn)練的業(yè)余選手。這個(gè)現(xiàn)象說明,針對特定任務(wù)的優(yōu)化訓(xùn)練比單純增加模型規(guī)模更重要。
在通用型模型陣營中,Qwen2.5-Math-72B-Instruct表現(xiàn)最佳,第一次答對率為39.99%,16次投票準(zhǔn)確率為46.48%。雖然它的名字里有"Math",表明在數(shù)學(xué)方面有所優(yōu)化,但與專門的推理模型相比仍有不小差距。
Llama-3.3-70B-Instruct緊隨其后,成績?yōu)?6.23%和40.20%。有趣的是,數(shù)學(xué)專門化的模型們在測試中受到了一個(gè)限制:它們的回答長度被限制在4096個(gè)詞以內(nèi),而其他模型可以使用16384個(gè)詞。即便在這種不利條件下,Qwen2.5-Math-72B-Instruct仍然成為了通用模型中的佼佼者,這說明專門的數(shù)學(xué)訓(xùn)練確實(shí)很有價(jià)值。
表現(xiàn)相對較弱的是一些小型通用模型,比如Qwen2.5-Math-7B-Instruct(22.38%)和Llama-3.1-8B-Instruct(13.56%)。這些模型就像剛開始學(xué)習(xí)數(shù)學(xué)的學(xué)生,在面對復(fù)雜的通信工程問題時(shí)還顯得力不從心。
從不同技術(shù)領(lǐng)域的表現(xiàn)來看,各個(gè)模型都有自己的"擅長科目"。電氣工程類問題普遍得分較高,這可能是因?yàn)檫@類基礎(chǔ)知識在AI的訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率較高,就像學(xué)生們對基礎(chǔ)課程更熟悉一樣。相比之下,計(jì)算機(jī)網(wǎng)絡(luò)和通信工程類問題對大多數(shù)模型來說都比較困難,特別是對小型通用模型,它們在這些專業(yè)領(lǐng)域的得分往往低于20%。
模型規(guī)模的影響也很明顯。在同一個(gè)模型家族內(nèi),大模型幾乎總是比小模型表現(xiàn)更好。比如Qwen3-32B明顯優(yōu)于Qwen3-4B,Qwen2.5-Math-72B比Qwen2.5-Math-7B強(qiáng)很多。這符合我們的直覺:更大的模型通常意味著更多的知識儲備和更強(qiáng)的推理能力。
整個(gè)評估結(jié)果揭示了一個(gè)重要趨勢:在復(fù)雜的技術(shù)數(shù)學(xué)問題面前,專門為推理和數(shù)學(xué)設(shè)計(jì)的AI模型具有明顯優(yōu)勢。即使是參數(shù)較少的專業(yè)模型,也能在很多情況下超越參數(shù)更多的通用模型。這就像專業(yè)工具和多功能工具的區(qū)別,雖然多功能工具很全面,但在特定任務(wù)上,專業(yè)工具往往表現(xiàn)更佳。
這個(gè)發(fā)現(xiàn)對于通信行業(yè)具有重要的實(shí)踐意義。如果企業(yè)想要使用AI來輔助復(fù)雜的通信工程計(jì)算,選擇專門優(yōu)化過的推理模型可能比單純追求大參數(shù)的通用模型更有效。當(dāng)然,隨著技術(shù)的發(fā)展,我們也期待看到未來的通用模型能夠在保持多功能性的同時(shí),在專業(yè)數(shù)學(xué)推理方面也達(dá)到更高的水平。
說到底,這場AI數(shù)學(xué)競賽告訴我們,在人工智能的世界里,"術(shù)業(yè)有專攻"這個(gè)古老智慧依然適用。不同的任務(wù)需要不同類型的AI助手,而為特定目標(biāo)優(yōu)化的模型往往能夠提供更可靠的表現(xiàn)。對于通信工程師來說,這意味著他們很快就能擁有真正稱職的AI數(shù)學(xué)助手,幫助解決日常工作中遇到的復(fù)雜計(jì)算問題。
歸根結(jié)底,華為研究團(tuán)隊(duì)的這項(xiàng)工作不僅創(chuàng)建了第一個(gè)專門的通信數(shù)學(xué)AI評估基準(zhǔn),更重要的是為整個(gè)行業(yè)指明了方向:要讓AI真正成為通信工程師的得力助手,我們需要的不僅僅是更大的模型,更需要針對專業(yè)需求精心設(shè)計(jì)和訓(xùn)練的智能系統(tǒng)。隨著TeleMath數(shù)據(jù)集的公開發(fā)布,相信會(huì)有更多研究者投入到這個(gè)領(lǐng)域,推動(dòng)通信AI技術(shù)向更加實(shí)用和可靠的方向發(fā)展。
雖然目前的研究還有一些局限性,比如種子數(shù)據(jù)集相對較小,某些技術(shù)分支的覆蓋還不夠全面,但這項(xiàng)工作已經(jīng)為未來的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著更多專家的參與和數(shù)據(jù)集的不斷擴(kuò)充,我們有理由相信,AI在通信領(lǐng)域的數(shù)學(xué)能力會(huì)越來越強(qiáng),最終成為每個(gè)通信工程師不可或缺的智能伙伴。有興趣深入了解這項(xiàng)研究的讀者,可以訪問https://huggingface.co/datasets/netop/TeleMath獲取完整的數(shù)據(jù)集和相關(guān)資料。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。