這項由華為技術(shù)巴黎研究中心的Mohamed Sana、Nicola Piovesan、Antonio De Domenico等研究人員與華為中國技術(shù)團(tuán)隊、阿聯(lián)酋哈利法科技大學(xué)共同完成的研究,于2025年7月29日發(fā)表在arXiv預(yù)印本平臺,論文編號為arXiv:2507.21974v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過https://huggingface.co/datasets/netop/TeleLogs訪問相關(guān)數(shù)據(jù)集,或在arXiv平臺搜索該論文編號獲取完整研究報告。
想象一下,當(dāng)你的手機(jī)突然信號變差、網(wǎng)速緩慢時,背后其實是一個龐大的5G網(wǎng)絡(luò)系統(tǒng)出現(xiàn)了某種故障。傳統(tǒng)的網(wǎng)絡(luò)維護(hù)就像盲人摸象,工程師們往往只能看到表面癥狀,卻很難快速找到真正的問題根源。華為的研究團(tuán)隊現(xiàn)在開發(fā)出一種全新的方法,讓人工智能系統(tǒng)像經(jīng)驗豐富的老工程師一樣,不僅能準(zhǔn)確找出網(wǎng)絡(luò)故障的根本原因,還能詳細(xì)解釋為什么會出現(xiàn)這個問題。
這項研究的核心創(chuàng)新在于將大語言模型(類似ChatGPT的AI系統(tǒng))經(jīng)過專門訓(xùn)練后,使其具備了專業(yè)的5G網(wǎng)絡(luò)診斷能力。研究團(tuán)隊不僅開發(fā)了訓(xùn)練方法,還創(chuàng)建了名為TeleLogs的專門數(shù)據(jù)集,就像為AI準(zhǔn)備了一本包含各種網(wǎng)絡(luò)故障案例的"教科書"。最令人印象深刻的是,經(jīng)過訓(xùn)練的AI模型在診斷準(zhǔn)確率上達(dá)到了95.86%,遠(yuǎn)超現(xiàn)有的各種方法。
一、網(wǎng)絡(luò)故障診斷:從"頭痛醫(yī)頭"到"找準(zhǔn)病根"
在現(xiàn)代移動通信網(wǎng)絡(luò)中,故障診斷一直是個令人頭疼的問題。傳統(tǒng)的做法就像看病時只治療表面癥狀,而不去找病根。當(dāng)網(wǎng)絡(luò)出現(xiàn)問題時,工程師們會收到各種警報,比如某個區(qū)域的用戶投訴網(wǎng)速慢、通話質(zhì)量差等等。但這些都只是癥狀,真正的問題可能藏在復(fù)雜的網(wǎng)絡(luò)配置、信號干擾或者設(shè)備故障等各個層面。
過去,網(wǎng)絡(luò)運(yùn)維主要依靠專家手工制定規(guī)則來判斷故障原因。這就好比讓經(jīng)驗豐富的老中醫(yī)通過望聞問切來診斷疾病,雖然準(zhǔn)確,但完全依賴個人經(jīng)驗,而且面對越來越復(fù)雜的5G網(wǎng)絡(luò),人工分析的局限性越來越明顯。一個有經(jīng)驗的網(wǎng)絡(luò)工程師可能需要幾個小時才能分析出一個復(fù)雜故障的根本原因,而且不同工程師的判斷可能還會有分歧。
研究團(tuán)隊意識到,現(xiàn)在的5G網(wǎng)絡(luò)已經(jīng)變得極其復(fù)雜,傳統(tǒng)的基于規(guī)則的診斷方法就像用算盤來處理現(xiàn)代金融計算一樣,已經(jīng)跟不上技術(shù)發(fā)展的步伐。機(jī)器學(xué)習(xí)方法雖然在一定程度上提高了自動化水平,但往往缺乏可解釋性,就像一個"黑盒子",告訴你結(jié)果但不告訴你原因,這在需要精準(zhǔn)操作的網(wǎng)絡(luò)運(yùn)維中是不夠的。
二、TeleLogs數(shù)據(jù)集:為AI打造的"網(wǎng)絡(luò)診斷教科書"
為了訓(xùn)練AI進(jìn)行網(wǎng)絡(luò)故障診斷,研究團(tuán)隊首先需要解決一個根本問題:如何讓AI學(xué)會像人類專家一樣分析網(wǎng)絡(luò)問題。這就需要大量的訓(xùn)練數(shù)據(jù),但現(xiàn)實中的網(wǎng)絡(luò)故障數(shù)據(jù)往往涉及商業(yè)機(jī)密,很難獲得。因此,團(tuán)隊開發(fā)了TeleLogs這個綜合性的數(shù)據(jù)集,就像為醫(yī)學(xué)生編寫一本包含各種病例的教科書。
TeleLogs數(shù)據(jù)集的構(gòu)建過程就像搭建一個虛擬的5G網(wǎng)絡(luò)環(huán)境。研究人員模擬了一個真實的網(wǎng)絡(luò)環(huán)境,其中包含多個基站(就像手機(jī)信號塔),用戶設(shè)備在不同區(qū)域移動,就像開車在城市中穿行一樣。在這個虛擬環(huán)境中,他們?nèi)藶榈卦O(shè)置各種故障情況,然后記錄網(wǎng)絡(luò)的各種表現(xiàn)。
這個數(shù)據(jù)集包含了豐富的信息層次。首先是網(wǎng)絡(luò)工程參數(shù),包括每個基站的位置、天線角度、發(fā)射功率等配置信息,就像一張詳細(xì)的城市地圖,標(biāo)明了每個信號塔的具體設(shè)置。然后是用戶平面數(shù)據(jù),記錄了用戶設(shè)備在移動過程中的各種網(wǎng)絡(luò)性能指標(biāo),比如下載速度、信號強(qiáng)度、信號質(zhì)量等,就像記錄汽車在不同路段的行駛狀態(tài)。
研究團(tuán)隊定義了一個具體的故障癥狀:當(dāng)用戶的下載速度低于600Mbps時,就認(rèn)為出現(xiàn)了性能問題。針對這個癥狀,他們設(shè)計了8種可能的根本原因。第一種是測試車輛速度過快超過40公里每小時,高速移動會影響信號質(zhì)量并增加切換頻率。第二種是服務(wù)小區(qū)的天線下傾角過大,導(dǎo)致遠(yuǎn)端覆蓋較弱。第三種是服務(wù)小區(qū)覆蓋距離超過1公里,造成信號強(qiáng)度不足。
第四種是非同站同頻鄰區(qū)造成嚴(yán)重干擾,就像兩個強(qiáng)力電臺在同一頻率播放不同節(jié)目,互相干擾。第五種是鄰區(qū)與服務(wù)小區(qū)的物理小區(qū)標(biāo)識取模30后相同,導(dǎo)致參考信號重疊產(chǎn)生干擾。第六種是頻繁切換降低用戶性能,就像開車時不斷變道反而影響通行效率。第七種是切換門限配置錯誤影響用戶性能。第八種是服務(wù)小區(qū)分配給用戶的平均物理資源塊數(shù)不足,無法滿足目標(biāo)吞吐量需求。
三、雙階段訓(xùn)練方法:讓AI既準(zhǔn)確又能"講道理"
訓(xùn)練AI進(jìn)行網(wǎng)絡(luò)診斷面臨一個核心挑戰(zhàn):不僅要讓AI給出準(zhǔn)確的判斷,還要讓它能夠像人類專家一樣解釋判斷的理由。這就像培養(yǎng)一個既能準(zhǔn)確診斷疾病,又能清楚解釋病理過程的醫(yī)生。
研究團(tuán)隊設(shè)計了一個創(chuàng)新的雙階段訓(xùn)練方法。第一階段是監(jiān)督微調(diào),就像讓學(xué)生跟著優(yōu)秀老師學(xué)習(xí)標(biāo)準(zhǔn)答案。但這里的"老師"不是單獨(dú)一個,而是由多個AI代理組成的團(tuán)隊。這些代理就像不同專業(yè)背景的專家,每個都有自己獨(dú)特的分析方法。
在數(shù)據(jù)生成過程中,研究團(tuán)隊使用了兩種不同的推理策略。第一種是排除法,AI代理會系統(tǒng)性地評估每個候選根本原因,逐一排除不太可能的選項,就像偵探通過排除法縮小嫌疑人范圍。第二種是矛盾法,AI代理會假設(shè)每個候選原因都是最可能的,然后檢驗這個假設(shè)是否與觀察到的數(shù)據(jù)矛盾,如果出現(xiàn)矛盾就放棄這個假設(shè)。
這種多代理方法的巧妙之處在于能夠產(chǎn)生豐富多樣的診斷思路。就像幾個專家從不同角度分析同一個問題,最后通過投票選出最合理的答案。但是,這些原始的分析過程往往包含很多冗余信息,就像專家討論時的各種重復(fù)和跑題。
為了解決這個問題,研究團(tuán)隊引入了一個"匯總代理",它的作用就像一個高效的會議主持人,能夠從多個專家的長篇分析中提取出核心要點(diǎn),形成一個結(jié)構(gòu)化、簡潔的診斷報告。這個報告包含四個部分:數(shù)據(jù)分析、根本原因分析、根本原因識別和總結(jié)。
第二階段是強(qiáng)化學(xué)習(xí),使用了一種叫做GRPO(群體相對策略優(yōu)化)的方法。這個階段就像讓已經(jīng)掌握基礎(chǔ)知識的學(xué)生通過大量練習(xí)來提高實戰(zhàn)能力。在這個過程中,AI會生成多個不同的診斷方案,然后根據(jù)準(zhǔn)確性獲得獎勵或懲罰,逐漸學(xué)會選擇最優(yōu)的診斷策略。
強(qiáng)化學(xué)習(xí)的獎勵機(jī)制設(shè)計得很巧妙。當(dāng)AI給出正確的診斷結(jié)果時,就獲得正面獎勵;給出錯誤結(jié)果時則受到懲罰。但這里的獎勵不是簡單的對錯判斷,而是考慮了整個推理過程的質(zhì)量。系統(tǒng)會對比AI生成的多個答案,通過相對比較來確定哪個答案更好,這就像老師不是簡單地給分?jǐn)?shù),而是通過橫向比較來評判學(xué)生的表現(xiàn)。
四、實驗結(jié)果:小模型也能超越大模型專家
實驗結(jié)果展現(xiàn)了這種方法的強(qiáng)大威力。研究團(tuán)隊在三個不同規(guī)模的模型上進(jìn)行了測試:15億參數(shù)、70億參數(shù)和320億參數(shù)的模型,就像測試小學(xué)生、中學(xué)生和大學(xué)生的學(xué)習(xí)效果。
最令人驚喜的發(fā)現(xiàn)是,經(jīng)過專門訓(xùn)練的小模型竟然能夠大幅超越那些原本更強(qiáng)大的通用模型。比如,訓(xùn)練后的15億參數(shù)模型達(dá)到了87.56%的準(zhǔn)確率,而未經(jīng)訓(xùn)練的320億參數(shù)模型只有18.85%的準(zhǔn)確率。這就像一個經(jīng)過專門訓(xùn)練的??漆t(yī)生,在特定領(lǐng)域的診斷能力遠(yuǎn)超通科醫(yī)生,即使后者的整體知識面更廣。
更值得關(guān)注的是,這些小模型不僅超越了基礎(chǔ)模型,甚至超過了那些專門設(shè)計用于推理的先進(jìn)模型。比如,當(dāng)前最先進(jìn)的推理模型QwQ-32B的準(zhǔn)確率只有33.77%,而經(jīng)過訓(xùn)練的320億參數(shù)模型達(dá)到了95.86%的準(zhǔn)確率,提升了近三倍。這說明通用的推理能力雖然重要,但針對特定領(lǐng)域的專門訓(xùn)練更為關(guān)鍵。
雙階段訓(xùn)練方法的效果也得到了充分驗證。單獨(dú)使用監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的效果都遠(yuǎn)不如兩者結(jié)合。在15億參數(shù)的模型上,僅使用監(jiān)督學(xué)習(xí)的準(zhǔn)確率只有19.6%,僅使用強(qiáng)化學(xué)習(xí)為19.79%,而兩者結(jié)合后達(dá)到了87.56%。這就像學(xué)習(xí)一門技能,既需要理論學(xué)習(xí),也需要實踐練習(xí),兩者缺一不可。
為了測試模型的泛化能力,研究團(tuán)隊還設(shè)計了一個隨機(jī)化的測試集,將根本原因的編號、表格順序等表面特征進(jìn)行了打亂。這是為了確保AI學(xué)到的是真正的診斷邏輯,而不是簡單的記憶模式。結(jié)果顯示,訓(xùn)練后的模型在這個更困難的測試中仍然保持了很高的準(zhǔn)確率,320億參數(shù)模型的準(zhǔn)確率為93.23%,表明它確實學(xué)會了robust的診斷能力。
五、AI診斷過程:像老專家一樣的分析思路
為了展示AI是如何進(jìn)行網(wǎng)絡(luò)診斷的,研究團(tuán)隊提供了一個詳細(xì)的案例分析。在這個案例中,用戶的網(wǎng)絡(luò)吞吐量在連接到編號為919的基站時大幅下降,只有0.14Mbps和13.23Mbps,但切換到編號為737的基站后立即恢復(fù)到346.52Mbps以上。
AI的分析過程就像一個經(jīng)驗豐富的網(wǎng)絡(luò)工程師的思維方式。首先,它對數(shù)據(jù)進(jìn)行全面分析,注意到吞吐量下降與服務(wù)基站的變化有明確的對應(yīng)關(guān)系。然后,它系統(tǒng)性地檢查各種可能的原因。
在物理小區(qū)標(biāo)識沖突檢查中,AI計算了基站919和737的標(biāo)識碼,發(fā)現(xiàn)919除以30的余數(shù)是19,737除以30的余數(shù)是17,沒有沖突,因此排除了這個可能性。在下傾角和方位角分析中,AI發(fā)現(xiàn)基站919的機(jī)械下傾角為4度,數(shù)字下傾角為8度,總下傾角12度,但考慮到測試點(diǎn)距離很近(小于100米),這個角度設(shè)置不太可能是問題的根源。
在覆蓋距離檢查中,AI發(fā)現(xiàn)服務(wù)距離小于100米,遠(yuǎn)小于1公里的閾值,因此排除了過度覆蓋的可能性。在重疊覆蓋分析中,AI注意到基站737和919屬于同一個網(wǎng)絡(luò)節(jié)點(diǎn)(0000258),因此非同站干擾的可能性較小。
通過這種系統(tǒng)性的排除過程,AI最終確定問題的根本原因是基站737能夠提供顯著更高的吞吐量,而系統(tǒng)應(yīng)該更早地將用戶切換到基站737以避免性能下降。這個結(jié)論不僅準(zhǔn)確,而且提供了清晰的改進(jìn)建議。
六、技術(shù)創(chuàng)新與實際價值
這項研究的技術(shù)創(chuàng)新體現(xiàn)在多個方面。首先是將大語言模型成功應(yīng)用到了專業(yè)的網(wǎng)絡(luò)診斷領(lǐng)域,這在以前是很難想象的。傳統(tǒng)的網(wǎng)絡(luò)診斷要么依賴專家經(jīng)驗,要么使用專門的機(jī)器學(xué)習(xí)算法,但都缺乏靈活性和可解釋性。
大語言模型的優(yōu)勢在于它能夠處理復(fù)雜的多模態(tài)數(shù)據(jù),包括數(shù)值型的網(wǎng)絡(luò)參數(shù)和時間序列數(shù)據(jù),同時生成人類可以理解的自然語言解釋。這就像有了一個既懂技術(shù)又會表達(dá)的專家助手。
多代理數(shù)據(jù)生成方法是另一個重要創(chuàng)新。通過讓多個AI代理從不同角度分析同一個問題,然后由匯總代理提取核心要點(diǎn),這種方法確保了訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。這就像組織一個多學(xué)科專家會診,能夠從多個維度深入分析問題。
強(qiáng)化學(xué)習(xí)的應(yīng)用也很有創(chuàng)意。傳統(tǒng)的監(jiān)督學(xué)習(xí)只能讓AI學(xué)會模仿已有的答案,但強(qiáng)化學(xué)習(xí)能夠讓AI在實踐中不斷改進(jìn)自己的判斷能力。GRPO方法通過群體比較來優(yōu)化策略,避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)中獎勵函數(shù)難以設(shè)計的問題。
從實際應(yīng)用價值來看,這項研究為網(wǎng)絡(luò)運(yùn)維行業(yè)帶來了革命性的可能性。目前,5G網(wǎng)絡(luò)的復(fù)雜性已經(jīng)遠(yuǎn)超人類專家的處理能力,自動化診斷工具變得越來越重要。這種AI診斷系統(tǒng)不僅能夠快速準(zhǔn)確地找出問題根源,還能提供詳細(xì)的解釋,這對于運(yùn)維人員的決策支持極其重要。
更重要的是,這種方法具有很好的可擴(kuò)展性。雖然當(dāng)前的研究集中在特定類型的網(wǎng)絡(luò)故障上,但同樣的框架可以擴(kuò)展到其他類型的故障診斷。而且,隨著更多實際網(wǎng)絡(luò)數(shù)據(jù)的積累,系統(tǒng)的診斷能力還會持續(xù)提升。
研究團(tuán)隊開源了TeleLogs數(shù)據(jù)集,這為整個學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究提供了寶貴資源。這種開放的態(tài)度有助于推動整個領(lǐng)域的快速發(fā)展,讓更多研究者能夠基于這個基礎(chǔ)進(jìn)行創(chuàng)新。
說到底,這項研究最大的價值在于它證明了人工智能可以在高度專業(yè)化的技術(shù)領(lǐng)域發(fā)揮重要作用,而且不是簡單地替代人類,而是成為人類專家的智能助手。未來的網(wǎng)絡(luò)運(yùn)維可能會變成人機(jī)協(xié)作的模式,AI負(fù)責(zé)快速分析和初步診斷,人類專家負(fù)責(zé)最終決策和復(fù)雜情況處理。這種結(jié)合方式既能提高效率,又能保證決策的可靠性。
Q&A
Q1:TeleLogs數(shù)據(jù)集是什么?它包含哪些內(nèi)容?
A:TeleLogs是華為研究團(tuán)隊專門為5G網(wǎng)絡(luò)故障診斷開發(fā)的綜合性訓(xùn)練數(shù)據(jù)集。它包含三個主要部分:網(wǎng)絡(luò)工程參數(shù)(如基站位置、天線角度、發(fā)射功率等配置信息)、用戶平面數(shù)據(jù)(如下載速度、信號強(qiáng)度、信號質(zhì)量等性能指標(biāo)),以及8種可能的網(wǎng)絡(luò)故障根本原因。這個數(shù)據(jù)集通過模擬真實的5G網(wǎng)絡(luò)環(huán)境創(chuàng)建,就像為AI準(zhǔn)備的一本包含各種網(wǎng)絡(luò)故障案例的"教科書"。
Q2:為什么小參數(shù)的AI模型能夠超越大參數(shù)模型?
A:這是因為專門領(lǐng)域的訓(xùn)練比通用能力更重要。研究顯示,經(jīng)過專門訓(xùn)練的15億參數(shù)模型達(dá)到87.56%的準(zhǔn)確率,而未訓(xùn)練的320億參數(shù)模型只有18.85%。這就像一個經(jīng)過專門訓(xùn)練的??漆t(yī)生,在特定領(lǐng)域的診斷能力遠(yuǎn)超通科醫(yī)生。通用的大模型雖然知識面廣,但缺乏針對網(wǎng)絡(luò)診斷的專門知識和推理能力,而經(jīng)過雙階段訓(xùn)練的小模型則專門學(xué)會了網(wǎng)絡(luò)故障分析的方法。
Q3:雙階段訓(xùn)練方法具體是怎么工作的?
A:雙階段訓(xùn)練包括監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)兩個階段。第一階段讓多個AI代理用不同方法(排除法和矛盾法)分析同一問題,然后由匯總代理提取核心要點(diǎn)形成結(jié)構(gòu)化診斷報告。第二階段使用強(qiáng)化學(xué)習(xí)讓AI通過實踐提高診斷能力,根據(jù)診斷準(zhǔn)確性獲得獎勵或懲罰。實驗證明兩個階段缺一不可:單獨(dú)使用監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的準(zhǔn)確率都只有約20%,而兩者結(jié)合后可達(dá)到87-95%的準(zhǔn)確率。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。