OpenAI 在 2022 年 11 月發布了對話型大語言模型 ChatGPT,提供了高度智能化的人機交互體驗和極富創造力的內容生成能力,模型一經發布,就得到全世界的廣泛關注。在 ChatGPT 火爆以后,中國科技企業紛紛投入大模型的相關工作,包括通信廠商、互聯網廠商、AI 廠商,以及很多初創公司,從算力層、平臺層、模型層、應用層等各個層面進行全面布局和突破,涌現出華為盤古、百度文心一言、阿里通義千問、科大訊飛星火認知等一批具有行業影響力的大模型產品。
對通信行業來說,大模型技術表現出的技術能力和潛力,讓業界普遍認為,大模型技術不僅在自然語言處理、計算機視覺以及多模態領域有廣泛的應用前景,在通信網絡中大模型技術同樣可以大有可為,能夠促進通信網絡自智能力持續提升。
本文針對通信行業在智能化發展方面的痛點,分析大模型技術的優勢,針對大模型技術在無線通信領域,特別是無線通信網絡智能運維方向的應用進行分析,重點聚焦在大模型技術背景下,如何將 AIGC 技術和網絡運維需求相結合,進行應用場景和模型構建的相關探討。
一、無線網絡AI技術應用的前景與現狀
隨著5G無線通信網絡的發展,無線網絡的架構日趨復雜,終端類型和業務應用也不斷增加,覆蓋增強、網絡資源管理、干擾提升、跨制式和跨層優化、節能等問題不斷突出,多場景、多制式、多目標等問題日趨明顯,每一維度的’多’都為網絡建設、運營和網絡優化帶來了更高的挑戰。從通信技術本身來說,存在大量傳統方法難以進行精確數學建模或者高效求解的技術問題,而AI技術在自然語言處理和計算機視覺等方面的突飛猛進,推動了近年來 AI 技術在通信系統中的廣泛研究與探討,目前的研究熱點包括:
網管領域:系統容量、覆蓋、故障率、負載均衡、異常檢測等多方面的性能優化;
核心網:智能業務質量定義與分配、切片狀態分析、用戶體驗分析;
接入網:智能無線資源管理、接入控制、調度算法;
無線AI算法研究重點:基于AI的編碼、調制、多址、多天線、波束管理、定位、感知、信道估計/預測、接收機算法等。
從業界廣泛的研究和探討[1][2]進展可以看到,AI技術應用到無線通信網絡,尤其是無線空口側存在以下挑戰:
缺乏科學公開的數據集:行業的不同機構采用的數據集并不統一,研究結果難以相互驗證;
無線AI數據和應用具備自己獨特的特征,如何將自然語言處理和計算機視覺領域的前沿AI算法,與無線數據以及無線領域專家知識進行有機融合尚不明確;
無線通信系統的顯著特征之一是通信場景復雜多變(室內、室外、高鐵等)與業務形式多樣,如何讓無線AI方案在有限算力前提下適用于多種通信場景與業務形式,是業界目前需要克服的重要挑戰;
無線AI的鏈路級和系統級性能上界尚不明確,在綜合考慮算力、功耗、數據集、信令開銷等成本的前提下,AI方案對比傳統基于專家知識的設計是否有性能增益等重要問題還缺乏系統科學的分析與論證,這是無線AI未來標準化和產業化落地的先決條件。
這些問題,導致AI技術在無線網絡的空口層面短期難以落地,而業界更多的面向6G無線AI的應用進行探討和嘗試,而目前AI技術在無線網絡的實際應用主要集中在智能運維領域,所以,本文重點針對大模型技術在智能運維的應用進行探討。
從5G無線網絡智能運維的角度,如何將AI技術應用于5G無線網絡,提升網絡的性能和效率的需求日趨強烈,業界已經在規、建、維、優、營等網絡智能化方面有大量實際應用。從一方面來說,5G網絡架構復雜、參數眾多,從另一方面說,5G網絡難以獲得站點環境、組網環境、用戶體驗、業務質量等影響網絡部署和資源分配的關鍵因素;而AI技術在特征提取、感知預測等方面具備優勢,如何利用先進的AI模型和算法,解決移動通信網絡對無線環境、業務體驗的感知和預測,從而提升網絡性能和業務感知,將是當前階段的一個急需突破的工作。
二、大模型技術在智能運維應用的前景和挑戰
從目前OpenAI推出的ChatGPT和之后GPT-4產品來看,大模型技術擁有一些重要的技術特征[3],具體包括:
知識抽取能力:GPT系列產品擁有龐大的世界知識,包括事實性知識和常識,可以提供知識的查詢和檢索,而且可以進行知識的歸納和總結,甚至提供簡單的知識推理和證明能力。
符合人類習慣的交互方式:以遵循提示(prompt)并生成補全提示詞的句子的語言生成方式,通過上下文學習保持對話一致性,能理解人類意圖并用自然語言回答問題、生成內容和解決問題,改變了現有人機互動方式及人類獲取世界知識的方式。
跨語言及多模態交流能力:不僅可以處理多種人類語言,還可以理解圖片內容,為人們提供更加便捷的交流,此外還可以將人類語言與機器語言進行相互翻譯,促進了人機物三元世界的融合。
自我學習和自我進化的能力:能夠自動從海量數據和人類指令中學習到其中的世界知識,學習過程不需要人的介入,而且可以自行檢查學習成果并不斷優化迭代,能靈活應用所學知識來解決實際問題。
根據大模型技術展現的這些技術特征,針對無線通信的智能運維應用,大模型技術在以下方面有明顯的技術優勢:
模型平臺統一問題:從AI技術在通信的應用情況來看,面臨場景多樣和需求復雜的問題,任務多樣,而不同的任務又有不同的數據需求;從模型應用來看,不同的任務很難定義統一的評價目標,導致不同的場景需求需要不同的AI模型,出現“大煉模型”的行業現狀。而大模型技術,能夠處理自然語言處理的多種任務,同樣的,我們希望,大模型技術也能應用于智能運維的多種任務,構建統一的模型平臺。
數據集的多來源問題:從數據集方面,通信行業雖然擁有大量網絡數據,但是數據來源和數據形式多種多樣,從之前的AI應用來看,數據的清洗、篩選等處理是一個極其耗費人力的工作。而大模型技術在預訓練過程使用了多種不同來源的數據集,具備處理多模態數據的能力,對數據的式樣和分布兼容性較高,可以通過微調等技術便利的應對數據的多來源問題。
功能遷移能力:大模型技術具有強大的知識抽取能力,而智能運維的大量任務可以歸類為知識抽取任務,比如告警的根因分析、干擾識別等任務;大模型技術在自然語言處理中有大量的序列轉導任務,比如翻譯任務,而對于無線網絡基于用戶體驗和網絡環境的網絡優化來說,存在用戶感知與網絡KPI的映射、網絡KPI與設備狀態的關聯等需求,這些需求都可以類似于序列轉導任務來進行解決。
模型的增量學習和進化:機器學習模型假設數據分布是平穩的,即訓練時接受同分布的數據訓練。但是無線網絡隨著業務種類和用戶流量的持續增加,網絡的狀態也在不斷發生變化,需要模型能夠持續的增量學習,而大模型技術的自我學習和進化能力非常適用于網絡的持續優化要求。
對于構建電信行業大模型,需要利用行業數據對大模型繼續微調或重新訓練,以提升模型的專業性。從行業數據角度,通信行業基于標準化的體系架構,是一個高度標準化、數字化的專業領域,已經積累大量的歷史數據,經過場景業務梳理和對數據的處理,可以轉化為大規模、多樣性、高質量的有效訓練數據集,在行業數據方面具有構建行業大模型的必要條件。
圖1 通信領域的數據優勢
雖然大模型技術在無線網絡的應用前景廣闊,但是,依然存在一些具體的問題和挑戰,具體包括:
數據質量要求:從大模型的訓練來看,模型性能對數據有比較高的質量要求,如何針對跨廠家跨域的數據質量進行一致性要求,將是影響大模型技術在通信網絡應用的一個關鍵問題。
可靠性要求:從目前大模型的表現來看,無法達到較高的置信度,存在“一本正經的胡說八道”的現象。對于通信網絡,可靠性要求遠超過GPT產品在互聯網的應用要求,在無線通信系統原有技術的基礎上,如何基于移動網絡的數據和專家經驗,提升大模型技術的可靠性?
小型化要求:大模型技術在無線網絡的應用落地,大模型能做到多‘小’?通過模型蒸餾等技術,模型變小后,可靠性、可遷移性能否滿足運營要求?疊加大模型后,需要整體考慮算力、性能、成本等等綜合收益。
安全性要求:大模型本身有數據安全泄露風險,如何解決安全性、隱私性問題?
三、基于大模型技術的智能運維平臺構建探討
針對大模型技術,首先基于智能網絡三層架構,進行技術拆解。考慮大模型作為統一技術底座,提升功能模塊的通用性,改變從異構的單一模塊設計弊病到功能模塊的內核統一化;形成統一的模型訓練和模型下發,提升模型的可遷移性和可靠性;形成統一的評估模型,便于異廠家、異構網絡的互聯互通。
圖2 智能網絡架構和解決方案
針對大模型技術在智能運維的應用,考慮在智能運維當中,日志本身就是一種近似自然語言的文本,可以通過大模型技術來加強對日志文本的理解;可以采用預訓練和指令學習,根據多場景任務需求,建立統一的平臺框架。對于應用場景,以異常檢測為例,將日志按照模板進行日志解析和數據構建,利用大模型技術平臺進行日志分析,進行告警壓降、異常檢測、故障預測和診斷等相關任務。圖3展示了利用大模型技術針對告警壓降場景進行的應用效果,根據告警數據和專家經驗構建訓練集,將告警日志導入大模型進行告警壓降,根據專家規則的數據進行驗證,效果良好,表明大模型技術具備日志理解、分析和挖掘的巨大應用潛力。
圖3告警壓降應用示例
借鑒LangChain技術框架,綜合考慮智能運維的場景任務和應用需求,基于大模型技術構建智能運維的平臺框架主要包括下面幾方面組成部分:
日志數據:針對網管數據進行預處理,包括數據清洗、特征提取、數據歸一化等,以便后續的分析和建模。
向量數據庫:將日志數據按照相應的分類、模板進行處理,使用適當的向量表示方法將處理后的日志數據轉化為向量,需要考慮數據高效存儲和快速索引,以及數據的更新等。
提示模板:確定提示的目標和場景,結合思維鏈(CoT)技術,收集與目標和場景相關的上下文信息;基于收集到的上下文信息,設計出適合的提示模板,包括針對各種任務的提示內容;結合具體應用場景個性化定制,根據網絡不同發展階段的性能需求,對提示進行進一步精細化定制;對提示的效果和應用反饋進行監控、分析和持續更新。
知識圖譜:在智能運維領域,利用專家經驗構建知識圖譜可以幫助系統更好地理解和應用領域內的專業知識。通過收集專家知識、知識抽取和表示、知識建模、知識融合、知識驗證等步驟,構建知識圖譜,應用于智能運維系統中,用于相應的各類場景和任務。
大模型平臺:首先需要根據場景和目標,選取合適的大模型平臺。然后利用日志數據,對模型進行微調或重新訓練,以保證模型平臺應用在智能運維中的專業性。另外,整體考慮算力、性能、成本等等綜合因素,需要對模型進行量化、壓縮等優化處理,以提示模型的效率。
智能代理:作為應用接口,根據任務的目標和場景,利用向量存儲的日志數據、提示模板和知識圖譜,進行任務分解,構建相應的上下文信息,進行合適的日志抽取和提示構建,綜合利用專家知識、專業應用程序和大模型平臺執行相關任務。
圖4 智能運維平臺框架
四、大模型技術在智能運維平臺的應用嘗試
針對大模型在智能運維的應用,包括網絡AI大模型支撐的場景和任務研究、網絡AI大模型高效集成方案研究、網絡AI大模型成效評估體系研究等研究任務。當前階段,重點考慮利用大模型技術底座,構建多任務統一框架平臺,并進行了應用驗證。
基于ChatGLM2-6B基礎大模型,采用P-Tuning v2方法微調訓練,驗證大模型技術的推理能力。考慮根因分析和異常檢測是運維中最基礎和關鍵的功能,將根因分析和異常檢測作為三個單任務構建模型進行驗證,測試評估結果如下。
任務 | Prompt格式 | 測試集準確度 |
根因分析 | "prompt": "告警數據有2條,第0條數據中,子原因是人為操作,告警項是RHUB不在位,故障類型是規劃RHUB,小區號是NoCELL,發生的時間順序是3374,第1條數據中,子原因是鏈路異常,告警項是射頻單元不在位告警,故障類型是規劃RRU,小區號是NoCELL,發生的時間順序是20,“ "response": "這條告警數據的根因是鏈路異常。“ | 97.7% |
"prompt": "告警項有3個,分別是時鐘進入異常運行狀態,小區退服,XN鏈路斷開。", "response": "這條告警數據的根因是:時鐘進入異常運行狀態。“ | 90% | |
異常檢測 | "prompt": "多維指標數據列表為[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "這條數據異常“ | 87.4% |
進一步的,輸入多種任務訓練數據,通過微調訓練得到混合任務模型,并對該模型進行多任務推理測試,測試評估結果如下。
任務 | Prompt格式 | 測試集準確度 |
根因分析 | "prompt": "告警項有3個,分別是時鐘進入異常運行狀態,小區退服,XN鏈路斷開。", "response": "這條告警數據的根因是:時鐘進入異常運行狀態。" | 84.4% |
異常檢測 | "prompt": "多維指標數據列表為[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "這條數據異常" | 87.1% |
從驗證效果看,基于大模型技術,對比傳統技術,單項任務的性能獲得明顯提升;針對多任務混合模型,大模型技術也呈現出非常優越的性能,說明基于大模型技術具備建立統一的平臺框架的可能性。在后續工作中,還將繼續嘗試更大規模模型,結合微調優化方法,提升現有任務性能;進行更多混合任務評測及性能提升,充分驗證多任務統一框架平臺的可行性;考慮使用Long Chain外掛網管運維專業知識庫,構建AI Agent智能代理,實現運維自動化的跨越式提升。
本文初步探討了基于大模型技術構建智能運維平臺的應用場景和平臺框架,進行了分析和應用嘗試,我們有理由相信大模型技術在無線網絡的智能運維領域具有廣闊的應用前景,通過提升網絡的智能化和自動化水平,可以極大的提高網絡的可靠性、性能和用戶體驗。
參考文獻:
《6G物理層AI關鍵技術白皮書》 中國移動通信有限公司研究院 2022年。
《6G無線內生AI架構與技術白皮書》 中國移動通信有限公司研究院 2022年。
《AIGC(GPT-4)賦能通信行業應用白皮書》,亞信科技、清華大學智能產業研究院,2023年。