精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

多智能體強化學習大模型初探

圖片

一、多智能體決策大模型面臨的挑戰

現實世界中的大量實際問題可以建模為包含了多個主體的協同控制和優化問題。合作式多智能體系統由多個參與主體,合作地優化某個(或多個)相同的目標函數,如:游戲AI中的多“英雄”協作、多用戶-多商品推薦、多車輛運輸投遞優化、智能倉儲多車輛調度、云計算多資源調度、多車輛協作調度等。

圖片

多智能體問題與單智能體強化學習問題的主要區別在于智能體數量由單個增加至n個,單個智能體的動作空間變為笛卡爾積下的指數型聯合動作空間,動作作用于環境,由環境反饋的狀態變為包含n個智能體信息的狀態集合,為指數次方的狀態空間。通常,該類系統使用MMDP或Dec-POMDP方式進行形式化描述。MMDP方法將單智能體的馬爾可夫過程擴展至多智能體,核心區別在于動作空間與狀態空間的指數拓展,并假設系統內的每個智能體均可以觀察到系統全局的狀態。Dec-POMDP方法則使用觀測函數對系統內的每個智能體在有限視野范圍內觀測到的信息進行建模。合作系統的目標在于優化所有智能體的聯合策略以最大化系統全局的累積回報。

圖片

求解合作式多智能體系統的最優控制策略通常面臨以下三個方面的難點:①由狀態觀測空間和聯合動作空間隨實體數量指數增長帶來的維度災難;②由維度災難導致現有的強化學習算法學習樣本效率低;③在多個任務之間模型通用性與泛化性較差。

圖片

多智能體強化學習大模型的根本目的在于設計一個模型,使其具有比較好的泛化性,一個模型可以解決多個類似問題,包括相同游戲不同場景與不同游戲不同場景。

圖片

大模型已在自然語言處理、計算機視覺等領域已取得突破性成果,最新研究顯示強化學習同樣具有BBF(Bigger, Better, Faster)的結論,當模型更大時,模型將具有更好的性能與更快的學習速度。在強化學習經典的Atari-100k測試環境中,model-based的EfficientZero方法被公認為具有較高的sample efficiency,而BBF的研究表明model-free的DQN算法通過增大模型的規模可以取得與EfficientZero相同的樣本效率并能夠顯著降低訓練的開支。隨著網絡參數規模的增大,通過合理的機制設計可以使算法性能逐漸提升。

圖片

多智能體強化學習大模型目前主要面臨四類挑戰:①不同場景的智能體數量、種類不同;②實體的特征、觀測、狀態不同,導致模型網絡輸入維度、含義等不同;③動作空間不同,導致策略網絡輸出維度、含義不同;④獎勵函數不同,導致價值函數網絡輸出尺度不同。

針對以上挑戰,需要對多智能體系統構建一套完備描述的方法,使得在該描述基礎上設計通用的決策模型成為可能。類比語言模型,可對多智能體系統內部進行統一描述。大語言模型的底座由詞表構成,詞表構成句子,并形成對客觀世界的底層描述。使用tokenizer將詞轉化為可學習的詞向量,并對齊含義與維度,將詞向量傳遞至神經網絡中并針對具體任務進行訓練。對應的,多智能體系統中通過全局的屬性表與動作表(動作語義)形成對系統中實體的完備描述(實體表),通過tokenizer的方式將屬性轉化為屬性向量與實體向量,將實體向量傳遞至后續策略網絡等神經網絡模型中,輸出控制策略。

圖片

二、動作語義網絡

動作語義網絡研究工作的核心思想是根據前面定義的語言描述,將系統整體的動作空間按照不同的動作語義進行劃分。如星際爭霸中,動作可以劃分為與自身狀態相關的移動動作與涉及兩個智能體交互的攻擊動作。在完成動作語義劃分后,根據不同的動作類型進行不同的后續處理,移動動作僅與智能體自身狀態相關,攻擊動作使用pairwise的方式表征兩個智能體之間的交互關系。

圖片

 

該先驗知識的引入使得在星際爭霸、Neural MMO等場景中模型性能有較大提升。該方案也落地到網易《逆水寒》游戲中,顯著提升游戲AI的性能。

圖片

三、置換不變性與置換同變性

利用多智能體之間的置換不變性與置換同變性對系統內部天然存在的信息冗余進行壓縮,以縮小系統的學習空間,并間接處理網絡輸入維度不同的問題。

在含有m個實體(包含n個智能體和m-n個非玩家物體)的系統中,狀態、觀測空間隨實體數量指數增長。系統的狀態刻畫的是實體集合的客觀信息,不隨輸入順序的變化而變化。在包含同質智能體的系統中,實體信息在排列上存在冗余,因此可利用同質智能體間天然存在的對稱性,在模型搭建過程中忽略輸入順序的影響可極大程度約減原有呈指數增長的狀態空間。

圖片

同時,系統內部具有不同類型的動作,包括僅與自身狀態相關的動作和存在實體之間交互的動作。在考慮排除輸入順序影響的時候,由于實體間交互動作與對應實體的狀態存在一一對應的關系,輸入順序的變化將導致輸出含義的對應改變,這對應了函數的置換同變性。另一種僅與自身狀態相關的動作類型,改變輸入順序后輸出仍然應保持不變,對應了函數的置換不變性。

圖片

圖片

通過設計兼具置換同變性與置換不變性的策略網絡結構,利用先驗知識對系統狀態空間進行壓縮,從而能夠極大程度提升后期策略學習的效率與效果。

決策網絡的輸入是由多個實體構成的觀測,經過典型的inputlayer、backbonelayer(任意網絡結構)和outputlayer,輸出控制策略。我們期望輸出中,僅與自身狀態相關的動作不受輸入順序的影響(具備置換不變性),與輸入實體有一一對應關系的動作與輸入順序的改變發生相同的變化(具備置換同變性)。為了設計更通用的模型架構,我們重點遵循“最小改動原理”,在盡量少地去改變已有網絡結構的條件下達到期望性質,最終我們僅改動inputlayerA使其具備置換不變性,并將輸入順序信息告知并修改outputlayerD使其具備置換同變性。

圖片

傳統不具備置換不變性的MLP網絡輸入可以視作每個實體信息乘上獨立、對應的子模塊參數并對輸出進行加和。我們首先提出DynamicPermutationNetwork(DPN),通過增加一個分類選擇函數,實現為每個輸入實體信息一一綁定確定的子模塊參數,進而實現輸入層的置換不變性。輸出層要求與輸入具有一一對應關系,構造類似的分類網絡,為每一個實體的輸出特征選擇確定性的矩陣,使輸出的順序隨輸入順序的變化發生協同的變化,從而實現置換同變性。

圖片

基于相同的思想,我們進一步提出HyperPolicy Network (HPN),利用“超網絡”(用一個網絡為另一個網絡生成權重參數)自動化地為每個實體生成相應的參數矩陣。以每個實體的特征作為超網絡的輸入,超網絡輸出每個實體對應的參數,此結構下實體特征與參數矩陣天然具有一一對應關系,求和后的輸出具備置換不變性。輸出層利用超網絡結構為每一個輸入實體特征一一綁定地生成對應參數,使輸出與輸入實體存在一一對應關系,具備置換同變性。

圖片

在典型的星際爭霸測試環境中,將HPN的網絡結構集成到QMIX算法,在所有困難場景均取得100%勝率。

圖片

由于設計遵循最小改動原理,該網絡結構可非常容易地集成至不同算法(如QPLEX、MAPPO)中,并使算法性能得到較大提升。

圖片

此外,在星際爭霸V2、MPE、谷歌足球等更復雜、隨機性更強的環境中,該模型架構同樣能夠取得明顯的性能優勢。

圖片

同時,由于該網絡結構能自動適應由不同實體帶來的輸入維度不同與輸出維度不同的問題,因此具有較好的可泛化性與可遷移性,能夠實現不同數量不同規模任務中控制策略的高效復用。

圖片

四、跨任務自動化課程學習

在跨任務的課程學習過程中,系統中存在多個待學習的任務,包括難度較大的目標任務、較簡單的起始任務與其他候選的任務集合,課程學習算法每一步需要從候選任務集合中選出最合適的任務從而最終輸出一條“最優學習序列(路徑)”。解決該問題需要回答兩個核心問題:

①選哪個課程作為下一個學習目標合適?

②前面學到的知識在新的課程中如何復用?

圖片

我們提出基于難度和任務相似度選擇課程。把當前策略在備選任務集合的所有任務上進行評估,得到相應的獎勵值。根據獎勵值排序,選擇處在中間40%的任務,下一課程在這些任務中產生。同時基于任務相似度,在難度適中的候選任務中選擇與目標任務最接近的任務作為最終選定的課程。為了評估與目標任務的相似度,基于當前策略在目標任務和候選任務中進行rollout獲得狀態訪問分布,利用混合高斯模型對該分布進行建模,利用分布相似性衡量任務相似性。

圖片

基于HPN網絡結構實現策略遷移和復用。采用前述具有置換不變性和置換同變性,同時支持變長輸入和輸出的HPN網絡結構實現策略的遷移和復用。自動化課程學習的整體框架為,利用難度和相似度選定下一個學習任務,該任務學習過程中利用HPN的結構重載上一個任務學得的策略,依次循環,最終在目標任務上取得更好的性能。

圖片

我們在星際爭霸場景中進行算法驗證,根據種族類型,將星際爭霸中的游戲場景分成不同的任務集合(Marines,Stalkers & Zealots,以及Medivac & Marauders & Marines),每個任務集合均給定起始任務與難度極大的最終任務。對比經典遷移學習算法,不同算法在任務選擇序列上具有較大差異,我們算法能夠基于任務難度和對最終任務的幫助程度選擇出更適合的任務序列,在最終的任務中能夠取得非常大的性能提升。

圖片

五、pymarl3:代碼開源

最后,我們將系列工作的源代碼開源,將MARL社區常用的pymarl2代碼庫升級為pymarl3,其特性如下:

(1)增加對SMAC-V2的支持,同時支持SMAC-V1和SMAC-V2,已集成在內,無需獨立安裝各個環境。

(2)升級pymarl2中的算法,使其具備置換不變性和置換同變性,設計的網絡結構可非常容易地集成到任意MARL算法中,并提升其性能。

(3)增強版算法,在SMAC-V1和SMAC-V2上均取得SOTA的性能。

圖片

本次分享概述多智能體決策大模型面臨的挑戰與類比語言模型對多智能體系統進行描述和建模的方案;提出3條重要設計先驗:動作語義網絡、置換不變性與置換同變性、跨任務自動化課程學習。歡迎大家一起合作,進一步研究強化學習大模型!

猜你喜歡