來自麻省理工學(xué)院、MIT-IBM 沃森人工智能實驗室和其他機構(gòu)的一組研究人員開發(fā)了一種新方法,使人工智能 (AI) 代理能夠?qū)崿F(xiàn)遠(yuǎn)見卓識。換句話說,在考慮他們的行為在完成任務(wù)時如何包含其他 AI 代理的行為時,AI 可以考慮到很遠(yuǎn)的未來。
該研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。
人工智能考慮其他代理人的未來行動
該團隊創(chuàng)建的機器學(xué)習(xí)框架使合作或競爭的 AI 代理能夠考慮其他代理將做什么。這不僅僅是在接下來的步驟中,而是隨著時間接近無窮大。智能體相應(yīng)地調(diào)整他們的行為以影響其他智能體未來的行為,幫助他們達(dá)成最優(yōu)的長期解決方案。
據(jù)該團隊稱,該框架可用于例如一組自主無人機協(xié)同工作以尋找迷路的徒步旅行者。自動駕駛車輛也可以使用它來預(yù)測其他車輛的未來動作,以提高乘客安全。
Dong-Ki Kim 是麻省理工學(xué)院信息與決策系統(tǒng)實驗室 (LIDS) 的研究生,也是該研究論文的主要作者。
“當(dāng) AI 代理合作或競爭時,最重要的是它們的行為何時會在未來的某個時刻收斂,”Kim 說。“一路上有很多短暫的行為,從長遠(yuǎn)來看并不重要。實現(xiàn)這種融合行為是我們真正關(guān)心的,我們現(xiàn)在有一種數(shù)學(xué)方法可以實現(xiàn)這一點。”
研究人員解決的問題稱為多代理強化學(xué)習(xí),強化學(xué)習(xí)是機器學(xué)習(xí)的一種形式,AI 代理通過反復(fù)試驗進行學(xué)習(xí)。
每當(dāng)有多個合作或競爭代理同時學(xué)習(xí)時,過程就會變得復(fù)雜得多。隨著代理考慮其他代理的更多未來步驟,以及他們自己的行為及其對他人的影響,這個問題需要太多的計算能力。
人工智能思考無限
“AI 真的很想考慮游戲的結(jié)局,但他們不知道游戲何時結(jié)束,”Kim 說。“他們需要考慮如何不斷調(diào)整自己的行為,以便在未來某個遙遠(yuǎn)的時間獲勝。我們的論文實質(zhì)上提出了一個新目標(biāo),使人工智能能夠思考無限。”
將無窮大集成到算法中是不可能的,因此該團隊設(shè)計系統(tǒng)的方式是讓代理專注于他們的行為將與其他代理收斂的未來點。這被稱為均衡,均衡點決定了代理人的長期表現(xiàn)。
多智能體場景中可能存在多重均衡,當(dāng)一個有效的智能體主動影響其他智能體未來的行為時,它們可以達(dá)到智能體角度的理想均衡。當(dāng)所有代理人相互影響時,他們會收斂到一個被稱為“主動均衡”的一般概念。
進一步的框架
該團隊的機器學(xué)習(xí)框架稱為 FURTHER,它使智能體能夠?qū)W習(xí)如何根據(jù)與其他智能體的交互來調(diào)整自己的行為,以實現(xiàn)主動平衡。
該框架依賴于兩個機器學(xué)習(xí)模塊。第一個是推理模塊,使代理能夠根據(jù)先前的操作猜測其他代理的未來行為以及他們使用的學(xué)習(xí)算法。然后將信息輸入強化學(xué)習(xí)模塊,代理依賴該模塊調(diào)整其行為并影響其他代理。
“挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學(xué)工具來實現(xiàn)這一點,并做出一些假設(shè)才能使其在實踐中發(fā)揮作用,”Kim 說。
該團隊在不同場景中針對其他多智能體強化學(xué)習(xí)框架測試了他們的方法,其中使用 FURTHER 的 AI 智能體領(lǐng)先。
該方法是分散的,因此代理人學(xué)會獨立取勝。最重要的是,與需要中央計算機控制代理的其他方法相比,它更適合擴展。
據(jù)該團隊稱,F(xiàn)URTHER 可用于廣泛的多代理問題。Kim 對其在經(jīng)濟學(xué)中的應(yīng)用特別有希望,因為它可以應(yīng)用于在涉及許多行為和利益隨時間變化的交互實體的情況下制定合理的政策。