隨著大模型的發(fā)展,通用智能不斷迭代升級,應(yīng)用模式也不斷創(chuàng)新,從簡單的Prompt應(yīng)用、RAG(搜索增強生成)再到AI Agent(人工智能代理)。其中AI Agent一直是個火熱的話題,未來將無處不在。比爾蓋茨還宣稱終極技術(shù)競賽將圍繞著開發(fā)頂級AI代理。他說:“你再也不會去搜索網(wǎng)站或亞馬遜了......”。說明他看好人工智能給人機交互模式帶來的巨大變化,也認(rèn)可AI Agent在當(dāng)中扮演的重要角色。
AI Agent 是一個由人工智能驅(qū)動的虛擬助手,它能夠幫助實現(xiàn)流程自動化、生成見解、提升效率??梢宰鳛閱T工或合作伙伴幫助實現(xiàn)人類賦予的目標(biāo)。
恒溫器就是一個簡單的AI Agent例子,它可以根據(jù)特定的時間調(diào)節(jié)加熱達到特定的溫度。它通過溫度傳感器和時鐘感知環(huán)境。它通過一個開關(guān)采取行動,可以根據(jù)實際溫度或時間打開或關(guān)閉加熱。恒溫器可以通過添加AI功能變成一個更復(fù)雜的AI代理,使其能夠從居住在房子里的人的習(xí)慣中學(xué)習(xí)。
AI Agent可以根據(jù)Agent的行為對感知智能和能力的影響模式,分為不同類型。
本文主要介紹6種不同的AI Agent。包括:
Simple reflex agents
Model-based agents
Goal-based agents
Utility-based agents
Learning agents
Hierarchical agents
1.Simple reflex agents:簡單反射代理
簡單的反射代理是一個可以根據(jù)預(yù)定義規(guī)則做出決策的AI系統(tǒng)。它只對當(dāng)前的情況作出反應(yīng),而不考慮過去或未來的后果。
簡單的反射代理適合于具有穩(wěn)定的規(guī)則和直接行動的環(huán)境,因為它的行為純粹是反應(yīng)性的,對環(huán)境變化能夠即時做出響應(yīng)。
(1) 原理:
簡單反射代理通過遵循條件、操作規(guī)則來執(zhí)行其功能,該規(guī)則指定在特定條件下要采取的操作。
(2) 例子:
一個基于規(guī)則的系統(tǒng),用于實現(xiàn)智能客服。如果客戶的消息包含“密碼重置”的關(guān)鍵字,則系統(tǒng)可以自動生成包含關(guān)于重置密碼的指令的預(yù)定義響應(yīng)。
(3) 優(yōu)勢:
簡易:易于設(shè)計和實施,計算資源需求少,無需大量培訓(xùn)或復(fù)雜的硬件。
實施:能夠?qū)崟r響應(yīng)環(huán)境變化。
高可靠:在提供輸入的傳感器準(zhǔn)確且規(guī)則設(shè)計良好的情況下具備高可靠性。
(4) 弱勢:
如果輸入傳感器有故障或規(guī)則設(shè)計不當(dāng),則容易出錯。
沒有記憶或狀態(tài),這限制了它們的適用范圍。
無法處理部分未明確編程的環(huán)境變化。
受限于一組特定的操作,無法適應(yīng)新的情況。
2.Model-based agents:基于模型的代理
基于模型的代理,基于當(dāng)前的感知和表示不可觀察單詞的內(nèi)部狀態(tài)來執(zhí)行動作。它基于兩個因素來更新其內(nèi)部狀態(tài):
世界是如何獨立于Agent而演化的
Agent的行動如何影響世界
(1) 原理:
基于模型的代理遵循條件+動作規(guī)則,該規(guī)則指定在給定情況下要采取的適當(dāng)動作。但與簡單的反射代理不同,基于模型的代理還使用其內(nèi)部狀態(tài)來評估決策和行動過程中的條件。
基于模型的代理分四個階段運行:
感知:它通過傳感器感知世界的當(dāng)前狀態(tài)。
模型:它根據(jù)所見構(gòu)建世界的內(nèi)部模型。
原因:它使用自己的世界模型來決定如何根據(jù)一組預(yù)定義的規(guī)則或規(guī)則行事。
行為:代理人執(zhí)行其選擇的行為。
(2) 例子:
基于模型的代理最好的例子之一是:Amazon Bedrock。Amazon Bedrock是一項使用基礎(chǔ)模型來模擬運營、獲得見解并做出明智的決策,以實現(xiàn)有效的規(guī)劃和優(yōu)化的服務(wù)。
通過各種模型Bedrock可以獲得洞察力,預(yù)測結(jié)果并做出明智的決策。它不斷使用真實數(shù)據(jù)改進其模型,使其能夠適應(yīng)和優(yōu)化其運營。
然后,Amazon Bedrock針對不同的場景進行規(guī)劃,并通過模擬和調(diào)整模型參數(shù)來選擇最佳策略。
(3) 優(yōu)勢:
基于對世界的理解做出快速有效的決策。
通過構(gòu)建世界的內(nèi)部模型,更好地做出準(zhǔn)確的決策。
通過更新內(nèi)部模型來適應(yīng)環(huán)境變化。
通過使用其內(nèi)部狀態(tài)和規(guī)則來確定條件。
(4) 弱勢:
建設(shè)和維護模型的計算成本可能很高。
這些模型可能無法很好地捕捉真實世界環(huán)境的復(fù)雜性。
模型無法預(yù)測可能出現(xiàn)的所有潛在情況。
模型需要經(jīng)常更新以保持最新。
模型可能在理解能力和解釋能力方面存在挑戰(zhàn)。
3.Goal-based agents:基于目標(biāo)的代理
基于目標(biāo)的代理是利用環(huán)境信息來實現(xiàn)特定目標(biāo)的人工智能智能體。他們使用搜索算法在給定的環(huán)境中找到實現(xiàn)目標(biāo)的最有效路徑。
這些代理也稱為基于規(guī)則的代理,因為它們遵循預(yù)定義的規(guī)則來實現(xiàn)目標(biāo),并根據(jù)特定條件采取特定行動。
基于目標(biāo)的代理易于設(shè)計,可以處理復(fù)雜的任務(wù)。它們可以用于各種應(yīng)用,如機器人、計算機視覺和自然語言處理等。
與基本模型不同,基于目標(biāo)的代理可以根據(jù)其期望的結(jié)果或目標(biāo)來確定決策和行動過程的最佳路徑。
(1) 原理:
給定一個計劃,基于目標(biāo)的代理會試圖選擇最佳策略來實現(xiàn)目標(biāo),然后使用搜索算法來找到到達目標(biāo)的有效路徑。
基于目標(biāo)的代理的工作模式可以分為五個步驟:
感知:智能體使用傳感器或其他輸入設(shè)備感知其環(huán)境,以收集有關(guān)其周圍環(huán)境的信息。
推理:智能體分析收集的信息,并決定最佳行動方案以實現(xiàn)其目標(biāo)。
行動:智能體采取行動來實現(xiàn)其目標(biāo),例如移動或操縱環(huán)境中的對象。
評估:采取行動后,智能體評估其實現(xiàn)目標(biāo)的進展,并在必要時調(diào)整其行動。
目標(biāo)完成:一旦智能體實現(xiàn)了目標(biāo),它要么停止工作,要么開始為新的目標(biāo)工作。
(2) 例子:
Google Bard 是一個學(xué)習(xí)的媒介。從某種意義上來說它也是一個基于目標(biāo)的代理。作為一個基于目標(biāo)的代理,它的目標(biāo)是為用戶查詢并提供高質(zhì)量的響應(yīng)。它選擇的行動可能有助于用戶找到他們所需要的信息,并實現(xiàn)他們獲得準(zhǔn)確和有用的回復(fù)的預(yù)期目標(biāo)。
(3) 優(yōu)勢:
易于理解和實施。
有效實現(xiàn)特定目標(biāo)。
易于根據(jù)目標(biāo)完成情況評估績效。
它可以與其他AI技術(shù)相結(jié)合,以創(chuàng)建更高級的代理。
非常適合定義明確的結(jié)構(gòu)化環(huán)境。
它可用于各種應(yīng)用,如:機器人、游戲和自動駕駛汽車。
(4) 弱勢:
局限于特定的目標(biāo)。
無法適應(yīng)不斷變化的環(huán)境。
對于具有太多變量的復(fù)雜任務(wù)無效。
需要豐富的領(lǐng)域知識來定義目標(biāo)。
4.Utility-based agents:基于效用的代理
基于效用的代理是基于效用函數(shù)或價值最大化做出決策的AI代理。他們選擇具有最高預(yù)期效用的行動,這個選擇的結(jié)果決定了最終結(jié)果的好壞。這種模式更具靈活性、適應(yīng)性地處理復(fù)雜情況下的任務(wù)。
基于效用的代理通常用于必須在多個選項中進行比較和選擇,例如:資源如何分配、任務(wù)如何調(diào)度、游戲如何進行。
(1) 原理:
基于效用的代理旨在選擇導(dǎo)致高效用狀態(tài)的行為。為了實現(xiàn)這一點,它需要對其環(huán)境進行建模,可以是簡單的,也可以是復(fù)雜的。
然后,根據(jù)概率分布和效用函數(shù)評估每個可能結(jié)果的期望效用。
最后,選擇具有最高期望效用的動作,并在每個時間步長重復(fù)此過程。
(2) 例子:
Anthropic Claude是一個人工智能工具,其目標(biāo)是幫助持卡人最大限度地提高他們使用卡片的獎勵,是一個基于效用的代理。
為了實現(xiàn)其目標(biāo),它采用了一個效用函數(shù),將代表成功或幸福的數(shù)值分配給不同的狀態(tài)(持卡人面臨的情況,如:購買、支付賬單、兌換獎勵等)。然后比較每個狀態(tài)下不同行為的結(jié)果,并根據(jù)其效用值進行權(quán)衡決策。
此外,它使用啟發(fā)式和人工智能技術(shù)來簡化和改進決策。
(3) 優(yōu)勢:
可處理廣泛的決策問題
從經(jīng)驗中學(xué)習(xí)并調(diào)整其決策策略
為決策類應(yīng)用提供統(tǒng)一、客觀的框架
(4) 弱勢:
需要一個準(zhǔn)確的環(huán)境模型,否則會導(dǎo)致決策錯誤
計算成本高,需要大量計算
沒有考慮道德或倫理因素
人類很難理解和驗證其過程
5.Learning agents:學(xué)習(xí)代理
學(xué)習(xí)代理是一種可以從過去的經(jīng)驗中學(xué)習(xí)并提高模型性能的模式。最初的代理具備基礎(chǔ)的知識,并通過機器自動適應(yīng)學(xué)習(xí),不斷成長。
學(xué)習(xí)代理包括四個主要組件:
學(xué)習(xí)元素:它負(fù)責(zé)學(xué)習(xí),并根據(jù)從環(huán)境中獲得的經(jīng)驗進行改進。
Citric:它通過代理的表現(xiàn)為預(yù)定義的標(biāo)準(zhǔn)向?qū)W習(xí)元素提供反饋。
績效要素:它根據(jù)來自學(xué)習(xí)要素和評論家的信息選擇并執(zhí)行外部行動。
問題生成器:它建議采取行動,為學(xué)習(xí)元素創(chuàng)造新的信息體驗,以提高其性能。
(1) 原理:
AI學(xué)習(xí)代理遵循一個基于反饋的觀察、學(xué)習(xí)和行動的閉環(huán)。他們與環(huán)境互動,從反饋中學(xué)習(xí),并為未來的互動修正自己的行為。
以下是這個閉環(huán)的工作過程:
觀察:學(xué)習(xí)代理通過傳感器或其他輸入觀察其環(huán)境。
學(xué)習(xí):智能體使用算法和統(tǒng)計模型分析數(shù)據(jù),從對其行為和性能的反饋中學(xué)習(xí)。
行動:基于它所學(xué)到的,智能體在其環(huán)境中采取行動,以決定如何行動。
反饋:智能體通過獎勵、懲罰或環(huán)境提示接收有關(guān)其行為和表現(xiàn)的反饋。
適應(yīng):使用反饋,代理改變其行為和決策過程,更新其知識并適應(yīng)其環(huán)境。
這個循環(huán)的過程會隨著時間的推移而重復(fù),使代理能夠不斷提高其性能并適應(yīng)不斷變化的環(huán)境。
(2) 例子:
AutoGPT是學(xué)習(xí)代理的一個很好的例子,假設(shè)你想買一部智能手機。所以,你給予AutoGPT一個提示,讓它對十大智能手機進行市場研究,提供關(guān)于它們利弊的見解。
為了完成你的任務(wù),AutoGPT將通過探索各種網(wǎng)站和來源來分析十大智能手機的利弊。使用子代理程序評估網(wǎng)站的真實性。最后,它會生成一份詳細的報告,總結(jié)調(diào)查結(jié)果,并列出十大智能手機公司的利弊。
(3) 優(yōu)勢:
Agent可以根據(jù)人工智能決策將想法轉(zhuǎn)化為行動
學(xué)習(xí)代理可以遵循基本的命令,如:口頭指令、執(zhí)行任務(wù)
與執(zhí)行預(yù)定義操作的經(jīng)典代理不同,學(xué)習(xí)代理可以隨著時間的推移而進化
人工智能代理考慮效用測量,使其更加現(xiàn)實
(4) 弱勢:
可能產(chǎn)生傾向于有偏見或不正確的決策
開發(fā)和維護成本高
需要大量計算資源
依賴大量數(shù)據(jù)
缺乏人類的直覺和創(chuàng)造力功能
6.Hierarchical agents:層級代理
層級代理是一種層次化結(jié)構(gòu),可以包含高級代理、低級代理,高級代理監(jiān)督低級代理。但是,這些級別可能會根據(jù)系統(tǒng)的復(fù)雜性而有所不同。
分層代理的應(yīng)用場景如:機器人、制造、運輸?shù)?。它擅長協(xié)調(diào)、處理多任務(wù)和子任務(wù)。
(1) 原理:
分層代理的工作方式就像一個公司的組織。它們將任務(wù)組織在由不同級別組成的結(jié)構(gòu)化層次結(jié)構(gòu)中,其中更高級別的代理監(jiān)督并將目標(biāo)分解為更小的任務(wù)。
隨后,較低級別的代理執(zhí)行這些任務(wù)并提供進度報告。
在復(fù)雜系統(tǒng)的情況下,可能會有中級代理人協(xié)調(diào)較低級別代理人與較高級別代理人的活動。
(2) 例子:
Google的UniPi就是一種創(chuàng)新的AI分層代理,它利用文本和視頻作為通用接口,使其能夠在各種環(huán)境中學(xué)習(xí)各種任務(wù)。
UniPi包括一個生成指令和演示的高級策略和一個執(zhí)行任務(wù)的低級策略。高級策略適應(yīng)各種環(huán)境和任務(wù),而低級策略通過模仿和強化學(xué)習(xí)進行學(xué)習(xí)。
這種層次結(jié)構(gòu)使UniPi能夠有效地將高級推理和低級執(zhí)行相結(jié)合。
(3) 優(yōu)勢:
分層代理通過將任務(wù)分配給最合適的代理并避免重復(fù)工作來提供資源效率。
等級結(jié)構(gòu)通過建立明確的權(quán)力和方向來加強溝通。
分層強化學(xué)習(xí)(HRL)通過降低動作復(fù)雜性和增強探索來改善代理決策。它采用高級操作來簡化問題并促進代理學(xué)習(xí)。
層次分解通過更簡潔和可重用地表示整個問題,提供了最小化計算復(fù)雜性的好處。
(4) 弱勢:
使用層次結(jié)構(gòu)解決問題時會出現(xiàn)復(fù)雜性。
固定的層次結(jié)構(gòu)限制了在變化或不確定環(huán)境中的適應(yīng)性,阻礙了智能體調(diào)整或?qū)ふ姨娲桨傅哪芰Α?/p>
分層代理遵循自上而下的控制流,即使較低級別的任務(wù)已經(jīng)就緒,也會導(dǎo)致瓶頸和延遲。
層次結(jié)構(gòu)可能缺乏跨不同問題域的可重用性,需要為每個域創(chuàng)建新的層次結(jié)構(gòu),這既耗時又依賴于專業(yè)知識。
由于需要標(biāo)記的訓(xùn)練數(shù)據(jù)和精細的算法設(shè)計,訓(xùn)練分層代理具有一定挑戰(zhàn)性。由于其復(fù)雜性,應(yīng)用標(biāo)準(zhǔn)的機器學(xué)習(xí)技術(shù)來提高性能變得更加困難。
總結(jié)
隨著最近大語言模型的快速迭代升級,AI代理已不再是新事物,當(dāng)我們把多個代理放在一起,創(chuàng)造一個團隊的代理能力將遠遠超過一個單獨的代理。從維持家庭溫度的簡單反射代理到駕駛汽車的更高級代理,AI代理將無處不在。未來每個人都可以更容易地創(chuàng)建自己的代理和自己的代理團隊。它使人們能夠在幾分鐘內(nèi)完成可能需要幾小時或幾天的任務(wù)!