人工智能系統可以模仿人類智能的某些方面,并取得令人印象深刻的結果,包括檢測物體、導航環境、下棋,甚至生成文本。但是克隆人類行為也有其局限性。如果沒有思想作為行動的后盾,人工智能系統在面對新情況時可能會變得脆弱,并犯不可預測的錯誤。
英屬哥倫比亞大學和矢量研究所的科學家最近的一個項目展示了讓人工智能系統像人類一樣思考的好處。他們提出了一種名為“思想克隆”的技術,可以同時訓練人工智能的思想和行動。
思想克隆可以使深度學習模型為其行為生成一種推理過程,并將該推理傳遞給人類操作員。思想克隆有很多好處,包括培訓效率、故障排除和錯誤修復,以及防止有害行為。
行為克隆vs思想克隆
許多深度學習系統都是在人類生成的數據上進行訓練的。例如,訓練數據可以是國際象棋游戲中的走法列表,也可以是策略游戲中的動作序列。它可以是現實世界的行為,比如完成倉庫中的任務。通過在一個足夠大的數據集上進行訓練,人工智能代理將能夠在該任務上創建一個人類行為模型。
克隆行為
但是,雖然該模型可以學習模仿人類行為并在許多任務中達到相同的結果,但它不一定能學習這些行為背后的推理。如果沒有思維過程,人工智能代理將無法將學習到的動作推廣到新的設置中。因此,它將需要一個更大的訓練數據集,包括所有可能的場景。面對看不見的邊緣情況,它仍然是不可預測的。
思想克隆背后的假設是,如果你訓練一個模型的行為和相應的思想,那么這個模型將學習行為和目標之間的正確聯系。它還將能夠生成并傳達其行為背后的推理。
為了在ML模型中實現思想克隆,您需要在訓練期間為模型提供多個信息流。一種是行動觀察,例如玩家在游戲中所執行的移動。第二種是思想流,比如動作背后的解釋。例如,在即時戰略游戲中,AI觀察到玩家在橋前移動了幾個單位。同時,它會收到一個文本解釋,上面寫著“阻止敵軍過橋”之類的內容。
認為克隆
這種方法有幾個好處。首先,人工智能代理將學習得更快,因為他們需要更少的例子來弄清楚為什么某個動作很重要。其次,他們會表現得更好,因為他們能夠將同樣的推理推廣到看不見的情況。第三,他們將通過表達他們所采取的每一個行動背后的原因來提高安全性。例如,如果AI代理正在追求正確的目標,但打算采取不安全的行動(例如,為了按時到達目的地而闖紅燈),那么它可以在造成損害之前被阻止。因此,如果它出于錯誤的原因采取了正確的行動,它可以被引導到正確的方向上。
教人工智能模仿人類思維
研究人員提出了一個由兩部分組成的深度學習架構,試圖完成一項任務。“上層組件”處理一系列想法和環境觀察,并試圖預測下一個有助于模型實現其目標的想法。“下層組件”接收環境觀察和上層組件的輸出,并嘗試預測要采取的正確行動。
模型重復這個過程,并使用每個階段的結果作為下一階段的輸入。在訓練期間,模型可以訪問人類產生的思想和行動序列。它將這些信息作為基本事實來調整參數,并將思想和行動預測的損失降至最低。經過訓練的模型應該能夠為看不見的任務生成正確的思想和行動序列。
該模型使用轉換器、長短期記憶(LSTM)網絡和視覺語言模型來處理文本命令和視覺數據,將它們融合在一起,并跨多個步驟跟蹤嵌入。研究人員在GitHub上發布了他們的結果,包括模型權重,訓練模型的代碼,以及生成訓練和測試數據的代碼。(在人工智能實驗室減少分享并對模型細節保密的背景下,這是一個有希望的進展。)
思想克隆架構(來源:arXiv)
在他們的實驗中,作者使用了BabyAI,這是一個網格世界平臺,人工智能代理必須完成不同的任務。代理可以執行各種操作,如撿起物體、開門和導航房間。BabyAI平臺的優勢在于,它可以通過編程方式生成世界、任務、解決方案和敘述來訓練AI系統。研究人員創建了一個包含100萬個場景的數據集來訓練他們的思維克隆模型。
為了測試他們的技術,研究人員創建了兩個不同的模型。第一個被訓練為純粹的行為克隆,這意味著它只接受環境觀察。第二個是思想克隆訓練,接收行為數據和關于每個動作背后原因的明文解釋流。
結果表明,思想克隆明顯優于行為克隆,并且收斂速度更快,因為它需要更少的訓練樣本來推廣到未見過的樣本。他們的實驗還表明,思想克隆在非分布(out-distribution,OOD)示例(與模型訓練示例非常不同的任務)中的表現也優于行為克隆。
思想克隆還使研究人員能夠更好地理解人工智能代理的行為,因為每一步,它都用自然語言進行規劃和推理。事實上,這種可解釋性特征使研究人員能夠在訓練期間調查模型的一些早期錯誤,并迅速調整他們的訓練制度,使其朝著正確的方向發展。
考慮在BabyAI環境下克隆(來源:arXiv)
在安全方面,研究人員開發了一種叫做預防犯罪干預的技術,通過檢查模型的思維流來自動檢測和防止危險行為。他們觀察到,在他們的實驗環境中,犯罪預防干預“幾乎完全消除了所有不安全行為,從而展示了TC代理在提高人工智能安全性方面的巨大潛力。”
將思想克隆應用于現實世界的人工智能
認為克隆是人工智能研究和發展的一個有趣和有前途的方向。它適用于其他試圖創建具身和多模態深度學習模型的活動,例如谷歌的PaLM-E和DeepMind的Gato。人類智能比目前的人工智能強大得多的部分原因是我們能夠同時吸收和處理不同形式的信息。實驗表明,多模態人工智能系統的魯棒性和效率要高得多。
然而,思想克隆并非沒有挑戰。首先,BabyAI環境簡單且具有確定性,這使得深度學習模型更容易了解其細微差別和復雜性。現實世界更混亂,更不可預測,也更復雜。
這種方法的另一個挑戰是創建訓練數據。在執行任務時,人們不一定要敘述他們的每一個動作。我們共有的知識和相似的生理特征,使我們不需要明確地說出我們的每一個意圖。作者提出了一種解決方案,可以使用YouTube視頻,讓人們在執行任務時進行解釋。然而,即便如此,人類的行為也充滿了無法用純文本解釋的隱含原因。
思想克隆在互聯網規模的數據和復雜問題上的表現還有待觀察。但正如該論文的作者所說,它為“人工智能、人工智能安全性和可解釋性的科學研究”創造了新的途徑。