Adapt-LLM可以訓練LLM確定是否需要在問答任務中檢索額外的場景信息,將提高LLM應用程序的效率。
檢索增強生成(RAG)管道使大型語言模型(LLM)能夠在其響應中使用外部信息源。但是RAG應用程序為發送到LLM的每個請求檢索額外的場景信息。這使得該過程效率低下,因為LLM已經包含了大量無需檢索即可使用的知識。
如果可以將LLM配置為僅在其內部知識不足時使用RAG,那會怎么樣?Adapt-LLM是由意大利博岑-博爾扎諾自由大學(Bozen-Bolzano)和意大利Bruno Kessler基金會的研究人員開發的一項技術,可以訓練LLM動態地確定是否需要在問答任務中檢索額外的場景信息。Adapt-LLM可以幫助避免不必要的檢索,并提高LLM應用程序的效率。
記憶vs檢索
LLM回答問題主要有兩種方法:第一種方法是依靠訓練過程中獲得的參數記憶。參數記憶的局限性在于它完全基于訓練語料庫。可以通過微調或小樣本提示技術來提高參數化的性能,這些技術將模型的注意力集中在相關參數上。但是,這些技術在模型必須動態使用新信息(例如最近的新聞或未包含在訓練語料庫中的私人信息)的場景中是無用的。
第二種方法使用信息檢索器向模型提供場景信息。檢索增強生成(RAG)就屬于這一類。
但信息檢索面臨的問題是,有時模型不需要額外的場景信息,并且有足夠的內部知識來回答問題。因此可以將這兩種方法比喻成為閉卷答題和開卷答題。
而人類使用混合方法。例如,當人們記住一個問題的答案時,可以立即回答。但當對自己掌握的知識沒有信心時,就會使用外部資源。一些LLM技術通過受歡迎程度評分使用這種混合方法。假設當問題非常受歡迎時,LLM模型具有內部知識來回答。對于不太受歡迎的問題,該模型將需要RAG系統的幫助來獲取必要的信息。
然而,這種方法要求問題附帶受歡迎程度評分,這并不總是可用的。
Adapt-LLM
Adapt-LLM為“自適應檢索”訓練語言模型,使它們能夠自主地決定何時為附加的場景使用信息檢索系統。
研究人員寫道:“在這種方法中,如果任務的解決方案被編碼在模型的參數中,則該模型將直接用于生成解決方案。與其相反,如果答案沒有被編碼在該模型的知識中,則答案的生成將被外部知識所增強。”
Adapt-LLM分為四個步驟:
(1)將包含問題的第一個提示發送給Adapt-LLM模型。
(2)該模型評估提示,以確定是否需要額外的場景來有效地回答問題。
(3)如果模型確定它不需要額外的場景,則直接從參數記憶中進行響應。
(4)如果Adapt-LLM模型需要額外的場景,它會返回一個特殊的令牌,例如。然后,應用程序可以使用信息檢索器根據問題獲取場景,并將其與原始提示結合起來。
這種靈活的行為允許模型在使用外部場景和給出直接答案之間取得平衡。
訓練Adapt-LLM
要訓練Adapt-LLM的模型,需要從包含問題、場景和答案的元組數據集開始。然后,對于每個元組,給模型一個沒有場景的問題。如果它對自己的知識有信心,就直接回答問題;如果它需要額外的場景,就返回。
如果模型返回正確的答案,那么它就具有參數知識,并且創建一個新的訓練實例,其中包含問題和答案(但不包含場景)。如果模型返回錯誤的答案,則創建兩個訓練實例:一個是包含問題和答案的“參數提示”,另一個是包括問題、場景、說明和答案的“場景提示”。
然后在包含這兩種類型示例的數據集上訓練基本模型,從而產生Adapt-LLM行為。
Adapt-LLM的應用
研究人員在PopQA上用Adapt-LLM進行了幾次實驗,PopQA是一個從各種在線平臺策劃的問題數據集。他們使用Llama-2 7B作為基礎的LLM,并在NQ和SQuAD問答數據集創建的Adapt-LLM數據集上對其進行訓練。他們將Adapt-LLM模型與純粹的永不檢索模型和始終檢索模型進行了比較。
可以預見的是,他們的研究結果表明,Adapt-LLM比只依賴參數記憶的永不檢索模型表現得更好。
與始終檢索模型相比,它還減少了檢索的使用,同時在參數記憶優于RAG系統返回的信息時也提高了性能。
研究人員寫道:“當Adapt-LLM決定檢索額外信息時,有場景的結果明顯優于沒有場景的結果。同樣,當Adapt-LLM直接依靠其參數記憶來回答問題時,它達到了很高的準確性。這些觀察結果表明,該模型有效地識別了何時檢索信息,以及何時可以在沒有進一步場景的情況下回答問題。”
Adapt-LLM的利弊
不幸的是,研究人員沒有發布Adapt-LLM的代碼和模型,這使得驗證他們的實驗結果變得困難。由于這是一種非常實用的技術,如果他們發布了關于令牌使用和推理時間的研究結果就好了。
幸運的是,該算法易于實現,任何人都可以創建自己版本的Adapt-LLM。看看它如何處理來自其他領域的數據集,以及可以在其基礎上構建哪些實際應用,這將是一件很有趣的事情。