一、可解釋性
在金融、醫療和司法等領域,可解釋性變得越來越重要,因此我們特別關注模型的可解釋性。例如,歐盟對AI系統的安全性提出了較高的要求,最近甚至出臺立法,要求所有關鍵領域的AI系統必須具備可解釋性。
然而,在大語言模型時代,可解釋性是一個具有挑戰性的問題。盡管像GPT3.5或GPT4這樣的大模型在回答問題和提供解釋方面表現出色,但它們本質上仍然是一個黑盒。在對模型的機制和透明性要求較高的場合,大語言模型的可信度仍然存在問題。目前的研究正專注于探索大語言模型的可解釋性,例如OpenAI使用GPT4來研究GPT2模型的透明度,但這些研究仍處于早期階段。
在我們的日常工作中,為大型金融機構提供盡調服務是很常見的情景。這涉及大量的數據,包括歷史存量數據和每日更新的海量數據。我們需要對這些數據進行文本分析,并提供對重要情況的分析解釋。使用像GPT4這樣的模型可能成本過高,而GPT3.5也相對昂貴。因此,我們需要一種可靠的分析解釋方法,同時要考慮成本和性能的問題。為了解決這個挑戰,我們最近進行了一些探討和研究工作。
在可解釋性方面,有一些基本原則需要遵循。首先,我們希望提供的解釋能夠真實反映模型的行為,即"Faithful"(忠實性)。其次,解釋應該符合人們的理解,并讓人們覺得合理可信,即"plausible"(可信性)。這些原則適用于處理各種不同數據類型的模型的解釋,不僅限于處理文本的模型。
解釋方法可以分為后處理(Post-hoc)和先處理(Ante-hoc)兩類。后處理方法是對模型進行解釋的后續處理,它的好處是可以對任意模型進行解釋。然而,它也存在一個問題,就是需要在被解釋的模型之外開發一個替代模型,用于模擬和解釋當前模型。在許多真實場景下,讓替代模型準確捕捉被解釋模型的特性是困難的,尤其是當被解釋模型是一個黑盒模型時更加困難。另一種方法是"ante-hoc"模型,其思路完全不同,在開始進行設計模型時就考慮了內置可解釋性功能。這樣的模型自帶了對預測結果進行解釋的能力,也被稱為自解釋模型。這里例子中的的情感分析模型不僅可以給出評價分數,還能在模型內部自身提供對應預測進行解釋。
二、協作博弈自解釋框架和虛假關聯介紹
RNP(Recursive Neural Predictors)是由MIT于2016年提出的一個基于協作博弈的自解釋框架。它由解釋器(explainer)或生成器(generator)和預測器(predictor)兩個組件相互協作工作。在RNP模型中,解釋器和預測器具有相同的架構。這里啤酒評價的例子中,給出對啤酒兩個不同方面的評價,一個負責處理外觀評價,另一個負責處理氣味評價。解釋器從整個評論輸入X中選擇是出一個子集Z作為解釋(通常被稱為Rationale),然后將這個解釋傳遞給預測器,得到最終的預測結果。
RNP模型具有"Certification of Exclusion"(排除認證)的特點,也就是模型預測結果完全依賴于模型自身給出的解釋,與其他因素無關,因此可以完全保證Faithfulness,因為其所提供的解釋與模型進行預測的行為是完全一致。
該模型的訓練目標有兩個方面。首先是確保良好的預測能力。對于分類問題,目標是使預測結果盡可能接近真實標簽(ground-truth)的cross-entropy。在回歸問題中,可能使用平方差(MSE)作為優化目標。
其次,除了預測能力外,解釋的質量也需要考慮。解釋的目的是為了方便人類理解,降低認知負擔。因此,我們希望提供一個簡短但盡可能包含所有需要的完整解釋信息的解釋,避免過于冗長的內容,即"Sparsity"(稀疏性)。同時,我們也要確保解釋是連續的文本片段,而不是零散的描述。在早期的基于每個詞的權重的解釋方法中,生成的解釋通常是斷斷續續的,包含許多不連貫的文本,不適合人類閱讀。因此,我們需要保證解釋的連貫性,即在語言和語義上具有連續性。
RNP模型中的Rationale 選擇是一個無監督序列標注問題,對于每個token有選中和不選中兩個標簽。這個問題通常可以使用強化學習方法來求解,或者使用Gumbel-Softmax采樣進行處理。
除了文本數據,基于協作博弈的自解釋框架,包括RNP,還可以應用于基于圖數據的圖神經網絡(GNN)解釋以及對處理圖像數據的計算機視覺模型進行解釋等。這種框架具有廣泛的應用范圍,不依賴于特定領域。
然而,RNP作為一個框架,在實際應用中也存在一些問題,其中之一是虛假的關聯(spurious correlation)。虛假的關聯問題可以分為兩類。
虛假的關聯問題可以分為兩類。第一類是特征相關性(Feature correlation),主要源于數據分布的問題。例如,好味道的啤酒通常也具有好的氣味,在上面這個啤酒評價的例子中,我們想要的是對啤酒氣味評價預測結果給出的解釋(下劃線部分),但是RNP給出解釋卻是關于味道的相關的內容(紅色部分)。類似的問題其實是普遍存在的存在,之前經典的post-hoc方法的論文LIME中給出的一個著名的例子,因為數據集里狼的圖片總是有雪的背景,導致一些模型往往是用雪的背景作為分類狼的特征。這個狼的數據集的數據的選擇上不太合理或者存在偏差。這里啤酒數據集倒不是因為數據選擇偏差,而是不同特征之間確實天然就具有很強的關聯。
另一類問題是"Degeneration"(退化),這是協作博弈框架固有的問題。在Rationale選擇的過程中,解釋器可能會選擇一些無意義或缺乏信息的文本作為解釋,但它們卻可能是容易被預測器所區分并完成正確的分類的。例如,在選擇解釋時,解釋生成器可能會采樣到一個缺乏實際意義的“-”,但預測器可能會過擬合,把是否包含“-”可作為區分正類和負類的分類特征。這主要是因為預測器在還沒有見過具有足夠多樣性的rationale候選之前就過早的過擬合到某些沒有意義但具有一定辨識度的錯誤解釋中,導致了degeneration的問題。
為了解決這些問題,一些方法在RNP框架上添加了額外的組件。這些組件使預測器能夠看到除選擇的解釋之外的其他輸入文本部分的信息。然而,這樣做會增加復雜性、改變原始結構并引入新的問題。
三、對合作博弈機制的洞察和解決虛假相關性的方案
1、Solution 1: Folded Rationalization (FR) for Degeneration
我們這一系列研究中的第一項工作發表在NeuIPS-2022上,主要是對RNP在協作博弈過程中發生degeneration內部機制進行了分析并給出了解決方案。
通過深入分析博弈協作框架中的問題,我們提出了名為"Folded Rationalization"(FR)的解決方案,用于解決協作博弈過程中的退化問題。我們發現,問題的根源在于Generator和Predictor之間的協作步調不一致。Generator面臨的任務較為復雜,需要在高維空間中進行采樣以找到優質解釋。相比之下,Predictor的任務相對簡單,只需將解釋文本進行分類。這導致了兩個任務之間的學習進程不協調。
根據前面的觀察,我們提出了一個非常簡單有效的方法,就是將RNP的2階段方法,進行折疊,使得Generator和Predictor共享參數,不需要像之前的方法那樣增加額外的模塊和參數。
FR讓Generator和Predictor共享參數的做法,可以迫使兩者在學習的步調一致。同時共享參數,也讓Predictor有機會獲取更完整的輸入信息。這樣可以讓防止Predictor對于沒有信息量的rationale候選產生overfit,反過來,更好的Predictor也能對Generator提供更好的指導和反饋。
我們在經過過濾的啤酒評論數據集上進行了實驗,該數據集剔除了存在強特征相關性的評論,以專門研究我們的FR模型對退化問題的解決能力。實驗結果顯示,FR與之前的方法相比取得了顯著的改進,在F1分數上最多能提高10.3%。
2、Solution 2: Decoupled Rationalization (DR) for Degeneration
我們系列工作中的第二項,是對degeneration問題進行了更進一步的深入分析,提出了更好的解決方案,并且完全不需要修改RNP的架構,這項工作發表在KDD-2023上。
在FR的基礎上,我們對Generator和Predictor的兩者學習率之間的比例進行進一步更細致的分析。用λ來表示預測器和生成器的學習率比例。我們發現,當λ小于1時,即降低預測器的學習率使其小于生成器的學習率時,解釋質量顯著提高。這是一個普遍的規律,預測器的學習率較低時總能得到更好的解釋結果。
前面的觀察給了我們啟示,讓我們找到一種比我們之前提出的FR更簡單和直接的方法,就是保持和RNP完全相同的架構,只需要讓Predictor的學習率相對于Generator更低就可以了。
需要注意的是,其實對博弈中兩個agent的學習率進行不同的調節,在之前對抗博弈方法中也有被研究過,但是他們結論是正好反過來的,他們的對抗博弈方法需要加速critic(GAN中的discriminator),我們的協作博弈則需要slow down predictor.
關于如何選擇λ的值,目前我們還沒有找到科學嚴格的論證,但我們發現了一種在實踐中非常有效的啟發式規則。該規則是通過對一些樣例求解釋長度和輸入全文本長度之比的平均值來確定λ的值。例如,在之前提到的啤酒數據集中,這個比例可能在0.1左右,大約是總長度的10%左右。
我們還希望對“為何我們提出的方法有效”更深層次的原因進行分析。之前一些工作,尤其是對抗博弈的方法GAN,也給了我們啟發,他們發現Lipschitz Continuity是分析系統穩定性和健壯性一個很好的指標。所以我們也開始考慮是否可以將Lipschitz Continuity用于協作博弈系統的分析。
Lipschitz Continuity其實概念上是很簡單的,就是反映了預測函數的平滑程度。其實這也容易理解,一個對應系統輸入輸出的函數比較平滑,就不會發生輸入的細微變化,導致輸出劇烈變動的情況,系統也就自然更穩定。相反,如果模型函數存在尖銳或階梯狀的變化,系統就不穩定,微小的輸入變化可能導致劇烈的輸出變化。
Lipschitz Continuity是通過計算Lipschitz Constant來測量的,更小的Lipschitz constant 代表更好的Lipschitz continuity。
這里是Lipschitz Constant的定義,數學上的細節這里可以暫時略過,并不會影響對后續基本方法的理解,感興趣的聽眾稍后可以閱讀論文中的細節。
直觀上很容易理解,如果Zi和Zj分別是從兩條情感取向完全相反的評論中抽取的rationale候選,如果兩者都是沒有什么信息含量的噪聲的話,兩者之間的語義距離會比較小。而如果Zi和Zj都是比較意義的rationale候選的話,兩者之間的語義距離會比較大。事實上我們的實驗也證明了這一點。
根據前面的觀察結果和Lipschitz Constant定義我們可以很容易推導出一個結論:Predictor的Lipschitz Constant的值越小,則Generator選擇有意義的rationale候選來作為解釋的概率就越高。我們從而可以建立起predictor的Lipschitz Continuity和degeneration之間的關聯了,稍后這可以用來幫助解釋為何我們提出的DR方法是有效的。這里具體的推導過程這里就不詳細解釋,可以閱讀論文了解更多細節。
之前的研究中已經有一些限制模型Lipschitz constant的方法,例如Spectral normalization 就是僵硬的通過手工設定一個cutoff來限制Lipschitz constant的方法,我們實驗結果顯示雖然Spectral normalization能一定程度提高Generator產生rationale的質量,但是卻會損傷Predictor的性能。
我們的理論分析和實驗都顯示:我們提出的方法DR (也就是相對調低predictor的學習率) 提供了一種更靈活更好的方法來限制Lipschitz Constant的值,在保證rationale的質量的同時還能保證predictor有好的性能。
當λ<1時,Lipschitz常數顯著降低,表明我們的方法能夠提高系統的可靠性。與標準的RNP方法進行比較,可以看到我們提出的DR方法的Lipschitz Constant遠遠小于RNP對應的值,這表明我們的系統更加穩定。
在啤酒數據集上,我們的DR方法展現出了非常好的效果,比之前的FR方法也要更好一些。綜合來看,DR排名第一,FR排名第二,兩種方法相較于之前的方法都有顯著提升。
實驗結果還顯示(1)降低Predictor的學習率并沒有減緩DR的收斂速度。(2)RNP在訓練的時候Predictor的正確率上升很快,并一直比DR好,但在驗證數據集中,RNP則沒有顯示出優勢,顯示了RNP過擬合的問題。
3、Solution 3: Multi-Generator Rationalization (MGR) for Spurious Correlations
最后討論我們系列工作中的第三項,這部分工作發表在ACL-2023上。
之前的研究工作基本都是單獨處理degeneration(例如,剛介紹的我們前兩項工作FR和DR)或者單獨處理feature correlation問題,但是很少有考慮同時處理好這兩個問題的。
在這里我們希望能夠同時能夠可以同時處理好degeneration和feature correlation這兩類虛假關聯問題。
我們這項工作MGR是第一個來同時處理degeneration和feature correlation的問題的方法。
MGR的基本思路也很簡單直接,就是希望通過使用多個generator能獲得對候選rationale更廣泛和更多樣性的觀察。在訓練好模型之后,進行推理的時候,多個生成器會達到收斂狀態,所以我們只需要任選一個generator就可以了,例如就選第一個,這樣可以大大減少部署和使用的成本,并且提高效率。因此,最終的應用部署和推理過程的性能復雜度與標準的RNP相當。
采用多個Generator,每個Generator采用不同倍率的學習率,降低Predictor的學習率,可以讓這些Generator產生出更具多樣性的rationale candidates,并且可以使得所有的Generator都最終收斂到非常類似的結果。實驗結果顯示,每個Generator采用不同的學習率可以獲得更好的rationale質量。因為最后Generator都會收斂到很類似的結果,所以推理的時候只選擇一個Generator幾乎不會影響性能。
通過學習率的收斂過程可以觀察到,訓練過程中所有生成器逐漸趨于一致,這解釋了為什么最后只需要一個生成器即可。
MGR在沒有被過濾的原始啤酒數據集上和之前的處理feature correlation的方法相比取得顯著的改進。在處理degeneration,也比之前的其他方法有所顯著改進,性能和FR和DR相當。
四、未來工作的展望
總結來說,未來工作的展望主要包括以下幾個方面:
1、因果推理
在大模型時代,因果推理仍然是解決可解釋性問題的關鍵。雖然現有的部分因果推理方法存在一些問題,但在因果推理的大方向上仍有潛力。未來的研究可以致力于建立一個統一的框架,解決不同類型的可解釋性問題。
2. 應用領域的遷移:我們在協作博弈的研究中發現了一些通用的原理和洞見。這些分析可能適用于其他領域,例如金融知識圖譜和推薦系統等涉及圖數據和GNN的模型。未來的工作可以將這些原理應用于其他領域,進一步拓展協作博弈的理論應用范圍。