自解釋自然語(yǔ)言模型新探索

沃卡惠
行業(yè)資訊
2023-08-07 09:19:22
79

自解釋自然語(yǔ)言模型新探索

一、可解釋性

在金融、醫(yī)療和司法等領(lǐng)域，可解釋性變得越來越重要，因此我們特別關(guān)注模型的可解釋性。例如，歐盟對(duì)AI系統(tǒng)的安全性提出了較高的要求，最近甚至出臺(tái)立法，要求所有關(guān)鍵領(lǐng)域的AI系統(tǒng)必須具備可解釋性。

然而，在大語(yǔ)言模型時(shí)代，可解釋性是一個(gè)具有挑戰(zhàn)性的問題。盡管像GPT3.5或GPT4這樣的大模型在回答問題和提供解釋方面表現(xiàn)出色，但它們本質(zhì)上仍然是一個(gè)黑盒。在對(duì)模型的機(jī)制和透明性要求較高的場(chǎng)合，大語(yǔ)言模型的可信度仍然存在問題。目前的研究正專注于探索大語(yǔ)言模型的可解釋性，例如OpenAI使用GPT4來研究GPT2模型的透明度，但這些研究仍處于早期階段。

在我們的日常工作中，為大型金融機(jī)構(gòu)提供盡調(diào)服務(wù)是很常見的情景。這涉及大量的數(shù)據(jù)，包括歷史存量數(shù)據(jù)和每日更新的海量數(shù)據(jù)。我們需要對(duì)這些數(shù)據(jù)進(jìn)行文本分析，并提供對(duì)重要情況的分析解釋。使用像GPT4這樣的模型可能成本過高，而GPT3.5也相對(duì)昂貴。因此，我們需要一種可靠的分析解釋方法，同時(shí)要考慮成本和性能的問題。為了解決這個(gè)挑戰(zhàn)，我們最近進(jìn)行了一些探討和研究工作。

在可解釋性方面，有一些基本原則需要遵循。首先，我們希望提供的解釋能夠真實(shí)反映模型的行為，即"Faithful"（忠實(shí)性）。其次，解釋應(yīng)該符合人們的理解，并讓人們覺得合理可信，即"plausible"（可信性）。這些原則適用于處理各種不同數(shù)據(jù)類型的模型的解釋，不僅限于處理文本的模型。

解釋方法可以分為后處理（Post-hoc）和先處理（Ante-hoc）兩類。后處理方法是對(duì)模型進(jìn)行解釋的后續(xù)處理，它的好處是可以對(duì)任意模型進(jìn)行解釋。然而，它也存在一個(gè)問題，就是需要在被解釋的模型之外開發(fā)一個(gè)替代模型，用于模擬和解釋當(dāng)前模型。在許多真實(shí)場(chǎng)景下，讓替代模型準(zhǔn)確捕捉被解釋模型的特性是困難的，尤其是當(dāng)被解釋模型是一個(gè)黑盒模型時(shí)更加困難。另一種方法是"ante-hoc"模型，其思路完全不同，在開始進(jìn)行設(shè)計(jì)模型時(shí)就考慮了內(nèi)置可解釋性功能。這樣的模型自帶了對(duì)預(yù)測(cè)結(jié)果進(jìn)行解釋的能力，也被稱為自解釋模型。這里例子中的的情感分析模型不僅可以給出評(píng)價(jià)分?jǐn)?shù)，還能在模型內(nèi)部自身提供對(duì)應(yīng)預(yù)測(cè)進(jìn)行解釋。

二、協(xié)作博弈自解釋框架和虛假關(guān)聯(lián)介紹

RNP（Recursive Neural Predictors）是由MIT于2016年提出的一個(gè)基于協(xié)作博弈的自解釋框架。它由解釋器（explainer）或生成器（generator）和預(yù)測(cè)器（predictor）兩個(gè)組件相互協(xié)作工作。在RNP模型中，解釋器和預(yù)測(cè)器具有相同的架構(gòu)。這里啤酒評(píng)價(jià)的例子中，給出對(duì)啤酒兩個(gè)不同方面的評(píng)價(jià)，一個(gè)負(fù)責(zé)處理外觀評(píng)價(jià)，另一個(gè)負(fù)責(zé)處理氣味評(píng)價(jià)。解釋器從整個(gè)評(píng)論輸入X中選擇是出一個(gè)子集Z作為解釋(通常被稱為Rationale)，然后將這個(gè)解釋傳遞給預(yù)測(cè)器，得到最終的預(yù)測(cè)結(jié)果。

RNP模型具有"Certification of Exclusion"（排除認(rèn)證）的特點(diǎn)，也就是模型預(yù)測(cè)結(jié)果完全依賴于模型自身給出的解釋，與其他因素?zé)o關(guān)，因此可以完全保證Faithfulness，因?yàn)槠渌峁┑慕忉屌c模型進(jìn)行預(yù)測(cè)的行為是完全一致。

該模型的訓(xùn)練目標(biāo)有兩個(gè)方面。首先是確保良好的預(yù)測(cè)能力。對(duì)于分類問題，目標(biāo)是使預(yù)測(cè)結(jié)果盡可能接近真實(shí)標(biāo)簽（ground-truth）的cross-entropy。在回歸問題中，可能使用平方差（MSE）作為優(yōu)化目標(biāo)。

其次，除了預(yù)測(cè)能力外，解釋的質(zhì)量也需要考慮。解釋的目的是為了方便人類理解，降低認(rèn)知負(fù)擔(dān)。因此，我們希望提供一個(gè)簡(jiǎn)短但盡可能包含所有需要的完整解釋信息的解釋，避免過于冗長(zhǎng)的內(nèi)容，即"Sparsity"（稀疏性）。同時(shí)，我們也要確保解釋是連續(xù)的文本片段，而不是零散的描述。在早期的基于每個(gè)詞的權(quán)重的解釋方法中，生成的解釋通常是斷斷續(xù)續(xù)的，包含許多不連貫的文本，不適合人類閱讀。因此，我們需要保證解釋的連貫性，即在語(yǔ)言和語(yǔ)義上具有連續(xù)性。

RNP模型中的Rationale 選擇是一個(gè)無監(jiān)督序列標(biāo)注問題，對(duì)于每個(gè)token有選中和不選中兩個(gè)標(biāo)簽。這個(gè)問題通常可以使用強(qiáng)化學(xué)習(xí)方法來求解，或者使用Gumbel-Softmax采樣進(jìn)行處理。

除了文本數(shù)據(jù)，基于協(xié)作博弈的自解釋框架，包括RNP，還可以應(yīng)用于基于圖數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò)（GNN）解釋以及對(duì)處理圖像數(shù)據(jù)的計(jì)算機(jī)視覺模型進(jìn)行解釋等。這種框架具有廣泛的應(yīng)用范圍，不依賴于特定領(lǐng)域。

然而，RNP作為一個(gè)框架，在實(shí)際應(yīng)用中也存在一些問題，其中之一是虛假的關(guān)聯(lián)（spurious correlation）。虛假的關(guān)聯(lián)問題可以分為兩類。

虛假的關(guān)聯(lián)問題可以分為兩類。第一類是特征相關(guān)性（Feature correlation），主要源于數(shù)據(jù)分布的問題。例如，好味道的啤酒通常也具有好的氣味，在上面這個(gè)啤酒評(píng)價(jià)的例子中，我們想要的是對(duì)啤酒氣味評(píng)價(jià)預(yù)測(cè)結(jié)果給出的解釋（下劃線部分），但是RNP給出解釋卻是關(guān)于味道的相關(guān)的內(nèi)容（紅色部分）。類似的問題其實(shí)是普遍存在的存在，之前經(jīng)典的post-hoc方法的論文LIME中給出的一個(gè)著名的例子，因?yàn)閿?shù)據(jù)集里狼的圖片總是有雪的背景，導(dǎo)致一些模型往往是用雪的背景作為分類狼的特征。這個(gè)狼的數(shù)據(jù)集的數(shù)據(jù)的選擇上不太合理或者存在偏差。這里啤酒數(shù)據(jù)集倒不是因?yàn)閿?shù)據(jù)選擇偏差，而是不同特征之間確實(shí)天然就具有很強(qiáng)的關(guān)聯(lián)。

另一類問題是"Degeneration"（退化），這是協(xié)作博弈框架固有的問題。在Rationale選擇的過程中，解釋器可能會(huì)選擇一些無意義或缺乏信息的文本作為解釋，但它們卻可能是容易被預(yù)測(cè)器所區(qū)分并完成正確的分類的。例如，在選擇解釋時(shí)，解釋生成器可能會(huì)采樣到一個(gè)缺乏實(shí)際意義的“-”，但預(yù)測(cè)器可能會(huì)過擬合，把是否包含“-”可作為區(qū)分正類和負(fù)類的分類特征。這主要是因?yàn)轭A(yù)測(cè)器在還沒有見過具有足夠多樣性的rationale候選之前就過早的過擬合到某些沒有意義但具有一定辨識(shí)度的錯(cuò)誤解釋中，導(dǎo)致了degeneration的問題。

為了解決這些問題，一些方法在RNP框架上添加了額外的組件。這些組件使預(yù)測(cè)器能夠看到除選擇的解釋之外的其他輸入文本部分的信息。然而，這樣做會(huì)增加復(fù)雜性、改變?cè)冀Y(jié)構(gòu)并引入新的問題。

三、對(duì)合作博弈機(jī)制的洞察和解決虛假相關(guān)性的方案

1、Solution 1: Folded Rationalization (FR) for Degeneration

我們這一系列研究中的第一項(xiàng)工作發(fā)表在NeuIPS-2022上，主要是對(duì)RNP在協(xié)作博弈過程中發(fā)生degeneration內(nèi)部機(jī)制進(jìn)行了分析并給出了解決方案。

通過深入分析博弈協(xié)作框架中的問題，我們提出了名為"Folded Rationalization"（FR）的解決方案，用于解決協(xié)作博弈過程中的退化問題。我們發(fā)現(xiàn)，問題的根源在于Generator和Predictor之間的協(xié)作步調(diào)不一致。Generator面臨的任務(wù)較為復(fù)雜，需要在高維空間中進(jìn)行采樣以找到優(yōu)質(zhì)解釋。相比之下，Predictor的任務(wù)相對(duì)簡(jiǎn)單，只需將解釋文本進(jìn)行分類。這導(dǎo)致了兩個(gè)任務(wù)之間的學(xué)習(xí)進(jìn)程不協(xié)調(diào)。

根據(jù)前面的觀察，我們提出了一個(gè)非常簡(jiǎn)單有效的方法，就是將RNP的2階段方法，進(jìn)行折疊，使得Generator和Predictor共享參數(shù)，不需要像之前的方法那樣增加額外的模塊和參數(shù)。

FR讓Generator和Predictor共享參數(shù)的做法，可以迫使兩者在學(xué)習(xí)的步調(diào)一致。同時(shí)共享參數(shù)，也讓Predictor有機(jī)會(huì)獲取更完整的輸入信息。這樣可以讓防止Predictor對(duì)于沒有信息量的rationale候選產(chǎn)生overfit，反過來，更好的Predictor也能對(duì)Generator提供更好的指導(dǎo)和反饋。

我們?cè)诮?jīng)過過濾的啤酒評(píng)論數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，該數(shù)據(jù)集剔除了存在強(qiáng)特征相關(guān)性的評(píng)論，以專門研究我們的FR模型對(duì)退化問題的解決能力。實(shí)驗(yàn)結(jié)果顯示，F(xiàn)R與之前的方法相比取得了顯著的改進(jìn)，在F1分?jǐn)?shù)上最多能提高10.3%。

2、Solution 2: Decoupled Rationalization (DR) for Degeneration

我們系列工作中的第二項(xiàng)，是對(duì)degeneration問題進(jìn)行了更進(jìn)一步的深入分析，提出了更好的解決方案，并且完全不需要修改RNP的架構(gòu)，這項(xiàng)工作發(fā)表在KDD-2023上。

在FR的基礎(chǔ)上，我們對(duì)Generator和Predictor的兩者學(xué)習(xí)率之間的比例進(jìn)行進(jìn)一步更細(xì)致的分析。用λ來表示預(yù)測(cè)器和生成器的學(xué)習(xí)率比例。我們發(fā)現(xiàn)，當(dāng)λ小于1時(shí)，即降低預(yù)測(cè)器的學(xué)習(xí)率使其小于生成器的學(xué)習(xí)率時(shí)，解釋質(zhì)量顯著提高。這是一個(gè)普遍的規(guī)律，預(yù)測(cè)器的學(xué)習(xí)率較低時(shí)總能得到更好的解釋結(jié)果。

前面的觀察給了我們啟示，讓我們找到一種比我們之前提出的FR更簡(jiǎn)單和直接的方法，就是保持和RNP完全相同的架構(gòu)，只需要讓Predictor的學(xué)習(xí)率相對(duì)于Generator更低就可以了。

需要注意的是，其實(shí)對(duì)博弈中兩個(gè)agent的學(xué)習(xí)率進(jìn)行不同的調(diào)節(jié)，在之前對(duì)抗博弈方法中也有被研究過，但是他們結(jié)論是正好反過來的，他們的對(duì)抗博弈方法需要加速critic(GAN中的discriminator)，我們的協(xié)作博弈則需要slow down predictor.

關(guān)于如何選擇λ的值，目前我們還沒有找到科學(xué)嚴(yán)格的論證，但我們發(fā)現(xiàn)了一種在實(shí)踐中非常有效的啟發(fā)式規(guī)則。該規(guī)則是通過對(duì)一些樣例求解釋長(zhǎng)度和輸入全文本長(zhǎng)度之比的平均值來確定λ的值。例如，在之前提到的啤酒數(shù)據(jù)集中，這個(gè)比例可能在0.1左右，大約是總長(zhǎng)度的10%左右。

我們還希望對(duì)“為何我們提出的方法有效”更深層次的原因進(jìn)行分析。之前一些工作，尤其是對(duì)抗博弈的方法GAN，也給了我們啟發(fā)，他們發(fā)現(xiàn)Lipschitz Continuity是分析系統(tǒng)穩(wěn)定性和健壯性一個(gè)很好的指標(biāo)。所以我們也開始考慮是否可以將Lipschitz Continuity用于協(xié)作博弈系統(tǒng)的分析。

Lipschitz Continuity其實(shí)概念上是很簡(jiǎn)單的，就是反映了預(yù)測(cè)函數(shù)的平滑程度。其實(shí)這也容易理解，一個(gè)對(duì)應(yīng)系統(tǒng)輸入輸出的函數(shù)比較平滑，就不會(huì)發(fā)生輸入的細(xì)微變化，導(dǎo)致輸出劇烈變動(dòng)的情況，系統(tǒng)也就自然更穩(wěn)定。相反，如果模型函數(shù)存在尖銳或階梯狀的變化，系統(tǒng)就不穩(wěn)定，微小的輸入變化可能導(dǎo)致劇烈的輸出變化。

Lipschitz Continuity是通過計(jì)算Lipschitz Constant來測(cè)量的，更小的Lipschitz constant 代表更好的Lipschitz continuity。

這里是Lipschitz Constant的定義，數(shù)學(xué)上的細(xì)節(jié)這里可以暫時(shí)略過，并不會(huì)影響對(duì)后續(xù)基本方法的理解，感興趣的聽眾稍后可以閱讀論文中的細(xì)節(jié)。

直觀上很容易理解，如果Zi和Zj分別是從兩條情感取向完全相反的評(píng)論中抽取的rationale候選，如果兩者都是沒有什么信息含量的噪聲的話，兩者之間的語(yǔ)義距離會(huì)比較小。而如果Zi和Zj都是比較意義的rationale候選的話，兩者之間的語(yǔ)義距離會(huì)比較大。事實(shí)上我們的實(shí)驗(yàn)也證明了這一點(diǎn)。

根據(jù)前面的觀察結(jié)果和Lipschitz Constant定義我們可以很容易推導(dǎo)出一個(gè)結(jié)論：Predictor的Lipschitz Constant的值越小，則Generator選擇有意義的rationale候選來作為解釋的概率就越高。我們從而可以建立起predictor的Lipschitz Continuity和degeneration之間的關(guān)聯(lián)了，稍后這可以用來幫助解釋為何我們提出的DR方法是有效的。這里具體的推導(dǎo)過程這里就不詳細(xì)解釋，可以閱讀論文了解更多細(xì)節(jié)。

之前的研究中已經(jīng)有一些限制模型Lipschitz constant的方法，例如Spectral normalization 就是僵硬的通過手工設(shè)定一個(gè)cutoff來限制Lipschitz constant的方法，我們實(shí)驗(yàn)結(jié)果顯示雖然Spectral normalization能一定程度提高Generator產(chǎn)生rationale的質(zhì)量，但是卻會(huì)損傷Predictor的性能。

我們的理論分析和實(shí)驗(yàn)都顯示：我們提出的方法DR (也就是相對(duì)調(diào)低predictor的學(xué)習(xí)率) 提供了一種更靈活更好的方法來限制Lipschitz Constant的值，在保證rationale的質(zhì)量的同時(shí)還能保證predictor有好的性能。

當(dāng)λ<1時(shí)，Lipschitz常數(shù)顯著降低，表明我們的方法能夠提高系統(tǒng)的可靠性。與標(biāo)準(zhǔn)的RNP方法進(jìn)行比較，可以看到我們提出的DR方法的Lipschitz Constant遠(yuǎn)遠(yuǎn)小于RNP對(duì)應(yīng)的值，這表明我們的系統(tǒng)更加穩(wěn)定。

在啤酒數(shù)據(jù)集上，我們的DR方法展現(xiàn)出了非常好的效果，比之前的FR方法也要更好一些。綜合來看，DR排名第一，F(xiàn)R排名第二，兩種方法相較于之前的方法都有顯著提升。

實(shí)驗(yàn)結(jié)果還顯示（1）降低Predictor的學(xué)習(xí)率并沒有減緩DR的收斂速度。（2）RNP在訓(xùn)練的時(shí)候Predictor的正確率上升很快，并一直比DR好，但在驗(yàn)證數(shù)據(jù)集中，RNP則沒有顯示出優(yōu)勢(shì)，顯示了RNP過擬合的問題。

3、Solution 3: Multi-Generator Rationalization (MGR) for Spurious Correlations

最后討論我們系列工作中的第三項(xiàng)，這部分工作發(fā)表在ACL-2023上。

之前的研究工作基本都是單獨(dú)處理degeneration(例如，剛介紹的我們前兩項(xiàng)工作FR和DR）或者單獨(dú)處理feature correlation問題，但是很少有考慮同時(shí)處理好這兩個(gè)問題的。

在這里我們希望能夠同時(shí)能夠可以同時(shí)處理好degeneration和feature correlation這兩類虛假關(guān)聯(lián)問題。

我們這項(xiàng)工作MGR是第一個(gè)來同時(shí)處理degeneration和feature correlation的問題的方法。

MGR的基本思路也很簡(jiǎn)單直接，就是希望通過使用多個(gè)generator能獲得對(duì)候選rationale更廣泛和更多樣性的觀察。在訓(xùn)練好模型之后，進(jìn)行推理的時(shí)候，多個(gè)生成器會(huì)達(dá)到收斂狀態(tài)，所以我們只需要任選一個(gè)generator就可以了，例如就選第一個(gè)，這樣可以大大減少部署和使用的成本，并且提高效率。因此，最終的應(yīng)用部署和推理過程的性能復(fù)雜度與標(biāo)準(zhǔn)的RNP相當(dāng)。

采用多個(gè)Generator，每個(gè)Generator采用不同倍率的學(xué)習(xí)率，降低Predictor的學(xué)習(xí)率，可以讓這些Generator產(chǎn)生出更具多樣性的rationale candidates，并且可以使得所有的Generator都最終收斂到非常類似的結(jié)果。實(shí)驗(yàn)結(jié)果顯示，每個(gè)Generator采用不同的學(xué)習(xí)率可以獲得更好的rationale質(zhì)量。因?yàn)樽詈驡enerator都會(huì)收斂到很類似的結(jié)果，所以推理的時(shí)候只選擇一個(gè)Generator幾乎不會(huì)影響性能。

通過學(xué)習(xí)率的收斂過程可以觀察到，訓(xùn)練過程中所有生成器逐漸趨于一致，這解釋了為什么最后只需要一個(gè)生成器即可。

MGR在沒有被過濾的原始啤酒數(shù)據(jù)集上和之前的處理feature correlation的方法相比取得顯著的改進(jìn)。在處理degeneration，也比之前的其他方法有所顯著改進(jìn)，性能和FR和DR相當(dāng)。

四、未來工作的展望

總結(jié)來說，未來工作的展望主要包括以下幾個(gè)方面：

1、因果推理

在大模型時(shí)代，因果推理仍然是解決可解釋性問題的關(guān)鍵。雖然現(xiàn)有的部分因果推理方法存在一些問題，但在因果推理的大方向上仍有潛力。未來的研究可以致力于建立一個(gè)統(tǒng)一的框架，解決不同類型的可解釋性問題。

2. 應(yīng)用領(lǐng)域的遷移：我們?cè)趨f(xié)作博弈的研究中發(fā)現(xiàn)了一些通用的原理和洞見。這些分析可能適用于其他領(lǐng)域，例如金融知識(shí)圖譜和推薦系統(tǒng)等涉及圖數(shù)據(jù)和GNN的模型。未來的工作可以將這些原理應(yīng)用于其他領(lǐng)域，進(jìn)一步拓展協(xié)作博弈的理論應(yīng)用范圍。

上一篇：人工智能尚無法完成的五件事

下一篇：生成式人工智能如何影響企業(yè)的數(shù)字化轉(zhuǎn)型優(yōu)先級(jí)