精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

用戶畫像算法:歷史、現狀與未來

一、用戶畫像簡介

畫像是一種人類可理解的、機器可讀寫的,對用戶的結構化描述。它不僅可以提供個性化服務,還在企業的戰略決策和商業分析中發揮了重要作用。

1.畫像的分類

畫像可以根據數據來源分為社會通識類和領域知識類。社會通識類畫像又可以按照時間維度劃分成靜態類和動態類,最常見的靜態類社會通識畫像包含人口統計學特征,比如性別,戶籍,畢業學校等,這些內容在相當長一段時間窗口里都是相對靜態的,除了畫像用到它,人口統計學、人類學和社會學當中也常會用到。動態社會通識類畫像則更為重要,也稱為人生階段畫像,舉個電商的例子,人的收入會隨著職業發展不斷變化,其購物傾向也會發生變化,所以這些人生階段的畫像是非常有實用價值的。

除了上述通識類畫像,企業內部可能更多的是去構建領域知識類畫像。領域知識類畫像從時間的維度上面可以分成半靜態和動態,進一步可細分為長期性、周期性、短期性和未來屬性的畫像,這些時間維度畫像又和概念領域是糾纏在一起的,概念領域包含了行為模型、興趣模型和意圖模型。

行為模型主要是跟蹤用戶周期性行為,比如用戶每天早上通勤時間會做什么、晚上下班以后會做什么、周中工作日會做什么、周末會做什么等一些周期性行為。興趣模型則是對領域知識內的標簽進行一定的聯合建模與排序,比如用戶和APP 等平臺產品進行交互后可以得到一些操作日志,日志可以關聯解析出結構化、標簽化的一些數據,我們可以把它們分門別類,同時賦予一定的權重,最終排序形成一定的興趣畫像。需要注意的是意圖模型更多的是未來式的,是對用戶未來意圖的預測。但是在新用戶還沒有進行交互的時候,如何提前預知其可能的意圖呢?這個問題就更偏向于實時的、未來的畫像,也對畫像數據的整體基建結構有著更高的要求。

圖片

2.用戶畫像基礎應用架構

了解了畫像的概念以及大致分類后,再來簡要介紹一下用戶畫像的基礎應用框架。整個框架可以分為四個層次,首先是數據收集,其次是數據預處理,再次是基于這些處理好的數據進行畫像的構建和更新,最后就是應用層,在應用層定義一個使用協議,讓下游各種各樣的應用能夠比較便捷地、快速地、高效地去使用畫像。

從這個框架中我們可以發現,用戶畫像應用以及用戶畫像算法需要懂得的內容特別的廣、特別的雜,因為我們面對的不只是簡單的、標簽化的、文本類的數據,還有各種多模態的數據,可能是音頻、視頻或者圖文,需要通過各種預處理手段才能得到高質量的數據,然后構建出更置信的畫像。這里會涉及到數據挖掘、機器學習、知識圖譜、統計學習等各個方面。用戶畫像與傳統搜推廣算法的不同之處是,我們需要和領域專家密切合作,才能不斷在迭代和循環中構建更高質量的畫像。

圖片

二、基于本體論(Ontology)的傳統用戶畫像

在對用戶畫像的概念有了大致了解后,接下來看一下在早期,非深度學習時代,用戶畫像是怎樣建立的。

在早期,用戶畫像主要依賴于知識圖譜,知識圖譜源于本體論(Ontology)的概念。而本體論,則屬于哲學范疇。首先本體論的定義和畫像的定義非常相似,就是人類可理解、機器可讀寫的一個概念系統。當然這個概念系統本身的復雜程度可以非常高,它是由實體、屬性、關系和公理組成的。基于 Ontology 的用戶畫像,它的好處是便于對用戶及內容進行分類,并且方便生產出可供人類直觀理解的數據報告,再根據報告的相關結論進行決策,這也是為什么非深度學習時代會選擇這一技術形態。

接下來介紹一下 Ontology 中一些基本的概念。要構建一個 Ontology,首先要把領域知識進行概念化,也就是構造實體、屬性、關系和公理,并處理成機器可讀取的格式,比如 RDF 和 OWL。當然,也可以用一些比較簡單的數據格式,甚至可能是把 Ontology 退化為關系數據庫或者圖數據庫可存儲讀寫和分析的格式。這種畫像的獲得方式,一般都是通過領域專家構建,或者基于已有的一些行業標準,去進行豐富和細化。比如淘寶采用的商品標簽體系其實也是借鑒了國家對于各種各樣的制造商品行業的公開標準,并在這個基礎之上豐富和迭代的。

圖片

下圖是一個非常簡單的 Ontology 的例子,其中包含了 3 個節點,圖里面的實體是文娛領域的一個興趣標簽,比如在奈飛等平臺里面有很多電影,每個電影都有唯一的 ID 標識,然后每個電影又有自己的屬性,比如標題、主演,這個實體同時又屬于犯罪題材系列,而犯罪系列又屬于動作電影里的子類。我們根據該可視化的圖去寫成如下圖右邊的 RDF 文本文檔,在該文檔里除了前面我們能夠直觀理解的實體屬性關系外,還定義了一些公理,比如里邊約束了“has title”只能作用于電影這個基本概念域,如果有其他概念域,比如用電影的導演作為實體去構建到 Ontology 里面的時候,電影導演就不能擁有“has title”的屬性了。以上就是關于本體論的一些簡單介紹。

圖片

在基于本體論去做用戶畫像的早期時代,會用類似 TF-IDF 的方法對構建出來的結構化標簽計算權重。TF-IDF 以往主要用于搜索領域或文本主題領域,主要是對某個搜索詞或者主題詞的權重進行計算,應用到用戶畫像里面只需稍微加點限制和變形即可,比如上個例子中的 TF 就是去數一下用戶觀看該類標簽的電影或者短視頻的數量,IDF 則是先統計用戶每一類標簽下的觀影或短視頻數量和所有歷史觀看總量,再根據圖中公式計算 IDF 和 TF *IDF。TF-IDF 的計算方式非常直且效果穩定,同時也可解釋、好用。

但它的缺點也很明顯:TF-IDF 對標簽顆粒度非常敏感,但是又對 Ontology 結構本身是不敏感的,它可能會存在過度強調冷門興趣而導致平凡解的情況,比如用戶只偶爾看了某一個標簽下的某一個視頻,TF 會非常小,IDF 會特別大,TF-IDF 有可能會變成一個和它的熱門興趣接近的值。更重要的是,我們需要隨著時間維度進行更新、調整用戶畫像,而傳統的 TF-IDF 方法不太適合這種情況。因此,研究人員提出了新的方法,基于本體論的結構化表達直接構建用戶帶權重的畫像以滿足動態更新的需求。

圖片

該算法從 Ontology 的葉子類目開始,使用用戶在對應標簽下的媒體消費行為來更新權重,權重初始化為0,然后根據用戶行為定義的 fbehavior函數進行更新。fbehavior函數會根據用戶消費的不同程度,給予不同的隱式反饋信號,例如電商領域的點擊、加購和下單,或者視頻領域的播放和完成度。同時對不同的用戶行為我們也會給予不同強度的反饋信號,比如電商消費行為里,下單>加購>點擊,視頻消費里,更高的播放完成度、更高的播放時長等也會設置更強的 fbehavior值。

葉子類目標簽權重更新后,需要更新父類權重,需要注意的是更新父類時需要定義一個小于1 的衰減系數。因為,如圖所示,用戶可能對“戰爭”中的“二戰”這個子類目感興趣,但是對其他戰爭題材不一定感興趣。這個衰減系數可以作為一個超參數進行自定義,這樣定義是強調每個子類興趣對父類貢獻的平等性,也可以用子類標簽數的倒數來作為衰減系數,這樣更多的強調小眾的興趣,比如某些大型父類節點包含的子類主題廣泛且關系不緊密,它們之間的受眾面取決于作品數量,通常情況下這種作品數量會非常非常多,衰減速度可以適當設置快一點,而較小的分類別標簽可能是一些小眾興趣,作品也不多,子類主題間的關系會比較緊密,衰減速度可適當設置小一點。總之,我們可以根據 Ontology 中定義的這些領域知識屬性來設定衰減系數。

圖片

以上方式可以做到結構化標簽的更新效果,也基本上能夠打平甚至超越 TF-IDF 效果,但是它缺少一個時間尺度屬性,即怎樣構建一個對時間尺度更敏感的畫像。

我們首先想到可以對權重本身的更新去做進一步調整。當需要區分長短期用戶畫像時,可以在權重上添加一個滑動窗口,并定義一個時間衰減系數 a (0-1之間),滑動窗口的作用是只關注窗口期內的用戶行為,對窗口前的進行丟棄,原因是用戶的長期興趣也會隨著人生階段的變化而進行緩慢變化,比如用戶可能會喜歡某一類題材的電影一兩年,之后就不喜歡了。

此外,大家也可能觀察到這個公式和帶動量的 Adam 梯度更新方式有異曲同工之妙,我們通過調節 a 的大小讓權重的更新在一定程度上更側重于歷史或者當下。具體來說,當給一個較小的 a 時,會更側重于當下,然后歷史積累會有較大的衰減。

圖片

以上的方法論都局限在用戶已經接收到了的信息里,但我們通常情況下也會遇到大量的標簽丟失的情況,以及用戶冷啟動或者在用戶可能沒有接觸到這一類內容但不代表用戶不喜歡的情況。在這些情況下就需要進行興趣補全和興趣推斷了。

最基礎的方法就是借用推薦系統中的協同過濾進行畫像補全,假設有一個標簽矩陣,橫軸是用戶,縱軸是各個標簽,這個超大規模矩陣里面的元素就是用戶對于這個標簽的興趣,這些元素可以是 0 或 1,也可以是興趣權重。當然也可以改造這個矩陣,使其適應人口統計學的畫像,比如可以將標簽表達成是否是學生,或者是否是職業者,或者哪種職業等,也可以用一種編碼方式去構造這個矩陣,同樣也可以去應用矩陣分解的方式去得到矩陣分解,然后補全缺失的特征值,這個時候優化目標如下圖中的公式。

在這個公式里可以看到,原矩陣為 M,補全矩陣為 X,外加一個約束,這個約束是希望數值不缺失的地方,X 和 M 是盡可能接近的,同時也希望 X 是一個低秩矩陣,因為我們假設大量用戶的興趣是相似的,在這個相似用戶的假設下,標簽矩陣一定是低秩的,最后對這個矩陣做一個正則化,完成非負矩陣分解的目標。這個方法其實也可以用我們最熟悉的隨機梯度下降的方法去進行求解。

圖片

當然,除了以矩陣分解的方式進行缺失屬性或興趣的推斷,也可以使用傳統機器學習的方法。還是假設相似的用戶會有相似的興趣,這時就可以用 KNN 分類或回歸的方式去進行興趣推斷,具體做法為,建立用戶近鄰關系圖譜后,將用戶近 k 個近鄰里面最多的標簽或者標簽權重均值賦值給用戶缺失的屬性。近鄰關系圖可以是自己構建的,也可以是現成的近鄰圖結構,比如社交網絡的用戶畫像,或者 B 端的企業畫像--企業圖譜。

圖片

以上就是關于 Ontology 構建傳統畫像的介紹。傳統畫像構建算法的價值在于其非常簡單、直接、易于理解,且容易實現,同時其效果也不錯,因此并不會完全被更高階算法替代,尤其是當我們需要對畫像進行 debug 時,這一類傳統算法會具有更大的便捷性。

三、畫像算法&深度學習

1.深度學習算法之于畫像算法的價值

進入深度學習時代后,大家希望結合深度學習算法進一步提升畫像算法的效果。深度學習之于畫像算法到底有哪些價值?

首先肯定是有更強大的用戶表征能力,在深度學習以及機器學習領域,有一個專門的門類--表征學習,或者是 metric learning,這種學習方法可以幫助我們去構建非常強大的用戶表征。其次是更簡單的建模流程,我們可以利用深度學習端到端(end to end)的方式簡化建模流程,很多時候只需要構造好特征,做一些特征工程,然后把神經網絡當成黑盒將特征輸入進去,并在輸出端定義好標簽或者其他的監督信息,而無須關注其間的細節。

再次,深度學習在強大的表達能力基礎上,我們也在很多任務上面得到了更高的準確度。接著,深度學習還可以將多模態的數據統一建模。傳統算法時代我們需要在數據預處理上耗費大量精力,比如上文提到的對視頻類型標簽提取需要非常復雜的預處理,先把視頻切斷,然后提取主題,再識別出其中的人臉,逐一打上對應的標簽,最后再去構建畫像。有了深度學習后,想要一個統一的用戶或 item 表達時,可以端到端直接處理多模態的數據。

最后,我們希望在迭代中盡可能地降壓成本。前文中提到畫像算法的迭代和搜推廣等其他類目的算法迭代的不同之處是需要很多的人工參與進來。有些時候最可靠的數據就是人去標注的,或者是通過問卷等方式收取來的數據,這些數據的獲取成本是相當高的,那么如何以更低成本獲得更有標注價值的數據呢?這個問題也在深度學習時代有了更多的思路和解決方案。

圖片

2.基于深度學習的結構化標簽預測

C-HMCNN 是對 Ontology 結構化標簽進行預測的經典深度學習方法,它并不是一個 fancy 的網絡結構,而是定義了一種適合標簽,尤其是適合結構化的標簽分類或預測的算法框架。

其核心是把層次化的結構化標簽拍平再預測,如下圖右側所示,該網絡直接給出 A/B/C 三個標簽的預測概率,不需要考慮結構的層次、深度等。它的 Loss 公式設計也能夠盡可能地懲罰違反結構化標簽的結果,公式首先對葉子類目 B 和 C 用經典的交叉熵 Loss,對父類類目則用 max(yBpB,yCpC)來約束結構信息,只有在子類類目被預測為真時才預測父類類目 A,用 1-max(pB,pC)來表達,當父類類目標簽為假時,強制子類類目的預測盡可能也接近于 0,從而實現對結構化標簽的約束。這樣建模的好處在于計算 Loss 非常簡單,它對所有的標簽一視同仁地進行預測,幾乎可以無視標簽樹深度信息。

最后要提到的一點就是這個方法要求每個標簽都是 0 或 1,比如 PB只代表用戶喜歡或者不喜歡,而不能設置成一個多分類,因為多分類的 LOSS 約束會比較難成立,所以該模型建模時相當于把所有標簽全部拍平了,然后進行 0、1 預測。拍平可能帶來的一個問題是,當標簽樹結構里父類標簽有海量子標簽時就會面臨一個超大規模的多標簽分類問題,一般的處理方式是用一些手段提前過濾掉用戶很可能不感興趣的標簽。

圖片

3.基于表征學習的 lookalike

在用戶畫像的應用環節,lookalike 這一思想經常被用到。在畫像下游應用可以用 lookalike 去做廣告潛在用戶群的定向,也可以基于種子用戶利用 lookalike找到一些缺失目標屬性的用戶,然后把這些用戶相對應的缺失屬性用種子用戶去進行替換或表達。

Lookalike 的應用最需要的是一個強大的表征學習器,如下圖所示,最常用的有三類表征建模方式。

第一種是多分類方式,如果我們有多種分類標簽畫像數據,可以在有監督信號的情況下學到更有針對性的表征,針對我們想要去預測的某一類標簽進行預測所訓練得到的表征對于定向的標簽缺失預測非常有價值。

第二種是 AE( auto encoder) 范式,模型結構是一個沙漏形式,不需要關注監督信息,而只需要找到一種 encoding 模式,先把用戶 encoding 出來,然后在中間細腰的地方做信息壓縮并得到表征,這種范式在沒有足夠的監督數據時比較靠譜。

第三種是圖范式,目前 GNN 和 GCN 之類的圖網絡的應用領域越來越廣,在畫像里面也一樣,而且 GNN 可以基于最大似然的方法進行無監督訓練,也可以在有標簽信息的情況下進行有監督訓練,并且優于多分類范式。因為圖結構除了表達標簽信息以外,還可以 embedding 進去更多圖結構的信息。當沒有顯示的圖結構的情況下,也有很多方式去構建圖,比如電商領域的知名推薦算法 swing i2i,根據用戶的共同購買或者共同觀看記錄構建二部圖,這樣的圖結構也是有非常豐富的語義信息的,可以幫助我們學到更好的用戶表征。當有了豐富的表征以后,我們可以選定一些種子用戶去用最近鄰檢索進行擴圈,然后通過擴圈擴到的用戶進行丟失標簽的推斷,或者 targeting。

圖片

在小規模的應用上面去做最近鄰檢索是很容易的,但是在超大規模的數據上面,比如有幾億月活用戶的大平臺上面,對這些用戶進行 KNN 檢索是一個非常耗時的事情,因此目前最常用的方式是近似最近鄰檢索,其特點是用精度換效率,在保證接近 99% 精度的同時把檢索的時間壓縮到原來暴力檢索的 1/ 1000,1/ 10000,甚至 1/ 100000。

目前近似最近鄰檢索的有效方法都是基于圖索引的向量檢索算法,這些方法在當下的大模型時代被重新推向了一個高潮,也就是前段時間大模型里面最火的一個概念-- RAG(檢索增強生成),檢索增強對文本檢索采用的核心手段就是向量檢索,最常用的方法就是基于圖的向量檢索,最廣泛應用到的方法有 HNSW、NSG 和 SSG,后兩者的原版開源代碼和實現鏈接也放在下圖中。

圖片

4.基于主動學習的畫像迭代

在進行畫像迭代的過程中,仍然有一些盲區是無法覆蓋的,比如有一些低消費行為的用戶畫像還是沒法很好地定位,最后很多方法還是會回退到人工收集方式。然而,我們有那么多低活用戶,如果可以只在其中選擇更有價值、有代表性的用戶去進行標注,就可以收集到更有價值的數據,因此我們引入了主動學習框架,主動學習加上不確定學習實現低成本的畫像迭代。

首先基于已有的標注的數據,訓練一個帶不確定性預測的分類模型,使用的方法是概率學習領域里面的經典方法--貝葉斯網絡。貝葉斯網絡的特點是預測的時候不僅可以給出概率,同時還可以預測出它對于這個預測結果的不確定性。

貝葉斯網絡非常容易實現,如下圖右側所示,在原有的網絡結構上面增加一些特殊層就可以了,我們在這些網絡中間增加一些 drop out 層,去隨機丟棄前饋網絡的一些參數。貝葉斯網絡包含多個子網絡,其中每一個網絡參數完全相同,但由于 dropout 層的特性,在隨機丟棄時每個網絡參數被隨機丟棄的可能性是不一樣的,在最后訓練好網絡進行推理的時候也保留 drop out,這和 drop out 在其他領域的應用方式不一樣。其他領域只有在訓練的時候 drop out,在推理的時候會應用全部參數,只是在最后計算 logit 和概率值時,對 drop out 帶來的一個預測值的 scale 倍增情況做一個還原。

貝葉斯網絡不同的地方是,在前饋推理的時候要保留所有的 drop out 隨機性,這樣每一個網絡都會給出這個標簽的一個不同的概率,然后對這一組概率求出均值,這個均值其實就是一種投票的結果,也是我們想要預測的概率值,同時對這一組概率值做一個方差的計算用來表達預測的不確定度。當一個樣本經歷了不同的 drop out 參數表達以后,最后得到的概率值是不一樣的,概率值方差越大,代表學習過程中的概率確定性越小。最后就可以對不確定度高的標簽預測樣本進行人工標注,對確定度高的標簽則直接采納機器打標的結果。然后再不斷回到主動學習框架的第一步進行循環,以上就是主動學習的基本框架。

圖片

5.基于大模型世界知識的畫像標注/預測

在大模型時代,還可以引入大模型的世界知識進行畫像標注。下圖舉了兩個簡單例子,左邊是用大模型對用戶畫像進行標注,將用戶的觀影歷史按照一定序列組織起來,形成一個 prompt,會看到大模型能給出非常詳盡的分析,比如該用戶可能喜歡什么類型、什么導演、什么演員等等。右邊是大模型對一個商品的標題進行分析,給出商品標題讓大模型去推測其屬于哪些類目。

到這里我們發現一個很大的問題是大模型的輸出是非結構化的,是比較原始的文本表達,還需要一些后處理的過程。比如需要對大模型的輸出進行實體識別、關系識別和規則挖掘、實體對齊等等,而這些后處理又屬于知識圖譜或者 Ontology 范疇里面的基礎應用規則。

為什么用大模型的世界知識做畫像標注會有更好的效果,甚至可以取代一部分人工?因為大模型是在廣泛的開放網絡的知識上進行訓練的,而推薦系統、搜索引擎等只擁有自己封閉平臺里的用戶和商品庫之間的一些歷史交互數據,這些數據實際上是一些 ID 化的系統日志,其中很多相互關聯的關系很難通過現有平臺里的封閉知識進行詮釋,但大模型的世界知識可以幫我們填補封閉系統所缺少的這部分知識,從而幫助我們更好地進行畫像的標注或者預測。大模型甚至可以理解為一種高質量的對于世界本身的概念系統的抽象刻畫,這些概念系統非常適合去做畫像和標簽體系。

圖片

四、總結與展望

最后簡單總結一下用戶畫像目前存在的局限,以及未來的發展方向。

首要問題就是如何進一步提高現有畫像的準確度。阻礙準確度提升的因素有以下幾個方面,首先是從虛擬 ID 到自然人的統一,現實中一個用戶有多個設備去登錄同一個賬號,也可能有多個端口、多個渠道登錄,比如用戶登錄不同的 APP,但這些 APP 同屬于同一個集團,我們是否可以在集團內部進行自然人的拉通,把所有的虛擬 ID 映射到同一個人,然后把它識別出來。

第二是對于家庭共享賬戶的主體人識別問題。這個問題在視頻領域非常常見,尤其是長視頻領域,我們經常會遇見一些 badcase,比如用戶明明是一個 40 歲左右的成年人,推薦的卻全是動畫片,其實是一個家庭共用一個賬號,每個人的興趣是不一樣的。針對這種情況,能否通過一些手段識別出當下的時間和行為模式,從而實時地、快速地去更新畫像,然后確定當前的主體人到底是誰,再針對性地提供個性化的服務。

第三是多場景聯動的實時意圖預測。我們發現平臺發展到一定階段,其搜推廣畫像還是比較割裂的,比如有時候一個用戶剛剛有踏入過推薦場景,現在準備搜索,我們是否可以根據剛剛推薦場景的實時意圖給出一個更好的搜索推薦詞,或者剛搜過一個東西,能否根據這個意圖擴散,預測出用戶可能想要看到的一些其他類目的東西,去做意圖預測。

從封閉式的 Ontology 到開放式 Ontology 的過渡也是畫像領域亟待解決的一個問題。在之前很長一段時間里采用的是一些比較固化的行業標準來定義 Ontology,但現在很多系統的 Ontology 是完全開放增量更新的,比如短視頻平臺,短視頻的各種各樣的標簽本身是用戶和平臺在共同創作下不停自發生長、爆發的狀態,有很多熱詞、熱門標簽,是隨著時間的推進不停涌現的。如何在開放式的 Ontology 上提升畫像的時效性,去掉噪聲,然后去更多地探索和利用一些手段幫助我們提升畫像的準確度,也是一個值得研究的問題。

最后,在深度學習時代,如何在畫像算法里面,尤其是應用了深度學習的畫像算法里面提升可解釋性,以及如何更好地讓大模型在畫像算法中落地,這些都將是未來研究的方向。

圖片

以上就是本次分享的內容,謝謝大家!

五、Q&A

Q1:畫像的處理和實際應用鏈路非常長,實際業務中采用 AB test 的驗收效果可能會有很多問題,請問傅聰老師在畫像的 AB test 方面有什么經驗分享嗎?

A1:畫像的應用鏈路確實比較長。如果你的畫像主要服務對象是算法,那確實從畫像的精確度提升到傳導下游的這些模型是有一個精確度的損失 gap。我其實不是特別建議做畫像 AB test,我覺得可能更好的一個應用方式是去找運營人員,在用戶圈選還有廣告定投等這種偏運營性質的一些應用場景,比如大促的優惠券定向投放等場景上進行 AB Test。因為它們的效果是直接基于你的畫像來施加影響的,所以可以考慮這種鏈路比較短的應用方合作線上 AB test。另外,我可能會建議除了 AB test 以外,也考慮一下另外一種 test 方式--交叉檢驗,給一個用戶同時去推薦基于優化前后畫像的排序結果,然后讓用戶去評估哪個更好。比如說我們現在可以看到的某些大模型廠商會讓模型輸出兩個結果,然后讓用戶去決定哪個大模型產出的文本更好。其實類似這種交叉檢驗,我覺得可能效果更好,而且它和畫像本身是直接關聯的。

Q2:貝葉斯網絡測試集上也有 drop out?

A2:不是說在測試集上有 drop out,而是說我們在測試推理的時候,依然會將網絡里面的 drop out 的隨機特性保留下來進行隨機推理。

Q3:考慮隱私安全問題,在客戶數據不能導出的前提下,如何利用大模型的成果。

A3:很坦誠地說,目前業界沒有一個非常好的方案。但是可能存在兩種方式,一種是考慮互信的第三方去做本地化大模型的推理部署。另外一種,也是最近的一種新概念叫做聯邦網絡,不是聯邦學習,可以去看看聯邦網絡里所包含的一些可能性。

Q4:與大模型結合,除了標注方面還有其他的結合可以提一下嗎?

A4:除了標注方面,還有用戶的一些分析和推理。可以基于現有的畫像,推測用戶的下一次的意圖,或者說把大量的用戶數據匯集起來,用大模型的方式去分析一些地區性的,或其他約束限制下的用戶模式。這個其實也是有一些開源 Demo,可以去探索一下這個方向。

源自:DataFunTalk

猜你喜歡