面向2026年的推薦算法前瞻

沃卡惠
行業(yè)資訊
2024-04-04 09:47:53
565

常規(guī)的推薦系統(tǒng)范式已經逐漸走入瓶頸，原因是在當前固定化的問題描述下模型和系統(tǒng)幾乎已經發(fā)展到極限。當前的主要范式在模型上為召回+排序+重排，系統(tǒng)上為樣本挖掘+特征工程+線上打分預估能力建設。一線大廠在上述領域已經把空間挖掘殆盡。同時可以看到，我們的用戶對當前推薦系統(tǒng)的滿意度仍然未達到理想狀態(tài)。推薦系統(tǒng)是一個非常面向于用戶滿意度的平臺系統(tǒng)，而用戶滿意是一個永遠存在不同理解的問題，一千個用戶眼里有一千種對好的推薦系統(tǒng)的理解。

構建更好的推薦系統(tǒng)需要我們重新定義“什么是好的推薦系統(tǒng)”。這并不是學術界的“強行挖坑”或者“繼續(xù)填坑”，而是不同層面上都在呼喚新的定義。事實上，新的推薦系統(tǒng)已經零散地在學術界和工業(yè)界展現(xiàn)星星之火。

為何本文主題提出 2026 呢？是因為當前無論在業(yè)務上還是技術上都有一些亟待解決的問題，希望在未來 3 年能找到好的解法。

一、留存提升

對于所有 APP 來說，留存是第一生命力，APP 留下多少用戶，DAU 多高，決定著公司的估值和市值。業(yè)界和留存相關的課題主要有以下三種：

通過相關性分析、因果推斷找出影響留存的因素。比如愛奇藝、騰訊視頻和優(yōu)酷等平臺。對于長視頻平臺，影響留存的最大因子是熱播劇，在騰訊視頻中我們會發(fā)現(xiàn)假如有熱播劇上線，那么當季的留存和 DAU 會提升很多。但如果一個熱播劇下線，DAU 就會降低很多，這就要求平臺不斷提供爆款的熱播劇，熱播劇因素跟平臺的留存非常相關。

留存拆分為多個子目標建模，再綜合排分。

建模多天的收益來逼近留存的概念。如果是次日留存，對用戶的正反饋，不要建模為一次點擊或者觀看30秒，而要建模為48小時的總體消費指標，這樣更能夠逼近留存。

下圖中展示了兩個項目：

一是留存與一刷 tag 熵的關系，例如今天有 n 個用戶來到平臺，明天 m 個用戶留下，留存就是 m 除以 n，這是次日留存的概念。tag 熵是指內容多樣性，我們發(fā)現(xiàn)如果用戶看的內容比較多樣，在當時場景下留存率是比較高的。

二是基于強化學習的分析，我們希望逼近 30 分鐘建模，即用戶在短視頻平臺看 30 分鐘的總價值。

二、用戶增長

這里使用的是狹義的用戶增長定義，如何把一個新的不活躍的消費者變成平臺的活躍用戶。

平臺僅依靠巨大的人口紅利獲得持續(xù)發(fā)展的時代已經過去，很多平臺進入存量競爭。在新平臺新 APP 上線的階段，更是用戶增長能力決定生死的關鍵階段。

相關的課題：

用戶分層優(yōu)化，預估high value action。舉個例子，比如有些用戶狀態(tài)能夠很好地區(qū)分用戶的等級，我們會利用這些關鍵的動作把用戶分層[2]。

二是營銷手段建模uplift和推薦算法的分人群。營銷的手段主要就是物質獎勵，推薦算法就是更精準的匹配，針對不同層次的用戶，有不同推薦算法的目標。

用戶的知識融合，一個中小型APP其實非常缺乏數(shù)據(jù)，無法建模用戶偏好，我們希望能夠從外部融合一些數(shù)據(jù)，來彌補數(shù)據(jù)不足[3][4]。

三、內容生態(tài)

內容生態(tài)的定義是平臺供給側繁榮程度，它是平臺的 B 面，好的內容生態(tài)應該能充分反映用戶的需求，而且自身應該有比較好的生長發(fā)育衰退機制，就像一片森林或者是一個社會的經濟系統(tǒng)，這也是其稱為生態(tài)的一個原因。

內容生態(tài)非常重要，是平臺真正的護城河，很多時候平臺經濟的護城河其實不在于C 端，更多在于 B 端。例如淘寶的服飾類、拼多多的機制供應鏈競爭、抖音很大程度上靠優(yōu)質內容供給來搞定前期用戶。

相關的課題：

內容生態(tài)的指標：建立調性控制生態(tài)自身的繁榮程度

計劃經濟：建立保量系統(tǒng)，達到運營調控的目標

部分的計劃經濟：建立創(chuàng)作者的分級成長、內容生命周期管理，利用PID算法、帶約束優(yōu)化以及流量博弈等。

平臺供給&消費是否匹配：從用戶出發(fā)設計供需機制。理解用戶平臺內容側的需求是什么。預估主播內容的潛力+主播內容質量的建模，進行有計劃地分發(fā)。通過預估增長程度指導內容生產，我們可以知道生產X個某種內容到底能讓用戶側產生怎樣的反應。

四、多目標帕累托最優(yōu)

要實現(xiàn)更加精細地優(yōu)化用戶滿意度，目標越充足越好，我們希望用戶在所有指標上都有增長，即多目標帕累托最優(yōu)，比如觀看、下單、點贊、評論、分享等。user_satisfactinotallow= max {click,order,interaction,....}

這個問題很重要，因為用戶滿意也是平臺的終極目標之一。只有用戶滿意，平臺才能夠存活。在缺乏大規(guī)模問卷調查的情況下，目前很多公司采用的就是優(yōu)化多目標滿意，一般是點擊率、轉化率、觀看時長等指標。

帕累托最優(yōu)[5]可能難以達到，因為有些目標是相沖的，這時的帕累托最優(yōu)是在相沖的情況下最優(yōu)的一種情況。例如下圖中紅色的線，被認為是帕累托最優(yōu)的前沿，這條線代表已經到達臨界值。臨界值指的是在不損害某一個指標的情況下，是無法提升其他指標的，這被稱為帕累托前沿。我們的目標就是找到帕累托最優(yōu)前沿，在不同指標間進行 trade off。

相關課題包括：

提升多個目標-超參數(shù)尋優(yōu)算法。

在多目標無法共同提升情況下，如何取舍。

五、時間-長期價值預估

接下來介紹建立時間維度的長期價值預估。當前的推薦系統(tǒng)比較專注于瞬時價值，缺乏對更長期價值的預估，而長期價值更加接近 DAU 目標。

短期價值優(yōu)化容易出現(xiàn)很多問題，比如標題黨、軟色情等，導致平臺失敗。

相關課題包括：

優(yōu)化session的總價值，將session定義為一個用戶一次不間斷的跟APP的交互。

優(yōu)化多個場景之間的總價值，比如淘寶現(xiàn)在是雙列流，用戶在雙列流進行瀏覽，但又可能點進去某一個具體詳情繼續(xù)瀏覽。雙列流可能會具有多樣性，單列流則更偏向于單類目。雙列流跟單列流之間也會存在此消彼長的效應，需要進行調和。

session 總價值可以用馬爾可夫過程建模成一個多輪交互。這里引用微軟謝幸老師在微軟新聞上的一個工作[6]，他把推薦系統(tǒng)稱為一個智能體，把用戶稱為環(huán)境，智能體推薦給用戶一些新聞，根據(jù)用戶是否點擊作為反饋來建模。

另一個是騰訊視頻的一個工作[1]，通過優(yōu)化 session 價值，使 VV、GTR 等提高了兩個點。

六、空間-全站優(yōu)化

APP 通常有多個場景滿足不同需求，比如首頁猜你喜歡滿足發(fā)現(xiàn)性、相似推薦滿足對于某個點的深入消費、購物車頁面滿足搭配需求。需要聯(lián)動所有場景，在典型用戶行為鏈路上進行全局優(yōu)化。

單場景優(yōu)化會出現(xiàn)抵消效應，所以要對用戶的典型鏈路進行分析。利用用戶行為鏈路信息作為建模約束可以更好地實現(xiàn)單場景優(yōu)化。

相關課題包括：

用戶典型鏈路分析，比如逛、比價、分享等。

多場景聯(lián)合建模/觀察影響-使用基于共享和博弈的強化學習等。

七、交互式推薦系統(tǒng)(IRS)

個性化問答助手逐漸商用，并在未來的人類生活中被寄予厚望。基于人類直接語言交互的推薦系統(tǒng)，能夠更加滿足用戶意圖，并且更加便捷。

目前有兩種 IRS 系統(tǒng)，隱式對話和顯式對話。前者已經在大廠初步展示了價值，后者隨著 chatGPT 熱度再起，但是當前仍不成熟。

相關課題包括：

顯示的對話式推薦，GPT加推薦算法以及意圖識別等。

隱式交互式推薦-意圖生成，知識圖譜，列表式推薦(Exact-K) ,下圖所示是當時提出的騰訊視頻的心向標項目。

八、千人千模

人類的理解能力很強，基于極少的信息描述，就能夠很好地理解一個人。在主流平臺上，單個用戶的信息、行為多達上千上萬條。是否有可能為每一個人建立一個模型以提升準確度呢？雖然我們現(xiàn)在的推薦算法就是千人千面，但其實 pattern 是被大部分主流人群主導的，對于長尾用戶表現(xiàn)得并不理想。

在排序算法中，預估精度是永恒的追求，大公司通過分類別分群建模以進一步提升效果，如果能夠在機器負載允許情況下為每一個用戶建立一個模型，那么將會實現(xiàn)真正的千人千面。

目前相關課題包括：

如何進行系統(tǒng)和算法的聯(lián)合設計節(jié)省資源。

如何逼近千人千模分群學習，工業(yè)界其實很難給每個用戶建立模型，比如淘寶有10億的用戶，如果每個用戶建一個模型，那么機器負載消耗是巨大的。但我們可以采用一些逼近方法，比如多任務學習或Meta learning。

單個人建模或提升模型的記憶能力。主流排序算法模型+千人千模。如下圖所示，Gate 特征與 CTR 模型融合來校準學習[8]。

九、當作決策問題的推薦算法

工業(yè)界推薦的本質不是一個常規(guī)的回歸/分類，而是一個決策問題。平臺通過感知用戶并決策給到用戶在不同時刻想要的東西，從而希望用戶能夠喜歡這個平臺最終停留下去。同時用戶反饋(比如點不點)也是一個決策問題，里面含有不確定性。從決策角度看，推薦不同于 CV/NLP 等問題，更加類似于 AI。當前的解法基本上把推薦當作分類問題，這是存在缺陷的。

為什么推薦是決策且不確定性問題？

平臺給用戶推薦視頻，用戶的反饋、用戶的狀態(tài)都具有一定不確定性。所以我們將其視為決策問題。

相關課題：

針對平臺調性的留存建模。運營挑選的熱門物品根本不匹配用戶興趣，但是用戶卻喜歡上了平臺，比如拼多多首頁。

把推薦當作多輪交互的MDP過程。

用戶決策僅僅是興趣匹配嗎？其實決策不僅僅是興趣匹配，還包括多樣性、精細度、時效性、用戶疲勞度等，這些都對用戶決策起到了作用。

十、OneRec-推薦融合大模型[3]

大模型和推薦的共同點是參數(shù)量都很大，其實在大模型問世之前，淘寶等主流平臺的推薦模型也都達到千億參數(shù)規(guī)模。

大模型的優(yōu)勢在于深度語義理解和廣度世界知識，它能夠根據(jù)上下文做出比較精準的推斷。具備廣度世界知識是因為大模型學習了很多不同領域的信息。

然而大模型也有其局限性，推薦模型是高度專有化的，大模型在單獨某個任務的精度不容易超越傳統(tǒng)模型。

大模型會不會取代推薦模型？比如 GPT 是否會取代推薦算法？

一是取決于人機交互的進化，從應用的角度來看，近二三十年大的互聯(lián)網變革都是從交互方式發(fā)生的。從 PC 時代、移動互聯(lián)網時代，再到當前的 GPT 時代，交互方式是第一生產力。如果 GPT 控制終端入口，那么推薦將被迫作為 GPT 的子模塊，所以整體取決于人類更喜歡的前端交互形態(tài)是什么樣的。

二是 GPT 是否會成為推薦的入口。當大模型內置于手機等智能終端后，消費者的使用習慣如果一直傾向于通過提問來獲取物料，那么推薦就有可能成為 GPT 的一個后端。但如果消費者的習慣沒有改，還是喜歡刷淘寶、抖音，那么 GPT 就不會取代傳統(tǒng)推薦系統(tǒng)。

三是推薦算法不會消失，因為推薦算法的準確度非常高，最差的情況下它也會作為一種 backend 內嵌于大模型當中。

后續(xù)的演進方向：

交互性。chatGPT類催生新的業(yè)務場景，比如基于問答的推薦場景，類似于淘寶問答中的答案生成和推薦。

深度語義理解，大模型對內容理解能力的提升。當前推薦建模依賴大量離散特征以及統(tǒng)計后驗特征，如果未來能通過大模型的內容理解能力，直接匹配用戶理解，這樣端到端的新范式會重塑推薦系統(tǒng)的發(fā)展線路。

廣度知識，改善長尾。

生成能力。需要得到 chatGPT 類模型，當前難度較大。下圖中的 case 就是對比一些大模型和原來 Facebook 的 DLIM 模型，可以看到大模型的參數(shù)集中在 FC 層，而推薦集中在 embedding 層，F(xiàn)C 層模型有更好的語義理解，集中在 embedding 層模型就有更好的記憶。

基于以上的判斷，我們并沒有把大模型和推薦系統(tǒng)直接結合起來，而是先開發(fā)了OneRec 項目，試圖融入各種各樣的更廣闊的業(yè)務知識，從而拿到業(yè)務效果。在我們可以靈活有效地進行多信號信息融合基礎上，探索統(tǒng)一的大模型之路。

從 2019 年我們開始關注多種信息的萃取融合，提出了 OneRec 算法[3]，希望通過平臺或外部各種各樣的信息來進行知識集成，打破數(shù)據(jù)孤島，極大擴充推薦的“Extra World Knowledge”。我們認為這是當下非常可行的推薦大模型演進方向。

已實踐的算法包括行為數(shù)據(jù)、內容描述、社交信息、知識圖譜等。在 OneRec，每種信息和整體算法的集成是可插拔的，一方面方便大家在自己的業(yè)務數(shù)據(jù)下靈活組合各種信息，另一方面方便開源共建，大家集成自己的各種算法。相關代碼和論文已經開源，項目地址：https://github.com/xuanjixiao/onerec。

十一、Q&A

Q1：在用戶增長部分提到 42 秒，這里分析很細致。請問這個 42 秒的來源是什么？

A1：對于 high value action 可以選 41 或 40 秒。42 秒是經過統(tǒng)計分析和模型預估最終得出的結果。

大于 42 秒的用戶跟小于 42 秒的用戶的長期價值差別非常大。比如大于 40 秒的用戶大概平均每年能買 3 單，如果小于 40 秒的用戶平均能買 1 單，那么 DIFF 就是兩單。再來看為什么不選 40 秒，大于 40 秒的用戶可能平均每年只買兩單，小于 42 秒的用戶可能每年只買 1 單，他們的 DIFF 是 1 單。我們認為 42 秒更能區(qū)分用戶，他們的 deep 更大，這就是我們選 42 秒的原因。

Q2：內容生態(tài)部分提到計劃經濟會用到 PID 控制，它的約束和優(yōu)化目標是什么？

A2：對于 PID 控制算法，舉個例子，比如我們現(xiàn)在引入了 1 萬個網紅，是跟 MCN 機構簽約的，假設我是其他平臺競爭方，我們從那邊挖過來 1 萬個網紅，那么每天要給他們 1 萬個 view，這是我們跟他們協(xié)議的一部分。

要達到這 1 萬 view 量，就由 PID 算法來保證的。比如可能一小時給他 1 萬 view，按照每分鐘給予數(shù)量相同的 view。

帶約束優(yōu)化則是更進階的算法，在做計劃經濟的時候我們經常會對原來的市場經濟算法的自然分發(fā)造成效果的損失。那么如何調節(jié)兩個 PID 呢？

我們可以將其轉換為一個帶約束的優(yōu)化問題，描述為最大化 C 端的收益，比如說 Max CTR（最大化點擊率）。可以添加一個超參數(shù) Pij，Pij 代表對于這個用戶這次要不要推薦這個短視頻或直播，I 代表這個用戶，j 代表直播間。比如在當下要不要推薦這個直播，我們自然流量分發(fā)的目標是 CTR，約束就是比如每小時給的量不要大于 12000，也不要少于 8000，這樣將其變成一個帶約束的固化問題。Max CTR*Pij,subject 這個約束指的是，我們給的量，比如 Pij sum 要大于 8000，小于等于 12000，這樣可能是一個更好的描述形態(tài)，但這個問題可能是非凸的。

Q3：大模型和推薦系統(tǒng)的主要區(qū)別是什么？

A3：推薦的最大優(yōu)勢是在單個問題上，比如 CTR 建模上，推薦系統(tǒng)精度非常高。但大模型做不到高精度。

大模型的優(yōu)勢是有深度的語義理解，還有廣度的世界知識。

上一篇：人工智能是否被高估了？

下一篇：應對構建物聯(lián)網系統(tǒng)的復雜性：采用協(xié)作解決方案以獲得成功