常規的推薦系統范式已經逐漸走入瓶頸,原因是在當前固定化的問題描述下模型和系統幾乎已經發展到極限。當前的主要范式在模型上為召回+排序+重排,系統上為樣本挖掘+特征工程+線上打分預估能力建設。一線大廠在上述領域已經把空間挖掘殆盡。同時可以看到,我們的用戶對當前推薦系統的滿意度仍然未達到理想狀態。推薦系統是一個非常面向于用戶滿意度的平臺系統,而用戶滿意是一個永遠存在不同理解的問題,一千個用戶眼里有一千種對好的推薦系統的理解。
構建更好的推薦系統需要我們重新定義“什么是好的推薦系統”。這并不是學術界的“強行挖坑”或者“繼續填坑”,而是不同層面上都在呼喚新的定義。事實上,新的推薦系統已經零散地在學術界和工業界展現星星之火。
為何本文主題提出 2026 呢?是因為當前無論在業務上還是技術上都有一些亟待解決的問題,希望在未來 3 年能找到好的解法。
一、留存提升
對于所有 APP 來說,留存是第一生命力,APP 留下多少用戶,DAU 多高,決定著公司的估值和市值。業界和留存相關的課題主要有以下三種:
通過相關性分析、因果推斷找出影響留存的因素。比如愛奇藝、騰訊視頻和優酷等平臺。對于長視頻平臺,影響留存的最大因子是熱播劇,在騰訊視頻中我們會發現假如有熱播劇上線,那么當季的留存和 DAU 會提升很多。但如果一個熱播劇下線,DAU 就會降低很多,這就要求平臺不斷提供爆款的熱播劇,熱播劇因素跟平臺的留存非常相關。
留存拆分為多個子目標建模,再綜合排分。
建模多天的收益來逼近留存的概念。如果是次日留存,對用戶的正反饋,不要建模為一次點擊或者觀看30秒,而要建模為48小時的總體消費指標,這樣更能夠逼近留存。
下圖中展示了兩個項目:
一是留存與一刷 tag 熵的關系,例如今天有 n 個用戶來到平臺,明天 m 個用戶留下,留存就是 m 除以 n,這是次日留存的概念。tag 熵是指內容多樣性,我們發現如果用戶看的內容比較多樣,在當時場景下留存率是比較高的。
二是基于強化學習的分析,我們希望逼近 30 分鐘建模,即用戶在短視頻平臺看 30 分鐘的總價值。
二、用戶增長
這里使用的是狹義的用戶增長定義,如何把一個新的不活躍的消費者變成平臺的活躍用戶。
平臺僅依靠巨大的人口紅利獲得持續發展的時代已經過去,很多平臺進入存量競爭。在新平臺新 APP 上線的階段,更是用戶增長能力決定生死的關鍵階段。
相關的課題:
用戶分層優化,預估high value action。舉個例子,比如有些用戶狀態能夠很好地區分用戶的等級,我們會利用這些關鍵的動作把用戶分層[2]。
二是營銷手段建模uplift和推薦算法的分人群。營銷的手段主要就是物質獎勵,推薦算法就是更精準的匹配,針對不同層次的用戶,有不同推薦算法的目標。
用戶的知識融合,一個中小型APP其實非常缺乏數據,無法建模用戶偏好,我們希望能夠從外部融合一些數據,來彌補數據不足[3][4]。
三、內容生態
內容生態的定義是平臺供給側繁榮程度,它是平臺的 B 面,好的內容生態應該能充分反映用戶的需求,而且自身應該有比較好的生長發育衰退機制,就像一片森林或者是一個社會的經濟系統,這也是其稱為生態的一個原因。
內容生態非常重要,是平臺真正的護城河,很多時候平臺經濟的護城河其實不在于C 端,更多在于 B 端。例如淘寶的服飾類、拼多多的機制供應鏈競爭、抖音很大程度上靠優質內容供給來搞定前期用戶。
相關的課題:
內容生態的指標:建立調性控制生態自身的繁榮程度
計劃經濟:建立保量系統,達到運營調控的目標
部分的計劃經濟:建立創作者的分級成長、內容生命周期管理,利用PID算法、帶約束優化以及流量博弈等。
平臺供給&消費是否匹配:從用戶出發設計供需機制。理解用戶平臺內容側的需求是什么。預估主播內容的潛力+主播內容質量的建模,進行有計劃地分發。通過預估增長程度指導內容生產,我們可以知道生產X個某種內容到底能讓用戶側產生怎樣的反應。
四、多目標帕累托最優
要實現更加精細地優化用戶滿意度,目標越充足越好,我們希望用戶在所有指標上都有增長,即多目標帕累托最優,比如觀看、下單、點贊、評論、分享等。user_satisfactinotallow= max {click,order,interaction,....}
這個問題很重要,因為用戶滿意也是平臺的終極目標之一。只有用戶滿意,平臺才能夠存活。在缺乏大規模問卷調查的情況下,目前很多公司采用的就是優化多目標滿意,一般是點擊率、轉化率、觀看時長等指標。
帕累托最優[5]可能難以達到,因為有些目標是相沖的,這時的帕累托最優是在相沖的情況下最優的一種情況。例如下圖中紅色的線,被認為是帕累托最優的前沿,這條線代表已經到達臨界值。臨界值指的是在不損害某一個指標的情況下,是無法提升其他指標的,這被稱為帕累托前沿。我們的目標就是找到帕累托最優前沿,在不同指標間進行 trade off。
相關課題包括:
提升多個目標-超參數尋優算法。
在多目標無法共同提升情況下,如何取舍。
五、時間-長期價值預估
接下來介紹建立時間維度的長期價值預估。當前的推薦系統比較專注于瞬時價值,缺乏對更長期價值的預估,而長期價值更加接近 DAU 目標。
短期價值優化容易出現很多問題,比如標題黨、軟色情等,導致平臺失敗。
相關課題包括:
優化session的總價值,將session定義為一個用戶一次不間斷的跟APP的交互。
優化多個場景之間的總價值,比如淘寶現在是雙列流,用戶在雙列流進行瀏覽,但又可能點進去某一個具體詳情繼續瀏覽。雙列流可能會具有多樣性,單列流則更偏向于單類目。雙列流跟單列流之間也會存在此消彼長的效應,需要進行調和。
session 總價值可以用馬爾可夫過程建模成一個多輪交互。這里引用微軟謝幸老師在微軟新聞上的一個工作[6],他把推薦系統稱為一個智能體,把用戶稱為環境,智能體推薦給用戶一些新聞,根據用戶是否點擊作為反饋來建模。
另一個是騰訊視頻的一個工作[1],通過優化 session 價值,使 VV、GTR 等提高了兩個點。
六、空間-全站優化
APP 通常有多個場景滿足不同需求,比如首頁猜你喜歡滿足發現性、相似推薦滿足對于某個點的深入消費、購物車頁面滿足搭配需求。需要聯動所有場景,在典型用戶行為鏈路上進行全局優化。
單場景優化會出現抵消效應,所以要對用戶的典型鏈路進行分析。利用用戶行為鏈路信息作為建模約束可以更好地實現單場景優化。
相關課題包括:
用戶典型鏈路分析,比如逛、比價、分享等。
多場景聯合建模/觀察影響-使用基于共享和博弈的強化學習等。
七、交互式推薦系統(IRS)
個性化問答助手逐漸商用,并在未來的人類生活中被寄予厚望。基于人類直接語言交互的推薦系統,能夠更加滿足用戶意圖,并且更加便捷。
目前有兩種 IRS 系統,隱式對話和顯式對話。前者已經在大廠初步展示了價值,后者隨著 chatGPT 熱度再起,但是當前仍不成熟。
相關課題包括:
顯示的對話式推薦,GPT加推薦算法以及意圖識別等。
隱式交互式推薦-意圖生成,知識圖譜,列表式推薦(Exact-K) ,下圖所示是當時提出的騰訊視頻的心向標項目。
八、千人千模
人類的理解能力很強,基于極少的信息描述,就能夠很好地理解一個人。在主流平臺上,單個用戶的信息、行為多達上千上萬條。是否有可能為每一個人建立一個模型以提升準確度呢?雖然我們現在的推薦算法就是千人千面,但其實 pattern 是被大部分主流人群主導的,對于長尾用戶表現得并不理想。
在排序算法中,預估精度是永恒的追求,大公司通過分類別分群建模以進一步提升效果,如果能夠在機器負載允許情況下為每一個用戶建立一個模型,那么將會實現真正的千人千面。
目前相關課題包括:
如何進行系統和算法的聯合設計節省資源。
如何逼近千人千模分群學習,工業界其實很難給每個用戶建立模型,比如淘寶有10億的用戶,如果每個用戶建一個模型,那么機器負載消耗是巨大的。但我們可以采用一些逼近方法,比如多任務學習或Meta learning。
單個人建模或提升模型的記憶能力。主流排序算法模型+千人千模。如下圖所示,Gate 特征與 CTR 模型融合來校準學習[8]。
九、當作決策問題的推薦算法
工業界推薦的本質不是一個常規的回歸/分類,而是一個決策問題。平臺通過感知用戶并決策給到用戶在不同時刻想要的東西,從而希望用戶能夠喜歡這個平臺最終停留下去。同時用戶反饋(比如點不點)也是一個決策問題,里面含有不確定性。從決策角度看,推薦不同于 CV/NLP 等問題,更加類似于 AI。當前的解法基本上把推薦當作分類問題,這是存在缺陷的。
為什么推薦是決策且不確定性問題?
平臺給用戶推薦視頻,用戶的反饋、用戶的狀態都具有一定不確定性。所以我們將其視為決策問題。
相關課題:
針對平臺調性的留存建模。運營挑選的熱門物品根本不匹配用戶興趣,但是用戶卻喜歡上了平臺,比如拼多多首頁。
把推薦當作多輪交互的MDP過程。
用戶決策僅僅是興趣匹配嗎?其實決策不僅僅是興趣匹配,還包括多樣性、精細度、時效性、用戶疲勞度等,這些都對用戶決策起到了作用。
十、OneRec-推薦融合大模型[3]
大模型和推薦的共同點是參數量都很大,其實在大模型問世之前,淘寶等主流平臺的推薦模型也都達到千億參數規模。
大模型的優勢在于深度語義理解和廣度世界知識,它能夠根據上下文做出比較精準的推斷。具備廣度世界知識是因為大模型學習了很多不同領域的信息。
然而大模型也有其局限性,推薦模型是高度專有化的,大模型在單獨某個任務的精度不容易超越傳統模型。
大模型會不會取代推薦模型?比如 GPT 是否會取代推薦算法?
一是取決于人機交互的進化,從應用的角度來看,近二三十年大的互聯網變革都是從交互方式發生的。從 PC 時代、移動互聯網時代,再到當前的 GPT 時代,交互方式是第一生產力。如果 GPT 控制終端入口,那么推薦將被迫作為 GPT 的子模塊,所以整體取決于人類更喜歡的前端交互形態是什么樣的。
二是 GPT 是否會成為推薦的入口。當大模型內置于手機等智能終端后,消費者的使用習慣如果一直傾向于通過提問來獲取物料,那么推薦就有可能成為 GPT 的一個后端。但如果消費者的習慣沒有改,還是喜歡刷淘寶、抖音,那么 GPT 就不會取代傳統推薦系統。
三是推薦算法不會消失,因為推薦算法的準確度非常高,最差的情況下它也會作為一種 backend 內嵌于大模型當中。
后續的演進方向:
交互性。chatGPT類催生新的業務場景,比如基于問答的推薦場景,類似于淘寶問答中的答案生成和推薦。
深度語義理解,大模型對內容理解能力的提升。當前推薦建模依賴大量離散特征以及統計后驗特征,如果未來能通過大模型的內容理解能力,直接匹配用戶理解,這樣端到端的新范式會重塑推薦系統的發展線路。
廣度知識,改善長尾。
生成能力。需要得到 chatGPT 類模型,當前難度較大。下圖中的 case 就是對比一些大模型和原來 Facebook 的 DLIM 模型,可以看到大模型的參數集中在 FC 層,而推薦集中在 embedding 層,FC 層模型有更好的語義理解,集中在 embedding 層模型就有更好的記憶。
基于以上的判斷,我們并沒有把大模型和推薦系統直接結合起來,而是先開發了OneRec 項目,試圖融入各種各樣的更廣闊的業務知識,從而拿到業務效果。在我們可以靈活有效地進行多信號信息融合基礎上,探索統一的大模型之路。
從 2019 年我們開始關注多種信息的萃取融合,提出了 OneRec 算法[3],希望通過平臺或外部各種各樣的信息來進行知識集成,打破數據孤島,極大擴充推薦的“Extra World Knowledge”。我們認為這是當下非常可行的推薦大模型演進方向。
已實踐的算法包括行為數據、內容描述、社交信息、知識圖譜等。在 OneRec,每種信息和整體算法的集成是可插拔的,一方面方便大家在自己的業務數據下靈活組合各種信息,另一方面方便開源共建,大家集成自己的各種算法。相關代碼和論文已經開源,項目地址:https://github.com/xuanjixiao/onerec。
十一、Q&A
Q1:在用戶增長部分提到 42 秒,這里分析很細致。請問這個 42 秒的來源是什么?
A1:對于 high value action 可以選 41 或 40 秒。42 秒是經過統計分析和模型預估最終得出的結果。
大于 42 秒的用戶跟小于 42 秒的用戶的長期價值差別非常大。比如大于 40 秒的用戶大概平均每年能買 3 單,如果小于 40 秒的用戶平均能買 1 單,那么 DIFF 就是兩單。再來看為什么不選 40 秒,大于 40 秒的用戶可能平均每年只買兩單,小于 42 秒的用戶可能每年只買 1 單,他們的 DIFF 是 1 單。我們認為 42 秒更能區分用戶,他們的 deep 更大,這就是我們選 42 秒的原因。
Q2:內容生態部分提到計劃經濟會用到 PID 控制,它的約束和優化目標是什么?
A2:對于 PID 控制算法,舉個例子,比如我們現在引入了 1 萬個網紅,是跟 MCN 機構簽約的,假設我是其他平臺競爭方,我們從那邊挖過來 1 萬個網紅,那么每天要給他們 1 萬個 view,這是我們跟他們協議的一部分。
要達到這 1 萬 view 量,就由 PID 算法來保證的。比如可能一小時給他 1 萬 view,按照每分鐘給予數量相同的 view。
帶約束優化則是更進階的算法,在做計劃經濟的時候我們經常會對原來的市場經濟算法的自然分發造成效果的損失。那么如何調節兩個 PID 呢?
我們可以將其轉換為一個帶約束的優化問題,描述為最大化 C 端的收益,比如說 Max CTR(最大化點擊率)。可以添加一個超參數 Pij,Pij 代表對于這個用戶這次要不要推薦這個短視頻或直播,I 代表這個用戶,j 代表直播間。比如在當下要不要推薦這個直播,我們自然流量分發的目標是 CTR,約束就是比如每小時給的量不要大于 12000,也不要少于 8000,這樣將其變成一個帶約束的固化問題。Max CTR*Pij,subject 這個約束指的是,我們給的量,比如 Pij sum 要大于 8000,小于等于 12000,這樣可能是一個更好的描述形態,但這個問題可能是非凸的。
Q3:大模型和推薦系統的主要區別是什么?
A3:推薦的最大優勢是在單個問題上,比如 CTR 建模上,推薦系統精度非常高。但大模型做不到高精度。
大模型的優勢是有深度的語義理解,還有廣度的世界知識。