人工智能

強化學習在小桔車服用戶運營中的實踐

廣告
廣告

桔妹導讀:小桔車服為滴滴旗下品牌,圍繞車主及汽車生命周期,整合運營多項汽車服務,更加智能更加用心地為車主提供適合的一站式用車服務,致力于讓每一個人擁有輕松車生活。

本次分享的主題為強化學習在小桔車服用戶運營中的實踐。在互聯網場景下,面向用戶的營銷是每個業務所對的共同問題,而如何幫助小桔車服運營提升營銷的 ROI 是我們算法同學的工作重點之一。在本文,我們將向大家介紹如何將車服的營銷問題建模為一個強化學習過程,并且如何精細化地對每個人做出個性化的營銷動作,在實際業務中又取得了怎樣的效果。

1.

小桔車服用戶運營算法體系

▍滴滴用戶運營算法模型

為了支持用戶增長的需求,小桔車服構建了一個平臺,一個系統以及四個算法策略模塊:即流量分發平臺、標簽系統、畫像模塊、目標人群定向模塊、營銷策略模塊、觸達優化模塊。

  • 流量分發平臺是對用戶進行場景化廣告的彈出,和用戶進行一些交互,包括發 push 消息、播報及發短信消息等各種渠道。
  • 標簽系統一方面在線上服務中判別用戶的身份屬性、狀態以及身份,另一方面是幫助各業務的運營人員去細粒度的圈選目標人群。

針對用戶運營的四個階段,也有相應的算法策略模塊:

模塊一:畫像

包括用戶畫像,商家畫像以及車輛畫像,目標是把生態內的各個實體細粒度的刻畫出來。

模塊二:目標人群的定向

用戶運營首先根據任務和用戶生命周期去找到合適的用戶群體,比如對用戶長期價值的定向、對短期的轉化率的預估、用戶流失預警、體系外用戶的精準定向等。

模塊三:營銷策略

分兩部分,一個是滴滴體系內線上的一些算法策略模塊,如強化學習、組合策略、個性化推薦,滴滴體系內有大量的拉單司機、專車司機、快車司機、順風車司機以及出租車司機,他們和滴滴平臺有非常緊密的聯系,每天都在平臺內拉單,用戶行為非常稠密,為智能營銷提供了豐富的源數據。另一部分是滴滴體系外的用戶增長,如社交營銷、DSP 外投廣告。

模塊四:觸達優化

算法根據用戶的狀態和行為發放給用戶一張一定面額的優惠券或一個活動提醒,為了增強用戶的轉化意愿,在觸達優化階段對用戶進行個性化的消息提醒。因為平臺業務眾多,各業務下的運營活動眾多,為了避免無節制地把所有的活動消息在很短的時間內推送給同一個人,需要做一些取舍,這就是全局流量優化解決的問題:在盡量減少打擾用戶的限制下,提升平臺的收益

▍滴滴人工運營的痛點和解決檔案

人工運營的痛點和解決方案人工運營和監督學習方法可以圈選目標人群進行運營活動,但是比較粗放,依賴運營人員的經驗,將用戶生命周期強制分成拉新、提頻、沉默召回等階段,由不同運營人員負責,但是這樣將連續過程割裂開不利于運營效果的提升;同時沒有利用平臺用戶線上線下豐富的行為特征,很難對用戶進行精細化的分析和運營;消息提醒千篇一律,用戶會感到疲勞從而影響轉化率。針對這些痛點,小桔車服采用強化學習方法對用戶和平臺之間的交互過程進行建模,并且在消息提醒階段,使用 graph embedding 方法根據用戶的興趣進行個性化的消息提醒,真正的做到精準觸達。

2.

智能營銷建模方法

▍強化學習

強化學習是一種與監督學習不一樣的學習范式,通過一個智能體與環境進行交互從而達到學習目標。其最重要的概念包括狀態 State、動作 Action、回報 Reward,智能體接收到環境的狀態后,對該狀態做出一個動作,環境根據該動作做出一個回報,然后進行一輪一輪的過程學習。強化學習的典型應用有游戲、個性化推薦、效果廣告和網約車調度,如 AlphaGo Zero 在圍棋領域戰勝世界頂級選手、多款游戲中的 OpenAI 基本戰勝人類,滴滴的網約車調度也采用強化學習去預測司機和乘客在時空中的匹配價值,進而在提升平臺 GMV 的同時也提升了乘客和用戶的產品體驗。

強化學習分類大的方面強化學習可分為 Model based 和 Model free,兩者的區別是 Model based 可以完整的了解并學習 Agent 所處的環境,Model free 卻不能。Model free 分為三方面:策略梯度優化、Q-learning 及兩者的結合,策略梯度優化適用的場景是動作連續的或者動作空間非常大,比較適合推薦或廣告領域,典型的方法有 A3C 和 PPO;Q-learning 適合的場景是動作空間有限的幾個或幾十個,典型方法有 deep Q-learning;兩者結合的典型方法有 DDPG 和 SAC。針對車服用戶運營的問題,首先兩個實體中 Agent 是車服平臺,Environment 是用戶,或者其他上下文。在每一輪迭代中 Agent 會向環境發送一張一定面額一定周期的優惠券,或者一定周期的消息或者空動作,Environment 收到動作后經過一定周期會做出一個正向或負向反饋,該反饋被量化后發送給 Agent,環境狀態的變化 State 也會返回給 Agent。

強化學習圖解 + Action 周期在這個場景里,強化學習的第一個要素 Action 包括不同面額優惠券的推送、不同周期的消息推送、空動作;第二個要素 State 是觀察和抽取出來的一些特征的表征,包括用戶線下行為、用戶線上行為、靜態行為、模型學習預估分;第三個要素 Reward 是用戶對 Action 的反饋,如空動作加油、消息推送加油、用優惠券加油;用戶查看優惠券、查看消息;無加油無查看。除此之外,針對場景需要定義了兩類 Action 周期:動作周期和沉默周期,傳統強化學習當 Agent 發出動作 Environment 會馬上給出一個響應,但在 O2O 場景下用戶需要一定周期(動作周期)對動作做出響應,如加油,并且在下一時刻用戶不可能再去加油,會進入沉默周期。

Double DQN 算法流程因為經典的 DQN 會帶來 Q 值預估的 overstimatation,進而引起接下來訓練的震蕩,所以具體的算法采用 Double deep Q-learning network,算法分為訓練部分和預測部分:訓練部分的核心是損失值 loss 的不同,double DQN 中左邊網絡訓練的 Q 值會周期性的復制給右側的 target Q-network,二者共同去計算得到最終的損失值 loss;預測部分是 Environment 會把當前的狀態輸出給 Double DQN,通過計算將 Q 值最大的 Action 返回給環境,如發一張合適的優惠券、一個消息推送或者空動作。此外針對正負比例不均衡的情況,算法采用了負采樣的方法。

▍Double DQN 算法流程

消息提醒部分可分為三個階段:首先是運營統一配置,在這個階段所有人收到的消息是一樣的,用戶容易產生疲勞;其次是初步的個性化,同時構建用戶的需求畫像和平臺的供給畫像,然后將二者匹配起來,這樣可以達到一個相對較好的結果。最后是為了達到更好的個性化結果,基于用戶的行為序列構建相應的圖,采用 graph embedding 學習方法實現個性化消息的推送,具體使用了三種方法:LINE、TransE、Graphsage。LINE 適用同質圖進行學習,在同一空間表征用戶和場站,使用用戶在特權場站與非特權場站的融合轉化序列數據;TransE 適用于異質圖,節點的種類包含用戶或場站,邊為用戶與場站的關系;Graphsage 適用于同質或異質圖,可同時使用結構信息和量化特征。
▍強化學習和 graph embedding 相結合

將強化學習和 graph embedding 兩者結合,目前在端到端 “無人駕駛” 的大流量上已經實現了自動化運營,通過在各個模塊中機器學習模型的應用,實現了智能化運營。首先通過特征提取模塊的學習得到強化學習所需要的 State、Action、Reword 三要素,然后放到強化學習算法中去學習和訓練,產出營銷動作進而執行,執行的時候通過 graph embedding 個性化的消息推送,給每個用戶匹配合適的服務,進而提高用戶的消息打開率和轉化率,最后通過用戶行為收集進入下一輪的迭代,而且在強化學習過程中,實現了中間參數持久化的無狀態化訓練。

3.

效果展示

▍強化學習算法效果

強化學習部分,從 ROI 的趨勢圖可以看到強化學習實驗組 ROI 是穩定的,基本上是穩定的高于對照組的。

ROI趨勢圖目前強化學習算法已經全流量覆蓋加油業務用戶,包括有券提醒和無券推送,強化學習桶比人工運營桶在拉新率和召回率上都有約8%的提升,同時成本大約降低了一半,真正實現了一個比較高的 ROI,從而做到了更加精細化的運營。

強化學習拉新召回率對比

拉新成本對比和召回成本對比

▍Graph embedding 個性化消息提醒效果

關于個性化消息提醒方面的優化,首先用 LINE 方法和人工供需匹配做對比,在消息打開率和轉化率上分別提升了7%和10%;然后將 TransE 方法和 LINE 方法做對比,在打開率和轉化率方面分別提升了4%和6%,累計起來的話 TransE 方法比人工供需匹配在打開率上提升11%,轉化率上提升16%??傊?,目前基于 graph embedding 的個性化消息提醒方法在加油業務全流量上,每天對大量用戶進行個性化的消息提醒,用戶體驗也明顯提升。在用戶增長上,車服算法團隊初步建立起來一套智能營銷的體系,通過數據驅動的方式精細化地賦能了運營,提升了用戶增長的效果和效率。本次分享就到這里,謝謝大家!文章首發自 DataFunTalk?,點擊此處可查看原文。

本文作者
?劉 凱滴滴 | 高級算法專家博士畢業于中國科學院自動化所。做人低調,做事高調。以第一作者發表了多篇頂級國際學術雜志和會議文章,深耕于個性化推薦、效果廣告、智能營銷等相關領域。       
我還沒有學會寫個人說明!

GitHub Actions,臥槽!牛批!

上一篇

高并發下的接口冪等性解決方案!

下一篇

你也可能喜歡

強化學習在小桔車服用戶運營中的實踐

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
30岁的男人干啥赚钱快赚钱多