這是一本從業務視角解讀推薦系統架構設計、評估方法、數據工程和算法原理的著作。
市面上推薦系統方面的著作,內容多以推薦技術、算法和模型為主,讓讀者誤以為掌握了推薦算法就能用好推薦系統并提升業務指標,其實推薦算法只是工具,要真正發揮推薦系統的價值,需要將推薦系統植根于業務之上。本書從業務視角出發,描繪了當下主流推薦系統的設計思想和架構全貌,重點突出系統每個模塊所需要解決的問題,進而介紹一到兩種實踐檢驗普遍有效、在學術界具備里程碑性質的算法。幫助讀者練成識別算法的火眼金睛,從每年大量產出的新算法研究中去粗取精,真正解決實際問題。
閱讀本書,你將有如下收獲:
從商業、運營、算法、工程視角理解推薦系統,對推薦系統的認知更加立體化;
從業務視角理解推薦系統的頂層設計,掌握業務驅動的推薦系統設計思想;
掌握業務驅動型推薦系統的評估方法,涵蓋B端、C端和平臺等多個維度;
了解推薦系統的數據工程,掌握獲取各類數據、構建特征體系的方法;
從業務視角理解召回、排序和決策智能方面的經典算法和學術界有里程碑意義的算法;
從技術和業務的雙重視角去規劃推薦算法工程師的成長路徑,以達到事半功倍的效果。
CONTENTS
目 錄
前言
第一部分 業務驅動下的推薦系統總覽
第1章 從業務視角看推薦系統2
1.1 推薦系統的定義與商業價值2
1.1.1 推薦系統的基本概念
與業務驅動思想3
1.1.2 淺談個性化推薦帶來的
商業價值7
1.2 從運營、算法與工程視角
看推薦系統7
1.2.1 推薦業務運營思維:
貨找人8
1.2.2 推薦算法建模思維:
人找貨10
1.2.3 推薦引擎工程展望:
服務產品化11
第2章 從業務視角看推薦系統的
頂層設計12
2.1 業務驅動下的推薦系統
設計思想12
2.1.1 業務無關的推薦系統
抽象13
2.1.2 推薦算法模塊核心能力
的建設15
2.2 從系統框架透視業務生態
循環17
2.2.1 系統大圖剖析17
2.2.2 監察者:埋點日志
服務17
2.2.3 業務大腦:數據計算、
分析及倉儲服務18
2.2.4 主循環系統:召回與
排序模塊19
2.2.5 副循環系統:運營管控
與作業模塊21
2.2.6 新陳代謝:運維與實驗
平臺22
2.3 迭代效率大化:圖化服務和
配置化迭代25
第3章 評估推薦系統的方式
與維度27
3.1 業務驅動型推薦系統的評估
要點27
3.1.1 體驗優先準則和量化
方式28
3.1.2 評估推薦系統的
方法論29
3.1.3 從3種業務價值出發
設計評估體系31
3.2 B端業務:B端用戶體驗的
評估維度31
3.2.1 平臺玩法的
可解釋性31
3.2.2 投放效果的
可預測性32
3.2.3 投入產出比33
3.2.4 基尼指數34
3.3 C端業務:C端用戶體驗
的評估維度34
3.3.1 興趣相關性35
3.3.2 內容質量35
3.3.3 結果多樣性35
3.3.4 推薦驚喜性36
3.4 平臺成長:平臺價值評估
維度36
3.4.1 產品調性和品牌
印象37
3.4.2 消費與轉化率37
3.4.3 高、中、低活用戶
留存37
3.4.4 活躍用戶量38
3.5 評估方法概覽38
3.5.1 用戶調研39
3.5.2 離線評估39
3.5.3 在線評估42
3.6 AB實驗42
3.6.1 AB實驗中的流量切分
設計43
3.6.2 AB實驗的通用流程44
3.6.3 實驗結果的顯著性校驗
和關聯分析44
3.6.4 實驗報表與監控
報警45
第二部分 推薦系統的數據工程
第4章 業務標簽體系48
4.1 業務標簽體系概述48
4.1.1 業務標簽體系的
含義48
4.1.2 業務標簽體系的
價值49
4.1.3 標簽體系為什么要業務
定制化49
4.2 業務標簽體系的設計思路50
4.2.1 業務標簽體系的概念
設計50
4.2.2 業務標簽體系的系統
設計52
4.3 業務標簽的挖掘方法53
4.3.1 提取式標簽挖掘54
4.3.2 生成式標簽挖掘55
4.3.3 基于主動學習的人機
協同標注系統56
4.3.4 標簽改寫、糾錯與
聚合56
4.3.5 標簽權重計算57
4.4 業務標簽體系的評估方法58
4.4.1 離線評估58
4.4.2 在線評估59
第5章 用戶畫像:業務層面
的人格抽象60
5.1 用戶畫像概述60
5.1.1 用戶畫像的含義60
5.1.2 用戶畫像的業務價值
和算法價值61
5.2 用戶畫像設計61
5.2.1 用戶畫像概念體系
設計61
5.2.2 用戶畫像數據系統
設計64
5.3 用戶畫像的構建與迭代65
5.3.1 人工挖掘方法65
5.3.2 基于機器學習的挖掘
方法66
5.3.3 用戶畫像的優化
迭代68
5.3.4 用戶畫像權重計算70
5.4 用戶畫像的評估方法71
5.4.1 離線評估71
5.4.2 在線評估72
第6章 生態循環的血液:
數據獲取與處理73
6.1 埋點日志服務與埋點體系的
設計思想73
6.1.1 埋點日志服務簡介74
6.1.2 業務驅動的埋點體系
設計思想75
6.2 可擴展的業務埋點體系77
6.2.1 SPM埋點體系77
6.2.2 SCM埋點體系77
6.2.3 擴展埋點體系EXT78
6.2.4 會話級埋點設計與
消費路徑跟蹤78
6.3 基于埋點數據的處理和分析79
6.3.1 常見重要數據指標
釋義79
6.3.2 漏斗效應和優化
分析81
第7章 業務定制化特征和
樣本工程設計83
7.1 推薦特征體系概覽83
7.1.1 推薦特征體系簡介84
7.1.2 特征體系的設計
思想85
7.2 推薦系統特征設計及案例86
7.2.1 用戶描述性特征86
7.2.2 用戶特征的人群
泛化87
7.2.3 內容描述性特征87
7.2.4 內容統計類特征88
7.2.5 內容統計類特征
泛化88
7.2.6 用戶與內容的交叉特征
設計89
7.2.7 用戶歷史行為序列
特征設計91
7.2.8 實時特征的定義和
價值92
7.2.9 實時統計特征設計和
數據流程92
7.2.10 基于機器學習的特征
構造94
7.3 特征應用常見問題95
7.3.1 多值特征處理95
7.3.2 在線、離線特征的
一致性96
7.4 特征去噪96
7.4.1 威爾遜置信區間
方法96
7.4.2 對數平滑方法97
7.4.3 百分位點離散化
方法97
7.5 特征樣本構造和模型訓練97
7.6 時間穿越及處理98
7.6.1 時間穿越的定義及
影響98
7.6.2 樣本現場還原98
7.7 特征與樣本消偏99
7.8 特征評估方法100
第三部分 推薦系統的算法原理
與實踐
第8章 業務驅動視角下的
召回技術104
8.1 推薦系統召回技術概覽104
8.1.1 推薦系統召回技術的
業務定位104
8.1.2 業務驅動下的召回
技術建模思維106
8.2 召回中的策略框架108
8.2.1 圈池策略108
8.2.2 召回多樣性策略108
8.2.3 基于業務策略的
召回109
8.2.4 召回模塊框架109
8.3 U2I召回算法111
8.3.1 UserCF算法111
8.3.2 矩陣補全算法113
8.3.3 向Neural CF邁進:
Deep Match框架114
8.4 I2I召回算法117
8.4.1 I2I召回的業務價值及
特點117
8.4.2 Trigger Selection
方法118
8.4.3 ItemCF算法118
8.4.4 Item2Vec算法118
8.5 基于圖結構的召回算法119
8.5.1 圖召回的前世今生和
業務價值119
8.5.2 Swing I2I召回算法120
8.5.3 GraphSage算法122
8.6 向量召回的另一面:近似檢索
算法127
8.6.1 ENN向量檢索與
ANN向量檢索128
8.6.2 ANN向量檢索算法的
分類及特點130
8.6.3 HC檢索算法131
8.6.4 IVF-PQ檢索算法
與Faiss133
8.6.5 SSG檢索算法138
8.7 召回中的采樣技術140
第9章 業務驅動視角下的
排序技術142
9.1 排序模塊概覽142
9.1.1 排序模塊的業務
價值142
9.1.2 業務驅動下的排序
模塊組件143
9.2 粗排模塊144
9.2.1 粗排模塊的業務價值
和技術思考變遷144
9.2.2 粗排算法選型原則145
9.2.3 GBDT算法145
9.2.4 GBDT+LR復合
排序149
9.2.5 雙塔深度網絡150
9.2.6 從精排模型蒸餾
出粗排模型151
9.3 精排模型152
9.3.1 精排模型的特點與
業務價值152
9.3.2 從LR到FM:從半人工
走向全自動153
9.3.3 端到端暴力美學:
精排CIN模塊155
9.3.4 序列特征建模157
9.3.5 稠密特征處理158
9.3.6 歸納偏執處理159
9.3.7 特征融合160
9.3.8 廣義LR排序范式160
9.4 多準則排序161
9.4.1 多準則排序簡介及
業務意義161
9.4.2 MMoE建模多準則
任務161
9.4.3 多目標的融合163
9.4.4 從Point-wise到
List-wise:強化
學習重排序165
9.4.5 解決數據匱乏問題:
生成式強化學習
重排167
第10章 算法輔助人工:
決策智能168
10.1 決策智能概述168
10.1.1 決策智能的含義168
10.1.2 推薦業務中的決策
智能169
10.2 決策智能與推薦探索利用
機制169
10.2.1 冷啟動中的決策
智能169
10.2.2 場景冷啟動中的
人工部分170
10.2.3 新用戶冷啟動中的
人工部分172
10.2.4 冷啟動決策中的
遷移學習173
10.2.5 新內容冷啟動
算法175
10.3 因果推斷技術178
10.3.1 決策智能與因果
推斷178
10.3.2 智能營銷與上推
建模179
10.4 流量調控181
10.4.1 流量調控的業務
價值與應用場景181
10.4.2 異質內容混排及
強化學習應用181
10.4.3 履約保量的流量調控
及算法184
第四部分 推薦算法工程師的
自我成長
第11章 推薦算法工程師的
成長路徑188
11.1 技術:推薦算法工程師的
立身之本188
11.1.1 推薦算法工程師的
知識體系188
11.1.2 推薦算法工程師的技術
成長路徑189
11.2 業務:推薦算法工程師的
立業之道190
11.2.1 推薦算法工程師的
業務成長路徑191
11.2.2 推薦算法業務目標
優化迭代的節奏192
11.3 推薦算法工程師的自我
修養193
11.3.1 推薦算法工程師的
工作日常193
11.3.2 優秀的推薦算法
工程師的特征194
11.3.3 在自證價值和技術
沉淀中尋求平衡195