為了解決信息過載問題, 最常用的兩種技術是推薦引擎和搜索引擎。搜索引擎傾向于明確的搜索目標, 可以將信息的查詢轉換為精確的關鍵字搜索, 搜索后返回給用戶搜索列表, 用戶可以對這些返回結果進行反饋, 用戶具有主動意識。推薦引擎傾向于沒有明確目標, 或者目標模糊, 推薦系統通過用戶的歷史行為或者用戶的興趣偏好或者用戶的人口統計學特征進行推薦, 生成用戶可能感興趣的項目列表, 用戶比較被動。本書基于作者團隊多年的研究成果, 介紹了推薦和檢索領域的最新發展、常用的技術和算法、以及作者團隊所提出的融合多源異構數據的推薦模型、跨模態的檢索模型, 相關工作已在國內外權威期刊上發表, 本書的內容反映了本領域的最新發展。
本章介紹了解決信息過載問題常用的**與檢索技術,描述了融合多源異構數據的**與檢索所具有的優勢和面臨的挑戰。
1.1**與檢索
近年來,隨著云計算、人工智能、計算機**、多媒體、物聯網等信息技術在全球的飛**展,互聯網時代已正式到來。互聯網時代的到來,既為傳統行業帶來了挑戰,又催生了新興產業,為新興經濟的發展帶來了機遇。互聯網已經與人們的生活息息相關,人們通過網絡可以進行新聞閱讀、網上購物、移動支付、在線教育等活動。一方面,人們享受著互聯網帶來的便利,能夠便捷地從網絡中獲取豐富的信息;另一方面,大數據也帶來了信息過載的問題。如何高效快速地為用戶提供其真正需要的信息,如何從大量數據中挖掘出真正有價值的內容,是互聯網發展過程中面臨的重要挑戰。
解決信息過載問題*常用的兩種技術是:主動為用戶**其感興趣的內容的**引擎;用戶搜索信息時為其提供更精準的搜索結果的搜索引擎。**引擎傾向于沒有明確目標或目標模糊,通過用戶的歷史行為、用戶的興趣偏好或用戶的人口統計學特征進行**,生成用戶可能感興趣的項目列表,用戶比較被動。搜索引擎傾向于明確的搜索目標,可以將對信息的查詢轉換為**的關鍵字,搜索后返回給用戶搜索列表,用戶可以對這些返回結果進行反饋,用戶具有主動*。
1.1.1**
迄今為止,**系統已經發展了20多年。在應用領域方面,**系統不僅被應用在**商務平臺(***、****)為用戶**物品,還被應用在了信息檢索(Coogle、百度、Yahoo)、社交媒體(Twitter、微博)、音樂電臺(網易云音樂、Apple Music)、視頻**等各種領域。在數據種類方面,隨著移動設備和可穿戴設備的發展,網絡中能夠收集到的信息種類逐漸增多,除了數字信息外還可以收集到文本、圖像、社交關系、聲音、視頻等各種異構數據。在評價指標方面,除了準確度和召回率,歸一化折損累計增益、覆蓋率等也常用來評估**結果的好壞。
盡管**算法隨著應用場景的變換而不同,但提高準確率是所有**算法追求的目標。基于內容的**、協同過濾**、混合**是傳統**算法中*主要的三類。其中,基于內容的**算法的關鍵是獲取用戶的興趣偏好,在獲得用戶偏好后,此類算法為用戶**與其偏好類似的物品。在協同過濾中,認為兩個相似的用戶對同一物品的打分是相近的,同一個用戶對兩個類似物品的打分也是相近的。混合**算法則是將不同**算法按照一定的策略融合,可以分為算法層面的融合和數據源層面的融合。傳統的**算法大多存在**精度不高、特征提取困難等問題,為了解決這些問題,專家學者在**系統中引入了深度學習技術。盡管深度學習的引入能夠提高**結果的準確*,但它也帶來了計算復雜度增大、**結果可解釋*差的問題。大多數**算法僅使用評分數據來為用戶提供**,并沒有充分利用互聯網中收集到的各種如評論數據、社交網絡信息等異構數據。