本書(shū)先介紹大數(shù)據(jù)商業(yè)架構(gòu)需要的各種技術(shù)知識(shí),然后通過(guò)介紹一個(gè)虛擬的互聯(lián)網(wǎng)創(chuàng)業(yè)案例,逐步展開(kāi)介紹各個(gè)階段可能遇到的業(yè)務(wù)需求,以及相對(duì)應(yīng)的技術(shù)方案,甚至是技術(shù)難度。為了達(dá)到深入淺出,通俗易懂的效果,實(shí)戰(zhàn)章節(jié)一般是從業(yè)務(wù)需求的描述入手,然后進(jìn)行需求分析,根據(jù)需求的特點(diǎn),對(duì)備選技術(shù)方案進(jìn)行科普、概述和探討,最后是技術(shù)方案確定和結(jié)論。
Contents 目 錄推薦序一推薦序二前 言第1章 抉擇1第2章 數(shù)據(jù)收集42.1 互聯(lián)網(wǎng)數(shù)據(jù)收集42.1.1 網(wǎng)絡(luò)爬蟲(chóng)52.1.2 Apache Nutch簡(jiǎn)介112.1.3 Heritrix簡(jiǎn)介142.2 內(nèi)部數(shù)據(jù)收集152.2.1 Apache Flume簡(jiǎn)介172.2.2 Facebook Scribe和Logstash212.3 本章心得212.4 參考資料22第3章 數(shù)據(jù)存儲(chǔ)233.1 持久化存儲(chǔ)233.1.1 Hadoop和HDFS253.1.2 HBase簡(jiǎn)介283.1.3 MongoDB353.2 非持久化存儲(chǔ)373.2.1 緩存和散列373.2.2 Memcached和Berkeley DB簡(jiǎn)介413.2.3 Redis簡(jiǎn)介413.3 本章心得443.4 參考資料44第4章 數(shù)據(jù)處理464.1 離線批量處理464.1.1 Hadoop的MapReduce474.1.2 Spark簡(jiǎn)介524.1.3 Hive簡(jiǎn)介534.1.4 Pig、Impala和Spark SQL564.2 提升及時(shí)性:消息機(jī)制584.2.1 ActiveMQ簡(jiǎn)介604.2.2 Kafka簡(jiǎn)介614.3 在線實(shí)時(shí)處理634.3.1 Storm簡(jiǎn)介634.3.2 Spark Streaming簡(jiǎn)介664.4 本章心得664.5 參考資料67第5章 信息檢索695.1 基本理念705.2 相關(guān)性705.2.1 布爾模型705.2.2 基于排序的布爾模型715.2.3 向量空間模型745.2.4 語(yǔ)言模型755.3 及時(shí)性775.4 與數(shù)據(jù)庫(kù)查詢(xún)的對(duì)比815.5 搜索引擎825.5.1 Web搜索中的鏈接分析835.5.2 電子商務(wù)中的商品排序865.5.3 多因素和基于學(xué)習(xí)的排序885.5.4 系統(tǒng)框架895.5.5 Lucene簡(jiǎn)介935.5.6 Solr簡(jiǎn)介985.5.7 Elasticsearch簡(jiǎn)介1045.6 推薦系統(tǒng)1085.6.1 推薦的核心要素1095.6.2 推薦系統(tǒng)的分類(lèi)1105.6.3 混合模型1155.6.4 系統(tǒng)架構(gòu)1165.6.5 Mahout1165.7 在線廣告1195.7.1 在線廣告的類(lèi)型1205.7.2 廣告投放機(jī)制1245.7.3 廣告的拍賣(mài)機(jī)制1255.7.4 廣告系統(tǒng)架構(gòu)1265.8 本章心得1275.9 參考資料128第6章 數(shù)據(jù)挖掘1306.1 基本理念1316.2 數(shù)據(jù)的表示和預(yù)處理1336.2.1 數(shù)據(jù)的表示1336.2.2 數(shù)據(jù)的預(yù)處理1356.3 機(jī)器學(xué)習(xí)算法1366.3.1 監(jiān)督學(xué)習(xí)—分類(lèi)1376.3.2 監(jiān)督學(xué)習(xí)—回歸1526.3.3 非監(jiān)督學(xué)習(xí)—聚類(lèi)1536.4 挖掘工具1576.4.1 Mahout簡(jiǎn)介1576.4.2 R簡(jiǎn)介1596.5 本章心得1656.6 參考資料165第7章 效能評(píng)估1677.1 效果評(píng)估1687.1.1 離線評(píng)估1697.1.2 非離線的評(píng)估1837.2 性能評(píng)估1907.2.1 計(jì)算復(fù)雜度1917.2.2 應(yīng)用系統(tǒng)性能1937.2.3 JMeter工具1977.3 本章心得2027.4 參考資料202第8章 大數(shù)據(jù)技術(shù)全景204第9章 商品太多啦!需要搜索引擎2079.1 業(yè)務(wù)需求2079.2 產(chǎn)品設(shè)計(jì)和技術(shù)選型2089.3 實(shí)現(xiàn)方案2119.3.1 數(shù)據(jù)定義和配置2119.3.2 集群搭建2139.3.3 DIH配置216第10章 能否更主動(dòng)?還需要推薦引擎22310.1 業(yè)務(wù)需求22310.2 產(chǎn)品設(shè)計(jì)和技術(shù)選型22510.3 實(shí)現(xiàn)方案23010.3.1 基于內(nèi)容特征的衡量23010.3.2 基于行為特征的衡量23310.3.3 提供在線服務(wù)236第11章 這樣做的效果如何24111.1 業(yè)務(wù)需求24111.2 產(chǎn)品設(shè)計(jì)和技術(shù)選型24211.3 實(shí)現(xiàn)方案24311.3.1 行為數(shù)據(jù)的定義和記錄24311.3.2 Flume和HDFS的集成24611.3.3 通過(guò)Hive進(jìn)行分析25211.3.4 Kafka和Storm的集成254第12章 這個(gè)搜索有點(diǎn)遜25812.1 業(yè)務(wù)需求:還要搜得更多25812.2 “還要搜得更多”:產(chǎn)品設(shè)計(jì)和技術(shù)選型25912.3 “還要搜得更多”的方案實(shí)現(xiàn)26112.3.1 HBase的部署26112.3.2 HBase和Solr的集成26412.4 業(yè)務(wù)需求:還要搜得更準(zhǔn)26512.5 “還要搜得更準(zhǔn)”:產(chǎn)品設(shè)計(jì)和技術(shù)選型26612.5.1 提升搜索排序的相關(guān)性26612.5.2 提升搜索排序的整體效果26812.6 “還要搜得更準(zhǔn)”的方案實(shí)現(xiàn)27112.7 業(yè)務(wù)需求:還要更快27312.8 還要“變”得更快:產(chǎn)品設(shè)計(jì)和技術(shù)選型27412.9 還要“搜”得更快:產(chǎn)品設(shè)計(jì)和技術(shù)選型27512.10 業(yè)務(wù)需求:給點(diǎn)提示吧28012.11 給點(diǎn)提示吧:產(chǎn)品設(shè)計(jì)和技術(shù)選型282第13章 支持更高效的運(yùn)營(yíng)28713.1 業(yè)務(wù)需求:互聯(lián)網(wǎng)時(shí)代的CRM28713.2 互聯(lián)網(wǎng)時(shí)代的CRM:產(chǎn)品設(shè)計(jì)和技術(shù)選型28813.3 業(yè)務(wù)需求:抓住搗蛋鬼29113.4 抓住搗蛋鬼:產(chǎn)品設(shè)計(jì)和技術(shù)選型29213.4.1 識(shí)別分類(lèi)錯(cuò)放29213.4.2 識(shí)別SEO作弊29413.5 業(yè)務(wù)需求:銷(xiāo)售之戰(zhàn)29513.6 銷(xiāo)售之戰(zhàn):產(chǎn)品設(shè)計(jì)和技術(shù)選型29613.6.1 設(shè)置合理的價(jià)格29613.6.2 識(shí)別黃牛298后記299