實(shí)時(shí)分析:流數(shù)據(jù)的分析與可視化技術(shù)
定 價(jià):¥79
中 教 價(jià):¥61.62 (7.80折)
庫(kù) 存 數(shù): 0
叢 書(shū) 名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書(shū)
本書(shū)共11章。第1章介紹常見(jiàn)的流數(shù)據(jù)的來(lái)源、應(yīng)用以及三個(gè)重要特性:持續(xù)交付、結(jié)構(gòu)松散和高基數(shù),并闡釋對(duì)流數(shù)據(jù)使用基礎(chǔ)架構(gòu)和算法的重要性。第2~6章介紹實(shí)時(shí)流架構(gòu)的各組件涉及的軟件、框架和方法。第2章概述實(shí)時(shí)流架構(gòu)設(shè)計(jì)涉及的組件、特性、編程語(yǔ)言等。第3章介紹實(shí)時(shí)流架構(gòu)的服務(wù)配置和協(xié)調(diào),重點(diǎn)介紹協(xié)調(diào)服務(wù)器ZooKeeper。第4章闡述實(shí)時(shí)流架構(gòu)中數(shù)據(jù)流程的管理,涉及用來(lái)管理數(shù)據(jù)流程的兩個(gè)軟件包Kafka和Flume。第5章分析流數(shù)據(jù)的處理,涉及如何用Storm或Samza來(lái)處理數(shù)據(jù)。第6章介紹流數(shù)據(jù)的存儲(chǔ)問(wèn)題。第7~11章重點(diǎn)關(guān)注流數(shù)據(jù)架構(gòu)的應(yīng)用構(gòu)建問(wèn)題。第7章討論從流環(huán)境向最終用戶(hù)的數(shù)據(jù)交付問(wèn)題。這是構(gòu)建儀表板以及其他監(jiān)控應(yīng)用所使用的核心機(jī)制。第8章涵蓋流環(huán)境下的聚集計(jì)算問(wèn)題,特別是對(duì)多分辨率時(shí)間序列數(shù)據(jù)的聚集計(jì)算問(wèn)題。第9章簡(jiǎn)要介紹統(tǒng)計(jì)學(xué)和概率論的基礎(chǔ)知識(shí)。第10章討論略圖,略圖通常具有更快的更新速度和更小的內(nèi)存占用空間,特別適合流環(huán)境。第11章討論聚集計(jì)算之外能夠應(yīng)用于流數(shù)據(jù)的一些更深入的話(huà)題。
目 錄譯者序前言致謝作者簡(jiǎn)介技術(shù)編輯簡(jiǎn)介第1章 流數(shù)據(jù)簡(jiǎn)介11.1流數(shù)據(jù)的來(lái)源21.1.1運(yùn)行監(jiān)控21.1.2Web分析21.1.3在線(xiàn)廣告31.1.4社交媒體31.1.5移動(dòng)數(shù)據(jù)和物聯(lián)網(wǎng)41.2流數(shù)據(jù)的特別之處51.2.1始終在線(xiàn),持續(xù)流動(dòng)51.2.2松散結(jié)構(gòu)51.2.3高基數(shù)的存儲(chǔ)61.3基礎(chǔ)架構(gòu)和算法61.4總結(jié)7第一部分 流分析架構(gòu)第2章 實(shí)時(shí)流架構(gòu)設(shè)計(jì)102.1實(shí)時(shí)架構(gòu)的組件102.1.1數(shù)據(jù)采集112.1.2數(shù)據(jù)流程112.1.3數(shù)據(jù)處理132.1.4數(shù)據(jù)存儲(chǔ)132.1.5數(shù)據(jù)交付142.2實(shí)時(shí)架構(gòu)的特性162.2.1高可用性162.2.2低延遲172.2.3水平可擴(kuò)展性172.3實(shí)時(shí)編程語(yǔ)言182.3.1Java182.3.2Scala和Clojure192.3.3JavaScript192.3.4Go語(yǔ)言202.4實(shí)時(shí)架構(gòu)概覽202.4.1數(shù)據(jù)采集202.4.2數(shù)據(jù)流程212.4.3數(shù)據(jù)處理212.4.4數(shù)據(jù)存儲(chǔ)212.4.5數(shù)據(jù)交付222.5總結(jié)22第3章 服務(wù)配置和協(xié)調(diào)243.1 配置和協(xié)調(diào)系統(tǒng)的研發(fā)動(dòng)機(jī)243.2 維護(hù)分布式狀態(tài)253.2.1不可靠的網(wǎng)絡(luò)連接253.2.2時(shí)鐘同步253.2.3不可靠環(huán)境下的一致性253.3Apache ZooKeeper263.3.1znode273.3.2監(jiān)視和通知283.3.3保持一致性283.3.4創(chuàng)建ZooKeeper集群283.3.5ZooKeeper本地Java客戶(hù)端333.3.6Curator客戶(hù)端393.3.7Curator Recipes組件453.4總結(jié)50第4章 流分析中的數(shù)據(jù)流程管理524.1分布式數(shù)據(jù)流程524.1.1至少交付一次524.1.2“n+1”問(wèn)題534.2Apache Kafka:高吞吐量分布式消息機(jī)制544.2.1設(shè)計(jì)與實(shí)現(xiàn)544.2.2配置Kafka環(huán)境574.2.3與Kafka代理交互654.3Apache Flume:分布式日志采集系統(tǒng) 664.3.1Flume agent674.3.2配置agent684.3.3Flume數(shù)據(jù)模型684.3.4channel選擇器694.3.5Flume source714.3.6Flume sink784.3.7sink processor804.3.8Flume channel804.3.9Flume Interceptor814.3.10集成定制Flume組件834.3.11運(yùn)行Flume agent834.4總結(jié)83第5章 流數(shù)據(jù)的處理855.1分布式流數(shù)據(jù)處理855.1.1協(xié)調(diào)865.1.2分區(qū)和融合865.1.3事務(wù)865.2用Storm處理數(shù)據(jù)865.2.1Storm集群的組件875.2.2配置Storm集群885.2.3分布式集群895.2.4本地集群925.2.5Storm拓?fù)?25.2.6實(shí)現(xiàn)bolt955.2.7實(shí)現(xiàn)并使用spout995.2.8分布式遠(yuǎn)程過(guò)程調(diào)用1045.2.9Trident:Storm的DSL1055.3用Samza處理數(shù)據(jù)1115.3.1Apache YARN1115.3.2從YARN和Samza開(kāi)始1125.3.3將Samza集成進(jìn)數(shù)據(jù)流程1155.3.4Samza作業(yè)1165.4總結(jié)122第6章 流數(shù)據(jù)的存儲(chǔ)1236.1一致性哈希1236.2“NoSQL”存儲(chǔ)系統(tǒng)1246.2.1Redis1256.2.2MongoDB1326.2.3Cassandra1506.3其他存儲(chǔ)技術(shù)1596.3.1關(guān)系數(shù)據(jù)庫(kù)1606.3.2分布式內(nèi)存數(shù)據(jù)網(wǎng)格1606.4存儲(chǔ)技術(shù)的選擇1606.4.1鍵-值存儲(chǔ)1606.4.2文檔存儲(chǔ)1606.4.3分布式哈希表存儲(chǔ)1616.4.4內(nèi)存網(wǎng)格1616.4.5關(guān)系數(shù)據(jù)庫(kù)1616.5數(shù)據(jù)倉(cāng)庫(kù)1616.5.1將Hadoop作為ETL和數(shù)據(jù)倉(cāng)庫(kù)1626.5.2Lambda架構(gòu)1666.6總結(jié)166第二部分 流分析與可視化第7章 流度量的交付1687.1流Web應(yīng)用1687.1.1使用Node1697.1.2用NPM管理Node項(xiàng)目1717.1.3基于Node開(kāi)發(fā)Web應(yīng)用1747.1.4 基本的流儀表板1767.1.5 向Web應(yīng)用加入流1807.2 數(shù)據(jù)可視化1907.2.1 HTML5 Canvas和內(nèi)聯(lián)SVG1907.2.2 數(shù)據(jù)驅(qū)動(dòng)文檔:D3.js1967.2.3 高層工具2047.3 移動(dòng)流應(yīng)用2087.4 總結(jié)209第8章 精確的聚集計(jì)算和交付2118.1 定時(shí)計(jì)數(shù)與求和2148.1.1 基于Bolt的計(jì)數(shù)2148.1.2 基于Trident的計(jì)數(shù)2168.1.3 基于Samza的計(jì)數(shù)2178.2 多分辨率時(shí)間序列的聚集計(jì)算2188.3 隨機(jī)優(yōu)化2228.4 時(shí)間序列數(shù)據(jù)的交付2238.4.1 用D3.js繪制帶狀圖2248.4.2 高速Canvas圖2258.4.3 地平線(xiàn)圖2268.5 總結(jié)227第9章 流數(shù)據(jù)的統(tǒng)計(jì)近似2299.1 數(shù)值計(jì)算庫(kù)2299.2 概率和分布2309.2.1 期望和方差2319.2.2 統(tǒng)計(jì)分布2329.2.3 離散分布2329.2.4 連續(xù)分布2339.2.5 聯(lián)合分布2359.3 參數(shù)估計(jì)2369.3.1 參數(shù)推斷2369.3.2 Delta方法2379.3.3 分布不等式2389.4 隨機(jī)數(shù)產(chǎn)生器2389.5 抽樣過(guò)程2429.5.1 從固定數(shù)據(jù)集中抽樣2429.5.2 從流數(shù)據(jù)中抽樣2439.5.3 有偏流抽樣2449.6 總結(jié)245第10章 使用略圖近似流數(shù)據(jù)24610.1 寄存器和哈希函數(shù)24610.1.1 寄存器24710.1.2 哈希函數(shù)24710.2 集合24910.3 Bloom Filter25110.3.1 算法25110.3.2 Bloom Filter大小的選擇25310.3.3 并集和交集25310.3.4 基數(shù)估計(jì)25410.3.5 有趣的變體25510.4 Distinct Value略圖25810.4.1 Min-Count算法25810.4.2 HyperLogLog算法26010.5 Count-Min略圖26410.5.1 點(diǎn)查詢(xún)26510.5.2 Count-Min略圖的實(shí)現(xiàn)26510.5.3 Top-K和“Heavy Hitters”26610.5.4 范圍查詢(xún)和分位數(shù)查詢(xún)26810.6 其他應(yīng)用27010.7 總結(jié)271第11章 流數(shù)據(jù)的應(yīng)用27211.1 實(shí)時(shí)數(shù)據(jù)模型27311.1.1 簡(jiǎn)單時(shí)間序列模型27311.1.2 線(xiàn)性模型27611.1.3 邏輯回歸28011.1.4 神經(jīng)網(wǎng)絡(luò)模型28111.2 用模型預(yù)測(cè)28911.2.1 指數(shù)平滑法28911.2.2 回歸法29111.2.3 神經(jīng)網(wǎng)絡(luò)法29311.3 監(jiān)控29411.3.1 離群點(diǎn)檢測(cè)29411.3.2 變化檢測(cè)29611.4 實(shí)時(shí)優(yōu)化29711.5 總結(jié)298