你是不是有這樣的困惑:“讀了不少關(guān)于大數(shù)據(jù)的書(shū),發(fā)現(xiàn)這大數(shù)據(jù)既可以用于競(jìng)選美國(guó)總統(tǒng),又能夠預(yù)測(cè)禽流感,還能賣啤酒和尿不濕,又是圍棋高手……大數(shù)據(jù)好像什么都能干耶!可是咋整呀?大數(shù)據(jù)多大為大呀?大數(shù)據(jù)能賺錢不?……唉,怎么還是一頭霧水。”本書(shū)將為你答疑解惑。本書(shū)將展現(xiàn)作者在國(guó)內(nèi)外大數(shù)據(jù)第一線的實(shí)戰(zhàn)經(jīng)驗(yàn),面向不同行業(yè)的共性訴求來(lái)指導(dǎo)讀者大數(shù)據(jù)該怎么做,并闡明大數(shù)據(jù)發(fā)展的誤區(qū)。本書(shū)對(duì)大數(shù)據(jù),從經(jīng)濟(jì)價(jià)值、商業(yè)模式、框架搭建、數(shù)據(jù)挖掘、網(wǎng)絡(luò)布置、安全防護(hù)、人員能力和后續(xù)運(yùn)維管理多個(gè)維度,以及基礎(chǔ)設(shè)施、中間件、重點(diǎn)應(yīng)用等多個(gè)層面進(jìn)行系統(tǒng)闡述。幫助決策者將大數(shù)據(jù)概念落地,建立起理性的預(yù)期、合理的規(guī)劃,并最終收獲滿意的經(jīng)濟(jì)效益。企業(yè)正面臨從傳統(tǒng)IT轉(zhuǎn)入大數(shù)據(jù)環(huán)境這一不可避免的范式變化,恰好為我國(guó)追趕發(fā)達(dá)國(guó)家信息化建設(shè)帶來(lái)了契機(jī)。本書(shū)以企業(yè)共同關(guān)注的客戶關(guān)系管理(CRM)為實(shí)例談大數(shù)據(jù)落地,利用大數(shù)據(jù)采集、分析、決策以達(dá)到客戶維系拓展、精準(zhǔn)營(yíng)銷和創(chuàng)新產(chǎn)品的目的,提出一整套從規(guī)劃到實(shí)施再到后續(xù)運(yùn)維的技術(shù)路線和策略。并用一個(gè)已上線的實(shí)例將各部分內(nèi)容串起來(lái)綜合展示,以解決大數(shù)據(jù)熱潮中的“老虎吃天,無(wú)處下爪”的窘境。這對(duì)于大數(shù)據(jù)的正確理解,企業(yè)信息系統(tǒng)的建立,以及相應(yīng)的商業(yè)模式改變都具有實(shí)際指導(dǎo)意義。
謝朝陽(yáng),美國(guó)弗吉尼亞理工學(xué)院暨州立大學(xué)博士,中組部“千人計(jì)劃”特聘專家。于美國(guó)硅谷工作20余載,歷任Sun、Intel、Sony等公司研發(fā)和技術(shù)管理高級(jí)職務(wù),履歷涵蓋了信息技術(shù)領(lǐng)域內(nèi)的產(chǎn)品研發(fā)、工程實(shí)踐、市場(chǎng)推廣等多個(gè)環(huán)節(jié)。曾任中國(guó)數(shù)據(jù)中心聯(lián)盟云計(jì)算專家委員會(huì)主任委員,運(yùn)營(yíng)專家委員會(huì)主任委員,大數(shù)據(jù)專家委員會(huì)副主任委員,領(lǐng)導(dǎo)組建了中國(guó)電信云計(jì)算公司并擔(dān)任首任總經(jīng)理。現(xiàn)任中國(guó)電子科技集團(tuán)大數(shù)據(jù)首席專家,上海華東電腦CTO及上海華訊網(wǎng)絡(luò)系統(tǒng)有限公司董事、高級(jí)副總裁,兼任國(guó)家數(shù)字化學(xué)習(xí)工程實(shí)驗(yàn)室特聘教授。著有本書(shū)的姊妹篇《云計(jì)算:規(guī)劃、實(shí)施、運(yùn)維》。
第1篇 大數(shù)據(jù)導(dǎo)論 1
第1章 初識(shí)大數(shù)據(jù) 5
1.1 大數(shù)據(jù)概念談 7
1.1.1 大數(shù)據(jù)的定義 7
1.1.2 大數(shù)據(jù)發(fā)展現(xiàn)狀 10
1.1.3 大數(shù)據(jù)建設(shè)需求分析 10
1.1.4 大數(shù)據(jù)建設(shè)目標(biāo) 11
1.1.5 機(jī)器學(xué)習(xí)與人工智能 11
1.2 大數(shù)據(jù)的科學(xué)性 12
1.3 客戶關(guān)系管理 18
1.4 大數(shù)據(jù)的理解誤區(qū) 21
1.5 小結(jié) 29
第2章 大數(shù)據(jù)產(chǎn)業(yè)鏈初探 30
2.1 現(xiàn)金流與產(chǎn)業(yè)模式 31
2.2 國(guó)外IT企業(yè) 33
2.3 國(guó)內(nèi)IT企業(yè) 35
2.4 開(kāi)源軟件 36
2.5 小微企業(yè) 39
2.6 政策制定者 41
2.7 小結(jié) 43
第2篇 規(guī)劃篇 44
第3章 大數(shù)據(jù)體系規(guī)劃 47
3.1 大數(shù)據(jù)技術(shù)體系 48
3.1.1 大數(shù)據(jù)采集與預(yù)處理 49
3.1.2 大數(shù)據(jù)存儲(chǔ) 52
3.1.3 大數(shù)據(jù)計(jì)算 56
3.1.4 大數(shù)據(jù)分析 58
3.1.5 大數(shù)據(jù)治理 64
3.1.6 大數(shù)據(jù)安全保障 68
3.1.7 大數(shù)據(jù)應(yīng)用支撐 73
3.2 大數(shù)據(jù)共性技術(shù)重點(diǎn)課題 76
3.2.1 開(kāi)放域數(shù)據(jù)采集與共享 76
3.2.2 多源異構(gòu)數(shù)據(jù)分析技術(shù) 78
3.2.3 異構(gòu)計(jì)算模式集成技術(shù) 82
3.2.4 數(shù)據(jù)安全與隱私保護(hù) 86
3.3 大數(shù)據(jù)風(fēng)險(xiǎn)管控 90
3.3.1 企業(yè)大數(shù)據(jù)建設(shè)風(fēng)險(xiǎn)分析 90
3.3.2 大數(shù)據(jù)安全標(biāo)準(zhǔn)體系框架 90
3.3.3 大數(shù)據(jù)安全標(biāo)準(zhǔn)規(guī)劃 91
3.4 小結(jié) 94
第4章 大數(shù)據(jù)技術(shù)要求 95
4.1 大數(shù)據(jù)總體架構(gòu) 98
4.1.1 背景概述 98
4.1.2 現(xiàn)狀分析 98
4.1.3 總體目標(biāo) 99
4.1.4 技術(shù)架構(gòu) 100
4.1.5 實(shí)施指引 102
4.2 采集要求 104
4.2.1 功能架構(gòu) 104
4.2.2 技術(shù)架構(gòu) 105
4.2.3 處理技術(shù) 106
4.2.4 場(chǎng)景應(yīng)用 111
4.2.5 接口協(xié)議 113
4.2.6 接口約定 113
4.2.7 性能指標(biāo) 116
4.3 基礎(chǔ)能力要求 117
4.3.1 總體概述 117
4.3.2 基礎(chǔ)框架 119
4.3.3 能力開(kāi)放 135
4.3.4 性能指標(biāo) 141
4.4 核心處理能力要求 142
4.4.1 總體概述 142
4.4.2 數(shù)據(jù)模型 149
4.4.3 數(shù)據(jù)處理 152
4.4.4 數(shù)據(jù)質(zhì)量 155
4.4.5 系統(tǒng)性能 158
4.5 需求與項(xiàng)目管理 160
4.6 小結(jié) 161
第3篇 實(shí)施篇 163
第5章 大數(shù)據(jù)并行計(jì)算框架 166
5.1 并行計(jì)算技術(shù) 167
5.1.1 基本命題 167
5.1.2 設(shè)計(jì)模式分類 170
5.1.3 關(guān)鍵技術(shù)點(diǎn) 173
5.2 MapReduce計(jì)算技術(shù) 177
5.2.1 處理模型設(shè)計(jì)原則 177
5.2.2 主要功能與技術(shù)設(shè)計(jì) 178
5.3 Hadoop MapReduce設(shè)計(jì)與工作模式 181
5.3.1 程序執(zhí)行模式 181
5.3.2 作業(yè)調(diào)度模式 183
5.3.3 執(zhí)行框架及流程設(shè)計(jì) 186
5.4 Hadoop MapReduce組件接口 187
5.4.1 InputFormat 187
5.4.2 InputSplit 188
5.4.3 RecordReader 189
5.4.4 Mapper 190
5.4.5 Combiner 192
5.4.6 Partitioner 193
5.5 小結(jié) 193
第6章 大數(shù)據(jù)分布式處理系統(tǒng) 194
6.1 Hadoop系統(tǒng)平臺(tái) 195
6.1.1 分布式結(jié)構(gòu)設(shè)計(jì) 195
6.1.2 Hadoop生態(tài)系統(tǒng) 196
6.2 HDFS分布式文件系統(tǒng) 200
6.2.1 系統(tǒng)架構(gòu) 200
6.2.2 可靠性設(shè)計(jì) 203
6.2.3 文件存儲(chǔ)組織 205
6.2.4 數(shù)據(jù)讀寫(xiě)過(guò)程 207
6.2.5 文件系統(tǒng)操作 209
6.3 HBase分布式數(shù)據(jù)庫(kù) 211
6.3.1 技術(shù)特點(diǎn) 211
6.3.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 212
6.3.3 數(shù)據(jù)存儲(chǔ)模型 213
6.3.4 查詢模式 215
6.3.5 數(shù)據(jù)表設(shè)計(jì) 217
6.3.6 RegionServer配置 218
6.4 小結(jié) 222
第7章 大數(shù)據(jù)存儲(chǔ) 223
7.1 磁盤陣列技術(shù) 224
7.2 數(shù)據(jù)存儲(chǔ)接口 225
7.2.1 對(duì)象存儲(chǔ) 225
7.2.2 裸設(shè)備存儲(chǔ) 226
7.2.3 塊存儲(chǔ) 227
7.3 存儲(chǔ)集群架構(gòu) 228
7.3.1 共享與非共享型 228
7.3.2 對(duì)稱與非對(duì)稱式 229
7.3.3 自助式與服務(wù)式 230
7.3.4 SPI與SFI 231
7.3.5 串行方式與并行方式 232
7.4 數(shù)據(jù)存儲(chǔ)技術(shù)本質(zhì) 233
7.4.1 三網(wǎng)統(tǒng)一理論 234
7.4.2 并行概念理解 236
7.4.3 集群分層架構(gòu) 238
7.5 數(shù)據(jù)分級(jí)存儲(chǔ)探討 238
7.5.1 超融合 238
7.5.2 冷數(shù)據(jù) 239
7.5.3 平臺(tái)架構(gòu) 241
7.5.4 應(yīng)用場(chǎng)景 248
7.6 小結(jié) 249
第8章 機(jī)器學(xué)習(xí)與人工智能 250
8.1 數(shù)據(jù)挖掘 251
8.1.1 數(shù)據(jù)分類采集 253
8.1.2 模式類型設(shè)計(jì) 258
8.1.3 模式價(jià)值分析 261
8.1.4 系統(tǒng)關(guān)鍵技術(shù) 262
8.2 機(jī)器學(xué)習(xí) 264
8.2.1 算法分類 265
8.2.2 合適算法選擇 265
8.2.3 程序開(kāi)發(fā)設(shè)計(jì) 266
8.3 人工智能 267
8.3.1 模式定義 268
8.3.2 人工智能舉例 269
8.4 小結(jié) 276
第4篇 運(yùn)維篇 277
第9章 大數(shù)據(jù)集群網(wǎng)絡(luò)架構(gòu) 280
9.1 現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu) 281
9.1.1 架構(gòu)分析 281
9.1.2 存在弊端 281
9.2 大數(shù)據(jù)網(wǎng)絡(luò)設(shè)計(jì)要點(diǎn) 283
9.2.1 大數(shù)據(jù)業(yè)務(wù)分析 283
9.2.2 大數(shù)據(jù)網(wǎng)絡(luò)流量模型 284
9.2.3 大數(shù)據(jù)網(wǎng)絡(luò)新需求 286
9.3 新興網(wǎng)絡(luò)技術(shù) 287
9.3.1 SDN 287
9.3.2 NFV 291
9.3.3 VXLAN 292
9.3.4 InfiniBand 295
9.4 小結(jié) 297
第10章 大數(shù)據(jù)安全 298
10.1 大數(shù)據(jù)安全挑戰(zhàn) 299
10.2 基礎(chǔ)設(shè)施安全 300
10.2.1 存在威脅 300
10.2.2 虛擬化安全 301
10.3 數(shù)據(jù)安全 302
10.3.1 數(shù)據(jù)采集安全技術(shù) 302
10.3.2 數(shù)據(jù)存儲(chǔ)安全技術(shù) 303
10.3.3 數(shù)據(jù)挖掘安全技術(shù) 307
10.3.4 數(shù)據(jù)發(fā)布安全技術(shù) 309
10.4 大數(shù)據(jù)平臺(tái)Hadoop安全 311
10.4.1 Hadoop安全問(wèn)題概述 311
10.4.2 Kerberos概述 313
10.4.3 Kerberos認(rèn)證過(guò)程 313
10.4.4 Hadoop安全機(jī)制 314
10.4.5 Kerberos的優(yōu)缺點(diǎn) 316
10.5 小結(jié) 317
第11章 大數(shù)據(jù)備份與恢復(fù) 318
11.1 數(shù)據(jù)備份與恢復(fù) 319
11.1.1 數(shù)據(jù)備份 319
11.1.2 數(shù)據(jù)恢復(fù) 323
11.2 分布式存儲(chǔ)系統(tǒng)備份與恢復(fù) 324
11.2.1 概述 324
11.2.2 HDFS數(shù)據(jù)備份策略 328
11.3 小結(jié) 330
第12章 大數(shù)據(jù)環(huán)境的監(jiān)管 331
12.1 概述 332
12.2 大數(shù)據(jù)集群配置管理 333
12.3 大數(shù)據(jù)集群監(jiān)控 337
12.3.1 大數(shù)據(jù)監(jiān)控特點(diǎn) 337
12.3.2 監(jiān)控系統(tǒng) 338
12.3.3 監(jiān)控系統(tǒng)建立途徑 341
12.3.4 商業(yè)監(jiān)控軟件 342
12.3.5 開(kāi)源監(jiān)控軟件 343
12.3.6 傳統(tǒng)網(wǎng)絡(luò)管理軟件:NetEagle 352
12.3.7 統(tǒng)一管理平臺(tái):UMP 354
12.4 大數(shù)據(jù)日志分析 356
12.5 小結(jié) 359
第13章 大數(shù)據(jù)的運(yùn)維方法 361
13.1 運(yùn)維服務(wù) 362
13.2 運(yùn)維流程模型 363
13.2.1 故障排查 363
13.2.2 緊急事故管理 366
13.2.3 處理連鎖故障 368
13.3 運(yùn)維人員 371
13.3.1 需要具備的能力 371
13.3.2 任務(wù)內(nèi)容 372
13.4 自動(dòng)化運(yùn)維 374
13.4.1 自動(dòng)化運(yùn)維價(jià)值 374
13.4.2 自動(dòng)化運(yùn)維工具 376
13.5 小結(jié) 379
第5篇 實(shí)例篇 380
第14章 Oracle MoviePlex 大數(shù)據(jù)規(guī)劃 383
14.1 案例概述 384
14.1.1 案例背景 386
14.1.2 架構(gòu)規(guī)劃 387
14.2 大數(shù)據(jù)組件介紹 395
14.2.1 Cloudera的CDH 396
14.2.2 Cloudera管理器 397
14.2.3 Oracle大數(shù)據(jù)連接器 398
14.2.4 Oracle大數(shù)據(jù)加載器 398
14.2.5 Oracle大數(shù)據(jù)整合器 400
14.2.6 Oracle R語(yǔ)言連接器 400
14.2.7 Oracle NoSQL數(shù)據(jù)庫(kù) 401
14.3 小結(jié) 402
第15章 Oracle MoviePlex大數(shù)據(jù)實(shí)施 404
15.1 環(huán)境準(zhǔn)備 405
15.1.1 MoviePlex環(huán)境部署 405
15.1.2 MoviePlex環(huán)境初始化 409
15.2 案例演示 413
15.2.1 配置Oracle Big Data SQL 413
15.2.2 建立存放在HDFS日志表 414
15.2.3 HIVE訪問(wèn)HDFS和NoSQL 416
15.2.4 Oracle Big Data SQL新功能 418
15.2.5 Oracle Big Data安全策略 420
15.2.6 Oracle分析SQL 422
15.2.7 Oracle SQL模式匹配 423
15.2.8 創(chuàng)建匯總數(shù)據(jù)集 425
15.2.9 Oracle 12c SQL解析特點(diǎn) 426
15.3 推薦系統(tǒng) 428
15.3.1 百萬(wàn)美元大獎(jiǎng)賽 428
15.3.2 技術(shù)細(xì)節(jié) 429
15.4 小結(jié) 433
第16章 Oracle MoviePlex大數(shù)據(jù)運(yùn)維 434
16.1 集群 436
16.1.1 Hadoop 436
16.1.2 ZooKeeper 439
16.2 文件系統(tǒng)和非關(guān)系數(shù)據(jù)庫(kù) 442
16.2.1 HDFS 443
16.2.2 HBase 444
16.2.3 NoSQL 446
16.2.4 Kafka 449
16.3 中間件 451
16.3.1 WebLogic 451
16.3.2 HUE 454
16.3.3 Solr 456
16.4 數(shù)據(jù)轉(zhuǎn)換 458
16.4.1 Hive 458
16.4.2 Impala 460
16.4.3 Sqoop2 462
16.5 資源整合調(diào)度 463
16.5.1 Oozie 463
16.5.2 YARN 464
16.6 小結(jié) 467
第6篇 明天的大數(shù)據(jù) 468
第17章 大數(shù)據(jù)面臨的挑戰(zhàn) 470
17.1 可靠性挑戰(zhàn) 472
17.2 可擴(kuò)展性挑戰(zhàn) 473
17.3 系統(tǒng)安全挑戰(zhàn) 473
17.4 節(jié)能降耗 475
17.5 算法挑戰(zhàn) 477
17.6 測(cè)不準(zhǔn)原理 477
17.7 小結(jié) 478
第18章 大數(shù)據(jù)應(yīng)用 479
18.1 客戶關(guān)系與供求管理 480
18.2 科學(xué)研究 483
18.3 教育大數(shù)據(jù)應(yīng)用 485
18.4 區(qū)塊鏈與加密貨幣 490
18.5 小結(jié) 493
結(jié)束語(yǔ) 494
附錄A 安裝Cloudera Apache Hadoop 502
A.1 環(huán)境準(zhǔn)備 504
A.1.1 Cloudera Manager架構(gòu) 504
A.1.2 服務(wù)器環(huán)境準(zhǔn)備 504
A.1.3 安裝介質(zhì)下載 505
A.1.4 本地yum源搭建 505
A.2 安裝Cloudera Manager Server 506
A.3 部署Hadoop集群 507
A.4 安裝結(jié)果 508
附錄B 在Matlab中應(yīng)用 MapReduce 509
B.1 datastore簡(jiǎn)介 510
B.2 搜尋需要的項(xiàng) 511
B.3 MapReduce簡(jiǎn)介 512
B.4 如何運(yùn)用MapReduce進(jìn)行運(yùn)算 512
B.5 MapReduce中對(duì)于鍵的使用 514
B.6 使用mapreduce計(jì)算分組指標(biāo) 514
B.7 輸出結(jié)果可視化 516
附錄C 從AlphaGo到 AlphaZero 518
參考文獻(xiàn) 526