《大數據概論》主要介紹大數據概論,內容包括大數據概述、科學研究第四范式、
分布系統設計的CAP 理論、NoSQL 數據庫、復雜網絡、MapReduce 分布編
程模型、大數據存儲、大數據分析、大數據挖掘、大數據可視化、大數據安
全、大數據機器學習、大數據推薦技術,以及數據科學與數據思維。《大數據概論》對
上述內容概念性地介紹,語言精練、內容全面。
目錄
前言
第 1章大數據概述 1
1.1 問題的提出 2
1.1.1 電子數據迅速增加 2
1.1.2 數據孕育巨大的經濟價值 3
1.1.3 數據是國家的核心資產 4
1.2 大數據的產生源泉 4
1.2.1 互聯網世界 5
1.2.2 物理世界 6
1.3 大數據的概念 7
1.3.1 數據容量巨大 7
1.3.2 數據類型多 8
1.3.3 價值密度低 8
1.3.4 數據傳播迅速 9 目錄
前言
第 1章大數據概述 1
1.1 問題的提出 2
1.1.1 電子數據迅速增加 2
1.1.2 數據孕育巨大的經濟價值 3
1.1.3 數據是國家的核心資產 4
1.2 大數據的產生源泉 4
1.2.1 互聯網世界 5
1.2.2 物理世界 6
1.3 大數據的概念 7
1.3.1 數據容量巨大 7
1.3.2 數據類型多 8
1.3.3 價值密度低 8
1.3.4 數據傳播迅速 9
1.3.5 真實性 9
1.4 大數據的特性 9
1.4.1 價值 9
1.4.2 非結構性 9
1.4.3 不完備性 10
1.4.4 時效性 10
1.4.5 安全性 10
1.4.6 可靠性 10
1.5 大數據技術概述 10
1.5.1 大數據技術的主要內容 11
1.5.2 大數據的處理過程 12
1.5.3 大數據技術的特征 13
1.5.4 大數據的關鍵問題與關鍵技術 14
1.6 大數據應用趨勢 16
1.6.1 大數據細分市場 17
1.6.2 大數據推動企業發展 17
1.6.3 大數據分析的新方法出現 17
1.6.4 大數據與云計算高度融合 17
1.6.5 大數據一體設備陸續出現 17
1.6.6 大數據安全日益重視 18
1.7 大數據應用 18
1.7.1 判斷大數據應用成功的指標 18
1.7.2 大數據技術的應用 19
1.8 大數據的展望 22
1.8.1 資源與投入 23
1.8.2 工程技術 23
1.8.3 復雜網絡分析 23
1.8.4 涉及眾多領域
第 1章大數據概述本章主要內容
大數據概述問題的提出電子數據迅速增加數據孕育巨大的經濟價值數據是國家的核心資產
大數據的產生源泉互聯網世界物理世界大數據的概念
數據容量巨大數據類型多價值密度低數據傳播速度
大數據的性質
價值非結構性不完備性時效性安全性可靠性
大數據技術概述
大數據技術的主要內容大數據的處理過程大數據技術的特征大數據關鍵問題與關鍵技術大數據應用趨勢大數據細分市場大數據推動企業發展大數據分析的新方法出現大數據與云計算高度融合大數據一體設備陸續出現大數據安全日益重視
大數據應用判斷大數據應用成功的指標大數據技術的應用
大數據的展望
資源與投入工程技術復雜網絡分析涉及眾多領域構建大數據生態環境
需求是科學技術發展的原動力。目前,大數據問題的出現與研究已經成為了計算機科學與技術研究的新熱點,并顯示出日益強大的吸引力,科學大數據的出現催生了數據密集型知識發現的科學研究第四范式的出現。對于信息領域,大數據帶來的不僅是機遇,還有一系列的困難和挑戰。目前,大數據技術與應用展現出銳不可當的強大生命力,科學界與企業界寄予無比的厚望。大數據成為繼 20世紀末、21世紀初互聯網蓬勃發展以來的又一輪 IT工業革命。
1.1 問題的提出
在全世界范圍內,以電子方式存儲的數據(又簡稱為電子數據)總量空前巨大。在 2011年電子數據總量已達到 1.8ZB(1ZB=1024PB),較 2010年同期提高超過 1ZB,統計結果表明,每經過 2年就可以增加 1倍,預計到 2020年可達到 35ZB,如圖 1-1所示。面對數據增長的速度迅猛提升,數據量的飛速增加,對大量電子數據的高效存儲、高效傳輸與快速的處理是必須面對的研究問題。
圖 1-1 全球數據創建及復制的數據總量預測
1.1.1 電子數據迅速增加
物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、個人計算機( PC)、氣候信息、公開的信息,如雜志、報紙和文章、交易記錄、網絡日志、病歷、軍事監控、視頻和圖像、檔案及大型電子商務,以及遍布地球各個角落的各種各樣的傳感器是數據來源或者承載的方式不斷更新與發展、大型科學研究設備產生的數據,以及社交媒體的快速發展,構成了大數據持續產生的生態環境。尤其是近年來,隨著互聯網技術的發展,來自人們的日常生活,特別是來自互聯網服務而產生的大量數據迅猛增加。據不完全統計,互聯網當前包含 93億多個頁面,80%~85%的數據是存儲在數據庫的文本中。互聯網一天產生的全部內容可以刻滿 1.68億張 DVD,發出的郵件有 2940億封之多,發出的社區帖子達 200萬個(相當于《時代》雜志 770年的文字量),賣出的手機為 37.8萬臺,高于全球每天出生的嬰兒數量 37.1萬……從數據統計角度來看,電子數據量迅速增加。預計中國數據技術和服務市場未來 5年的復合增長率將達 51.4%,其中增長率最高的是存儲市場,將達 60.8%,服務器市場的增長率則是 38.3%,遠遠高于其他產品相關的市場。
1.1.2 數據孕育巨大的經濟價值
數據本身是無意義的,而通過統計、分類、萃取、特征抽取等一系列技術手段,可以從數據中產生信息與知識。數據是重要的戰略資源,隱含巨大的經濟價值,因此已經引起科學界和企業界的高度重視。有效地組織和使用數據,將對經濟發展產生巨大的推動作用。大數據出現孕育著前所未有的機遇。對大數據的交換、整合和分析,可以發現新的知識,創造新的價值。
越來越多的企業等機構意識到數據正在成為最重要的資產,數據分析能力正在成為核心競爭力。經過了由 PC成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因數據分析而帶來的全新業務增長點。數據將成為各行業中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。各著名的大型公司已經致力于開發自己的大數據處理和存儲系統,目前已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
在互聯網、電信、金融等行業,幾乎已經到了數據就是業務本身的地步。物聯網、社交網絡等新的互聯網技術在為人們帶來便利的同時,也產生了大量的數據。如何有效地存儲和查詢這些數據,如何通過數據挖掘,從數據中獲得有用的信息,為用戶提供好的用戶體驗,增強企業的競爭力,是一個挑戰。研究表明,數字領域存在著 1.8萬億 GB的數據,企業數據正在以 55%的速度逐年增長。目前,兩天就能創造出自人類文明誕生以來到 2003年所產生的數據總量。大數據已經成為重要的時代特征,充分利用大數據可幫助全球個人定位服務提供商增加 1000億美元的收入,幫助歐洲公共部門的管理每年提升 2500億美元產值,幫助美國醫療保健行業每年提升 3000億美元產值,并可幫助美國零售業獲得 60%以上的凈利潤增長率。由此可見,充分使用大數據和挖掘大數據商業價值將為行業企業帶來強大經濟效益與競爭力。
大數據既是對信息技術發展的高度抽象和概括,同時也體現了信息技術服務于數據蘊藏的巨大價值。大數據給數據的采集、存儲、維護、共享帶來了具有研究意義的現象和挑戰,但更多的意義是可以處理、分析并使用大量數據,通過這些數據的處理、整合和分析,可以發現新知識、創造新價值,帶來大知識、大科學和大發展,逐漸走向創新社會化的新信息時代。
大數據全生命周期可以劃分為“數據產生—數據采集—數據傳輸—數據存儲—數據處理—數據分析—數據發布、展示和應用—產生新數據”等階段。已經形成了大數據的“生產與集聚層—組織與管理層—分析與發現層—應用與服務層”的產業鏈,而 IT基礎設施為這各環節提供基礎支撐。
據統計, 2012年市場規模達到 4.5億元, 2016年估計可達到百億規模,如圖 1-2所示。
圖 1-2 中國大數據應用市場規模與增長
1.1.3 數據是國家的核心資產
一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數據的占有和控制,甚至將成為陸權、海權、空權之外的另一種國家核心資產。聯合國也在 2012年發布了大數據政務白皮書,指出大數據對于聯合國和各國政府是一個歷史性的機遇,通過使用極為豐富的數據資源,對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
數據為王的大數據時代已經到來,對數據的占有和控制也將成為國家間和企業間新的爭奪點。大數據技術的專業人才,特別是數據分析復合型人才的稀缺將會影響該市場的發展。
在技術層面上,大數據、海量數據與超大規模數據并無本質的區別,它們都是指用傳統處理方法無法處理的大量數據。通過對大數據的高速有效處理,可以發現數據中蘊藏的規律與規則,進而為各種關鍵決策提供依據與指導,正確的預測與決策將導致巨大財富的產生。技術與工具密不可分,目前常用的數據處理技術與工具是小數據處理技術與工具,一些海量數據處理方法與工具是一種過度性的方法與工具,大數據處理技術與工具的研究是一項有理論意義和實際價值的工作。簡言之,大數據技術就是從各種各樣類型的數據中,快速獲得智慧的技術。信息要能轉化成智慧,至少要滿足以下三個標準。
1.可破譯性
可破譯性是大數據時代特有的問題,但非結構化的數據不是一定都可破譯。例如,記錄了某客戶在網站上三次翻頁的時間間隔分別是 5s、4s、15s,卻忘記標注這三個時間代表什么,也就是說,知道這些數據是信息,卻不可破譯,所以不可能成為知識。
2.關聯性
關聯性即是相關性。無關的信息可以被看成噪聲。
3.新穎性
新穎性是指無法僅僅根據擁有的數據和信息進行判斷。例如,某電子商務公司通過一組數據/信息,分析出了客戶愿意為當天送貨的產品多支付 10元錢,然后又通過另一組完全獨立的數據/信息得到了同樣的內容,這樣的情況下,后者就不具備新穎性。但是,很多時候,只有在處理了大量的數據和信息以后,才能判斷它們是否具有新穎性。
1.2 大數據的產生源泉
大數據是人類活動的產物,來自人們改造客觀世界的過程中,是生產與生活在網絡空間的投影。信息爆炸是對信息快速發展的一種逼真的描述,形容信息發展的速度如同爆炸一般席卷整個地球。在 20世紀 40~50年代,信息爆炸主要指的是科學文獻的快速增長;而經過 50年的發展,到 20世紀 90年代,由于計算機和通信技術廣泛應用,信息爆炸主要指的是所有社會信息快速增長,包括正式交流過程和非正式交流過程所產生的電子式的和非電子式的信息,而到 21世紀的今天,信息爆炸是由于數據洪流的產生和發展所造成的。在技術方面,新型的硬件與數據中心、分布式計算、云計算、大容量數據存儲與處理技術、社會化網絡、移動終端設備、多樣化的數據采集方式使大數據的產生和記錄成為可能。在用戶方面,日益人性化的用戶界面、信息行為模式都容易作為數據而記錄,用戶既可成為數據的制造者,也可以成為數據的使用者。可以看出,隨著云計算、物聯網計算和移動計算的發展,世界上所產生的新數據,包括位置、狀態、思考、過程和行動等產生的數據都能夠匯入數據洪流,導致數據洪流席卷互聯網。
歸納起來,大數據主要來自物理世界與互聯網世界。
1.2.1 互聯網世界
大數據時代,需要更加全面的數據來提高預測的準確度,因此需要更多廉價、便捷、自動的數據生產工具。
大數據是計算機和互聯網結合的產物,計算機實現了數據的數字化,互聯網實現了數據的網絡化;兩者結合才賦予了大數據生命力。隨著互聯網如同空氣、水、電一樣無處不在地滲透到我們的工作和生活,加上移動互聯網、物聯網、可穿戴聯網設備的普及,新的數據正在以指數級別的速度產生,目前世界上 90%的數據是在互聯網出現以后迅速產生的。
大數據來自人類社會,尤其互聯網的發展為數據的存儲、傳輸與應用創造了基礎與環境。依據基于唯象假設的六度分割理論而建立的社交網絡服務( Social Network Service,SNS),以認識朋友的朋友為基礎,擴展自己的人脈; Web 2.0網站建立的社交網絡,用戶既是網站信息的使用者,也是網站信息的制作者。社交網站記錄人們之間的交互,搜索引擎記錄人們的搜索行為和搜索結果,電子商務網站記錄了人們購買商品的喜好,微博網站記錄了人們所產生的即時想法和意見,圖片視頻分享網站記錄了人們的視覺觀察,百科全書網站記錄了人們對抽象概念的認識,幻燈片分享網站記錄了人們的各種正式和非正式的演講發言,機構知識庫和開放獲取期刊記錄了學術研究成果等。歸納起來,來自互聯網的數據可以劃分為下述六種類型。
1.視頻
視頻圖像是大數據的主要來源之一,電影、電視節目可以產生大量的視頻圖像,各種室內外的視頻攝像頭晝夜不停地產生巨量的視頻圖像。視頻圖像以每秒幾十幀的速度連續記錄運動著的物體,一個小時的標準清晰視頻經過壓縮后,所需的存儲空間為 GB數量級,對于高清晰度視頻所需的存儲空間就更大了。
2.圖片與照片
圖片與照片也是大數據的主要來源之一,截至 2011年 9月,用戶向臉譜( Facebook)上傳了 1400億張以上的照片,臉譜是美國最大的一個社交網站,類似于中國的新浪微博。如果拍攝者為了保存拍攝時的原始文件,平均每張照片大小為 1MB,則這些照片的總數據量就是 140G×1MB=140PB,如果單臺服務器磁盤容量為 10TB,則存儲這些照片需要 14000臺服務器,而且這些上傳的照片僅僅是人們拍攝到的照片的很少一部分。此外,許多遙感系統一天 24小時不停地拍攝并產生大量照片。
3.音頻
DVD光盤采用了雙聲道 16位采樣,采樣頻率為 44.1kHz,可達到多媒體欣賞水平。如果某音樂劇的長度為 5.5min,計算其占用的存儲容量為
存儲容量 =(采樣頻率 ×采樣位數 ×聲道數 ×時間) / 8
= (44.1×1000×16×2×5.5×60)/8
= 12.6MB
4.日志
網絡設備、系統及服務程序等,在運行時都會產生 log的事件記錄,每一行日志都記載著日期、時間、使用者及動作等相關操作的描述。Windows網絡操作系統設有各種各樣的日志文件,如應用程序日志、安全日志、系統日志、 Scheduler服務日志、 FTP日志、WWW日志、DNS服務器日志等,并且根據系統開啟的服務的