本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化應用等。書中不僅加入了新近的大數據技術,還豐富了“機器學習”內容。
為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和范例程序詳解,展示了如何在單機Windows系統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平臺并不限制于單臺實體計算機。對于有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平臺搭建在多臺實體計算機上,以便更加接近于大數據和機器學習真實的運行環境。
本書非常適合于學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。