人類已進(jìn)入大數(shù)據(jù)時代。大數(shù)據(jù)是指具有海量(volume)、多模態(tài)(variety)、變化速度快(velocity)、蘊含價值高(value)和不精確性高(veracity)“5V”特征的數(shù)據(jù)。大數(shù)據(jù)給傳統(tǒng)的機(jī)器學(xué)習(xí)帶來巨大的挑戰(zhàn),已引起學(xué)術(shù)界和工業(yè)界的高度關(guān)注。Hadoop和Spark正是在這種背景下產(chǎn)生的兩個大數(shù)據(jù)開源平臺。本書重點介紹基于這兩種大數(shù)據(jù)開源平臺的機(jī)器學(xué)習(xí),包括機(jī)器學(xué)習(xí)概述、大數(shù)據(jù)與大數(shù)據(jù)處理系統(tǒng)、Hadoop分布式文件系統(tǒng)HDFS、Hadoop并行編程框架MapReduce、Hadoop大數(shù)據(jù)機(jī)器學(xué)習(xí)和Spark大數(shù)據(jù)機(jī)器學(xué)習(xí)。
ftp://124.17.26.93/curved-toc/9787030666871-curvedToc.pdf