《Python與數(shù)據(jù)科學》基于Python進行實踐開發(fā),主要涉及的內(nèi)容為:用敏捷式大數(shù)據(jù)開發(fā)方法論創(chuàng)建分析應用;用數(shù)據(jù)—價值棧,在一系列敏捷周期中創(chuàng)建價值;用多種數(shù)據(jù)結構從單個數(shù)據(jù)集中提取特征,獲取洞察;用圖表可視化數(shù)據(jù),通過交互性報表從不同角度展示數(shù)據(jù);用歷史數(shù)據(jù)進行預測,將預測轉(zhuǎn)化為行動。
《Python與數(shù)據(jù)科學》分為基礎編、分析編、挖掘編和提高編四部分。基礎編包括數(shù)據(jù)科學簡介(第1章)和Python基礎知識(第2章)兩章。涉及數(shù)據(jù)科學的概念、數(shù)據(jù)科學的學習方法、數(shù)據(jù)科學家的概念、數(shù)據(jù)科學家的應備技能、Python與數(shù)據(jù)科學的關系、數(shù)據(jù)科學領域中常用的Python包。分析編包括Python數(shù)據(jù)獲取和數(shù)據(jù)預處理(第3章)和利用Python進行數(shù)據(jù)分析(第4章)兩章。內(nèi)容包括Python數(shù)據(jù)獲取的各種方式:從文件中、從數(shù)據(jù)庫中、從Web網(wǎng)頁中獲取數(shù)據(jù),對獲取的數(shù)據(jù)可采用Python Pandas進行數(shù)據(jù)清洗、數(shù)據(jù)集成與數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預處理工作。挖掘編包括利用Python進行數(shù)據(jù)挖掘(第5章)和利用Python進行文本挖掘(第6章)兩章。在數(shù)據(jù)挖掘部分首先簡單介紹了Python的Scikit-Learn數(shù)據(jù)挖掘庫的安裝與使用,然后結合實例詳細介紹數(shù)據(jù)挖掘中常用的算法;在文本挖掘部分首先詳細介紹文本挖掘的一般流程,以及如何使用Python來進行文本挖掘,然后文本自動分類、文本聚類、文本情感分析、全文檢索這四個應用為例結合Python實例做具體介紹。提高編介紹了Python在海量數(shù)據(jù)分析處理上的應用(第7章)。首先介紹了大數(shù)據(jù)操作系統(tǒng)Spark的安裝使用,然后以PageRank和推薦系統(tǒng)這兩個典型的海量數(shù)據(jù)分析(大數(shù)據(jù)分析)為例來介紹Python在這一方面的應用。
王仁武,男,1968年4月出生,工科博士、副教授,現(xiàn)為華東師范大學商學院信息學系教師,主要研究方向為數(shù)據(jù)分析、數(shù)據(jù)挖掘和信息系統(tǒng)。
已出版(參編)主要著作:
商業(yè)分析華東師范大學出版社 2014年9月
序列構造神經(jīng)網(wǎng)絡與多維數(shù)據(jù)分析上海社科院出版社 2008年11月