本書內(nèi)容涵蓋數(shù)據(jù)科學(xué)基礎(chǔ)知識,介紹了數(shù)據(jù)科學(xué)的工作流程,包括數(shù)據(jù)采集、數(shù)據(jù)整理和探索、數(shù)據(jù)可視化和數(shù)據(jù)建模預(yù)測等技術(shù),并通過文本、圖像、語音等前沿應(yīng)用,引入人工智能技術(shù)在數(shù)據(jù)科學(xué)領(lǐng)域應(yīng)用的最新成果。全書設(shè)計收集了多個數(shù)據(jù)分析案例,采用Python及相關(guān)科學(xué)計算工具包介紹數(shù)據(jù)分析實現(xiàn)的方法,幫助讀者通過實際應(yīng)用理解數(shù)據(jù)科學(xué)知識,掌握實踐技能,運用統(tǒng)計學(xué)、人工智能等技術(shù)解決實際問題。本書通俗易懂、實例豐富、技術(shù)先進(jìn),配備豐富的教學(xué)資源,可作為各類大專院校數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)的入門教材,計算機(jī)基礎(chǔ)教學(xué)較高層次課程的教材,也可以作為數(shù)據(jù)科學(xué)實踐的技術(shù)參考書。
宋暉博士、教授,長期從事Web數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和智能信息處理方面的研究和教學(xué)工作,主持完成多項數(shù)據(jù)挖掘、智能分析和信息系統(tǒng)的研發(fā),在數(shù)據(jù)科學(xué)方向有深厚的理論基礎(chǔ)以及豐富的實踐經(jīng)驗。
目 錄
第1章 數(shù)據(jù)科學(xué)基礎(chǔ) (1)
1.1 數(shù)據(jù)科學(xué)概述 (1)
1.1.1 數(shù)據(jù)的力量 (1)
1.1.2 數(shù)據(jù)科學(xué)的知識結(jié)構(gòu) (3)
1.1.3 數(shù)據(jù)科學(xué)的工作流程 (4)
1.1.4 數(shù)據(jù)科學(xué)與大數(shù)據(jù) (5)
1.2 Python數(shù)據(jù)分析工具 (7)
1.2.1 科學(xué)計算集成環(huán)境Anaconda (7)
1.2.2 Python編譯環(huán)境 (7)
1.2.3 Jupyter Notebook (8)
1.3 Python語言基礎(chǔ) (10)
1.3.1 常用數(shù)據(jù)類型 (10)
1.3.2 流程控制 (11)
1.3.3 函數(shù)和方法庫 (13)
綜合練習(xí)題 (14)
第2章 多維數(shù)據(jù)結(jié)構(gòu)與運算 (15)
2.1 多維數(shù)組對象 (15)
2.1.1 一維數(shù)組對象 (16)
2.1.2 二維數(shù)組對象 (17)
2.1.3 創(chuàng)建多維數(shù)組的常用方法 (19)
2.2 多維數(shù)組運算 (21)
2.2.1 基本算術(shù)運算 (21)
2.2.2 函數(shù)和矩陣運算 (22)
2.2.3 隨機(jī)數(shù)組生成函數(shù) (25)
2.3 案例:隨機(jī)游走軌跡模擬 (26)
綜合練習(xí)題 (29)
第3章 數(shù)據(jù)匯總與統(tǒng)計 (30)
3.1 統(tǒng)計基本概念 (30)
3.1.1 統(tǒng)計的含義 (30)
3.1.2 常用統(tǒng)計量 (31)
3.2 pandas數(shù)據(jù)結(jié)構(gòu) (33)
3.2.1 Series對象 (33)
3.2.2 Series數(shù)據(jù)訪問 (34)
3.2.3 DataFrame對象 (37)
3.2.4 DataFrame 數(shù)據(jù)訪問 (37)
3.3 數(shù)據(jù)文件讀寫 (41)
3.3.1 讀寫CSV和TXT文件 (41)
3.3.2 讀取Excel文件 (44)
3.4 數(shù)據(jù)清洗 (45)
3.4.1 缺失數(shù)據(jù)處理 (46)
3.4.2 去除重復(fù)數(shù)據(jù) (48)
3.5 數(shù)據(jù)規(guī)整化 (49)
3.5.1 數(shù)據(jù)合并 (49)
3.5.2 數(shù)據(jù)排序 (51)
3.6 統(tǒng)計分析 (53)
3.6.1 通用函數(shù)與運算 (53)
3.6.2 統(tǒng)計函數(shù) (54)
3.6.3 相關(guān)性分析 (56)
3.6.4 案例:調(diào)查反饋表分析 (56)
綜合練習(xí)題 (59)
第4章 數(shù)據(jù)可視化 (60)
4.1 Python繪圖基礎(chǔ) (60)
4.1.1 認(rèn)識基本圖形 (60)
4.1.2 pandas快速繪圖 (61)
4.1.3 Matplotlib精細(xì)繪圖 (63)
4.2 可視化數(shù)據(jù)探索 (67)
4.2.1 繪制常用圖形 (67)
4.2.2 繪制數(shù)據(jù)地圖 (77)
綜合練習(xí)題 (81)
第5章 機(jī)器學(xué)習(xí)建模分析 (83)
5.1 機(jī)器學(xué)習(xí)概述 (83)
5.1.1 機(jī)器學(xué)習(xí)與人工智能 (83)
5.1.2 Python機(jī)器學(xué)習(xí)方法庫 (85)
5.2 回歸分析 (85)
5.2.1 回歸分析原理 (85)
5.2.2 回歸分析實現(xiàn) (86)
5.2.3 回歸分析性能評估 (89)
5.3 分類分析 (91)
5.3.1 分類學(xué)習(xí)原理 (91)
5.3.2 決策樹 (93)
5.3.3 支持向量機(jī) (96)
5.4 聚類分析 (100)
5.4.1 聚類任務(wù) (100)
5.4.2 K-means算法 (101)
5.4.3 聚類方法的性能評估 (104)
5.5 神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí) (106)
5.5.1 神經(jīng)元與感知器 (106)
5.5.2 神經(jīng)網(wǎng)絡(luò) (107)
5.5.3 神經(jīng)網(wǎng)絡(luò)分類實現(xiàn) (108)
5.5.4 深度學(xué)習(xí) (110)
綜合練習(xí)題 (111)
第6章 文本數(shù)據(jù)處理 (112)
6.1 文本處理概述 (112)
6.1.1 文本處理的常見任務(wù) (112)
6.1.2 文本處理的基本步驟 (113)
6.2 中文文本處理 (115)
6.2.1 中文分詞 (115)
6.2.2 詞性標(biāo)注 (116)
6.2.3 特征提取 (117)
6.3 實例:垃圾郵件識別 (121)
6.3.1 數(shù)據(jù)來源 (121)
6.3.2 構(gòu)建文本分類特征訓(xùn)練集 (122)
6.3.3 模型訓(xùn)練和驗證 (123)
綜合練習(xí)題 (124)
第7章 圖像數(shù)據(jù)處理 (125)
7.1 數(shù)字圖像概述 (125)
7.1.1 數(shù)字圖像 (125)
7.1.2 數(shù)字圖像類型 (126)
7.1.3 數(shù)字圖像處理 (126)
7.2 Python圖像處理 (127)
7.2.1 Python圖像處理庫 (127)
7.2.2 圖像基本操作 (128)
7.3 案例:深度學(xué)習(xí)實現(xiàn)圖像分類 (130)
7.3.1 卷積神經(jīng)網(wǎng)絡(luò) (130)
7.3.2 深度學(xué)習(xí)庫Keras (131)
7.3.3 用Keras實現(xiàn)圖像分類 (133)
綜合練習(xí)題 (137)
第8章 時序數(shù)據(jù)與語音處理 (138)
8.1 時序數(shù)據(jù)概述 (138)
8.1.1 時序數(shù)據(jù)特性 (138)
8.1.2 時序數(shù)據(jù)特征的提取 (139)
8.2 時序數(shù)據(jù)分析方法 (141)
8.2.1 時序數(shù)據(jù)分析過程 (141)
8.2.2 股票預(yù)測實例 (143)
8.3 語音識別實例 (147)
8.3.1 語音識別技術(shù)簡介 (147)
8.3.2 語音識別中的時序數(shù)據(jù)處理 (148)
8.3.3 語音識別的實例 (150)
綜合練習(xí)題 (151)
參考文獻(xiàn) (152)