本書從大數據處理涉及的基礎數學理論入手,圍繞大數據研究涉及的基礎數學知識,從線性代數、微積分、概率與統計、距離度量、優化問題及圖論六大方面展開介紹,以夯實讀者在大數據領域的理論基礎。本書不僅介紹了基本的數學概念,而且通過具體例子介紹了其在大數據領域的實際應用,以提高本書的易讀性。本書每章都附有相應的習題,以便讀者能夠進一步理解相應的知識點。
劉鵬,教授,清華大學博士,南京云創大數據科技股份有限公司總裁,中國大數據應用聯盟人工智能專家委員會主任、中國信息協會教育分會人工智能教育專家委員會主任、教育部全國普通高校畢業生就業創業指導委員會委員,第45屆世界技能大賽中國區云計算選拔賽裁判長/專家指導組組長,2019年全國大學生數據建模比賽命題人,工信部云計算研究中心專家。在云計算/大數據/人工智能領域具有多年研究積累,是我國該領域知名專家。主持科研項目40多項,發表論文80余篇,出版專業書籍30多本。曾于2002年獲得全球數據處理比賽PennySort世界冠軍,于2003年奪得全國挑戰杯比賽總冠軍。提出的反垃圾郵件網格,被IEEE Cluster 2003評為杰出網格項目,為解決困擾全球的垃圾郵件問題做出根本貢獻,該技術成為云安全技術的基礎。曾擔任全軍網格技術研究中心主任,獲全軍十大學習成才標兵(排名第一)、南京十大杰出青年、中國大數據創新百人、江蘇省中青年領軍人才、清華大學學術新秀等稱號。
第1章 線性代數\t1
1.1 行列式\t1
1.2 矩陣及其運算\t4
1.2.1 矩陣的概念\t4
1.2.2 矩陣的基本運算\t7
1.2.3 矩陣的乘法\t8
1.2.4 逆矩陣\t12
1.2.5 分塊矩陣\t15
1.2.6 矩陣的初等變換\t19
1.2.7 應用舉例\t27
1.3 向量組的線性相關性與矩陣的秩\t29
1.3.1 n維向量\t30
1.3.2 線性相關與線性無關\t31
1.3.3 向量組的秩\t33
1.3.4 矩陣的秩\t35
1.3.5 向量空間\t38
1.3.6 歐幾里得空間與正交矩陣\t39
1.4 特征值與特征向量、矩陣的對角化\t45
1.4.1 矩陣的特征值與特征向量\t46
1.4.2 相似矩陣與矩陣對角化\t49
1.4.3 實對稱矩陣的對角化\t56
習題\t59
本章參考文獻\t61
第2章 微積分基礎\t62
2.1 一元函數的導數\t62
2.1.1 導數的定義\t62
2.1.2 函數求導公式\t63
2.1.3 函數的求導法則\t64
2.2 一元函數的微分\t65
2.2.1 微分的概念\t65
2.2.2 基本一元函數的微分公式\t66
2.2.3 一元函數的微分運算法則\t66
2.2.4 一元函數微分的實際應用\t66
2.3 多元函數的導數與微分\t67
2.3.1 多元函數導數的定義\t67
2.3.2 多元復合函數的求導法則\t69
2.3.3 多元函數微分的定義\t69
2.3.4 全微分在近似計算中的應用\t70
2.4 向量與矩陣的導數\t70
2.4.1 矩陣導數的定義\t70
2.4.2 矩陣與向量求導法則\t71
2.5 導數與微分的應用\t74
2.5.1 極值\t75
2.5.2 中值定理\t78
習題\t80
本章參考文獻\t81
第3章 概率與統計\t82
3.1 隨機事件的概率\t82
3.1.1 隨機事件\t82
3.1.2 隨機事件的關系與運算\t83
3.1.3 隨機事件的概率\t83
3.2 條件概率\t84
3.2.1 條件概率介紹\t84
3.2.2 乘法公式和事件的獨立性\t84
3.2.3 全概率公式與貝葉斯公式\t85
3.3 隨機變量\t87
3.3.1 一維隨機變量\t87
3.3.2 多維隨機變量\t94
3.4 隨機變量的數字特征\t97
3.4.1 隨機變量的數學期望\t97
3.4.2 方差\t100
3.4.3 協方差與相關系數\t103
3.5 極大似然估計\t106
3.5.1 簡單抽樣與統計量\t106
3.5.2 幾個重要分布\t108
3.5.3 極大似然估計簡介\t110
習題\t113
本章參考文獻\t115
第4章 多維數據之間的距離度量\t116
4.1 涉及線性代數的距離\t116
4.1.1 歐幾里得距離\t116
4.1.2 向量余弦距離\t116
4.1.3 閔氏距離\t118
4.2 涉及微積分的距離\t119
4.3 涉及概率統計的距離\t120
4.3.1 歐幾里得距離標準化\t120
4.3.2 皮爾遜相關系數\t120
4.3.3 馬氏距離\t121
4.3.4 直方相交距離\t122
4.3.5 巴氏距離\t126
4.3.6 卡方距離\t126
4.4 涉及其他數學知識的距離\t127
4.4.1 EMD\t127
4.4.2 編輯距離\t128
習題\t129
本章參考文獻\t129
第5章 大數據中的優化問題\t130
5.1 最優化問題\t130
5.2 線性規劃\t131
5.3 非線性優化問題\t136
5.3.1 向量和矩陣范數\t136
5.3.2 函數的可微性\t137
5.3.3 凸集和凸函數\t137
5.4 無約束非線性優化問題\t138
5.5 約束非線性優化問題\t141
5.6 支持向量機的優化模型及求解\t144
5.7 BP神經網絡優化模型及解法\t147
5.8 回歸分析中的優化模型及求解方法\t150
5.8.1 一元線性回歸\t151
5.8.2 多元線性回歸\t152
5.8.3 非線性回歸\t154
習題\t156
本章參考文獻\t157
第6章 大數據分析中的圖論基礎\t158
6.1 樹、圖的基本概念\t158
6.1.1 樹的定義\t158
6.1.2 樹的常用術語\t159
6.1.3 樹的數據結構實現\t159
6.1.4 圖的定義\t160
6.1.5 與圖相關的概念\t160
6.2 圖的最短路徑問題\t161
6.2.1 Dijkstra算法介紹\t162
6.2.2 圖例\t163
6.3 圖的深度優先搜索\t165
6.3.1 基本策略\t166
6.3.2 實例說明\t166
6.3.3 算法偽代碼\t168
6.4 頻繁模式和關聯規則\t169
6.4.1 經典頻集方法\t169
6.4.2 關聯規則的基本定義\t170
6.4.3 關聯規則的分類\t171
6.4.4 頻繁模式樹\t172
6.5 頻繁子圖簡介\t175
6.5.1 圖論簡要描述\t176
6.5.2 頻繁子圖挖掘的背景知識\t177
6.6 復雜網絡簡介\t177
6.6.1 復雜網絡的研究內容\t178
6.6.2 復雜網絡的基本概念\t178
6.6.3 常見的復雜網絡\t179
6.6.4 復雜網絡的應用\t180
6.7 最長公共子序列\t181
6.7.1 定義\t181
6.7.2 最優子序列性質\t181
6.7.3 LCS遞歸表達式\t182
6.7.4 動態規劃方法求解LCS\t182
6.8 決策樹\t184
6.8.1 決策樹示例\t184
6.8.2 決策樹的構成\t185
6.8.3 信息增益和信息增益比\t186
6.8.4 決策樹的生成\t187
習題\t189
本章參考文獻\t190
?