數(shù)據(jù)分析原理與實(shí)踐 基于經(jīng)典算法及Python編程實(shí)現(xiàn)
定 價:¥89.9
中 教 價:¥58.44 (6.50折)
庫 存 數(shù): 0
叢 書 名:啟迪數(shù)字學(xué)院系列叢書
本書主要采用理論學(xué)習(xí)與實(shí)踐操作并重、上層應(yīng)用與底層原理相結(jié)合的方式講解數(shù)據(jù)分析師需要掌握的數(shù)據(jù)分析基礎(chǔ)知識,包括基礎(chǔ)理論、關(guān)聯(lián)規(guī)則分析、回歸分析、分類分析、聚類分析、集成學(xué)習(xí)、自然語言處理、圖像處理和深度學(xué)習(xí)。每章內(nèi)容從7個方面展開講解:包括應(yīng)用場景、算法原理、核心術(shù)語、Python編程實(shí)踐、重點(diǎn)與難點(diǎn)解讀、習(xí)題和主要參考文獻(xiàn)及推薦閱讀書目。本書在編寫過程中不僅充分借鑒了國內(nèi)外著名大學(xué)設(shè)立的相關(guān)課程、專家學(xué)者的代表性成果,以及近幾年的熱門暢銷書,而且也考慮到了國內(nèi)相關(guān)課程的教學(xué)以及相關(guān)從業(yè)人員自學(xué)的需求。本書可以滿足數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理與應(yīng)用、計(jì)算機(jī)科學(xué)與技術(shù)、管理工程、工商管理、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、信息管理與信息系統(tǒng)、商業(yè)分析等多個專業(yè)的教師、學(xué)生的教學(xué)和學(xué)習(xí)需要,也適合廣大從事數(shù)據(jù)分析工作的人員學(xué)習(xí)參考。
一流本科課程數(shù)據(jù)科學(xué)導(dǎo)論負(fù)責(zé)人,數(shù)據(jù)科學(xué)50人,中國人民大學(xué)青年杰出學(xué)者朝樂門老師新作。聚焦數(shù)據(jù)分析經(jīng)典算法,夯實(shí)數(shù)據(jù)分析師核心技能基礎(chǔ)。對算法從應(yīng)用場景、算法原理、核心術(shù)語、Python編程實(shí)踐、重點(diǎn)與難點(diǎn)解讀、習(xí)題和主要參考文獻(xiàn)及推薦閱讀書目七個維度進(jìn)行介紹,內(nèi)容全面實(shí)用。
數(shù)據(jù)分析已成為現(xiàn)代人才必備的能力之一。然而,數(shù)據(jù)分析能力是一種綜合素質(zhì),不僅需要扎實(shí)的理論功底,而且還需要豐富的實(shí)踐經(jīng)驗(yàn)。在理論學(xué)習(xí)方面,數(shù)據(jù)分析師必須具備機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、高等數(shù)學(xué)、線性代數(shù)、運(yùn)籌學(xué)、離散數(shù)學(xué)、人工智能、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等基礎(chǔ)知識;在實(shí)踐操作方面,數(shù)據(jù)分析師需要積累大量的實(shí)際動手操作經(jīng)驗(yàn),尤其是基于Python語言的開源工具的數(shù)據(jù)分析實(shí)戰(zhàn)經(jīng)驗(yàn)。因此,如何有效學(xué)習(xí)數(shù)據(jù)分析理論和進(jìn)行實(shí)踐已成為多數(shù)初學(xué)者所面臨的挑戰(zhàn)。破解這一難題的關(guān)鍵在于師資和教材。遇到一位好老師或一本好書,對于初學(xué)者而言是機(jī)遇也是幸運(yùn)。我認(rèn)為,一本好的數(shù)據(jù)分析圖書需要同時滿足以下條件:不僅能讀懂,而且能讀下去;能激發(fā)深入學(xué)習(xí)的興趣,增強(qiáng)讀者繼續(xù)學(xué)習(xí)的信心;不僅有理論知識,而且有實(shí)踐操作;融會貫通數(shù)據(jù)分析的多種基礎(chǔ)理論,不受限于單一理論;探討更好的學(xué)習(xí)思路,提供更豐富的實(shí)踐技巧;有特色,有智慧。但是,很多同學(xué)和朋友曾多次跟我反映,很難找到這樣的好書。對此,我都會回答:那么,等我寫一本吧!這就是我寫本書的初心和使命。本書的編寫過程是一個反復(fù)打磨的過程,融入了我和我的團(tuán)隊(duì)長期從事數(shù)據(jù)科學(xué)與大數(shù)據(jù)分析相關(guān)的教學(xué)一線、科學(xué)研究和數(shù)據(jù)分析的實(shí)踐經(jīng)驗(yàn),以及我應(yīng)邀擔(dān)任多個企事業(yè)單位數(shù)據(jù)科學(xué)家或大數(shù)據(jù)顧問的經(jīng)驗(yàn)。同時,本書不僅吸收了國際一流大學(xué)及國外相關(guān)領(lǐng)域的標(biāo)志性成果及最新進(jìn)展,而且充分體現(xiàn)了我國數(shù)據(jù)分析人才培養(yǎng)的需要及未來社會人才需求的基本要求。本書由朝樂門主編,完成了頂層設(shè)計(jì)、內(nèi)容選擇、知識講解和注解點(diǎn)評,張晨(第2章和第7章)、余欣(第3章)、劉璇(第3章、第6章)、王銳(第3章、第4章)、孫智中(第4章)、尹顯龍(第4章)、斳慶文(第4章、第5章)、肖紀(jì)文(第6章)、熊雷(第9章)、任安興(第8章)參與部分內(nèi)容的編寫工作,鄧寧遠(yuǎn)參與了校對工作,在此一并感謝。同時,本書出版得到了機(jī)械工業(yè)出版社的王斌編輯、中國人民大學(xué)、啟迪數(shù)字學(xué)院、阿里云計(jì)算有限公司產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目以及本書編委會的指導(dǎo)與幫助,在此感謝他們的鼎力支持。本書在編寫過程中參考和引用了大量國內(nèi)外文獻(xiàn)資料,雖盡可能地標(biāo)注了出處,但也難免有遺漏。因此,也向有關(guān)作者表示衷心的感謝。由于我們的水平有限,疏漏、不足乃至錯誤之處在所難免,敬請各位專家批評指正。朝樂門2022年6月18日于中國人民大學(xué)中關(guān)村校區(qū)
朝樂門,一流本科課程數(shù)據(jù)科學(xué)導(dǎo)論負(fù)責(zé)人,數(shù)據(jù)科學(xué)50人,中國人民大學(xué)青年杰出學(xué)者;中國計(jì)算機(jī)學(xué)會信息系統(tǒng)專委員會執(zhí)行委員、全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會副主任;核心期刊《計(jì)算機(jī)科學(xué)》執(zhí)行編委、英文期刊Data Scienceand Informatics副主編;榮獲高等學(xué)校科學(xué)研究優(yōu)秀成果獎、IBM全球卓越教師獎、留學(xué)基金委-IBM中國優(yōu)秀教師獎教金等多種獎勵30余項(xiàng);曾出版我國*早系統(tǒng)闡述數(shù)據(jù)科學(xué)的重要專著之一《數(shù)據(jù)科學(xué)》。
第1章數(shù)據(jù)分析概述1.1數(shù)據(jù)分析的基本類型1.2數(shù)據(jù)分析與機(jī)器學(xué)習(xí)1.2.1統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)1.2.2機(jī)器學(xué)習(xí)算法的類型1.2.3機(jī)器學(xué)習(xí)中的算法、模型、參數(shù)和超參數(shù)1.2.4數(shù)據(jù)分析中的基礎(chǔ)算法1.2.5數(shù)據(jù)分析中的高級算法1.3數(shù)據(jù)分析的主要流程1.4數(shù)據(jù)分析中的算法選擇1.5數(shù)據(jù)分析中常用的Python包1.5.1NumPy1.5.2Pandas1.5.3Matplotlib1.5.4Seaborn1.5.5statsmodels1.5.6scikitlearn1.5.7jieba1.5.8OpenCV1.5.9TensorFlow和PyTorch1.6數(shù)據(jù)分析的注意事項(xiàng)1.7數(shù)據(jù)分析的現(xiàn)狀與趨勢1.8習(xí)題1.9主要參考文獻(xiàn)及推薦閱讀書目第2章關(guān)聯(lián)規(guī)則分析2.1應(yīng)用場景2.2算法原理2.2.1Apriori算法的假設(shè)2.2.2Apriori算法的流程2.3核心術(shù)語2.3.1事務(wù)型數(shù)據(jù)2.3.2項(xiàng)集2.3.3支持度2.3.4置信度2.3.5提升度2.3.6關(guān)聯(lián)規(guī)則2.4Python編程實(shí)踐購物車分析2.4.1業(yè)務(wù)理解2.4.2數(shù)據(jù)讀入2.4.3數(shù)據(jù)理解2.4.4數(shù)據(jù)預(yù)處理2.4.5生成頻繁項(xiàng)集2.4.6計(jì)算關(guān)聯(lián)度2.4.7可視化2.5重點(diǎn)與難點(diǎn)解讀2.6習(xí)題2.7主要參考文獻(xiàn)及推薦閱讀書目第3章回歸分析3.1應(yīng)用場景3.2算法原理3.2.1基本思路3.2.2評價方法3.3核心術(shù)語3.3.1回歸分析中常用的統(tǒng)計(jì)量3.3.2特征矩陣與目標(biāo)向量3.3.3過擬合與欠擬合3.3.4高杠桿點(diǎn)、離群點(diǎn)和強(qiáng)影響點(diǎn)3.4Python編程實(shí)踐3.4.1線性回歸女性身高與體重數(shù)據(jù)分析3.4.2多元回歸廣告收入數(shù)據(jù)分析3.4.3泊松回歸航班數(shù)據(jù)分析3.5重點(diǎn)與難點(diǎn)解讀3.5.1參數(shù)解讀線性回歸算法3.5.2ZScore標(biāo)準(zhǔn)化3.5.3方差3.5.4相關(guān)系數(shù)3.5.5泊松分布3.5.6L1和L2正則化3.5.7閔氏距離、歐氏距離、曼哈頓距離和切比雪夫距離3.6習(xí)題3.7主要參考文獻(xiàn)及推薦閱讀書目第4章分類分析4.1應(yīng)用場景4.2算法原理4.1.1KNN4.1.2貝葉斯分類4.1.3支持向量機(jī)4.1.4邏輯回歸4.3核心術(shù)語4.3.1偏差和方差之間的權(quán)衡4.3.2學(xué)習(xí)曲線4.3.3混淆矩陣4.3.4ROC曲線與AUC面積4.3.5貝葉斯理論4.3.6核函數(shù)及核技巧4.4Python編程實(shí)踐病例自動診斷分析4.4.1使用KNN算法實(shí)現(xiàn)4.4.2使用貝葉斯分類算法實(shí)現(xiàn)4.4.3使用SVM算法實(shí)現(xiàn)4.4.4使用邏輯回歸算法實(shí)現(xiàn)4.5重點(diǎn)與難點(diǎn)解讀4.5.1參數(shù)解讀KNN、貝葉斯分類、SVM和邏輯回歸算法4.5.2數(shù)據(jù)標(biāo)準(zhǔn)化處理4.5.3混淆矩陣及分類算法的評價指標(biāo)4.5.4最大似然估計(jì)4.5.5判別模型與生成模型4.5.6類別不平衡問題4.5.7KD Tree與Ball Tree4.5.8GridSearchCV及其原理4.5.9GaussianNB、MultinomialNB和BernoulliNB的區(qū)別4.5.10LabelEncoder及其原理4.6習(xí)題4.7主要參考文獻(xiàn)及推薦閱讀書目第5章聚類分析5.1應(yīng)用場景5.2算法原理5.2.1kmeans算法5.2.2聚類效果的評價5.3核心術(shù)語5.4Python編程實(shí)踐蛋白質(zhì)消費(fèi)特征分析5.4.1業(yè)務(wù)理解5.4.2數(shù)據(jù)讀入5.4.3數(shù)據(jù)理解5.4.4數(shù)據(jù)準(zhǔn)備5.4.5模型訓(xùn)練5.4.6模型評價5.4.7模型調(diào)參5.4.8模型預(yù)測5.5重點(diǎn)與難點(diǎn)解讀5.5.1參數(shù)解讀kmeans算法5.5.2kmeans 方法5.5.3elkan方法5.6習(xí)題5.7主要參考文獻(xiàn)及推薦閱讀書目第6章集成學(xué)習(xí)6.1應(yīng)用場景6.2算法原理6.2.1隨機(jī)森林6.2.2XGBoost6.3核心術(shù)語6.4Python編程實(shí)踐房屋價格預(yù)測分析6.4.1使用隨機(jī)森林算法實(shí)現(xiàn)6.4.2使用XGBoost實(shí)現(xiàn)6.5重點(diǎn)與難點(diǎn)解讀6.5.1參數(shù)解讀隨機(jī)森林和XGBoost6.5.2純度最大化6.5.3數(shù)據(jù)標(biāo)準(zhǔn)化6.5.4泰勒展開式6.5.5集成學(xué)習(xí)中幾個注意事項(xiàng)6.6習(xí)題6.7主要參考文獻(xiàn)及推薦閱讀書目第7章自然語言處理7.1應(yīng)用場景7.2算法原理7.2.1中文分詞7.2.2詞袋模型7.2.3Ngrams模型7.2.4TFIDF算法7.2.5文本規(guī)范化7.2.6詞性標(biāo)注7.3核心術(shù)語7.4Python編程實(shí)踐2021年政府工作報告分析7.4.1業(yè)務(wù)理解7.4.2數(shù)據(jù)讀入7.4.3分詞處理7.4.4添加自定義詞匯7.4.5詞性標(biāo)注7.4.6停用詞處理7.4.7詞性分布分析7.4.8高頻詞分析7.4.9關(guān)鍵詞抽取7.4.10繪制詞云圖7.5重點(diǎn)與難點(diǎn)解讀7.5.1NLTK的詞性標(biāo)注7.5.2NLTK的功能模塊7.6習(xí)題7.7主要參考文獻(xiàn)及推薦閱讀書目第8章圖像處理8.1應(yīng)用場景8.2算法原理8.2.1建模階段8.2.2檢測階段8.3核心術(shù)語8.4Python編程實(shí)踐人臉檢測分析8.4.1安裝并導(dǎo)入OpenCVpython包8.4.2讀取圖像文件8.4.3將RGB圖像轉(zhuǎn)換為灰度圖8.4.4人臉檢測與矩陣標(biāo)識8.4.5圖像顯示8.4.6圖像保存8.5重點(diǎn)與難點(diǎn)解讀8.5.1參數(shù)解讀OpenCV8.5.2AdaBoost算法8.5.3基于OpenCV和CNN的圖像處理的對比8.5.4Haar特征和LBP特征的對比分析8.5.5AdaBoost算法和XGboost算法的主要區(qū)別8.6習(xí)題8.7主要參考文獻(xiàn)及推薦閱讀書目第9章深度學(xué)習(xí)9.1應(yīng)用場景9.2算法原理9.2.1全連接神經(jīng)網(wǎng)絡(luò)及其缺點(diǎn)9.2.2全連接神經(jīng)網(wǎng)絡(luò)的改進(jìn)及卷積神經(jīng)網(wǎng)絡(luò)的提出9.2.3卷積神經(jīng)網(wǎng)絡(luò)的基本思路9.2.4CNN的整體流程9.3核心術(shù)語9.4Python編程實(shí)踐手寫數(shù)字識別分析9.4.1業(yè)務(wù)理解9.4.2數(shù)據(jù)讀入及理解9.4.3數(shù)據(jù)準(zhǔn)備9.4.4數(shù)據(jù)理解9.4.5定義CNN的學(xué)習(xí)框架9.4.6執(zhí)行CNN學(xué)習(xí)及模型訓(xùn)練9.4.7模型評價9.4.8模型預(yù)測9.5重點(diǎn)與難點(diǎn)解讀9.5.1參數(shù)解讀CNN算法9.5.2機(jī)器學(xué)習(xí)中的性能與可解釋性的矛盾9.5.3隨機(jī)梯度下降及學(xué)習(xí)率9.5.4Onehot encoding9.5.5端到端的學(xué)習(xí)9.5.6CNN與其他深度學(xué)習(xí)方法的區(qū)別及聯(lián)系9.5.7CNN算法設(shè)置超參數(shù)的經(jīng)驗(yàn)法則9.6習(xí)題9.7主要參考文獻(xiàn)及推薦閱讀書目附錄習(xí)題參考答案