2022年12月19日,《中共中央 國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》是黨的二十大之后推動數(shù)字經(jīng)濟開新局的基礎(chǔ)性政策文件,備受各方關(guān)注。本書是清華大學(xué)社會科學(xué)學(xué)院經(jīng)濟學(xué)研究所結(jié)合近年來在數(shù)字經(jīng)濟、數(shù)據(jù)要素方面所做的研究和取得的成果,從數(shù)據(jù)產(chǎn)權(quán)制度、數(shù)據(jù)要素流通和交易制度、數(shù)據(jù)要素收益分配制度、數(shù)據(jù)要素治理制度、數(shù)據(jù)的宏觀與生態(tài)價值等五個維度帶領(lǐng)大家解讀“數(shù)據(jù)二十條”中的經(jīng)濟與法律問題,了解數(shù)據(jù)基礎(chǔ)制度建設(shè)、數(shù)據(jù)要素賦能實體經(jīng)濟所面臨的機遇與挑戰(zhàn)。
隨著時代的發(fā)展和信息技術(shù)的進步,信息技術(shù)已經(jīng)是社會發(fā)展的動力之一,尤其是大數(shù)據(jù)技術(shù)對社會的發(fā)展起到促進作用。在人們的生活、生產(chǎn)中,大數(shù)據(jù)的應(yīng)用能夠給人們帶來便利性,同時在大數(shù)據(jù)中也會存儲人們的個人信息。隨著科技的發(fā)展和進步,我們逐漸進入大數(shù)據(jù)時代。本書首先對大數(shù)據(jù)相關(guān)概念和應(yīng)用問題進行了簡述,進而論述了大數(shù)據(jù)的異化分析;然后介紹了大數(shù)據(jù)的影響因素,以及云計算技術(shù)與算法分析;最后介紹了大數(shù)據(jù)在不同方面的應(yīng)用。 大數(shù)據(jù)具有規(guī)模大、種類多、生成速度快、價值巨大但密度低的特點。大數(shù)據(jù)應(yīng)用就是利用數(shù)
Spark數(shù)據(jù)處理引擎是一個驚人的分析工廠:輸入原始數(shù)據(jù),輸出洞察。PySpark用基于Python的API封裝了Spark的核心引擎。它有助于簡化Spark陡峭的學(xué)習(xí)曲線,并使這個強大的工具可供任何在Python數(shù)據(jù)生態(tài)系統(tǒng)中工作的人使用。 《Python和PySpark數(shù)據(jù)分析》幫助你使用PySpark解決數(shù)據(jù)科學(xué)的日常挑戰(zhàn)。你將學(xué)習(xí)如何跨多臺機器擴展處理能力,同時從任何來源(無論是Hadoop集群、云數(shù)據(jù)存儲還是本地數(shù)據(jù)文件)獲取數(shù)據(jù)。一旦掌握了基礎(chǔ)知識,就可以通過構(gòu)建機器學(xué)習(xí)管道,
數(shù)字化轉(zhuǎn)型是企業(yè)在數(shù)字經(jīng)濟時代面對的重大戰(zhàn)略選擇,其本質(zhì)是通過有效地使用數(shù)據(jù)資源對業(yè)務(wù)進行全面的升級和優(yōu)化,提高企業(yè)的綜合產(chǎn)業(yè)競爭力。本書將數(shù)據(jù)科學(xué)作為出發(fā)點,結(jié)合大數(shù)據(jù)、人工智能技術(shù),以數(shù)據(jù)分析的方法和理論為觀察視角,介紹了企業(yè)數(shù)字化轉(zhuǎn)型的核心知識概念及主要的應(yīng)用實踐策略。 本書共8章,分為數(shù)據(jù)科學(xué)原理、數(shù)據(jù)科學(xué)技術(shù)、數(shù)字化業(yè)務(wù)實踐,以及數(shù)字化產(chǎn)業(yè)目標(biāo)四個主要部分。 數(shù)據(jù)科學(xué)原理部分(第2章)主要討論數(shù)據(jù)要素的核心價值體系及數(shù)據(jù)科學(xué)的基本理論范疇;數(shù)據(jù)科學(xué)技術(shù)部分(第3~6章)主要介紹數(shù)
本書共分為六個部分:基礎(chǔ)入門、研究設(shè)計和基礎(chǔ)工具、文本挖掘基礎(chǔ)、人文社會科學(xué)與文本分析、計算機科學(xué)與文本挖掘、寫作和展示,在內(nèi)容安排上由淺入深、循序漸進。相較于單一且詳盡的方法教程,本書的目的更多是在于指導(dǎo)學(xué)生運用社會世界的文本數(shù)據(jù)來設(shè)計一項可行的社會科學(xué)研究。本書涵蓋了文本挖掘研究多個方面的關(guān)鍵問題,包括網(wǎng)絡(luò)抓取和爬蟲、策略性數(shù)據(jù)選擇、數(shù)據(jù)抽樣、特定的文本分析和文本挖掘方法以及研究報告的撰寫。除了技術(shù)性內(nèi)容,本書還討論了基于文本的社會科學(xué)研究設(shè)計面臨的倫理和哲學(xué)問題。同時,書中還提供了各
本書的編寫目的是向讀者介紹大數(shù)據(jù)治理與安全的基本概念和相應(yīng)的技術(shù)應(yīng)用。本書共9章,內(nèi)容分別為數(shù)據(jù)治理概述、數(shù)據(jù)采集與數(shù)據(jù)道德、數(shù)據(jù)質(zhì)量與數(shù)據(jù)管理、數(shù)據(jù)交換與數(shù)據(jù)集成、數(shù)據(jù)庫設(shè)計與治理、架構(gòu)設(shè)計與治理、數(shù)據(jù)倉庫設(shè)計與治理、大數(shù)據(jù)安全與治理及綜合實訓(xùn)。本書將理論與實踐操作相結(jié)合,通過大量的案例幫助讀者快速了解和應(yīng)用大數(shù)據(jù)治理的相關(guān)技術(shù),并對書中重要的、核心的知識點加大練習(xí)的比例,以達到幫助讀者熟練應(yīng)用的目的。本書可作為高等院校大數(shù)據(jù)專業(yè)、人工智能專業(yè)、軟件技術(shù)專業(yè)、云計算專業(yè)、計算機
復(fù)雜性是大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的本質(zhì)特性,也是當(dāng)前大數(shù)據(jù)質(zhì)量控制與數(shù)據(jù)治理面臨的核心挑戰(zhàn)。本書圍繞大數(shù)據(jù)的復(fù)雜性開展研究,旨在探索當(dāng)前數(shù)據(jù)資源建設(shè)與利用過程中面臨的挑戰(zhàn)和技術(shù)難題,促進數(shù)據(jù)價值的充分釋放。全書分為6部分,共24章。第1部分概述(第1、2章),綜述所研究數(shù)據(jù)控制技術(shù)的基本概念和任務(wù)定位,以及國內(nèi)外的研究進展; 第2部分實體分辨技術(shù)(第3~13章),研究了高維數(shù)據(jù)實體分辨、名稱分辨、XML數(shù)據(jù)實體分辨和跨模態(tài)數(shù)據(jù)實體分辨等; 第3部分真值發(fā)現(xiàn)技術(shù)(第14~18章),研究了
本書分為10章,其中第1~9章探討了排序、推薦系統(tǒng)、聚類、線性回歸等內(nèi)容,每章都以一個具體的實際問題開始,其主要目的是激發(fā)對某一特定大數(shù)據(jù)分析技術(shù)的研究。接下來探討其背后的數(shù)學(xué)原理——包括重要的定義、輔助陳述和得出的結(jié)論。案例研究有助于將所學(xué)知識應(yīng)用于跨學(xué)科的環(huán)境中,包括對逐步任務(wù)的描述和有用的提示。每章之后都配有習(xí)題,作為自學(xué)中不可缺少的一部分,有助于提高對基礎(chǔ)理論的理解。第10章提供了前9章的習(xí)題答案,以及Python代碼中的算法描述作為補充材料。本書適合作為大數(shù)據(jù)分析、應(yīng)用數(shù)學(xué)及相關(guān)專業(yè)的
近幾年,數(shù)據(jù)分析、人工智能、大數(shù)據(jù)平臺等概念十分火爆,有些人感嘆:雖然學(xué)會了調(diào)用軟件算法庫文件,在面對真實的業(yè)務(wù)問題時卻不知道從哪里下手;雖然接觸了一個又一個能做數(shù)據(jù)分析的軟件工具,真要處理一個業(yè)務(wù)問題時,卻發(fā)現(xiàn)自己需要什么樣的數(shù)據(jù)反而成了第一道門檻……“道不遠人”,好的東西不應(yīng)該只作為高深莫測的內(nèi)容讓人敬而遠之。本書將數(shù)據(jù)分析的思維作為主干,銜接數(shù)據(jù)分析的各個環(huán)節(jié),輔之以案例,幫助讀者建立體系化的數(shù)據(jù)分析知識,使數(shù)據(jù)分析成為一個普通技能,在工作和生活中發(fā)揮分析并解決問題的作用,最終實現(xiàn)“人人可
本書從初學(xué)者的角度詳細介紹大數(shù)據(jù)的核心技術(shù)。全書共11章,包括緒論、Linux的基礎(chǔ)操作、Hadoop大數(shù)據(jù)處理架構(gòu)、HDFS分布式文件系統(tǒng)、MapReduce分布式計算框架、ZooKeeper分布式協(xié)調(diào)服務(wù)、YARN資源管理器、HBase分布式數(shù)據(jù)庫、Hive數(shù)據(jù)倉儲、PySpark數(shù)據(jù)處理與分析及綜合案例。此外,本書還提供了相應(yīng)的示例代碼,以幫助讀者進一步理解相關(guān)方案的實現(xiàn)過程。