本書(shū)第1章介紹ApacheKylin的歷史、技術(shù)原理和產(chǎn)品定位,幫助用戶了解何時(shí)和為何使用Kylin。第2章通過(guò)一個(gè)具體的案例快速入門,講解Kylin核心概念、Cube建模和SQL連接查詢這些基本使用。第3、4章講解增量構(gòu)建和進(jìn)一步的流式構(gòu)建,是大多數(shù)案例典型配置。第5、6章是針對(duì)查詢和可視化、Cube調(diào)優(yōu)的兩個(gè)專門章節(jié),適合較高級(jí)的用戶。第7章是一系列有行業(yè)特點(diǎn)的具體案例分析,貫穿之前的所有概念。第8、9章講ApacheKylin的擴(kuò)展和企業(yè)級(jí)高級(jí)功能,技術(shù)性較強(qiáng),會(huì)有較多的代碼示例。第10章講運(yùn)維管理,從安裝配置、監(jiān)控維護(hù)到常見(jiàn)的問(wèn)題和修復(fù)。全書(shū)后兩章談ApacheKylin開(kāi)源社區(qū)和項(xiàng)目發(fā)展規(guī)劃。
“麒麟出沒(méi),必有祥瑞。”
——中國(guó)古諺語(yǔ)“于我而言,與Apache Kylin團(tuán)隊(duì)一起合作使Kylin通過(guò)孵化成為頂級(jí)項(xiàng)目是非常激動(dòng)人心的,誠(chéng)然,Kylin在技術(shù)方面非常振奮人心,但同樣令人興奮的是Kylin代表了亞洲國(guó)家,特別是中國(guó),在開(kāi)源社區(qū)中越來(lái)越高的參與度。”
-Ted Dunning Apache孵化項(xiàng)目副總裁,MapR首席應(yīng)用架構(gòu)師今天,隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、AI等技術(shù)的快速興起,數(shù)據(jù)成為了所有這些技術(shù)背后最重要,也是最有價(jià)值的“資產(chǎn)”。如何從數(shù)據(jù)中獲得有價(jià)值的信息?這個(gè)問(wèn)題驅(qū)動(dòng)了相關(guān)技術(shù)的發(fā)展,從最初的基于文件的檢索、分析程序,到數(shù)據(jù)倉(cāng)庫(kù)理念的誕生,再到基于數(shù)據(jù)庫(kù)的商業(yè)智能分析。而現(xiàn)在,這一問(wèn)題已經(jīng)變成了如何從海量的超大規(guī)模數(shù)據(jù)中快速獲取有價(jià)值的信息,新的時(shí)代、新的挑戰(zhàn)、新的技術(shù)必然應(yīng)運(yùn)而生。
在數(shù)據(jù)分析領(lǐng)域,大部分的技術(shù)都誕生在國(guó)外,特別是美國(guó),從最初的數(shù)據(jù)庫(kù),到以Hadoop為首的大數(shù)據(jù)技術(shù),再到今天各種DL( Deep Learning)、AI,等等。但我國(guó)擁有著世界上獨(dú)一無(wú)二的“大”數(shù)據(jù),最多的人口、最多的移動(dòng)設(shè)備、最活躍的應(yīng)用市場(chǎng)、最復(fù)雜的網(wǎng)絡(luò)環(huán)境等,應(yīng)對(duì)這些挑戰(zhàn),我們需要有自己的核心技術(shù),特別是在基礎(chǔ)領(lǐng)域的突破和研發(fā)方面。今天,以Apache Kylin為首的各種來(lái)自中國(guó)的先進(jìn)技術(shù)不斷涌現(xiàn),甚至在很多方面都大大超越了國(guó)外的其他技術(shù),這一點(diǎn)也彰顯了中國(guó)的技術(shù)實(shí)力。
自Hadoop選取大象伊始,上百個(gè)項(xiàng)目,以動(dòng)物居之者為多,而其中唯有Apache Kylin(麒麟)來(lái)自中國(guó),在眾多項(xiàng)目中分外突出。在全球最大的開(kāi)源基金會(huì)-Apache軟件基金會(huì)(Apache Software Foundation,ASF)的1 60多個(gè)頂級(jí)項(xiàng)目中,Apache Kylin是唯一一個(gè)來(lái)自中國(guó)的頂級(jí)開(kāi)源項(xiàng)目,與Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、?Apache Struts、Apache Maven等頂級(jí)項(xiàng)目一起以The Apache Way構(gòu)建了開(kāi)源大數(shù)據(jù)領(lǐng)域的國(guó)際社區(qū),并拓展了生態(tài)系統(tǒng)。
大數(shù)據(jù)與傳統(tǒng)技術(shù)最大的區(qū)別就在于數(shù)據(jù)的體量對(duì)查詢帶來(lái)的巨大挑戰(zhàn)。從最早使用大數(shù)據(jù)技術(shù)來(lái)做批量處理,到現(xiàn)在越來(lái)越多地需要大數(shù)據(jù)平臺(tái)也能夠如傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)一樣支持交互式分析。隨著數(shù)據(jù)量的不斷膨脹,數(shù)據(jù)平民化的不斷推進(jìn),低延遲、高并發(fā)地在Hadoop之上提供標(biāo)準(zhǔn)SQL查詢的能力成為必須要攻破的技術(shù)難題。而Apache Kylin的誕生正是基于這個(gè)背景,并成功地完成了很多人認(rèn)為不可能實(shí)現(xiàn)的突破。Apache Kylin最初誕生于eBay中國(guó)研發(fā)中心(坐落于上海浦東新區(qū)的德國(guó)中心),在2013年9月底,eBay中國(guó)研發(fā)中心的技術(shù)人員開(kāi)始對(duì)此進(jìn)行POC并組建團(tuán)隊(duì),經(jīng)過(guò)一年的艱苦開(kāi)發(fā)和測(cè)試,于2014年9月30日使其正式上線,并在第二天(2014年10月1日)正式開(kāi)源。
在這個(gè)過(guò)程中,使用何種技術(shù),如何進(jìn)行架構(gòu),如何突破那些看似無(wú)法完成的挑戰(zhàn),整個(gè)開(kāi)發(fā)團(tuán)隊(duì)和用戶一起經(jīng)歷了一段艱難的歷程。今天呈現(xiàn)出的Apache Kylin已經(jīng)經(jīng)歷了上千億乃至上萬(wàn)億規(guī)模數(shù)據(jù)量的分析請(qǐng)求,以及上百家公司的實(shí)際生產(chǎn)環(huán)境的檢驗(yàn),成為各個(gè)公司大數(shù)據(jù)分析平臺(tái)不可替代的重要部分。本書(shū)將從Apache Kylin的架構(gòu)和設(shè)計(jì)、各個(gè)模塊的使用、與第三方的整合、二次開(kāi)發(fā)及開(kāi)源實(shí)踐等方面進(jìn)行講解,為各位讀者呈現(xiàn)最核心的設(shè)計(jì)理念和哲學(xué)、算法和技術(shù)等。
Apache Kylin社區(qū)的發(fā)展不易,自2014年10月開(kāi)源到今天已有兩年,從最初的幾個(gè)人發(fā)展到今天的幾十個(gè)貢獻(xiàn)者,國(guó)內(nèi)外上百家公司在正式使用,連續(xù)兩年獲得InfoWorld BossieAwards最佳開(kāi)源大數(shù)據(jù)工具獎(jiǎng)。來(lái)自核心團(tuán)隊(duì)、貢獻(xiàn)者、用戶、導(dǎo)師、基金會(huì)等的幫助和無(wú)私的奉獻(xiàn)鑄就了這個(gè)活躍的社區(qū),也使得Apache Kylin得以在越來(lái)越多的場(chǎng)景下發(fā)揮作用。
現(xiàn)在,由Apache Kylin核心團(tuán)隊(duì)撰寫(xiě)了本書(shū),相信能更好地將相關(guān)的理論、設(shè)計(jì)、技術(shù)、架構(gòu)等展現(xiàn)給各位朋友,希望能夠讓更多的朋友更加充分地理解Kylin的優(yōu)點(diǎn)和使用的場(chǎng)景,更多地挖掘出Kylin的潛力。同時(shí)也希望本書(shū)能夠鼓勵(lì)并吸引更多的人參與Kylin項(xiàng)目和開(kāi)源項(xiàng)目,影響更多人貢獻(xiàn)更多的項(xiàng)目和技術(shù)到開(kāi)源世界來(lái)。
韓卿Apache Kylin聯(lián)合創(chuàng)建者及項(xiàng)目委員會(huì)主席2016年10月
查看全部↓
本書(shū)將由李揚(yáng)為首的麒麟技術(shù)團(tuán)隊(duì)撰寫(xiě)。團(tuán)隊(duì)是Apache Kylin的主創(chuàng)團(tuán)隊(duì),是了解麒麟技術(shù)的一個(gè)團(tuán)隊(duì)。
李揚(yáng)是大數(shù)據(jù)架構(gòu)師和工程師,專注大數(shù)據(jù)分析技術(shù)。他是Apache Kylin管理委員會(huì)成員,也是Kyligence Inc.(一家專業(yè)提供大數(shù)據(jù)商務(wù)智能服務(wù)的創(chuàng)業(yè)公司)創(chuàng)始人之一。李揚(yáng)是Apache Kylin主創(chuàng)團(tuán)隊(duì)的架構(gòu)師和技術(shù)負(fù)責(zé)人,在eBay期間從2014年開(kāi)始開(kāi)發(fā)Kylin項(xiàng)目。之前,李揚(yáng)在IBM工作8年,在摩根士丹利工作2年。在IBM期間,他是“杰出技術(shù)貢獻(xiàn)獎(jiǎng)”的獲獎(jiǎng)?wù)撸鴵?dān)任InfoSphere BigInsights的技術(shù)負(fù)責(zé)人,負(fù)責(zé)Hadoop開(kāi)源產(chǎn)品架構(gòu)。在摩根士丹利期間,李揚(yáng)擔(dān)任副總裁,負(fù)責(zé)全球監(jiān)管報(bào)表基礎(chǔ)架構(gòu)。
推薦序推薦序二推薦序三推薦序四前言第1章Apache Kylin概述
1.1背景和歷史
1.2ApacheKyin的使命
1.3 ApacheKylin的工作原理
1.3.1維度和度量簡(jiǎn)介
1.3.2 Cube和Cuboid
1.3.3工作原理 。
1.4 ApacheKylin的技術(shù)架構(gòu)
1.5 ApacheKylin的主要特點(diǎn)
1.5.1標(biāo)準(zhǔn)SQL接口
1.5.2支持超大數(shù)據(jù)集
1.5.3亞秒級(jí)響應(yīng)
1.5.4可伸縮性和高吞吐率
1.5.5 BI及可視化工具集成
1.6與其他開(kāi)源產(chǎn)品比較
1.7小結(jié)第2章快速入門
2.1核心概念
2.1.1數(shù)據(jù)倉(cāng)庫(kù)、OLAP與BI
2.1.2維度和度量
2.1.3事實(shí)表和維度表
2.1.4 Cube、Cuboid和
Cube Segment
2.2在Hive中準(zhǔn)備數(shù)據(jù)
2.2.1星形模型
2.2.2維度表的設(shè)計(jì)
2.2.3 Hive表分區(qū)
2.2.4了解維度的基數(shù)
2.2.5 SampleData
2.3設(shè)計(jì)Cube
2.3.1導(dǎo)入Hive表定義
2.3.2創(chuàng)建數(shù)據(jù)模型
2.3.3創(chuàng)建CubP
2.4構(gòu)建Cube
第3章增量構(gòu)建
第4章流式構(gòu)建
第5章查詢和可視化
第6章Cube優(yōu)化
第7章應(yīng)用案例分析
第8章擴(kuò)展Apache Kyin
第9章Apache Kyin的企業(yè)級(jí)功能
第10章運(yùn)維管理
第11章參與開(kāi)源
第12章Apache Kyin的未來(lái)
查看全部↓