本書描述了減少數據基礎設施成本和開發時間的技巧,適用于軟件工程師、數據工程師、開發者和系統管理員。你不僅可以從中獲得關于Spark的全面理解,也將學會如何讓它運轉自如。 n
n
在本書中你將發現: n
* Spark SQL的新接口如何在SQL的RDD數據結構上改善性能 n
* Core Spark和Spark SQL之間的數據拼接選擇 n
* 充分發揮標準RDD轉換功能的技巧 n
* 如何處理Spark的鍵/值對范式的相關性能問題 n
* 編寫高性能Spark代碼,不使用Scala或JVM n
* 如何在應用建議的改進措施時測試功能和性能 n
* 使用Spark MLlib和Spark ML機器學習庫 n
* Spark的流組件和外部社區軟件包
Holden Karau是一位跨性別加拿大人,在IBM Spark技術中心擔任軟件開發工程師。她是Spark代碼貢獻者,并且經常提交貢獻代碼,特別是PySpark和機器學習部分。Holden在多個國際活動中演講Spark相關話題。 n
Rachel Warren是Alpine Data的軟件工程師和數據科學家。在日常工作中,她使用Spark來處理真實世界的數據和機器學習問題。她也曾在工業界和學術界擔任分析師和導師。 n
n