為了達到深入淺出、通俗易懂的效果,本書的第一大部分概述了大數據的主要技術,包括大數據的獲取、存儲、處理,還有架構設計的基本理念,以及常用的消息和緩存機制。
這一部分你會發現關於Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的簡介。
對於數據處理的高級技術,本書着墨不少,但不乏對於信息檢索和數據挖掘課題的探討。例如站內搜索引擎、推薦系統、廣告系統、聚類、分類和線性回歸等。
由於商業需求尤其看重實際產出,因此第一部分的最后還會分析常見的效果和性能評估。相信這部分對於構建讀者的大數據知識體系會很有幫助。在每一章的最后,我們還會給出重要的參考圖書,以便於讀者繼續深入學習。