Spark學習手冊

Spark學習手冊
定價:520
NT $ 160 ~ 494
 

內容簡介

  現今無論在任何領域,資料都逐漸地變大,你該如何有效率的對他們進行處理?此書介紹了Apache Spark,一個開放原始碼叢集運算系統。它使資料可以更快速的寫入以及執行。藉由Spark,你可以透過簡易的Pyhon,Java,或是Scala的API進行快速的大量資料處理。

  此書為Spark的開發者親自撰寫,可以讓資料科學家以及工程師立即應用書中的知識展開工作。讀者將學會如何透過數行的程式碼進行一個平行處理的工作。本書涵蓋了基礎的批次工作到串流處理以及機器學習等相關的應用。

  ‧讓讀者可以快速地了解Spark,例如:分散式資料集、記憶體快取、以及交互式介面等。
  ‧利用Spark內建的強大資料庫,包含Spark SQL、Spark Streaming以及MLib。
  ‧使用一個Spark程式框架即可取代混合多種工具如Hive、Hadoop、Mahout以及Strom。
  ‧學習透過Spark進行交互式、批次、以及串流式的應用程式開發
  ‧與諸多資料來源進行連接,包含HDFS、HIVE、JSON以及S3
  ‧學習資料切割以及共享變數等進階議題

  “本書是我在大數據處理應用程式指南推薦書單中的第一名” --Ben. Lorica資料科學家主席, O’Reilly Media
 

作者介紹

作者簡介

Holden Karau


  Holden Karau任職於Databricks的軟體開發工程師,活耀於開放原始碼專案,同時也是《Fast Data Processing with Spark》(Packt 出版社)的作者

Andy Konwinski

  Andy Konwinski是Databricks的共同創辦人,Apache Spark的提交者。同時也是Apache Mesos專案的共同建立人

Patrick Wendell

  Patrick Wendell是Databricks的共同創辦人,Apache Spark的提交者。他也維護許多Spark核心引擎的子專案。

Matei Zaharia

  Matei Zaharia是Databricks的CTO以及Apache Spark的建立人,他也因為此專案名列Apache副董事
 

目錄

Chapter 1 Spark 資料分析導論
Chapter 2 下載及開始使用 Spark
Chapter 3 RDD程式撰寫
Chapter 4 鍵值對 RDD 操作
Chapter 5 存取資料
Chapter 6 進階 Spar k程式撰寫
Chapter 7 在叢集執行 Spark
Chapter 8 Spark 調校與除錯
Chapter 9 Spark SQL
Chapter 10 Spark streaming
Chapter 11 MLlib 機器學習函式庫

 
網路書店 類別 折扣 價格
  1. 二手書
    31
    $160
  2. 二手書
    71
    $369
  3. 二手書
    72
    $374
  4. 新書
    79
    $411
  5. 新書
    83
    $432
  6. 新書
    9
    $468
  7. 新書
    9
    $468
  8. 新書
    9
    $468
  9. 新書
    95
    $494
  10. 新書
    95
    $494