實戰Hadoop大數據處理

實戰Hadoop大數據處理
定價:234
NT $ 204
  • 作者:曾剛
  • 出版社:清華大學出版社
  • 出版日期:2015-08-01
  • 語言:簡體中文
  • ISBN10:7302411441
  • ISBN13:9787302411444
  • 裝訂:266頁 / 普通級 / 1-1
 

內容簡介

以「大數據」為起點,較詳細地介紹了Hadoop的相關知識。全書共分為9章,介紹了大數據的基本理論、Hadopp生態系統、Hadoop的安裝、HDFS分布式文件系統、Map Reduce的原理及開發、HBase數據庫、Hive數據倉庫、Sqoop數據轉換工具,最后結合實際介紹了大數據在智能交通和情報分析中的應用。

本書力求用淺顯的語言、生動的案例、詳細的操作步驟向廣大讀者介紹Hadoop;力求深入淺出,把復雜的理論與實際案例相結合,用平實的語言把深奧的原理簡單化;力求圖文並茂,通過適當的圖表把零亂的知識點有序地展現在讀者面前;力求緊跟時代步伐,盡量結合較新版本的軟件闡述大數據處理的相關知識。
 

目錄

第1章大數據概述
1.1大數據簡介
1.1.1大數據的概念與特點
1.1.2大數據研究的背景
1.1.3大數據的應用示例
1.1.4大數據研究的意義
1.2大數據處理技術簡介
1.2.1大數據的關鍵技術
1.2.2大數據處理模式及其系統
1.3大數據帶來的挑戰
1.4大數據的研究與發展方向
第2章Hadoop簡介
2.1Hadoop項目起源
2.2Hadoop的由來
2.3Hadoop核心組件及相關項目簡介
2.4Hadoop的版本衍化
2.5Hadoop的發展趨勢
第3章Hadoop的安裝
3.1安裝Ubuntu Server
3.1.1VMware網絡適配器的連接模式
3.1.2「僅主機模式」網絡的設置
3.1.3安裝Ubuntu Server
3.1.4遠程管理Ubuntu Server
3.1.5安裝JDK
3.1.6克隆其他虛擬機
3.1.7配置hosts文件
3.2配置SSH公鑰認證
3.2.1為什麼要公鑰認證
3.2.2公鑰認證的工作原理
3.2.3SSH客戶端的安裝
3.2.4SSH配置
3.2.5配置SecureCRT公鑰登錄Linux服務器
3.3安裝配置Hadoop
3.3.1單機安裝
3.3.2偽分布模式的安裝
3.3.3分布式安裝
3.3.4Hadoop管理員常用命令
3.4雙NameNode分布式安裝Hadoop 2.2.0
3.4.1安裝配置Zookeeper集群
3.4.2安裝Hadoop 2.2.0
第4章HDFS文件系統
4.1互聯網時代對存儲系統的新要求
4.2HDFS系統的特點
4.3HDFS文件系統
4.3.1HDFS系統組成
4.3.2HDFS文件數據的存儲組織
4.3.3元數據及其備份機制
4.3.4數據塊備份
4.3.5數據的讀取過程
4.3.6數據的寫入過程
4.4 HDFS Shell命令
4.5 API訪問HDFS
4.5.1編譯Hadoop的Eclipse插件
4.5.2在Eclipse中安裝Hadoop插件
4.5.3Hadoop URL讀取數據
4.5.4FileSystem類
4.5.5取得HDFS的元信息
4.6HDFS的高可用性
4.6.1元數據的備份
4.6.2使用SecondaryName進行備份
4.6.3BackupNode備份
4.6.4Hadoop 2.X中HDFS的高可用性實現原理
4.6.5Federation機制
4.7HDFS中小文件存儲問題
4.7.1文件歸檔技術
4.7.2SequenceFile格式
4.7.3CombineFileInputFormat
第5章MapReduce原理及開發
5.1初識MapReduce
5.1.1試用WordCount
5.1.2自己編寫WordCount
5.1.3WordCount處理過程
5.2MapReduce 工作原理
5.2.1MapReduce數據處理過程
5.2.2MapReduce框架組成
5.2.3MapReduce運行原理
5.3 Shuffle和Sort
5.3.1Map端的Shuffle
5.3.2Reduce端Shuffle
5.3.3Shuffle過程優化
5.4任務的執行
5.4.1推測執行
5.4.2任務JVM重用
5.4.3跳過壞的記錄
5.4.4任務執行的信息
5.5故障處理
5.5.1任務失敗
5.5.2TaskTracker失敗
5.5.3JobTracker失敗
5.5.4任務失敗重試的處理方法
5.6作業調度
5.6.1先進先出(FIFO)調度器
5.6.2能力調度器
5.6.3公平調度器
5.7MapReduce編程接口
5.7.1InputFormat——輸入格式類
5.7.2FileInputFormat——文件輸入格式類
5.7.3InputSplit——數據分塊類
5.7.4RecordReader——記錄讀取類
5.7.5Mapper類
5.7.6Reducer類
5.7.7OutputFormat——輸出格式類
5.7.8FileOutputFormat類——文件輸出格式類
5.7.9RecordWriter類——記錄輸出類
5.8MapReduce應用開發
5.8.1計數類應用
5.8.2去重計數類應用
5.8.3簡單排序類應用
5.8.4倒排索引類應用
5.8.5二次排序類應用
第6章HBase數據庫
6.1HBase介紹
6.1.1互聯網時代對數據庫的要求
6.1.2HBase的特點
6.2HBase架構與原理
6.2.1系統的架構及組成
6.2.2HBase邏輯視圖
6.2.3HBase的物理模型
6.2.4元數據表
6.3安裝HBase
6.3.1單機模式安裝
6.3.2偽分布模式安裝
6.3.3分布式安裝
6.4HBase Shell操作
6.4.1基本Shell命令
6.4.2DDL操作
6.4.3DML操作
6.4.4HBase Shell腳本
6.5基於API使用HBase
6.5.1API簡介
6.5.2表操作示例
6.5.3數據操作示例
6.5.4Filter的應用與示例
6.6MapReduce操作HBase數據
6.6.1HBase MapReduce匯總到文件
6.6.2HBase MapReduce匯總到HBase
6.7 HBase優化
6.7.1JVM GC優化
6.7.2HBase參數調優
6.7.3表設計優化
6.7.4讀優化
6.7.5寫優化
……
第7章Hive數據倉庫
第8章數據整合
第9章典型應用案例介紹
參考文獻
網路書店 類別 折扣 價格
  1. 新書
    87
    $204