簡體書 » 深入淺出大數據

深入淺出大數據

定價：~~294~~ 元

NT $ 256

作者：宋智軍
出版社：清華大學出版社
出版日期：2016-03-01
語言：簡體中文
ISBN10：7302421811
ISBN13：9787302421818
裝訂：368頁 / 普通級 / 1-1

內容簡介

堅持以大數據基礎和應用為主導的編寫原則，理論聯系實際，並通過大量實例循序漸進地為讀者介紹了進行大數據實踐所涉及的各類知識。為了更好地幫助讀者在短時間內掌握大數據基礎理論知識和實踐能力，全書的基礎知識介紹清晰，理論聯系實際，具有很強的操作性，並提供了大量通過測試可運行的完整實例，這些實例都給出了設計步驟、代碼詳解及程序運行結果，對於容易出現問題的地方，則以「注」的方式介紹常用的技巧和注意事項。《深入淺出系列規划教材:深入淺出大數據》可作為計算機專業的本科生和研究生的大數據基礎教材，也可作為大數據技術培訓、Hadoop應用開發和運行維護人員的必備參考書。

宋智軍，人工智能博士，現就職於中國電子科技集團公司第二十八研究所，曾參與國家973課題、國家自然基金、國家青年基金項目，主持大型企業大數據科研創新項目等，在國內外學術期刊和學術會議上發表學術論文二十余篇，編著、專利和軟件著作權十余項。目前從事大數據技術領域的研究開發工作，在分布式大數據存儲和查詢、大數據並行計算模式與系統、Hadoop／Storm／Spark性能優化與功能增強、並行化機器學習和數據挖掘算法、大數據體系結構與雲計算、大數據行業應用等方面開展了廣泛的研究、應用和開發工作，積累了豐富的實踐經驗。

第1章大數據概述
1.1大數據發展歷程
1.2大數據的定義及特征
1.2.1大數據定義
1.2.2大數據的關鍵特征
1.3大數據與傳統數據的區別
1.3.1數據思維
1.3.2數據處理
1.3.3數據分析
1.4大數據的核心價值
1.5大數據安全與隱私保護
1.5.1基礎設施安全
1.5.2數據隱私
1.5.3數據治理
1.5.4被動安全機制

第2章大數據關鍵技術
2.1大數據采集與預處理技術
2.1.1Flume
2.1.2Scribe
2.1.3Kafka
2.1.4Time Tunnel
2.1.5Chukwa
2.2大數據存儲與管理技術
2.2.1分布式文件系統
2.2.2分布式數據庫
2.3大數據分析與挖掘技術
2.3.1傳統數據分析與挖掘方法
2.3.2大數據分析與挖掘方法
2.3.3大數據分析與挖掘框架
2.4大數據應用與展現技術
2.4.1大數據應用
2.4.2大數據可視化

第3章基於Hadoop的大數據生態系統
3.1Hadoop概述
3.1.1Hadoop發展歷程
3.1.2Hadoop特點
3.1.3Hadoop核心思想
3.2Hadoop家族成員
3.3Hadoop生態系統
3.3.1Hadoop 1.0生態系統
3.3.2Hadoop 2.0生態系統
3.4Hadoop集群架構
3.4.1Hadoop 1.0生態系統的集群架構
3.4.2Hadoop 2.0生態系統的集群架構
3.5Hadoop運行環境
3.5.1硬件環境
3.5.2軟件環境
3.5.3網絡環境
3.6Hadoop集群的安裝與配置
3.6.1准備工作
3.6.2Hadoop部署

第4章分布式文件系統HDFS
4.1HDFS概述
4.2HDFS基本組成
4.2.1數據塊
4.2.2元數據節點
4.2.3輔助元數據節點
4.2.4數據節點
4.3HDFS體系架構
4.3.1Hadoop 1.0生態系統中HDFS體系架構
4.3.2Hadoop 2.0生態系統中HDFS體系架構
4.4HDFS核心功能
4.5HDFs通信機制
4.5.1RPC Interface
4.5.2KPC Client
4.5.3RPC Server
4.5.4RPC通信實現
4.6HDFS安全機制
4.6.1授權機制
4.6.2認證機制
4.7HDFS容錯機制
4.7.1副本策略
4.7.2心跳檢測
4.7.3HDFS HA
4.7.4HDFS Federation
4.8HDFS快照機制
4.8.1快照原理
4.8.2適用場景
4.8.3基本操作
4.9HDFS讀寫機制
4.9.1HDFS讀機制
4.9.2HDFS寫機制
4.10HDFS常用操作
4.10.1dfs命令
4.10.2dfsadmin命令
4.10.3Web接口
4.10.4HDFS APT

第5章分布式計算框架MapReduce
5.1MapReduce概述
5.2MapReduce原理
5.3MapReduce框架
5.3.1Hadoop 1.0生態系統中MapReduce框架
5.3.2Hadoop 2.0生態系統中MapReduce框架
5.4MapReduce開發環境
5.4.1搭建MapReduce開發環境
5.4.2開發MapReduce應用程序
5.5MapReduce編程過程
5.5.1InputFormat
5.5.2Map
5.5.3Cornbine／Partition
5.5.4Reduce
5.5.5OutputFormat
5.6MapReduce開發實例
5.6.1MapReduce編程
5.6.2實例解析

第6章資源管理框架YARN
6.1YARN概述
6.2YARN體系架構
6.2.1ResourceManager
6.2.2NodeManager
6.2.3ApplleationMaster
6.2.4Container
6.3YARN工作流程
6.4YARN通信機制
6.5YARN安全機制
6.5.1認證機制
6.5.2授權機制
6.6YARN容錯機制
6.7YARN資源調度機制
6.7.1FIFO Scheduler
6.7.2Fair ScheduIer
6.7.3Capacity Scheduler
6.8可在YARN上運行的框架
6.9YARN編程實例
6.9.1編程過程
6.9.2DistributedShell實例

第7章分布式列存儲數據庫HBase
7.1HBase概述
7.2HBase特點
7.3HBase體系架構
7.4HBase安裝配置
7.4.1准備工作
7.4.2安裝HBase
7.4.3配置HBase
7.4.4啟停HBase
7.5HBase數據模型
7.5.1邏輯視圖
7.5.2物理視圖
7.6HBase關鍵技術
7.6.1HRegion定位
7.6.2HRegion分裂
7.6.3HBase讀寫機制
7.7HBase交互接口
7.7.1Native Java API
7.7.2HBase Shell
7.8HBase快照機制

第8章數據倉庫Hive
8.1Hive概述
8.2Hive特點
8.3Hive體系架構
8.4Hive安裝配置
8.4.1准備工作
8.4.2安裝模式
8.4.3安裝Hive
8.4.4配置Hive
8.4.5啟動Hive
8.5Hive數據模型
8.6Hive數據類型
8.6.1基本數據類型
8.6.2復雜數據類型
8.6.3數據類型轉換
8.7Hive基本操作
8.7.1DDL操作
8.7.2DML操作
8.8Hive內置運算符
8.8.1關系運算符
8.8.2算術運算符
8.8.3邏輯運算符
8.8.4復雜運算符
8.9Hive內置函數
8.9.1數值計算函數
8.9.2日期函數
8.9.3條件函數
8.9.4字符串函數
8.9.5集合統計函數
8.10Hive實例

第9章數據分析與挖掘Mahout
9.1Mahout概述
9.2Mahout安裝配置
9.2.1Mahout安裝
9.2.2Mahout配置
9.2.3Mahout測試
9.3Mahout算法集
9.4分類算法
9.4.1邏輯回歸
9.4.2貝葉斯
9.4.3隨機森林
9.5聚類算法
9.5.1Canopy聚類
9.5.2K—means聚類
9.6模式挖掘算法
9.7協同過濾算法
9.7.1收集用戶偏好
9.7.2相似度計算
9.7.3推薦計算

第10章大數據應用
10.1大數據應用現狀及發展趨勢
10.1.1產業現狀
10.1.2應用現狀
10.1.3發展趨勢
10.2互聯網大數據應用
10.3金融行業大數據應用
10.4電信行業大數據應用
10.5醫療行業大數據應用
10.6智慧交通大數據應用
10.7大數據應用案例
10.7.1互聯網大數據應用案例
10.7.2智慧交通大數據應用案例

附表
參考文獻

看更多