簡體書 » 大數據：互聯網大規模數據挖掘與分布式處理(第2版)

大數據：互聯網大規模數據挖掘與分布式處理(第2版)

定價：~~474~~ 元

NT $ 412

作者：(美)JURE LESKOVEC
出版社：人民郵電出版社
出版日期：2015-07-01
語言：簡體中文
ISBN10：711539525X
ISBN13：9787115395252
裝訂：372頁 / 普通級 / 2-1

內容簡介

本書由斯坦福大學「Web挖掘」課程的內容總結而成，主要關注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。其中相關章節有對應的習題，以鞏固所講解的內容。讀者更可以從網上獲取相關拓展材料。

萊斯科夫（Jure Leskovec）拉賈拉曼（Anand Rajaraman）厄爾曼（Jeffrey David Ullman）

Jure Leskovec 斯坦福大學計算機科學系助理教授，研究方向是大型社交和信息網絡的數據挖掘。他的研究成果獲得了很多獎項，如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship，還獲得了很多最佳論文獎，同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《麻省理工科技評論》《連線》、NBC、BBC等流行的社會媒體刊載。

Anand Rajaraman 數據庫和Web技術領域權威，創業投資基金Cambrian聯合創始人，斯坦福大學計算機科學系助理教授。Rajaraman的職業生涯非常成功：1996年創辦Junglee公司，兩年后被亞馬遜以2.5億美元收購，Rajaraman被聘為亞馬遜技術總監，推動亞馬遜從一個零售商轉型為零售平台；2000年與人合創Cambrian，孵化出幾個后來被谷歌收購的公司；2005年創辦Kosmix公司並任CEO，該公司於2011年被沃爾瑪集團收購，Rajaraman被聘為沃爾瑪負責全球電子商務業務的高級副總裁。Rajaraman生於印度，在斯坦福大學獲得計算機科學碩士和博士學位。求學期間與人合著的一篇論文榮列近20年來被引用次數最多的論文之一。Twitter賬號是@anand_raj。

Jeffrey David Ullman 美國國家工程院院士，計算機科學家。早年在貝爾實驗室工作，之后任教於普林斯頓大學，十年后加入斯坦福大學直至退休，一生的科研、著書和育人成果卓著。他是ACM會員，曾獲SIGMOD創新獎、高德納獎、馮諾依曼獎等多項科研大獎；他是「龍書」《編譯原理》、數據庫名著《數據庫系統實現》等多部經典著作的合著者；麾下多名學生成為了數據庫領域的專家，其中最有名的當屬谷歌創始人Sergey Brin；本書第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

第1章數據挖掘基本概念
　1.1 數據挖掘的定義
　　1.1.1 統計建模
　　1.1.2 機器學習
　　1.1.3 建模的計算方法
　　1.1.4 數據匯總
　　1.1.5 特征抽取
　1.2 數據挖掘的統計限制
　　1.2.1 整體情報預警
　　1.2.2 邦弗朗尼原理
　　1.2.3 邦弗朗尼原理的一個例子
　　1.2.4 習題
　1.3 相關知識
　　1.3.1 詞語在文檔中的重要性
　　1.3.2 哈希函數
　　1.3.3 索引
　　1.3.4 二級存儲器
　　1.3.5 自然對數的底e
　　1.3.6 冪定律
　　1.3.7 習題
　1.4 本書概要
　1.5 小結
　1.6 參考文獻

第2章 MapReduce及新軟件棧
　2.1 分布式文件系統
　　2.1.1 計算節點的物理結構
　　2.1.2 大規模文件系統的結構
　2.2 MapReduce
　　2.2.1 Map 任務
　　2.2.2 按鍵分組
　　2.2.3 Reduce 任務
　　2.2.4 組合器
　　2.2.5 MapReduce 的執行細節
　　2.2.6 節點失效的處理
　　2.2.7 習題
　2.3 使用MapReduce 的算法
　　2.3.1 基於MapReduce 的矩陣-向量乘法實現
　　2.3.2 向量v 無法放入內存時的處理
　　2.3.3 關系代數運算
　　2.3.4 基於MapReduce 的選擇運算
　　2.3.5 基於MapReduce 的投影運算
　　2.3.6 基於MapReduce 的並、交和差運算
　　2.3.7 基於MapReduce 的自然連接運算
　　2.3.8 基於MapReduce 的分組和聚合運算
　　2.3.9 矩陣乘法
　　2.3.10 基於單步MapReduce 的矩陣乘法
　　2.3.11 習題
　2.4 MapReduce 的擴展
　　2.4.1 工作流系統
　　2.4.2 MapReduce 的遞歸擴展版本
　　2.4.3 Pregel 系統
　　2.4.4 習題
　　2.5 通信開銷模型
　　2.5.1 任務網絡的通信開銷
　　2.5.2 時鍾時間
　　2.5.3 多路連接
　　2.5.4 習題
　2.6 MapReduce 復雜性理論
　　2.6.1 Reducer 規模及復制率
　　2.6.2 一個例子：相似性連接
　　2.6.3 MapReduce 問題的一個圖模型
　　2.6.4 映射模式
　　2.6.5 並非所有輸入都存在時的處理
　　2.6.6 復制率的下界
　　2.6.7 案例分析：矩陣乘法
　　2.6.8 習題
　2.7 小結
　2.8 參考文獻

第3章相似項發現
　3.1 近鄰搜索的應用
　　3.1.1 集合的Jaccard 相似度
　　3.1.2 文檔的相似度
　　3.1.3 協同過濾--一個集合相似問題
　　3.1.4 習題
　3.2 文檔的shingling
　　3.2.1 k-shingle
　　3.2.2 shingle 大小的選擇
　　3.2.3 對shingle 進行哈希
　　3.2.4 基於詞的shingle
　　3.2.5 習題
　3.3 保持相似度的集合摘要表示
　　3.3.1 集合的矩陣表示
　　3.3.2 最小哈希
　　3.3.3 最小哈希及Jaccard 相似度
　　3.3.4 最小哈希簽名
　　3.3.5 最小哈希簽名的計算
　　3.3.6 習題
　　3.4 文檔的局部敏感哈希算法
　　3.4.1 面向最小哈希簽名的LSH
　　3.4.2 行條化策略的分析
　　3.4.3 上述技術的綜合
　　3.4.4 習題
　3.5 距離測度
　　3.5.1 距離測度的定義
　　3.5.2 歐氏距離
　　3.5.3 Jaccard 距離
　　3.5.4 余弦距離
　　3.5.5 編輯距離
　　3.5.6 海明距離
　　3.5.7 習題
　3.6 局部敏感函數理論
　　3.6.1 局部敏感函數
　　3.6.2 面向Jaccard 距離的局部敏感函數族
　　3.6.3 局部敏感函數族的放大處理
　　3.6.4 習題
　3.7 面向其他距離測度的LSH 函數族
　　3.7.1 面向海明距離的LSH 函數族
　　3.7.2 隨機超平面和余弦距離
　　3.7.3 梗概
　　3.7.4 面向歐氏距離的LSH 函數族
　　3.7.5 面向歐氏空間的更多LSH函數族
　　3.7.6 習題
　3.8 LSH 函數的應用
　　3.8.1 實體關聯
　　3.8.2 一個實體關聯的例子
　　3.8.3 記錄匹配的驗證
　　3.8.4 指紋匹配
　　3.8.5 適用於指紋匹配的LSH函數族
　　3.8.6 相似新聞報道檢測
　　3.8.7 習題
　3.9 面向高相似度的方法
　　3.9.1 相等項發現
　　3.9.2 集合的字符串表示方法
　　3.9.3 基於長度的過濾
　　3.9.4 前綴索引
　　3.9.5 位置信息的使用
　　3.9.6 使用位置和長度信息的索引
　　3.9.7 習題
　3.10 小結
　3.11 參考文獻

第4章數據流挖掘
　4.1 流數據模型
　　4.1.1 一個數據流管理系統
　　4.1.2 流數據源的例子
　　4.1.3 流查詢
　　4.1.4 流處理中的若干問題
　4.2 流當中的數據抽樣
　　4.2.1 一個富於啟發性的例子
　　4.2.2 代表性樣本的獲取
　　4.2.3 一般的抽樣問題
　　4.2.4 樣本規模的變化
　　4.2.5 習題
　4.3 流過濾
　　4.3.1 一個例子
　　4.3.2 布隆過濾器
　　4.3.3 布隆過濾方法的分析
　　4.3.4 習題
　　4.4 流中獨立元素的數目統計
　　4.4.1 獨立元素計數問題
　　4.4.2 FM 算法
　　4.4.3 組合估計
　　4.4.4 空間需求
　　4.4.5 習題
　4.5 矩估計
　　4.5.1 矩定義
　　4.5.2 二階矩估計的AMS 算法
　　4.5.3 AMS 算法有效的原因
　　4.5.4 更高階矩的估計
　　4.5.5 無限流的處理
　　4.5.6 習題
　4.6 窗口內的計數問題
　　4.6.1 精確計數的開銷
　　4.6.2 DGIM 算法
　　4.6.3 DGIM 算法的存儲需求
　　4.6.4 DGIM 算法中的查詢應答
　　4.6.5 DGIM 條件的保持
　　4.6.6 降低錯誤率
　　4.6.7 窗口內計數問題的擴展
　　4.6.8 習題
　4.7 衰減窗口
　　4.7.1 最常見元素問題
　　4.7.2 衰減窗口的定義
　　4.7.3 最流行元素的發現
　4.8 小結
　4.9 參考文獻

第5章鏈接分析
　5.1 PageRank
　　5.1.1 早期的搜索引擎及詞項作弊
　　5.1.2 PageRank 的定義
　　5.1.3 Web 結構
　　5.1.4 避免終止點
　　5.1.5 采集器陷阱及”抽稅”法
　　5.1.6 PageRank 在搜索引擎中的使用
　　5.1.7 習題
　5.2 PageRank 的快速計算
　　5.2.1 轉移矩陣的表示
　　5.2.2 基於MapReduce 的PageRank迭代計算
　　5.2.3 結果向量合並時的組合器使用
　　5.2.4 轉移矩陣中塊的表示
　　5.2.5 其他高效的PageRank 迭代方法
　　5.2.6 習題
　5.3 面向主題的PageRank
　　5.3.1 動機
　　5.3.2 有偏

　……
第6章頻繁項集
第7章聚類
第8章 web廣告
第9章推薦系統
第10章社會網絡圖挖掘
第11章降維處理
第12章大規模機器學習

看更多