簡體書 » 數據挖掘導論

數據挖掘導論

定價：~~168~~ 元

NT $ 146

作者：戴紅，常子冠，於寧/主/編
出版社：清華大學出版社
出版日期：2014-12-01
語言：簡體中文
ISBN10：7302381046
ISBN13：9787302381044
裝訂：207頁 / 普通級 / 1-1

內容簡介

本書為數據挖掘入門級教材，共分8章，主要內容分為三個專題：技術、數據和評估。技術專題包括決策樹技術、K-means算法、關聯分析技術、神經網絡技術、回歸分析技術、貝葉斯分析、凝聚聚類、概念分層聚類、混合模型聚類技術的EM算法、時間序列分析和基於Web的數據挖掘等常用的機器學習方法和統計技術。數據專題包括數據庫中的知識發現處理模型和數據倉庫及OLAP技術。

評估專題包括利用檢驗集分類正確率和混淆矩陣，並結合檢驗集置信區間評估有指導學習模型，使用無指導聚類技術評估有指導模型，利用Lift和假設檢驗比較兩個有指導學習模型，使用MSExcel2010和經典的假設檢驗模型評估屬性，使用簇質量度量方法和有指導學習技術評估無指導聚類模型。

本書秉承教材風格，強調廣度講解。注重成熟模型和開源工具的使用，以提高學習者的應用能力為目標；注重結合實例和實驗，加強基本概念和原理的理解和運用；注重實例的趣味性和生活性，提高學習者學習的積極性。使用章後練習、計算和實驗作業鞏固和檢驗所學內容；使用詞匯表附錄，解釋和規范數據挖掘學科專業術語；使用適合教學的簡單易用開源的Weka和通用的MSExcel軟件工具實施數據挖掘驗證和體驗數據挖掘的精妙。

本書可作為普通高等院校計算機科學、信息科學、數學和統計學專業的入門教材，也可作為如經濟學、管理學、檔案學等對數據管理、數據分析與數據挖掘有教學需求的其他相關專業的基礎教材。同時，對數據挖掘技術和方法感興趣，致力於相關方面的研究和應用的其他讀者，也可以從本書中獲取基本的指導和體驗。

本書配有教學幻燈片、大部分章後習題和實驗的參考答案以及課程大綱。

第1章認識數據挖掘
1.1 數據挖掘的定義
1.2 機器學習
1.2.1 概念學習
1.2.2 歸納學習
1.2.3 有指導的學習
1.2.4 無指導的聚類
1.3 數據查詢
1.4 專家系統
1.5 數據挖掘的過程
1.5.1 准備數據
1.5.2 挖掘數據
1.5.3 解釋和評估數據
1.5.4 模型應用
1.6 數據挖掘的作用
1.6.1 分類
1.6.2 估計
1.6.3 預測
1.6.4 無指導聚類
1.6.5 關聯關系分析
1.7 數據挖掘技術
1.7.1 神經網絡
1.7.2 回歸分析
1.7.3 關聯分析
1.7.4 聚類技術
1.8 數據挖掘的應用
1.8.1 應用領域
1.8.2 成功案例
1.9 Weka數據挖掘軟件
1.9.1 Weka簡介
1.9.2 使用Weka建立決策樹模型
1.9.3 使用Weka進行聚類
1.9.4 使用Weka進行關聯分析
本章小結
習題
第2章基本數據挖掘技術
2.1 決策樹
2.1.1 決策樹算法的一般過程
2.1.2 決策樹算法的關鍵技術
2.1.3 決策樹規則
2.1.4 其他決策樹算法
2.1.5 決策樹小結
2.2 關聯規則
2.2.1 關聯規則概述
2.2.2 關聯分析
2.2.3 關聯規則小結
2.3 聚類分析技術
2.3.1 K-means算法
2.3.2 K-means算法小結
2.4 數據挖掘技術的選擇
本章小結
習題
第3章數據庫中的知識發現
3.1 知識發現的基本過程
3.1.1 KDD過程模型
3.1.2 知識發現軟件
3.1.3 KDD過程的參與者
3.2 KDD過程模型的應用
3.2.1 步驟1：商業理解
3.2.2 步驟2：數據理解
3.2.3 步驟3：數據准備
3.2.4 步驟4：建模
3.2.5 評估
3.2.6 部署和采取行動
3.3 實驗：KDD案例
本章小結
習題
第4章數據倉庫
4.1 數據庫與數據倉庫
4.1.1 數據（庫）模型
4.1.2 規范化與反向規范化
4.2 設計數據倉庫
4.2.1 數據抽取、清洗、變換和加載
4.2.2 數據倉庫模型
4.2.3 數據集市
4.2.4 決策支持系統
4.3 聯機分析處理
4.3.1 概述
4.3.2 實驗：使用OLAP輔助駕駛員行為分析
4.4 使用Excel數據透視表和數據透視圖分析數據
4.4.1 創建簡單數據透視表和透視圖
4.4.2 創建多維透視表和透視圖
本章小結
習題
第5章評估技術
5.1 數據挖掘評估概述
5.1.1 評估內容
5.1.2 評估工具
5.2 評估有指導學習模型
5.2.1 評估分類類型輸出模型
5.2.2 評估數值型輸出模型
5.2.3 計算檢驗集置信區間
5.2.4 無指導聚類技術的評估作用
5.3 比較有指導學習模型
5.3.1 使用Lift比較模型
5.3.2 通過假設檢驗比較模型
5.4 屬性評估
5.4.1 數值型屬性的冗余檢查
5.4.2 數值屬性顯著性的假設檢驗
5.5 評估無指導聚類模型
本章小結
習題
第6章神經網絡技術
6.1 神經網絡概述
6.1.1 神經網絡模型
6.1.2 神經網絡的輸入和輸出數據格式
6.1.3 激勵函數
6.2 神經網絡訓練
6.2.1 反向傳播學習
6.2.2 自組織映射的無指導聚類
6.2.3 實驗：應用BP算法建立前饋神經網絡
6.3 神經網絡模型的優勢和缺點
本章小結
習題
第7章統計技術
7.1 回歸分析
7.1.1 線性回歸分析
7.1.2 非線性回歸
7.1.3 樹回歸
7.2 貝葉斯分析
7.3 聚類技術
7.3.1 分層聚類
7.3.2 基於模型的聚類
7.4 數據挖掘中的統計技術與機器學習技術
本章小結
習題
第8章時間序列和基於Web的數據挖掘
8.1 時間序列分析
8.1.1 概述
8.1.2 線性回歸分析解決時間序列問題
8.1.3 神經網絡技術解決時間序列問題
8.2 基於Web的數據挖掘
8.2.1 概述
8.2.2 Web文本挖掘
8.2.3 Web使用挖掘
8.3 多模型分類技術
8.3.1 裝袋技術
8.3.2 推進技術
本章小結
習題
附錄A 詞匯表
附錄B 數據挖掘數據集
參考文獻

看更多