●從使用者觀點出發,實務的角度論述,有系統地介紹R軟體在資料探勘預測分類的實務應用。
●內容詳細介紹不同套件函數在決策樹的使用方法、模型效度檢定法,決策樹與複迴歸分析、邏輯斯分析與區別分析的綜合應用。
●搭配範例解說,讓學習更能事半功倍。
●書籍內容適合大專院校學生、研究生,更適合對R軟體統計分析有興趣的研究者。
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書。書籍內容以使用者為導向的論述表達,詳細介紹R軟體在迴歸樹與預測分類的實務應用,內容兼顧理論與實務、函數與語法說明、統計方法使用與結果解析。內容所述可讓讀者快速熟悉R軟體在資料探勘之決策樹的使用,熟悉R軟體套件函數在預測分類的實務應用與知悉R軟體相關函數的功能。本書可作為統計相關課程的參考用書或資料處理的工具書。
目錄
序言
Chapter 01 決策樹概論
Chapter 02 套件{rpart}函數rpart ( )
壹、rpart ( )函數
貳、函數rpart.control ( )
參、輸出函數
肆、資料框架物件
Chapter 03 迴歸樹
壹、迴歸樹模型建構
一、函數rpart ( )—建構迴歸樹模型
二、葉節點參數估計值
三、函數printcp ( )—輸出複雜度參數
四、函數post ( )—繪製迴歸樹圖形
五、函數rpart ( )引數參數的範例
六、函數labels ( )與函數path.rpart ( )的應用
七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖
貳、適配迴歸樹模型殘差
參、套件{ggplot2}函數ggplot ( )的繪圖應用
肆、迴歸樹的修剪
伍、解釋變數為因子變數
Chapter 04 分類樹
壹、反應變數為三分類別變數
一、建構分類樹模型
二、繪製分類樹圖形
三、分類樹的殘差值
四、分類樹的分類路徑
五、分類樹的剪裁
六、分類樹的預測
貳、反應變數為二分類別變數
一、分類樹模型建構
二、分類樹分割路徑
三、分類樹圖形
四、分類樹殘差值
五、不同引數界定的分類樹
Chapter 05 決策樹的圖形繪製
壹、函數rpart.plot ( )
貳、函數prp ( )
一、繪製圖形基本引數
二、節點標記調整的引數
三、控制分支標記的引數
四、調整樹分支線的引數
參、繪圖函數應用
肆、解釋變數為因子變數的決策樹圖形繪製
伍、圖形決策樹的修剪
陸、套件{plotmo}函數plotmo ( )的應用
Chapter 06 複核效度驗證
壹、預測分類函數
貳、資料檔的分割預測
一、系統抽樣切割資料檔
二、隨機抽樣切割資料檔
三、分層隨機抽樣切割資料檔
參、反應變數為三分類別變數
一、單一效度檢定
二、平均效度檢定
肆、分層隨機抽樣函數
Chapter 07 k疊交互驗證法
壹、六疊效度驗證法
一、採用系統抽樣法
二、採用隨機抽樣法
貳、連續變數之分類樹的應用
一、分類樹模型建構
二、分類樹模型效度檢定
參、十疊交互驗證法
Chapter 08 套件{evtree}的函數應用
壹、函數evtree ( )語法
貳、函數應用
一、迴歸樹
二、分類樹
三、反應變數為多分類別變數
參、套件{evtree}函數predict ( )
一、分層隨機抽樣
二、系統抽樣 (有排序)
三、系統抽樣 (未排序)
四、大樣本決策樹的應用
Chapter 09 套件{partykit}的函數應用
壹、ctree ( )函數
貳、函數應用—迴歸樹
一、決策樹模型建構
二、分類準則設定
三、葉節點的差異比較
參、繪製決策樹圖函數plot ( )
肆、函數lmtree ( )與glmtree ( )
一、函數lmtree ( )的應用
二、函數glmtree ( )的應用
伍、分類樹的應用
一、適配分類樹模型I建構
二、繪製適配分類樹圖
三、適配分類樹模型II建構與繪製
陸、大樣本的應用
一、適配迴歸樹模型
二、適配分類樹模型
柒、預測函數predict ( )
Chapter 10 套件{RWeka}與套件{tree}的函數應用
壹、套件{RWeka}函數J48 ( )函數
一、函數J48 ( )語法
二、函數應用
三、效度檢定
貳、套件{tree}函數tree ( )
參、顯著性與決策樹關係
一、相關與迴歸樹
二、差異與分類樹
Chapter 11 複迴歸與迴歸樹
壹、基本套件lm ( )的函數應用
貳、套件{Blossom}函數ols ( )與lad ( )的應用
一、函數ols ( )
二、函數lad ( )
參、套件{psych}函數setCor ( )的應用
肆、套件{rms}函數ols ( )的應用
伍、迴歸樹
一、套件{GGally}相關矩陣圖函數
二、迴歸樹模型
三、解釋變數重要性檢核
四、迴歸樹預測效度
Chapter 12 邏輯斯迴歸分析與分類樹
壹、邏輯斯迴歸分析
一、資料框架物件解析
二、套件{radiant}函數logistic ( )的應用
三、套件{rms}函數lrm ( )的應用
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
參、套件{C50}函數C5.0 ( )的應用
肆、拔靴法分類樹
伍、套件{rpartScore}函數rpartScore ( )的應用
Chapter 13 區別分析與分類樹
壹、區別分析
一、套件{DiscriMiner}函數應用
二、套件{mda}函數fda ( )
三、套件{MASS}函數lda ( )
四、區別分析效度檢定
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
四、套件{Rweka}函數J48 ( )
五、套件{C50}函數C5.0 ( )
Chapter 14 函數與流程控制
壹、自訂函數
貳、迴圈(loop)
參、邏輯條件判別
肆、統計分析的應用
一、相關矩陣
二、t檢定的應用
三、單因子變異數分析的應用
伍、決策樹的應用
陸、決策樹向度變數
Chapter 15 RStudio整合發展環境
壹、RStudio整合開發環境界面與專案
貳、智慧型自動完成指令
參、編輯器語法指令的執行
肆、各種選項的設定
伍、套件安裝與載入
陸、外部資料檔匯入
Chapter 01 決策樹概論
Chapter 02 套件{rpart}函數rpart ( )
壹、rpart ( )函數
貳、函數rpart.control ( )
參、輸出函數
肆、資料框架物件
Chapter 03 迴歸樹
壹、迴歸樹模型建構
一、函數rpart ( )—建構迴歸樹模型
二、葉節點參數估計值
三、函數printcp ( )—輸出複雜度參數
四、函數post ( )—繪製迴歸樹圖形
五、函數rpart ( )引數參數的範例
六、函數labels ( )與函數path.rpart ( )的應用
七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖
貳、適配迴歸樹模型殘差
參、套件{ggplot2}函數ggplot ( )的繪圖應用
肆、迴歸樹的修剪
伍、解釋變數為因子變數
Chapter 04 分類樹
壹、反應變數為三分類別變數
一、建構分類樹模型
二、繪製分類樹圖形
三、分類樹的殘差值
四、分類樹的分類路徑
五、分類樹的剪裁
六、分類樹的預測
貳、反應變數為二分類別變數
一、分類樹模型建構
二、分類樹分割路徑
三、分類樹圖形
四、分類樹殘差值
五、不同引數界定的分類樹
Chapter 05 決策樹的圖形繪製
壹、函數rpart.plot ( )
貳、函數prp ( )
一、繪製圖形基本引數
二、節點標記調整的引數
三、控制分支標記的引數
四、調整樹分支線的引數
參、繪圖函數應用
肆、解釋變數為因子變數的決策樹圖形繪製
伍、圖形決策樹的修剪
陸、套件{plotmo}函數plotmo ( )的應用
Chapter 06 複核效度驗證
壹、預測分類函數
貳、資料檔的分割預測
一、系統抽樣切割資料檔
二、隨機抽樣切割資料檔
三、分層隨機抽樣切割資料檔
參、反應變數為三分類別變數
一、單一效度檢定
二、平均效度檢定
肆、分層隨機抽樣函數
Chapter 07 k疊交互驗證法
壹、六疊效度驗證法
一、採用系統抽樣法
二、採用隨機抽樣法
貳、連續變數之分類樹的應用
一、分類樹模型建構
二、分類樹模型效度檢定
參、十疊交互驗證法
Chapter 08 套件{evtree}的函數應用
壹、函數evtree ( )語法
貳、函數應用
一、迴歸樹
二、分類樹
三、反應變數為多分類別變數
參、套件{evtree}函數predict ( )
一、分層隨機抽樣
二、系統抽樣 (有排序)
三、系統抽樣 (未排序)
四、大樣本決策樹的應用
Chapter 09 套件{partykit}的函數應用
壹、ctree ( )函數
貳、函數應用—迴歸樹
一、決策樹模型建構
二、分類準則設定
三、葉節點的差異比較
參、繪製決策樹圖函數plot ( )
肆、函數lmtree ( )與glmtree ( )
一、函數lmtree ( )的應用
二、函數glmtree ( )的應用
伍、分類樹的應用
一、適配分類樹模型I建構
二、繪製適配分類樹圖
三、適配分類樹模型II建構與繪製
陸、大樣本的應用
一、適配迴歸樹模型
二、適配分類樹模型
柒、預測函數predict ( )
Chapter 10 套件{RWeka}與套件{tree}的函數應用
壹、套件{RWeka}函數J48 ( )函數
一、函數J48 ( )語法
二、函數應用
三、效度檢定
貳、套件{tree}函數tree ( )
參、顯著性與決策樹關係
一、相關與迴歸樹
二、差異與分類樹
Chapter 11 複迴歸與迴歸樹
壹、基本套件lm ( )的函數應用
貳、套件{Blossom}函數ols ( )與lad ( )的應用
一、函數ols ( )
二、函數lad ( )
參、套件{psych}函數setCor ( )的應用
肆、套件{rms}函數ols ( )的應用
伍、迴歸樹
一、套件{GGally}相關矩陣圖函數
二、迴歸樹模型
三、解釋變數重要性檢核
四、迴歸樹預測效度
Chapter 12 邏輯斯迴歸分析與分類樹
壹、邏輯斯迴歸分析
一、資料框架物件解析
二、套件{radiant}函數logistic ( )的應用
三、套件{rms}函數lrm ( )的應用
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
參、套件{C50}函數C5.0 ( )的應用
肆、拔靴法分類樹
伍、套件{rpartScore}函數rpartScore ( )的應用
Chapter 13 區別分析與分類樹
壹、區別分析
一、套件{DiscriMiner}函數應用
二、套件{mda}函數fda ( )
三、套件{MASS}函數lda ( )
四、區別分析效度檢定
貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
四、套件{Rweka}函數J48 ( )
五、套件{C50}函數C5.0 ( )
Chapter 14 函數與流程控制
壹、自訂函數
貳、迴圈(loop)
參、邏輯條件判別
肆、統計分析的應用
一、相關矩陣
二、t檢定的應用
三、單因子變異數分析的應用
伍、決策樹的應用
陸、決策樹向度變數
Chapter 15 RStudio整合發展環境
壹、RStudio整合開發環境界面與專案
貳、智慧型自動完成指令
參、編輯器語法指令的執行
肆、各種選項的設定
伍、套件安裝與載入
陸、外部資料檔匯入
序
序言
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書內容。由於「R軟體」(R語言)可以下載開放原始碼與免費,已成為量化統計分析的主流軟體之一,R軟體安裝簡易,軟體安裝字型可以選取適合研究者專屬的語言類型,外掛套件之函數功能幾乎包括所有統計學介紹的內涵。R軟體強大的統計分析功能、可以進行各種函數運算、有多元的繪圖功能,同時具備計算與繪圖環境的語言,有立即互動模式視窗、也有可以編寫一系列語法指令的「R編輯器」視窗。R軟體結合繪圖、數理統計、計算等特性,研究者除可直接使用內定函數進行統計分析與繪製圖形外,也可以自行撰寫語法指令列進行快速的分析程序。
本書從使用者觀點出發,從實務的角度論述,聚焦於預測分類程序方法的統計應用。資料探勘(data mining)數據分析中,一個重要的統計法為「決策樹」(decision tree),根據反應變數屬性的不同,決策樹模型又分為「迴歸樹」(regression tree)與「分類樹」(classification),決策樹主要功能在於預測分類,各章節的實務論述中,也介紹R軟體相關函數的應用與語法功能。
本書內容詳細介紹R軟體各種套件函數在決策樹的應用分析,完整說明對應函數預測分類的使用語法指令,決策樹圖形繪製函數的解析與應用,如何分割資料檔以訓練樣本建構決策樹模型,如何以建構決策樹模型對測試樣本進行預測分類之效度檢定,各種決策樹模型的效度檢驗法等。此外,為讓讀者對數據資料的預測分類有進一步的瞭解,最後以範例解說複迴歸分析與迴歸樹的綜合應用、邏輯斯迴歸與分類樹的綜合應用、區別分析與分類樹的綜合應用等。
本書得以順利出版,要感謝五南圖書公司的鼎力支持與協助,尤其是侯家嵐主編與劉祐融責編的行政支援與幫忙。作者於本書的撰寫期間雖然十分投入用心,但恐有能力不及或論述未周詳之處,這些疏漏或錯誤的內容,盼請讀者、各方先進或專家學者不吝斧正。
吳明隆、張毓仁 謹識
2017 年 2 月
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書內容。由於「R軟體」(R語言)可以下載開放原始碼與免費,已成為量化統計分析的主流軟體之一,R軟體安裝簡易,軟體安裝字型可以選取適合研究者專屬的語言類型,外掛套件之函數功能幾乎包括所有統計學介紹的內涵。R軟體強大的統計分析功能、可以進行各種函數運算、有多元的繪圖功能,同時具備計算與繪圖環境的語言,有立即互動模式視窗、也有可以編寫一系列語法指令的「R編輯器」視窗。R軟體結合繪圖、數理統計、計算等特性,研究者除可直接使用內定函數進行統計分析與繪製圖形外,也可以自行撰寫語法指令列進行快速的分析程序。
本書從使用者觀點出發,從實務的角度論述,聚焦於預測分類程序方法的統計應用。資料探勘(data mining)數據分析中,一個重要的統計法為「決策樹」(decision tree),根據反應變數屬性的不同,決策樹模型又分為「迴歸樹」(regression tree)與「分類樹」(classification),決策樹主要功能在於預測分類,各章節的實務論述中,也介紹R軟體相關函數的應用與語法功能。
本書內容詳細介紹R軟體各種套件函數在決策樹的應用分析,完整說明對應函數預測分類的使用語法指令,決策樹圖形繪製函數的解析與應用,如何分割資料檔以訓練樣本建構決策樹模型,如何以建構決策樹模型對測試樣本進行預測分類之效度檢定,各種決策樹模型的效度檢驗法等。此外,為讓讀者對數據資料的預測分類有進一步的瞭解,最後以範例解說複迴歸分析與迴歸樹的綜合應用、邏輯斯迴歸與分類樹的綜合應用、區別分析與分類樹的綜合應用等。
本書得以順利出版,要感謝五南圖書公司的鼎力支持與協助,尤其是侯家嵐主編與劉祐融責編的行政支援與幫忙。作者於本書的撰寫期間雖然十分投入用心,但恐有能力不及或論述未周詳之處,這些疏漏或錯誤的內容,盼請讀者、各方先進或專家學者不吝斧正。
吳明隆、張毓仁 謹識
2017 年 2 月
內容連載
分類 (classification) 為資料探勘 (data miniing) 領域的一個範疇,與區別分析、邏輯斯 (logistic) 迴歸分析的功能類似。預測分類的統計程序常見的方法有集群分析、迴歸分析、區別分析、邏輯斯迴歸、決策樹 (decision tree)
等。決策樹的功能在於分類與預測,演算程序從總樣本觀察值中,找到一個最佳的分割變數,將觀察值進行分組,次則從分組後的子資料集中,再找出最佳的分割變數將子資料集分成小資料集,此種程序的演算程序類似樹的成長,分割的次數愈多,樹的成長愈繁雜,樹的起始處稱為根節點 (root node)、樹的結束處稱為葉節點 (leaf node) 或終點節點 (terminal node)。
分類中的決策樹 (decision tree) 依效標變數 (依變數/反應變數) 變數尺度不同,分成迴歸樹 (regression tree) 與分類樹 (classification tree),效標變數 (反應變數) 如為等距變數或比率變數 (計量變數),決策樹稱為迴歸樹,預測分類的結果為觀察值在效標變數的平均數;效標變數如為名義變數或次序變數 (間斷變數),決策樹稱為分類樹,預測分類的結果為觀察值在效標變數的水準群組或類別。書籍中的決策樹的依變數多以「反應變數」(response variable) 表示,預測變數以「解釋變數」(explanatory variables) 表示,依變數如為計量變數,則稱為「連續反應變數」(continuous-response variable),反應變數為二個水準群組的因子變數,稱為「二元反應變數」(binary response variable)。與複迴歸程序相同,決策樹程序中的解釋變數如為間斷變數要轉換化為虛擬變數 (dummy variable)。
不同反應變數之變數屬性對應的預測分類統計程序如下表:
(表格)
分類中的決策樹 (decision tree) 依效標變數 (依變數/反應變數) 變數尺度不同,分成迴歸樹 (regression tree) 與分類樹 (classification tree),效標變數 (反應變數) 如為等距變數或比率變數 (計量變數),決策樹稱為迴歸樹,預測分類的結果為觀察值在效標變數的平均數;效標變數如為名義變數或次序變數 (間斷變數),決策樹稱為分類樹,預測分類的結果為觀察值在效標變數的水準群組或類別。書籍中的決策樹的依變數多以「反應變數」(response variable) 表示,預測變數以「解釋變數」(explanatory variables) 表示,依變數如為計量變數,則稱為「連續反應變數」(continuous-response variable),反應變數為二個水準群組的因子變數,稱為「二元反應變數」(binary response variable)。與複迴歸程序相同,決策樹程序中的解釋變數如為間斷變數要轉換化為虛擬變數 (dummy variable)。
不同反應變數之變數屬性對應的預測分類統計程序如下表:
(表格)
網路書店
類別
折扣
價格
-
新書9折$684
-
新書9折$684
-
新書9折$684
-
新書9折$684
-
新書93折$707
-
新書95折$722
-
新書95折$722