Google就是這樣猜中你的心:用機器學習及演算法分析文字語意

Google就是這樣猜中你的心:用機器學習及演算法分析文字語意
定價:490
NT $ 387 ~ 476
  • 作者:祁瑞華
  • 出版社:佳魁資訊
  • 出版日期:2016-10-31
  • 語言:繁體中文
  • ISBN10:9863794279
  • ISBN13:9789863794271
  • 裝訂:平裝 / 224頁 / 17 x 23 cm / 普通級 / 單色印刷 / 初版
 

內容簡介

  各企業資料集普遍存在資料不完整的情況。據統計,在機器學習和資料採擷應用過程中,不完整資料的前置處理花費大量的時間和精力。不完整資料處理是現實世界中分類知識採擷必須認真考慮和對待的重要問題。有效地處理不完整資料有助於更加充分地利用已經搜集到的資料,進一步加強機器學習和資料採擷的效率。

  本書即探討不完整資料分類演算法的改進策略,及其在文體風格識別中的應用。
 

目錄

前言

Chapter 01 概述
1.1 分類知識發現
1.1.1 知識發現的概念和過程
1.1.2 資料採擷中的知識表示模式
1.1.3 分類知識發現主要演算法
1.1.4 不完整資料分類知識發現
1.2 文字挖掘
1.3 本書內容組織

Chapter 02 不完整資料分類演算法研究
2.1 不完整資料分類知識發現
2.1.1 不完整資料的型態
2.1.2 不完整資料的處理
2.1.3 不完整資料分類演算法
2.1.4 穩固貝氏分類
2.1.5 單純信念分類
2.2 對現有方法的思考
2.2.1 單純信念分類演算法的加權假設簡單
2.2.2 缺乏屬性資料和類別標記同時缺失情況下分類知識發現的研究
2.2.3 半監督演算法的效率問題
2.3 不完整資料加權單純信念分類演算法
2.3.1 相關分析及相關係數
2.3.2 加權保守推理規則
2.3.3 加權單純信念演算法分類過程
2.4 標準資料集UCI 上的比較實驗
2.4.1 實驗資料集及實驗設計
2.4.2 實驗結果分析
2.5 本章小結

Chapter 03 兩階段半監督加權單純信念分類演算法研究
3.1 半監督分類知識發現研究現狀
3.2 問題分析
3.2.1 未標記樣本在分類學習中的作用
3.2.2 現有半監督分類方法分析
3.3 兩階段分類方法相關想法
3.3.1 以規則模型為基礎的兩階段分類
3.3.2 兩階段半監督文字分類
3.4 兩階段半監督加權單純信念分類
3.4.1 TSS-WNC 分類主要過程
3.4.2 時間複雜度分析
3.5 在標準資料集UCI 上的實驗
3.5.1 分類比較實驗
3.5.2 實驗結果及分析
3.6 本章小結

Chapter 04 放鬆區間優勢的單純信念分類演算法研究
4.1 問題分析
4.2 區間優勢比較
4.3 以放鬆區間優勢推理規則為基礎的不完整資料分類
4.3.1 放鬆的區間優勢
4.3.2 放鬆的區間優勢推理規則
4.3.3 以放鬆區間優勢推理規則為基礎的分類過程
4.4 在標準資料集UCI 上的實驗
4.4.1 RCIR-NCC 分類比較實驗
4.4.2 實驗結果分析
4.5 本章小結

Chapter 05 典籍英譯文體風格識別研究
5.1 文體風格特徵
5.2 文體風格識別演算法
5.3 典籍英譯文體風格向量空間模型
5.3.1 典籍英譯語料特點
5.3.2 典籍英譯多層面文體風格模型
5.4 文體風格特徵選擇
5.4.1 資訊增益
5.4.2 χ2 統計量
5.4.3 典籍英譯文體風格識別特徵選擇
5.5 特徵資料項目缺失文體識別實驗
5.5.1 加權單純信念文體風格識別實驗
5.5.2 兩階段半監督文體風格識別實驗
5.5.3 放鬆區間優勢單純信念文體風格識別實驗
5.5.4 類別不平衡文體識別實驗
5.6 本章小結

Chapter06 基於特徵缺失補償最大熵模型的文字分類
6.1 最大熵模型
6.2 以Gaussian 先驗平滑特徵補償為基礎的最大熵模型
6.3 混合特徵選擇演算法
6.4 以特徵缺失補償最大熵模型為基礎的文字分類
6.5 本章小結

Chapter 07 以文字分析為基礎的網路輿情研究
7.1 以微博為基礎的網路輿情指標系統
7.1.1 網路輿情指標系統
7.1.2 以微博為基礎的網路輿情指標系統
7.1.3 微博輿情預警對策
7.2 以關鍵字為基礎的微博輿情傳播規律
7.2.1 網路輿情傳播規律
7.2.2 微博網路輿情傳播規律和對策
7.3 以關鍵字為基礎的網路輿情個案研究
7.3.1 個案研究環境及實驗資料
7.3.2 大連地區搶鹽潮個案分析
7.4 微博輿情的跨語言特徵
7.4.1 跨語言微博特徵表示
7.4.2 跨語言微博輿情預警研究架構
7.5 網路文字情感傾向
7.5.1 網路文字情感分析粒度
7.5.2 網路文字情感分析基本問題
7.5.3 網路文字情感分析前端問題
7.5.4 網路文字情感分析研究架構
7.6 本章小結

Appendix A 參考文獻
 
 

前言

  各企業資料集普遍存在資料不完整的情況。據統計,在機器學習和資料採擷應用過程中,不完整資料的前置處理花費大量的時間和精力。不完整資料處理是現實世界中分類知識採擷必須認真考慮和對待的重要問題。有效地處理不完整資料有助於更加充分地利用已經搜集到的資料,進一步加強機器學習和資料採擷的效率,探索不完整資料的分類知識採擷具有重要的現實意義。

  本書探討了不完整資料分類演算法的改進策略,第1 章為不完整資料知識發現研究背景概述,第2 章針對單純信念分類演算法忽略了屬性變數的投票加權,提出了以相關係數為基礎的加權保守推理規則;第3 章針對目前半監督分類演算法中未考慮缺失屬性資料項目隱含資訊和演算法複雜度高的情況,提出兩階段半監督加權單純信念分類模型;第4 章針對單純信念分類演算法明確分類樣本比例低的情況,提出以放鬆區間優勢為基礎的不完整資料分類模型。並均在國際公開標準資料集上進行了比較實驗,驗證了提出模型在不完整資料上進行分類知識發現的效能。

  典籍英譯本的文體風格識別在對外作品推薦、匿名作者識別和促進中外文化交流方面具有重要的意義。本書第5 章選擇典籍英譯作品作為研究物件,進行以不完整資料分類演算法為基礎的文體風格識別應用研究,進一步驗證了本書提出的模型方法的有效性和效能。

  本書第6 章嘗試在最大熵文字分類模型中使用高斯平滑進行特徵補償,並提出混合的特徵選擇方法對傳統的特徵選擇方法進行改進。實驗結果顯示,以特徵缺失補償最大熵模型為基礎的分類器的綜合性能較好。

  本書第7 章以微博為基礎的網路輿情指標系統,分析以關鍵字為基礎的微博輿情傳播規律,進行了以關鍵字為基礎的網路輿情個案研究;同時探討網路文字的多語言特性,分析網路文字情感分析粒度、基本問題、前端問題和研究架構。

  本書可以作為資料採擷或文字分析領域的研究人員及相關專業系所學生開展文字分析與處理研究的教科書,也可以作為政府相關部門產品研發人員的參考書。

  本書能夠儘快完成出版,首先要感謝我的同事霍躍紅老師,本書的研究思想的起源來自與霍躍紅老師的探討合作,她無私提供了典籍英譯文字語料;感謝劉彩虹老師、郭旭老師等,以及參與資料收集和整理的同學們,本書的許多專題研究都與他們有深入的討論。還要感謝清華大學出版社的編輯,是他才使得本書得以順利出版。最後感謝在本書中所參考文獻的作者們和公開語料庫的開發者們,本書的寫作從他們的研究成果中獲得了很多營養,正是他們勤奮和分享的科學研究精神引領和啟發我完成本書的寫作。

  本書研究獲得大連外國語大學學術專著出版資助,2014 年大連外國語大學學科建設專項經費資助,特此表示感謝。

  雖然我始終以認真嚴謹的態度對待本書的撰寫工作,但很多研究尚屬於探索階段,書中難免有不足之處,懇請讀者們批評指正!

祁瑞華
網路書店 類別 折扣 價格
  1. 新書
    79
    $387
  2. 新書
    79
    $387
  3. 新書
    85
    $417
  4. 新書
    9
    $441
  5. 新書
    9
    $441
  6. 新書
    9
    $441
  7. 新書
    97
    $476