自從我和孟小峰等人翻譯J.Han和M.
Kamber的《數據挖掘︰概念與技術》以來,我們高興地看到數據挖掘的研究正在我國蓬勃開展。許多學者和研究人員都對這個新興的學科領域表現出,極大的興趣,他們之中不僅有來自數據庫領域的專家,而且不乏統計學、人工智能和模式識別、機器學習等領域的研究者。國內的學者和研究者在數據挖掘方面的研究已經取得了一些令人鼓舞的成果,並且正在逐漸與國際學術界同步。
數據挖掘的產生和發展,直是分析和理解數據的實際需求推動的。數據挖掘研究的進展也正是在于一直重視與其他領域研究者的合作。數據挖掘從工業、農業、醫療衛生和商業的需求中獲得動力,從統計學、機器學習等領域的長期研究與發展中汲取營養。我們相信,只要有理解數據的需求,就有推動數據挖掘研究與應用發展的動力︰只要依靠多學科的團隊,就能應對新的數據分析仃務帶來的挑戰。
P.Tan、M. Steinbach和V
Kumar編寫的這本《數據挖掘導論》是繼《數據挖掘︰概念與技術》一書之後的另‘本重要的數據挖掘著作。三位作者都從事數據挖掘研究多年,其中VipinKumar教授是數據挖掘和高性能計算領域的國際知名學者。本書原版在正式版之前就已經被斯坦福大學、得克薩斯大學奧斯汀分校等眾多名校采用。J.Han教授也高度評價該書︰“這是一本全新數據挖掘的教材,值得大力推薦。它將成為我們的主要參考書。”
本書不需要讀者具備數據庫背景,只需要少量統計學或數學背景知識,而且取材涉及的學科和應用領域較多,實用性強,因此適合的讀者面較廣。本書強調如何用數據挖掘知識解決各種實際問題,強調所挖掘的知識模式的評估。例如,就像我們能夠從天空中的白雲想象出各種動物和物體一樣,每個聚類算法能夠從幾乎所有的數據集中發現聚類。如果數據集合中根本不存在白然的簇,所產生的聚類很難說具有實際意義。
全書共分10章。範明負責第1—8章的翻譯,範宏建負責第9章和第10章的翻譯。蔣宏杰、賈玉祥、許紅濤和溫箐笛也參加本書的最初翻譯工作。全書的譯文由範明負責統‧定稿。在翻譯的過程中,對發現的錯誤進行了更正,並得到原書作者的確認。
感謝P.Tan、M. Steinbach和V Kumar為中文版撰寫序佔。感謝人民郵電出版社圖靈公司的編輯們,他們在第一時間內引進本書,並組織翻譯,使得中文版能夠如此之快地與讀者見面。
譯文中的錯誤和不當之處,敬請讀者朋友指正。意見和建議請發往
[email protected],希望讀者喜歡這本譯著,希望這本譯著有助于推動我國的數據挖掘研究與應用的深入開展。