數(shù)據(jù)挖掘原理
很多學(xué)科都面臨著一個普遍問題:如何存儲、訪問異常龐大的數(shù)據(jù)集,并用模型來描述和理解它們?這些問題使得人們對數(shù)據(jù)挖掘技術(shù)的興趣不斷增強(qiáng)。長期以來,很多相互獨(dú)立的不同學(xué)科分別致力于數(shù)據(jù)挖掘的各個方面。本書把信息科學(xué)、計算科學(xué)和統(tǒng)計學(xué)在數(shù)據(jù)挖掘方面的應(yīng)用融合在一起,是第一本真正和跨學(xué)科教材。
本書由三部分構(gòu)成。第一部分是基礎(chǔ),介紹了數(shù)據(jù)挖掘算法及其應(yīng)用所依賴的基本原理。講座方法直觀易懂,深入淺出。第二部分是數(shù)據(jù)挖掘算法,系統(tǒng)講座了如何構(gòu)建求解特定問題的不同算法。講座的內(nèi)容包括用于分類和回歸的樹及規(guī)則、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)、傳統(tǒng)統(tǒng)計模型,以及各種非線性模型,比如神經(jīng)網(wǎng)絡(luò)和“基于記憶”的局部模型。第三部分介紹了如何應(yīng)用前面講座的算法和原理來解決現(xiàn)實(shí)世界中的數(shù)據(jù)挖掘問題。談到的問題包括元數(shù)據(jù)的作用,如何處理殘缺數(shù)據(jù),以及數(shù)據(jù)預(yù)處理。
David Hand是倫敦帝國大學(xué)數(shù)學(xué)系統(tǒng)計學(xué)教授。Heikki Mannila是赫爾辛基工業(yè)大學(xué)計算科學(xué)與工程系的教授,諾基亞研究中心的研究員。Padhraic Smyth是加州大學(xué)Irvine分校信息與計算科學(xué)系的副教授。
