數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。聽起來比較抽象,我們舉個例子。傍晚小街路面上沁出微雨后的濕潤,和煦的細風(fēng)吹來,抬頭看看天邊的晚霞,嗯,明天又是一個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜,心里期待著享受這個好瓜。由路面微濕、微風(fēng)、晚霞得出明天是個好天氣。根蒂蜷縮、敲聲濁響、色澤青綠推斷出這是個好瓜,顯然,我們是根據(jù)以往的經(jīng)驗來對未來或未知的事物做出預(yù)測。人可以根據(jù)經(jīng)驗對未來進行預(yù)測,那么機器能幫我們做這些嗎?能,這就是數(shù)據(jù)挖掘。“經(jīng)驗”通常以“數(shù)據(jù)”的形式存在,數(shù)據(jù)挖掘的任務(wù)就是從歷史數(shù)據(jù)(之前挑瓜的經(jīng)歷,注意是經(jīng)歷還不是經(jīng)驗)中挖掘出有用的“知識”,也就是所謂“模型”(現(xiàn)在就形成經(jīng)驗了),在面對新情況時(未拋開的瓜)模型就可以用來預(yù)測(是不是好瓜)。用高中生能理解的數(shù)學(xué)語言來講,數(shù)據(jù)挖掘建模任務(wù)的本質(zhì)就是,根據(jù)一些歷史已有的、從輸入空間 X(如 {[色澤青綠;根蒂蜷縮;敲聲濁響],[色澤烏黑;根蒂蜷縮;敲聲沉悶],[色澤淺白;根蒂硬挺;敲聲清脆]} )到輸出空間 Y(如 {好瓜,壞瓜,壞瓜})的對應(yīng),找出一個函數(shù) f,來描述這個對應(yīng)關(guān)系,這個函數(shù)就是我們要的模型。有了模型之后再做預(yù)測就簡單了,也就是拿一套新 x,用這個函數(shù)算一個 y 出來就完了。那么,模型又是怎么建立出來,也就是這個函數(shù)是怎么找出來的呢?想想如何讓一個人擁有判斷瓜好壞的能力呢?需要用一批瓜來練習(xí),獲取剖開前的特征(色澤、根蒂、敲聲等),然后再剖開它看好壞。久而久之,這個人就能學(xué)會用剖開前瓜的特征來判斷瓜的好壞了。樸素地想,用來練習(xí)的瓜越多,能夠獲得的經(jīng)驗也就越豐富,以后的判斷也就會越準確。用機器做數(shù)據(jù)挖掘是一樣的道理,我們需要使用歷史數(shù)據(jù)(用來練習(xí)的瓜)來建立模型,而建模過程也被稱為訓(xùn)練或?qū)W習(xí),這些歷史數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù)集。訓(xùn)練好了模型后,好像發(fā)現(xiàn)了數(shù)據(jù)的某種規(guī)律,就可以拿來做預(yù)測了。也就是說,數(shù)據(jù)挖掘是用來做預(yù)測的,而要做到這種預(yù)測,需要有足夠多已經(jīng)有結(jié)果的歷史數(shù)據(jù)為基礎(chǔ)。
數(shù)據(jù)挖掘能干什么
那么,這種預(yù)測技術(shù)如何應(yīng)用在我們的生產(chǎn)銷售過程中呢?以貸款業(yè)務(wù)為例,金融機構(gòu)要做風(fēng)險控制,防止壞帳,就要在放貸前知道這個貸款人將來不能按時還款的風(fēng)險,從而決定是否放貸以及貸款利率。要做到這件事,我們要有一定數(shù)量的歷史數(shù)據(jù),也就是以前貸款人及貸款業(yè)務(wù)的各種信息,比如貸款人的收入水平、受教育程度、居住地區(qū)、信用歷史、負債率等等可能會影響違約率的因素,還有貸款本身的金額、期限、利率等等。然后就可以使用數(shù)據(jù)挖掘技術(shù)建立模型來尋找用戶及貸款的各種信息 X 和是否會發(fā)生違約 Y 之間的關(guān)系。建好的模型可以用來預(yù)測,及時發(fā)現(xiàn)高風(fēng)險用戶。需要說明的,數(shù)據(jù)挖掘模型的預(yù)測并不能保證 100% 準確(比如再有經(jīng)驗的瓜農(nóng)也有選錯瓜的時候),如果只有一例目標(比如只有一筆貸款)需要預(yù)測時,那就沒有意義了。但通常,我們都會需要預(yù)測很多例目標,這樣即使不是每一例都能預(yù)測正確,但能保證一定的準確率,這仍然是很有意義的。對于貸款業(yè)務(wù),模型找出來的高風(fēng)險客戶未必都是真的,但準確率只要足夠高,仍然能夠有效的防范風(fēng)險。數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛,比如工業(yè)領(lǐng)域中可以根據(jù)歷史生產(chǎn)數(shù)據(jù)來預(yù)測良品情況,從而改進工藝參數(shù)降低不良率;畜牧業(yè)可以使用數(shù)據(jù)挖掘技術(shù)根據(jù)測量牲畜體溫來預(yù)測牲畜是否生病,從而提前防治;醫(yī)院也可以使用歷史醫(yī)療記錄基于數(shù)據(jù)挖掘技術(shù)找出關(guān)聯(lián)規(guī)律,幫助醫(yī)生更好地診斷疾病。總之,只要是有數(shù)據(jù)有場景幾乎都會考慮用數(shù)據(jù)挖掘解決某些問題。