數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別???
↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜
數(shù)據(jù)挖掘(Data Mining)應(yīng)該是一門(mén)大家都聽(tīng)說(shuō)過(guò),但又不太容易說(shuō)清楚的課程。在數(shù)據(jù)科學(xué)領(lǐng)域,乃至在更大的計(jì)算機(jī)科學(xué)領(lǐng)域,數(shù)據(jù)挖掘就好比山東藍(lán)翔,大家不一定都知道挖掘機(jī)要怎么開(kāi),但一定都知道挖掘機(jī)技術(shù)到底哪家強(qiáng)。
不過(guò),知名度高也未必全是好事,尤其是啤酒尿布的故事太經(jīng)典,反而會(huì)讓大家以為這活很“高端”,離自己太遠(yuǎn),不會(huì)用也用不上。其實(shí),很多人未必學(xué)過(guò)數(shù)據(jù)挖掘,甚至可能沒(méi)有聽(tīng)過(guò)這四個(gè)字,但實(shí)際已經(jīng)早就開(kāi)始在進(jìn)行數(shù)據(jù)挖掘。譬如說(shuō)股民。
很多人說(shuō)今年的行情很有希望,要去學(xué)炒股。學(xué)炒股就是學(xué)股市中的數(shù)據(jù)挖掘,流派很多,譬如說(shuō)技術(shù)分析流,認(rèn)為K線(xiàn)圖或者其他什么圖,和股市后市走勢(shì)關(guān)系密切;價(jià)值投資流則認(rèn)為,通過(guò)一整套考察公司的指標(biāo)體系,才能更好地推測(cè)股票的未來(lái)價(jià)值;當(dāng)然也有一些旁門(mén)左道,譬如說(shuō)門(mén)口大媽流,就是看到門(mén)口賣(mài)菜的大媽開(kāi)始談?wù)摴善钡臅r(shí)候,說(shuō)明行情就見(jiàn)頂了,要趕緊抽身。不管你鐘情哪種方法,所要做的事都非常類(lèi)似,就是把從各種地方收集的信息,也就是“數(shù)據(jù)”,加以整理分析,挖掘出和你關(guān)心的對(duì)象的目標(biāo)關(guān)系。
這樣的例子還有很多,譬如數(shù)據(jù)挖掘非常非常常用的異常檢測(cè),別看這詞挺學(xué)術(shù),我舉個(gè)例子大家肯定就知道了,體檢。雖然這是個(gè)枸杞配啤酒的朋克養(yǎng)身時(shí)代,不過(guò)預(yù)防疾病還得靠體檢。但是,體檢的結(jié)果是一堆的指標(biāo)項(xiàng),是數(shù)值,但數(shù)值本身是不會(huì)告訴你身體有沒(méi)啥毛病,得首先有一個(gè)標(biāo)準(zhǔn)區(qū)間,然后發(fā)現(xiàn)指標(biāo)異常,接著還要建立指標(biāo)和疾病之間的關(guān)聯(lián)關(guān)系,完成了這些前期工作,最后才能通過(guò)體檢告訴你身體是不是還能再戰(zhàn)五百年。這些前期工作就是數(shù)據(jù)挖掘。說(shuō)回我們的老本行計(jì)算機(jī),異常就更多了,譬如說(shuō)WEB日志,經(jīng)常需要進(jìn)行異常檢測(cè)從而發(fā)現(xiàn)網(wǎng)絡(luò)入侵。
這都是數(shù)據(jù)挖掘。不是按某本名叫《數(shù)據(jù)挖掘》的書(shū)的某某方法依樣畫(huà)葫蘆才叫數(shù)據(jù)挖掘,正好相反,是大家在各種數(shù)據(jù)挖掘的實(shí)踐中形成了一些方法和工具,大家都覺(jué)得很好用,研究人員就加以收集整理,理清條理形成體系,才最終誕生了“數(shù)據(jù)挖掘”這門(mén)課。
當(dāng)你真的開(kāi)始去學(xué)數(shù)據(jù)挖掘,遇到的第一個(gè)問(wèn)題很可能是犯迷糊。數(shù)據(jù)科學(xué)領(lǐng)域有三朵金花,分別是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別,而數(shù)據(jù)挖掘的知識(shí)體系,和同樣非常熱門(mén)的機(jī)器學(xué)習(xí)以及模式識(shí)別有很高的重合度,那種感覺(jué),不是在同一賽道有三名選手,而更像是在三條賽道看到了同一名選手。當(dāng)然,就我的意見(jiàn),這三個(gè)名詞究竟存在怎樣的我心中有你你心中有Ta的復(fù)雜三角關(guān)系,其實(shí)一點(diǎn)也不影響學(xué)習(xí),畢竟有位紅帽白須的老爺爺曾經(jīng)說(shuō)過(guò),小孩子才做選擇,成年人當(dāng)然是全都學(xué)。三角關(guān)系越是復(fù)雜,要學(xué)的內(nèi)容越是分不清你我,總的學(xué)習(xí)成本反而會(huì)更低。
但是,問(wèn)題確實(shí)存在,不管看著有多像,但畢竟是有三個(gè)詞,加上“到底該學(xué)哪個(gè)”這類(lèi)的問(wèn)題常年盤(pán)踞提問(wèn)排行榜,這里我還是想嘗試先回答。首先要說(shuō)的是,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別三者并不存在什么無(wú)法逾越的鴻溝,經(jīng)常出現(xiàn)一個(gè)算法到處客串的情況,邊界越來(lái)越模糊已經(jīng)是肉眼可見(jiàn)的大趨勢(shì)。就核心內(nèi)容來(lái)看,機(jī)器學(xué)習(xí)主要是工具集,數(shù)據(jù)挖掘和模式識(shí)別,則是這套工具集的兩塊用武之地,所以,在學(xué)習(xí)數(shù)據(jù)挖掘和模式識(shí)別的課上,你不用意外,無(wú)論選用什么教材,肯定都會(huì)看到非常多機(jī)器學(xué)習(xí)的老面孔。
再說(shuō)模式識(shí)別。模式識(shí)別的重點(diǎn)在于兩個(gè)字,識(shí)別,所以一般的應(yīng)用形式都叫XX識(shí)別,譬如說(shuō)現(xiàn)在大家都很熟的人臉識(shí)別,往大了說(shuō)就是圖像識(shí)別。除了圖像,模式識(shí)別也研究其它各種數(shù)據(jù)形式,譬如音頻類(lèi)的語(yǔ)音識(shí)別,以及文本類(lèi)的自然語(yǔ)言識(shí)別,當(dāng)然,現(xiàn)在更習(xí)慣稱(chēng)之為自然語(yǔ)言理解。
最后回到我們今天的主角,數(shù)據(jù)挖掘。在寫(xiě)作時(shí),我很想找到一條對(duì)數(shù)據(jù)挖掘的形式化定義,讓大家能有一些具象的感覺(jué),翻了很多資料,最后也只能宣告放棄。不過(guò),這些資料雖然沒(méi)有,我姑且取個(gè)交集,結(jié)論大概是所謂的數(shù)據(jù)挖掘,就是在各種數(shù)據(jù)之中,通過(guò)一定的方法和工具,挖掘發(fā)現(xiàn)感興趣的知識(shí)。
歸結(jié)來(lái)說(shuō),數(shù)據(jù)挖掘就是要解決三個(gè)問(wèn)題,去哪挖、挖什么和怎么挖。下面我們就分三個(gè)部分分別介紹,數(shù)據(jù)挖掘是怎樣思考這三個(gè)問(wèn)題的。
數(shù)據(jù)挖掘數(shù)首先要解決的問(wèn)題自然就是“數(shù)據(jù)”的問(wèn)題,也就是去哪挖的問(wèn)題。很多人也許覺(jué)得,這算個(gè)啥問(wèn)題,數(shù)據(jù)挖掘數(shù)據(jù)挖掘,當(dāng)然就是去有“數(shù)據(jù)”的地方挖。我聽(tīng)過(guò)一些數(shù)據(jù)挖掘的課程,也參加過(guò)一些數(shù)據(jù)挖掘的比賽,給我的一個(gè)很深的感覺(jué)就是,數(shù)據(jù)是現(xiàn)成的,它就擺在那里,看得見(jiàn)摸得著,你要做的就是上家伙削它。
真的是這樣嗎?不對(duì)。數(shù)據(jù)在哪里是一個(gè)非常值得花時(shí)間仔細(xì)思考的問(wèn)題。很多書(shū)把數(shù)據(jù)挖掘稱(chēng)作數(shù)據(jù)掘金,這個(gè)比喻恰如其分,挖數(shù)據(jù)也好挖金子也罷,是不是可以隨便找個(gè)什么地方盤(pán)腿坐下,只要一套組合技高水平地施展完畢,金子就能“嘩”地蹦出地面?肯定不是。你要挖著金子,那個(gè)地方首先得有金子。在沒(méi)金子的地方挖金子,不管再怎么努力,用什么方法工具,都不可能挖到金子,因?yàn)檫@叫緣木求魚(yú)。
這個(gè)問(wèn)題許多書(shū)本都不太愛(ài)展開(kāi),確實(shí),數(shù)據(jù)挖掘和哈姆雷特差不多,一千個(gè)挖掘項(xiàng)目有一千種挖掘需求,怎么總結(jié)也很難避免落一個(gè)掛一漏萬(wàn)的結(jié)果。不過(guò),前面我們說(shuō)什么是數(shù)據(jù)挖掘的時(shí)候,舉了學(xué)炒股做例子,不妨多說(shuō)兩句,也許可以給大家?guī)?lái)一點(diǎn)思考。
我們說(shuō)炒股有很多流派,有技術(shù)分析流,有價(jià)值投資流,還有門(mén)口大媽流,這些流派要解決的都是同一個(gè)問(wèn)題,后市走勢(shì)問(wèn)題,但是,到底什么才和后市走勢(shì)相關(guān)、最好是密切相關(guān)呢?不同流派有不同看法,結(jié)果就是大家所選擇要去挖掘的數(shù)據(jù)并不相同,技術(shù)分析流看的是K線(xiàn)圖,價(jià)值投資流看的是公司運(yùn)營(yíng)情況,門(mén)口大媽流則選擇去看門(mén)口大媽。我們假設(shè)一個(gè)極端的情況,假設(shè)K線(xiàn)圖真的是像一些人說(shuō)的,準(zhǔn)確性還不如找猴子擲飛鏢來(lái)得高,也就是K線(xiàn)圖和后市走勢(shì)實(shí)際沒(méi)啥關(guān)系,那水平再高的大?;ㄔ俣嗟臅r(shí)間研究,最終也不可能從K線(xiàn)圖中找出真正有價(jià)值的信息。
去哪挖?去有金子的地方挖。
數(shù)據(jù)挖掘,挖的當(dāng)然是數(shù)據(jù)了。不過(guò),數(shù)據(jù)的形式有很多種。按數(shù)據(jù)類(lèi)型來(lái)分,數(shù)據(jù)挖掘主要處理非依賴(lài)性數(shù)據(jù)和依賴(lài)型數(shù)據(jù)。非依賴(lài)性數(shù)據(jù)相對(duì)簡(jiǎn)單,也就是我們通常所說(shuō)的“多維數(shù)據(jù)”,一條記錄包括多個(gè)項(xiàng)目。這么說(shuō)也許比較抽象,其實(shí)我們都見(jiàn)過(guò),回憶一下填過(guò)的各種表格,譬如說(shuō)報(bào)名表,需要填姓名、性別、年齡等等信息,這就是典型的多維數(shù)據(jù)
不過(guò),想也知道,這些不同的項(xiàng)目,里面的數(shù)據(jù)格式是不盡相同的。譬如說(shuō)姓名填寫(xiě)的是文本,性別通常是二選一,而年齡則是一個(gè)數(shù)字。在數(shù)據(jù)挖掘中,這些不同的格式也要區(qū)別對(duì)待。我看過(guò)一些數(shù)據(jù)挖掘的教材,把這些類(lèi)型分得很細(xì),充分體現(xiàn)了學(xué)術(shù)的嚴(yán)謹(jǐn)性。不過(guò)有些類(lèi)型的名字起得太學(xué)術(shù),還要對(duì)名字本身進(jìn)行解釋?zhuān)@樣文章篇幅就長(zhǎng)了。這里我按經(jīng)驗(yàn)整理,大致可以化為以下三種:
連續(xù)型數(shù)據(jù)。連續(xù)型數(shù)據(jù)首先是數(shù)值數(shù)據(jù),而“連續(xù)”是相對(duì)于“離散”而言的,數(shù)值序列中間不會(huì)出現(xiàn)中斷或者跳躍,譬如說(shuō)年齡、氣溫就是此類(lèi)。
離散型數(shù)據(jù)。離散型數(shù)據(jù)同樣也是數(shù)值數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)就是“不連續(xù)”的數(shù)據(jù)。你可能會(huì)好奇,什么樣的數(shù)據(jù)會(huì)不連續(xù)呢?很多,譬如說(shuō)性別,我們用0表示女,1表示男,那性別這一欄就要么是0要么是1,中間不會(huì)有其它的值,這就是典型的離散數(shù)據(jù)。
文本型數(shù)據(jù)。前面我們一直在強(qiáng)調(diào)數(shù)值數(shù)據(jù),但文本型數(shù)據(jù)在自然環(huán)境中同樣非常常見(jiàn),譬如說(shuō)姓名,又譬如說(shuō)前面提到的門(mén)口大媽流,這些都是以文本形式存儲(chǔ)的數(shù)據(jù)。不過(guò)眾所周知,文本型數(shù)據(jù)是沒(méi)法直接進(jìn)行計(jì)算的,一般需要通過(guò)轉(zhuǎn)換成向量來(lái)進(jìn)行分析。
非依賴(lài)型數(shù)據(jù)最大特點(diǎn)就是各個(gè)數(shù)據(jù)項(xiàng)彼此獨(dú)立,相互之間沒(méi)有依賴(lài)關(guān)系,不會(huì)“牽一發(fā)而動(dòng)全身”,所以操作難度相對(duì)較低。
說(shuō)完了非依賴(lài)型數(shù)據(jù),再說(shuō)說(shuō)依賴(lài)型數(shù)據(jù),所謂的“依賴(lài)”,也就是數(shù)據(jù)項(xiàng)之間存在某種關(guān)聯(lián)變化的關(guān)系,數(shù)據(jù)挖掘?qū)⑦@種關(guān)系又具體分為隱式依賴(lài)關(guān)系和顯示依賴(lài)關(guān)系,二者的區(qū)別在于前者的依賴(lài)比較含蓄,后者更加赤果果。但我覺(jué)得兩者邊界十分模糊,這里只說(shuō)“依賴(lài)”究竟是怎么一回事。
數(shù)據(jù)挖掘?qū)⒁蕾?lài)型數(shù)據(jù)分為以下三種:
序列數(shù)據(jù)。序列數(shù)據(jù)是可以再細(xì)分的,包括連續(xù)型序列數(shù)據(jù)和離散型序列數(shù)據(jù),但它們的特點(diǎn)都是明顯存在著上下文依賴(lài)關(guān)系,譬如說(shuō)最常見(jiàn)的時(shí)序數(shù)據(jù),也就是時(shí)間序列數(shù)據(jù)。這是一種連續(xù)型的序列數(shù)據(jù),上一個(gè)時(shí)間片和下一個(gè)時(shí)間片存在著顯式或隱式的依賴(lài)關(guān)系。我們?cè)谇懊嬉呀?jīng)介紹了一種序列數(shù)據(jù),K線(xiàn)圖。K線(xiàn)圖是典型的時(shí)序數(shù)據(jù),大家一般認(rèn)為,行情的當(dāng)前走勢(shì)和未來(lái)走勢(shì)是存在著某種依賴(lài)關(guān)系的,細(xì)分來(lái)說(shuō),是隱式依賴(lài)關(guān)系。
空間數(shù)據(jù)??臻g數(shù)據(jù)通常就是坐標(biāo)數(shù)據(jù),最容易聯(lián)想到地理位置坐標(biāo),也就是經(jīng)緯度,但“坐標(biāo)”的應(yīng)用非常廣泛,譬如說(shuō)宏觀經(jīng)濟(jì)的各種指標(biāo),不同的國(guó)家通過(guò)邏輯編碼,同樣可以構(gòu)成坐標(biāo)。就我的經(jīng)驗(yàn),空間數(shù)據(jù)經(jīng)常和時(shí)間密切關(guān)聯(lián),形成某種軌跡性質(zhì)的圖像,也叫時(shí)空數(shù)據(jù),和時(shí)序數(shù)據(jù)可能會(huì)存在交集。
圖數(shù)據(jù)。圖是計(jì)算機(jī)科學(xué)中很常用的一種數(shù)據(jù)結(jié)構(gòu),經(jīng)常用來(lái)表示幾個(gè)節(jié)點(diǎn)之間的關(guān)系,而在我們生活中也經(jīng)常能看到各種“關(guān)系圖”,所以,圖數(shù)據(jù)自然也是一種典型的依賴(lài)型數(shù)據(jù),而且往往是顯示依賴(lài)關(guān)系。
怎么挖是數(shù)據(jù)挖掘的重點(diǎn)內(nèi)容,有很多道工序,每一道工序展開(kāi)又能是一整套方法體系??偟膩?lái)說(shuō),數(shù)據(jù)挖掘有三大塊工序,數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析。
先說(shuō)這個(gè)數(shù)據(jù)采集吧,在很多人的直覺(jué)中,“數(shù)據(jù)”就是一個(gè)文件,它就歲月靜好地躺在那里,你寫(xiě)程序去讀了就好,許多數(shù)據(jù)比賽也強(qiáng)化了這一印象。但實(shí)際上,數(shù)據(jù)可能產(chǎn)生于多個(gè)不同的地方,譬如說(shuō)類(lèi)型完全不同的傳感器,又譬如說(shuō)各種不同的Web網(wǎng)站,火了很久還將火很久的大數(shù)據(jù),就是從Web開(kāi)始的。Web數(shù)據(jù)有最大的特點(diǎn)就是“大”,動(dòng)不動(dòng)就說(shuō)我?guī)酌氘a(chǎn)生多少個(gè)T的數(shù)據(jù),到底有多大不要問(wèn),問(wèn)就是海量。那海量數(shù)據(jù)采哪些怎么采、怎么存儲(chǔ)、流式數(shù)據(jù)怎么分析,每一步都是一個(gè)問(wèn)題,都需要你需要想各種辦法。完成數(shù)據(jù)采集,將各種所需數(shù)據(jù)存入數(shù)據(jù)庫(kù),這就形成了數(shù)據(jù)倉(cāng)庫(kù)。這是數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)預(yù)處理主要是特征提取和數(shù)據(jù)清洗,包括了對(duì)原始數(shù)據(jù)進(jìn)行類(lèi)型轉(zhuǎn)換、缺失值填補(bǔ)、將文本數(shù)據(jù)數(shù)據(jù)化向量化、縮放標(biāo)準(zhǔn)化等等等等。數(shù)據(jù)預(yù)處理將直接決定數(shù)據(jù)的最終質(zhì)量,對(duì)挖掘結(jié)果產(chǎn)生十分顯著的影響,有非常多的經(jīng)驗(yàn)和技巧,完全可以再寫(xiě)一篇文章。
最后才是數(shù)據(jù)分析。我剛學(xué)的時(shí)候,以為“數(shù)據(jù)挖掘”就是數(shù)據(jù)分析,相信很多朋友都有過(guò)同樣的誤會(huì),現(xiàn)在知道了,需要經(jīng)歷前面的千山萬(wàn)水才能走到這一步。但是,雖然在流程上,數(shù)據(jù)分析是最后一步,但這是最核心的一步,最終能挖到金子還是鉆石,還得靠這一步。在另一方面,到了數(shù)據(jù)分析階段,任務(wù)的背景相對(duì)就淡化了,而問(wèn)題的共性明顯增加,根據(jù)不同的問(wèn)題積累的工具和方法,也更加容易形成“套路”。所以,數(shù)據(jù)分析自然也是數(shù)據(jù)挖掘作為一門(mén)課程的重點(diǎn)章節(jié)。
數(shù)據(jù)挖掘都?xì)w納了哪些問(wèn)題呢?主要包括分類(lèi)問(wèn)題、聚類(lèi)問(wèn)題、關(guān)聯(lián)模式挖掘、關(guān)聯(lián)模式和異常檢測(cè)這四個(gè)大類(lèi),了解機(jī)器學(xué)習(xí)的朋友肯定很有親切感,分類(lèi)問(wèn)題和聚類(lèi)問(wèn)題是機(jī)器學(xué)習(xí)最經(jīng)典的兩大類(lèi)問(wèn)題,這就是數(shù)據(jù)挖掘?yàn)槭裁磿?huì)看到機(jī)器學(xué)習(xí)的內(nèi)容。這四個(gè)問(wèn)題還可以細(xì)分,譬如經(jīng)典的啤酒尿布,就是關(guān)聯(lián)模式問(wèn)題下的頻繁項(xiàng)挖掘問(wèn)題。這些問(wèn)題都有對(duì)應(yīng)的算法,不同的環(huán)境下又有不同的應(yīng)對(duì)方法。
這部分內(nèi)容很多,是數(shù)據(jù)挖掘的重頭戲,我推薦兩本書(shū),一本是韓家煒教授的《數(shù)據(jù)挖掘:概念與技術(shù)》,這是數(shù)據(jù)挖掘領(lǐng)域知名度最高、也是最經(jīng)典的一本教材,大家肯定不陌生。另一本則是新出的《數(shù)據(jù)挖掘:原理與實(shí)踐》,分為“基礎(chǔ)篇”和“進(jìn)階篇”,篇幅上就明顯增加,而且新書(shū)都有一個(gè)優(yōu)點(diǎn),補(bǔ)充了對(duì)新熱點(diǎn)的介紹,如怎樣挖掘圖數(shù)據(jù)和社交網(wǎng)站數(shù)據(jù),可以通過(guò)閱讀本書(shū)追蹤數(shù)據(jù)挖掘的最新進(jìn)展。

《數(shù)據(jù)挖掘:原理與實(shí)踐(基礎(chǔ)篇)》

作者:[美] 查魯·C. 阿加沃爾
譯者:王曉陽(yáng)、王建勇、禹曉輝、陳世敏
大數(shù)據(jù)和人工智能時(shí)代的數(shù)據(jù)挖掘教材和工具書(shū)。從四個(gè)“超級(jí)問(wèn)題”出發(fā),不僅詳解數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),而且還介紹高級(jí)數(shù)據(jù)類(lèi)型,結(jié)合復(fù)雜多樣的實(shí)際數(shù)據(jù)環(huán)境,探討數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景和使用方法。
本書(shū)中文版分為基礎(chǔ)篇和進(jìn)階篇。基礎(chǔ)篇(包括原書(shū)的第1-13章)詳細(xì)介紹了針對(duì)數(shù)據(jù)挖掘的四個(gè)主要問(wèn)題(聚類(lèi)、分類(lèi)、關(guān)聯(lián)模式挖掘和異常分析)的各種解決方法、用于文本數(shù)據(jù)領(lǐng)域的特定挖掘方法,以及對(duì)于數(shù)據(jù)流的挖掘應(yīng)用。

《數(shù)據(jù)挖掘:原理與實(shí)踐(進(jìn)階篇)》

作者:[美] 查魯·C. 阿加沃爾
譯者:王曉陽(yáng)、王建勇、禹曉輝、陳世敏
大數(shù)據(jù)和人工智能時(shí)代的數(shù)據(jù)挖掘教材和工具書(shū)。從四個(gè)“超級(jí)問(wèn)題”出發(fā),不僅詳解數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),而且還介紹高級(jí)數(shù)據(jù)類(lèi)型,結(jié)合復(fù)雜多樣的實(shí)際數(shù)據(jù)環(huán)境,探討數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景和使用方法。
進(jìn)階篇(包括原書(shū)的第14-20章)主要討論了用于不同數(shù)據(jù)領(lǐng)域(例如時(shí)序數(shù)據(jù)、序列數(shù)據(jù)、空間數(shù)據(jù)、圖數(shù)據(jù))的特定挖掘方法,以及重要的數(shù)據(jù)挖掘應(yīng)用(例如Web數(shù)據(jù)挖掘、排名、推薦、社交網(wǎng)絡(luò)分析和隱私保護(hù))。

《數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?shū)第2版)》

作者:[美]陳封能、邁克爾·斯坦巴赫等
譯者:段磊 張?zhí)鞈c 等
陳封能領(lǐng)銜編寫(xiě)的數(shù)據(jù)挖掘經(jīng)典暢銷(xiāo)教材新版
斯坦福大學(xué)、密歇根州立大學(xué)、明尼蘇達(dá)大學(xué)、得克薩斯大學(xué)等知名高校的數(shù)據(jù)挖掘課程教材。從基礎(chǔ)概念和算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。

《數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第3版)》

作者:(美)Jiawei Han、Micheline Kamber、Jian Pei
譯者:范明、孟小峰
數(shù)據(jù)挖掘領(lǐng)域最具里程碑意義的經(jīng)典著作,完整全面闡述該領(lǐng)域的重要知識(shí)和技術(shù)創(chuàng)新。
引入了許多算法和實(shí)現(xiàn)示例,全部以易于理解的偽代碼編寫(xiě),適用于實(shí)際的大規(guī)模數(shù)據(jù)挖掘項(xiàng)目。討論了一些高級(jí)主題,例如挖掘面向?qū)ο蟮年P(guān)系型數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、時(shí)間序列數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、萬(wàn)維網(wǎng)以及其他領(lǐng)域的應(yīng)用等。全面而實(shí)用地給出用于從海量數(shù)據(jù)中獲取盡可能多信息的概念和技術(shù)。
也可以加一下老胡的微信 圍觀朋友圈~~~
推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
100天搞定機(jī)器學(xué)習(xí)|Day1-62 合集 所以,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別是什么? 墻裂建議收藏,100道Python練手題目 老鐵,三連支持一下,好嗎?↓↓↓
