基于R語(yǔ)言的自動(dòng)數(shù)據(jù)收集
本書(shū)由資深社會(huì)科學(xué)家撰寫,從社會(huì)科學(xué)研究角度系統(tǒng)且深入闡釋利用R語(yǔ)言進(jìn)行自動(dòng)化數(shù)據(jù)抓取和分析的工具、方法、原則和實(shí)踐。作者深入剖析自動(dòng)化數(shù)據(jù)抓取和分析各個(gè)層面的問(wèn)題,從網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)到網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱,重點(diǎn)闡釋利用R語(yǔ)言進(jìn)行自動(dòng)化數(shù)據(jù)抓取和分析,能為社會(huì)科學(xué)研究者與開(kāi)發(fā)人員設(shè)計(jì)、開(kāi)發(fā)、維護(hù)和優(yōu)化自動(dòng)化數(shù)據(jù)抓取和分析提供有效指導(dǎo)。
本書(shū)共17章,第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí),內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網(wǎng)絡(luò)文檔和數(shù)據(jù)集的基本技術(shù)(XPath和正則表達(dá)式)。第9~11章介紹網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱,其中第9章講解多種網(wǎng)絡(luò)抓取技術(shù),涉及正則表達(dá)式的使用、XPath、各類API接口、其他...
本書(shū)由資深社會(huì)科學(xué)家撰寫,從社會(huì)科學(xué)研究角度系統(tǒng)且深入闡釋利用R語(yǔ)言進(jìn)行自動(dòng)化數(shù)據(jù)抓取和分析的工具、方法、原則和實(shí)踐。作者深入剖析自動(dòng)化數(shù)據(jù)抓取和分析各個(gè)層面的問(wèn)題,從網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)到網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱,重點(diǎn)闡釋利用R語(yǔ)言進(jìn)行自動(dòng)化數(shù)據(jù)抓取和分析,能為社會(huì)科學(xué)研究者與開(kāi)發(fā)人員設(shè)計(jì)、開(kāi)發(fā)、維護(hù)和優(yōu)化自動(dòng)化數(shù)據(jù)抓取和分析提供有效指導(dǎo)。
本書(shū)共17章,第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí),內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網(wǎng)絡(luò)文檔和數(shù)據(jù)集的基本技術(shù)(XPath和正則表達(dá)式)。第9~11章介紹網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱,其中第9章講解多種網(wǎng)絡(luò)抓取技術(shù),涉及正則表達(dá)式的使用、XPath、各類API接口、其他數(shù)據(jù)類型以及開(kāi)源社區(qū)相關(guān)的技術(shù);第10章深入介紹用于統(tǒng)計(jì)性文本處理的技術(shù);第11章給出關(guān)于用R管理數(shù)據(jù)的項(xiàng)目中常見(jiàn)問(wèn)題的一些見(jiàn)解。第12~17章介紹實(shí)際案例分析,涉及美國(guó)參議院里的合作網(wǎng)絡(luò)、從半結(jié)構(gòu)化文檔解析信息、利用Twitter預(yù)測(cè)2014年奧斯卡獎(jiǎng)、繪制姓氏地理分布圖、采集關(guān)于手機(jī)的數(shù)據(jù)、分析產(chǎn)品評(píng)論里的情緒等。這些案例分析針對(duì)日常的數(shù)據(jù)抓取和文本處理的工作流程、真實(shí)環(huán)境數(shù)據(jù)中的陷阱以及規(guī)避它們的方法等問(wèn)題提供一些實(shí)用的見(jiàn)解。
