<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          我的新書《R語言數(shù)據(jù)分析、挖掘建模和可視化》出版上市啦!

          共 6700字,需瀏覽 14分鐘

           ·

          2021-01-15 06:35

          出發(fā)點




          2018年年初開始了處女作的編寫,并在當(dāng)年10月上線《從零開始學(xué)Python數(shù)據(jù)分析與挖掘》。在編寫處女作的同時也在想另一件事,Python更多的應(yīng)用于企業(yè)界,而教育領(lǐng)域的統(tǒng)計學(xué)專業(yè),還更多地基于R語言實現(xiàn)統(tǒng)計應(yīng)用和計算。所以特地基于R語言重新寫了《從零開始學(xué)Python數(shù)據(jù)分析與挖掘》姊妹篇《R語言數(shù)據(jù)分析、挖掘建模和可視化》,并在2021年1月份上線。希望本著作能夠展現(xiàn)給更多的朋友,在讀者朋友的平時學(xué)習(xí)和工作中起到輔助和參考效果。


          內(nèi)容簡介




          第一部分(第1~4章)介紹R語言的一些基礎(chǔ)知識和使用技巧,內(nèi)容包含R語言中的數(shù)據(jù)結(jié)構(gòu)、控制流語句和自定義函數(shù)、apply簇函數(shù)的使用、外部數(shù)據(jù)的讀取、數(shù)據(jù)的清洗和整理以及正則表達(dá)式的使用。


          第二部分(第5、6章)重點介紹繪圖包ggplot2的使用,詳細(xì)講解各種統(tǒng)計圖形的繪制方法(如條形圖、環(huán)形圖、瓦片圖、直方圖、小提琴圖、折線圖、面積圖、散點圖、地圖等),以及圖形繪制過程中的微調(diào)策略(如圖例位置的擺放、自定義顏色的調(diào)整、圖形形狀的選擇以及多圖形的組合等)。


          第三部分(第7~15章)一共包含了10種數(shù)據(jù)挖掘算法的應(yīng)用,如線性回歸、決策樹、支持向量機(jī)、GBDT等。采用通俗易懂的手法介紹每一個挖掘算法的理論知識,并借助于具體的項目數(shù)據(jù)完成算法的實戰(zhàn)。本部分內(nèi)容既可以提高數(shù)據(jù)分析與挖掘的水平和技能,也可以作為數(shù)據(jù)挖掘算法實操的模板。

          詳細(xì)目錄

          下拉查看詳細(xì)目錄

          第1章? R語言的必備基礎(chǔ)知識 1

          1.1? R語言簡介 1

          1.2? R軟件的下載與安裝 2

          1.3? 第三方包的下載與加載 4

          1.3.1? 手動下載法 4

          1.3.2? 代碼下載法 4

          1.3.3? 第三方包的加載 5

          1.4? 如何查看幫助文檔 6

          1.4.1? 知包知函數(shù)——help函數(shù) 6

          1.4.2? 知函數(shù)未知包——help.search函數(shù) 6

          1.4.3? 知包未知函數(shù)——apropos函數(shù) 7

          1.4.4? 未知函數(shù)未知包——RSiteSearch函數(shù) 8

          1.5? R語言中的數(shù)據(jù)結(jié)構(gòu) 9

          1.5.1? 向量的創(chuàng)建 9

          1.5.2? 向量元素的獲取 13

          1.5.3? 基于向量的數(shù)據(jù)類型轉(zhuǎn)換 15

          1.5.4? 向量的因子化轉(zhuǎn)換 18

          1.5.5? 基于向量的常用函數(shù) 20

          1.6? 矩陣的構(gòu)造 21

          1.6.1? 矩陣索引的使用 23

          1.6.2? 基于矩陣運(yùn)算的常用函數(shù) 24

          1.7? 數(shù)據(jù)框的構(gòu)造及常用函數(shù) 24

          1.7.1? 構(gòu)造數(shù)據(jù)框 24

          1.7.2? 基于數(shù)據(jù)框的常用函數(shù) 26

          1.8? 列表的構(gòu)造及索引的使用 30

          1.8.1? 列表的構(gòu)造 30

          1.8.2? 列表索引的使用 31

          1.9? 控制流語句及自定義函數(shù) 31

          1.9.1? if分支 32

          1.9.2? for循環(huán) 33

          1.9.3? while循環(huán) 35

          1.10? R語言中的自定義函數(shù) 37

          1.11? 巧用apply簇函數(shù) 38

          1.11.1? tapply函數(shù)的使用 38

          1.11.2? apply函數(shù)的使用 40

          1.11.3? lapply與sapply函數(shù)的使用 42

          1.12? 教你一個爬蟲項目 44

          1.13? 篇章總結(jié) 46


          第2章? 數(shù)據(jù)的讀寫操作 47

          2.1? 文本文件數(shù)據(jù)的讀取 47

          2.1.1? csv或txt格式的數(shù)據(jù)讀入 47

          2.1.2? Json格式的數(shù)據(jù)讀入 53

          2.2? Excel數(shù)據(jù)的讀取 56

          2.2.1? xlsx包讀取Excel數(shù)據(jù) 56

          2.2.2? readxl包讀取Excel數(shù)據(jù) 60

          2.3? 數(shù)據(jù)庫數(shù)據(jù)的讀取 63

          2.3.1? 讀取MySQL數(shù)據(jù)庫 63

          2.3.2? 讀取SQL Server數(shù)據(jù)庫 66

          2.4? 幾種常見的數(shù)據(jù)寫出格式 70

          2.4.1? 寫出至文本文件 70

          2.4.2? 寫出至電子表格Excel 71

          2.4.3? 寫出至數(shù)據(jù)庫 73

          2.5? 篇章總結(jié) 74


          第3章? 數(shù)據(jù)的清洗與管理 76

          3.1? 重復(fù)記錄的識別和處理 77

          3.2? 缺失值的識別 79

          3.3? 缺失值的處理辦法 82

          3.3.1? 刪除法 82

          3.3.2? 替換法 83

          3.3.3? 插補(bǔ)法 84

          3.4? 異常值的識別和處理 86

          3.4.1? 基于分位數(shù)法識別異常值 86

          3.4.2? 基于σ方法識別異常值 88

          3.4.3? 基于模型法識別異常值 90

          3.4.4? 異常值的處理辦法 92

          3.5? 數(shù)據(jù)形狀的重塑 93

          3.5.1? reshape2包 93

          3.5.2? Tidyr包 96

          3.6? 數(shù)據(jù)的聚合操作 97

          3.6.1? 基于aggregate函數(shù)的聚合 97

          3.6.2? 基于sqldf函數(shù)的聚合 99

          3.6.3? 基于group_by和summarize函數(shù)的聚合 101

          3.7? 數(shù)據(jù)的合并與連接 102

          3.7.1? 基于bind_rows函數(shù)的數(shù)據(jù)合并 102

          3.7.2? 基于*_join函數(shù)的數(shù)據(jù)連接 104

          3.8? 幾種常用的抽樣技術(shù) 106

          3.8.1? 簡單隨機(jī)抽樣 106

          3.8.2? 分層抽樣 107

          3.8.3? 整群抽樣 108

          3.9? 篇章總結(jié) 109


          第4章? 基于正則表達(dá)式的字符串處理技術(shù) 111

          4.1? 基于字符串位置的處理技術(shù) 112

          4.1.1? 數(shù)據(jù)截斷——特定位置的子串獲取 112

          4.1.2? 數(shù)據(jù)清洗——非常規(guī)的字符型轉(zhuǎn)數(shù)值型 114

          4.1.3? 數(shù)據(jù)清洗——字符串子串的隱藏 116

          4.2? 正則表達(dá)式的定義及用途 117

          4.2.1? 什么是正則表達(dá)式 117

          4.2.2? 正則表達(dá)式的常見用法 118

          4.3? 基于正則的單字符匹配 118

          4.3.1? 從靜態(tài)文本的匹配開始 118

          4.3.2? 任意單字符的匹配 121

          4.3.3? 指定字符集的匹配 122

          4.4? 字符匹配次數(shù)的設(shè)置 125

          4.4.1? 無上限的次數(shù)匹配 125

          4.4.2? 有限次數(shù)的匹配 128

          4.5? 其他正則符號的使用 131

          4.6? 篇章總結(jié) 132


          第5章? 數(shù)據(jù)可視化技術(shù)的應(yīng)用 134

          5.1? 條形圖的繪制 136

          5.2? 餅圖與環(huán)形圖的繪制 140

          5.3? 矩形圖與瓦片圖的繪制 141

          5.4? 直方圖與頻次多邊形圖的繪制 144

          5.5? 箱線圖與小提琴圖的繪制 147

          5.6? 折線圖與階梯圖的繪制 150

          5.7? 面積圖與帶狀圖的繪制 153

          5.8? 散點圖及氣泡圖的繪制 155

          5.9? 區(qū)塊頻次圖的繪制 160

          5.10? 核密度圖的繪制 163

          5.11? QQ圖的繪制 165

          5.12? 篇章總結(jié) 166


          第6章? 可視化圖形的個性化調(diào)整 169

          6.1? 分面圖與組合圖的繪制 169

          6.2? 參考線和文本標(biāo)簽的添加 175

          6.3? 軸系統(tǒng)coord_*的設(shè)置 180

          6.4? 尺度scale_*的設(shè)置 182

          6.5? 顏色、形狀和線條類型的自定義設(shè)置 189

          6.6? 圖形主題的設(shè)置 191

          6.7? 有關(guān)圖例布局的調(diào)整 195

          6.8? 篇章總結(jié) 199


          第7章? 線性回歸模型的預(yù)測應(yīng)用 201

          7.1? 相關(guān)性分析 201

          7.2? 回歸性分析 202

          7.3? 線性回歸模型的介紹 203

          7.4? 回歸系數(shù)求解 204

          7.4.1? 構(gòu)造似然函數(shù) 205

          7.4.2? 取對數(shù)并整理 205

          7.4.3? 展開并求導(dǎo) 206

          7.4.4? 計算偏回歸系數(shù) 206

          7.5? 實戰(zhàn)案例——如何基于成本預(yù)測利潤 206

          7.6? 模型的顯著性檢驗——F檢驗 210

          7.6.1? 提出假設(shè) 210

          7.6.2? 構(gòu)造統(tǒng)計量 210

          7.6.3? 計算統(tǒng)計量 211

          7.6.4? 對比統(tǒng)計量的值和理論分布值 212

          7.7? 參數(shù)的顯著性檢驗——t檢驗 212

          7.7.1? 提出假設(shè) 212

          7.7.2? 構(gòu)造統(tǒng)計量 213

          7.7.3? 計算統(tǒng)計量 213

          7.7.4? 對比統(tǒng)計量的值和理論分布值 214

          7.8? 變量選擇——逐步回歸法 214

          7.9? 驗證模型的各類假設(shè)前提 216

          7.9.1? 多重共線性檢驗 216

          7.9.2? 正態(tài)性檢驗 217

          7.9.3? 獨(dú)立性檢驗 220

          7.9.4? 方差齊性檢驗 220

          7.10? 模型的預(yù)測 222

          7.11? 篇章總結(jié) 223


          第8章? 嶺回歸與LASSO回歸模型 225

          8.1? 嶺回歸模型的介紹 225

          8.1.1? 參數(shù)求解 226

          8.1.2? 系數(shù)求解的幾何意義 227

          8.1.3? 嶺回歸模型的應(yīng)用 228

          8.1.4? 模型的預(yù)測 234

          8.2? LASSO回歸模型的介紹 235

          8.2.1? 參數(shù)求解 236

          8.2.2? 系數(shù)求解的幾何意義 237

          8.2.3? LASSO回歸模型的應(yīng)用 238

          8.2.4? 模型的預(yù)測 240

          8.3? 篇章總結(jié) 242


          第9章? Logistic回歸模型的分類應(yīng)用 244

          9.1? Logistic回歸模型的構(gòu)建 245

          9.2? Logistic回歸模型的參數(shù)求解 247

          9.2.1? 極大似然估計 247

          9.2.2? 梯度下降 249

          9.3? Logistic回歸模型的參數(shù)解釋 249

          9.4? 幾種常用的模型評估方法 250

          9.4.1? 混淆矩陣 250

          9.4.2? ROC曲線 251

          9.4.3? K-S曲線 253

          9.5? Logistic回歸模型的應(yīng)用 256

          9.5.1? 建模 256

          9.5.2? 預(yù)測 259

          9.5.3? 模型評估 260

          9.6? 篇章總結(jié) 262


          第10章? 決策樹與隨機(jī)森林的應(yīng)用 264

          10.1? 節(jié)點字段的選擇 265

          10.1.1? 信息增益 266

          10.1.2? 信息增益率 268

          10.1.3? 基尼指數(shù) 270

          10.2? 決策樹的剪枝 272

          10.2.1? 誤差降低剪枝法 272

          10.2.2? 悲觀剪枝法 273

          10.2.3? 代價復(fù)雜度剪枝法 274

          10.3? 隨機(jī)森林 276

          10.3.1? 隨機(jī)森林的思想 277

          10.3.2? 隨機(jī)森林的函數(shù)說明 278

          10.4? 決策樹與隨機(jī)森林的應(yīng)用 279

          10.4.1? 分類問題的應(yīng)用 280

          10.4.2? 預(yù)測問題的應(yīng)用 287

          10.5? 篇章總結(jié) 290


          第11章? KNN模型 292

          11.1? KNN算法的思想 292

          11.2? 最佳k值的選擇 293

          11.3? 相似度的度量方法 294

          11.3.1? 歐氏距離 294

          11.3.2? 曼哈頓距離 295

          11.3.3? 余弦相似度 295

          11.3.4? 杰卡德相似系數(shù) 296

          11.4? 近鄰樣本的搜尋方法 297

          11.4.1? KD樹搜尋法 297

          11.4.2? 球樹搜尋法 301

          11.5? KNN模型的應(yīng)用 303

          11.5.1? 分類問題的判別 304

          11.5.2? 預(yù)測性問題的解決 309

          11.6? 篇章總結(jié) 312


          第12章? 樸素貝葉斯模型 314

          12.1? 樸素貝葉斯理論基礎(chǔ) 315

          12.2? 幾種貝葉斯模型 316

          12.2.1? 高斯貝葉斯分類器 316

          12.2.2? 高斯貝葉斯分類器的應(yīng)用 318

          12.2.3? 多項式貝葉斯分類器 322

          12.2.4? 多項式貝葉斯分類器的應(yīng)用 324

          12.2.5? 伯努利貝葉斯分類器 327

          12.2.6? 伯努利貝葉斯分類器的應(yīng)用 329

          12.3? 篇章總結(jié) 335


          第13章? SVM模型 337

          13.1? SVM的簡介 338

          13.1.1? 距離公式的介紹 339

          13.1.2? SVM的實現(xiàn)思想 339

          13.2? 幾種常見的SVM模型 341

          13.2.1? 線性可分的SVM 341

          13.2.2? 一個手工計算的案例 344

          13.2.3? 近似線性可分SVM 346

          13.2.4? 線性SVM的損失函數(shù) 348

          13.2.5? 非線性可分SVM 349

          12.2.6? 幾種常用的SVM核函數(shù) 351

          12.2.7? SVM的回歸預(yù)測 352

          12.2.8? R語言函數(shù)介紹 353

          13.3? 分類性SVM模型的應(yīng)用—手寫字母的識別 355

          13.4? 預(yù)測性SVM回歸模型的應(yīng)用—受災(zāi)面積的預(yù)測 358

          13.5? 篇章總結(jié) 361


          第14章? GBDT模型 363

          14.1? 提升樹算法 364

          14.1.1? AdaBoost算法的損失函數(shù) 364

          14.1.2? AdaBoost算法的操作步驟 366

          14.1.3? AdaBoost算法的簡單例子 367

          14.1.4? AdaBoost算法的應(yīng)用 369

          14.2? GBDT算法的介紹 375

          14.2.1? GBDT算法的操作步驟 375

          14.2.2? GBDT分類算法 376

          14.2.3? GBDT回歸算法 377

          14.2.4? GBDT算法的應(yīng)用 378

          14.3? 非平衡數(shù)據(jù)的處理 382

          14.4? XGBoost算法 384

          14.4.1? XGBoost算法的損失函數(shù) 384

          14.4.2? 損失函數(shù)的演變 386

          14.4.3? XGBoost算法的應(yīng)用 388

          14.5? 篇章總結(jié) 394


          第15章? Kmeans聚類分析 396

          15.1? Kmeans聚類 397

          15.1.1? Kmeans的思想 397

          15.1.2? Kmeans的原理 398

          15.2? 最佳k值的確定 399

          15.2.1? 拐點法 400

          15.2.2? 輪廓系數(shù)法 402

          15.2.3? Gap Statistic 404

          15.3? Kmeans聚類的應(yīng)用 407

          15.3.1? 鳶尾花類別的聚類 407

          15.3.2? 基于NBA球員歷史參賽數(shù)據(jù)的聚類 410

          15.4? Kmeans聚類的注意事項 415

          15.5? 篇章總結(jié) 416


          專家推薦

          下拉查看詳細(xì)推薦語

          ?本書從數(shù)據(jù)分析的流程和應(yīng)具備的核心技能出發(fā)引導(dǎo)初學(xué)者進(jìn)行數(shù)據(jù)的探索與價值的發(fā)現(xiàn),是一本想通過以R為基礎(chǔ)系統(tǒng)學(xué)習(xí)數(shù)據(jù)挖掘知識和常用算法成為一名優(yōu)秀數(shù)據(jù)分析師不可或缺的參考書。本書是作者《從零開始學(xué)習(xí)Python數(shù)據(jù)分析與挖掘》的姐妹篇,對于將來想通過Python進(jìn)一步學(xué)習(xí)機(jī)器學(xué)習(xí)的讀者定會起到事半功倍的作用。

          --------華東師范大學(xué)統(tǒng)計學(xué)院教授,博士生導(dǎo)師; 上海數(shù)萃大數(shù)據(jù)科技有限公司聯(lián)合創(chuàng)始人


          本書從R語言的基礎(chǔ)內(nèi)容開始,逐漸深入至數(shù)據(jù)的清洗管理、數(shù)據(jù)的可視化技術(shù)、數(shù)據(jù)挖掘的各種算法,涵蓋的內(nèi)容十分全面。無論是新手入門,還是對于有一定基礎(chǔ)想進(jìn)一步深入了解數(shù)據(jù)分析技能的讀者,都是不錯的一本工具書。

          --------浙江工商大學(xué)應(yīng)用統(tǒng)計系教授,博士生導(dǎo)師,楊曉蓉


          數(shù)據(jù)分析和數(shù)據(jù)挖掘從來就不是分離的。一個優(yōu)秀的數(shù)據(jù)科學(xué)家是商學(xué)院思維、模型算法思維和軟件工程思維的完美統(tǒng)一體。全面掌握和靈活運(yùn)用至少一門面向數(shù)據(jù)分析和挖掘的編程語言,對數(shù)據(jù)科學(xué)家而言也是最基本的要求。這本書的內(nèi)容涵蓋了數(shù)據(jù)清洗、數(shù)據(jù)處理、數(shù)據(jù)可視化以及主流挖掘算法,堪稱企業(yè)級數(shù)據(jù)應(yīng)用的R語言編程全流程實戰(zhàn)寶典。

          --------重慶農(nóng)村商業(yè)銀行金融創(chuàng)新部大數(shù)據(jù)中心總監(jiān)? 孫光輝


          R語言作為當(dāng)今數(shù)據(jù)科學(xué)中應(yīng)用最廣的編程語言之一,離不開其背后強(qiáng)有力的社區(qū)貢獻(xiàn)。此書不僅介紹了R語言入門的基礎(chǔ)知識,還列舉了多種常用機(jī)器學(xué)習(xí)算法的實現(xiàn),深入淺出,相信對于數(shù)據(jù)科學(xué)領(lǐng)域或者想要熟悉R語言的同學(xué),這本書無疑是一個不錯的建議。

          --------螞蟻金服,數(shù)據(jù)技術(shù)專家,王修坤


          這本書內(nèi)容翔實、編排得當(dāng),覆蓋了整個數(shù)據(jù)分析和挖掘領(lǐng)域的基礎(chǔ)知識與核心算法。各種方法的介紹由淺入深,理論和實踐融合得很好,尤其是各個實際操作的例子,非常體現(xiàn)作者的功力,增之一分則太長減之一分則太短。

          --------“統(tǒng)計之都”核心成員、《統(tǒng)計之美》作者? ?李艦


          精彩實拍




          致謝


          最后再次感謝清華大學(xué)出版社的編輯以及其他默默為本書付出的出版工作者,真誠地感謝廣大網(wǎng)友及粉絲朋友的期待和關(guān)注,是你們給了我動力堅持將本書內(nèi)容寫好寫足。同時,也期待讀者朋友們給予指正和建議。

          為表達(dá)讀者朋友一直以來的支持和認(rèn)可,特贈送5本圖書,邀請大家踴躍參與留言,根據(jù)留言排名寄送圖書哦(截止時間:2021年1月15日)。

          讀者朋友們可以通過天貓、當(dāng)當(dāng)、京東等平臺搜索選購,關(guān)于書中的任何疑問都可以直接加我微信(lsx19890717),一起討論書中的知識哦~

          瀏覽 78
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产欧美精品在线一区三级 | 人人操人人青青草 | 被扒开腿猛进入爽爽A片软件 | 欧美精品成人无码 | 蜜桃无码一二三区 |