python機器學習預(yù)測分析核心算法.pdf

向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????
人工智能大數(shù)據(jù)與深度學習 ?公眾號:datayx

PDF 獲取方式:
分享本文到朋友圈
關(guān)注微信公眾號 datayx? 然后回復?機器學習??即可獲取。
AI項目體驗地址?https://loveai.tech
《Python機器學習 預(yù)測分析核心算法》
內(nèi)容簡介
在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python語言實現(xiàn)的角度,幫助讀者認識機器學習。
本書專注于兩類核心的“算法族”,即懲罰線性回歸和集成方法,并通過代碼實例來展示所討論的算法的使用原則。全書共分為7章,詳細討論了預(yù)測模型的兩類核心算法、預(yù)測模型的構(gòu)建、懲罰線性回歸和集成方法的具體應(yīng)用和實現(xiàn)。本書主要針對想提高機器學習技能的Python開發(fā)人員,幫助他們解決某一特定的項目或是提升相關(guān)的技能。
機器學習關(guān)注于預(yù)測,其核心是一種基于數(shù)學和算法的技術(shù),要掌握該技術(shù),需要對數(shù)學及統(tǒng)計概念有深入理解,能夠熟練使用R 語言或者其他編程語言。
本書通過集中介紹兩類可以進行有效預(yù)測的機器學習算法,展示了如何使用Python 編程語言完成機器學習任務(wù),從而降低機器學習難度,使機器學習能夠被更廣泛的人群掌握。
作者利用多年的機器學習經(jīng)驗帶領(lǐng)讀者設(shè)計、構(gòu)建并實現(xiàn)自己的機器學習方案。本書盡可能地用簡單的術(shù)語來介紹算法,避免復雜的數(shù)學推導,同時提供了示例代碼幫助讀者迅速上手。讀者會很快深入了解模型構(gòu)建背后的原理,不論簡單問題還是復雜問題,讀者都可以學會如何找到問題的解決算法。書中詳細的示例,給出了具體的可修改的代碼,展示了機器學習機理,涵蓋了線性回歸和集成方法,幫助理解使用機器學習方法的基本流程。
本書為不具備數(shù)學或統(tǒng)計背景的讀者量身打造,詳細介紹了如何:
● 針對任務(wù)選擇合適算法;● 對不同目的應(yīng)用訓練好的模型;
● 學習數(shù)據(jù)處理機制,準備數(shù)據(jù);● 評估模型性能以保證應(yīng)用效果;
● 掌握Python 機器學習核心算法包;● 使用示例代碼設(shè)計和構(gòu)建你自己的模型;
● 構(gòu)建實用的多功能預(yù)測模型。
第 1 章 關(guān)于預(yù)測的兩類核心
算法 1
1.1 為什么這兩類算法如此有用 1
1.2 什么是懲罰回歸方法 6
1.3 什么是集成方法 8
1.4 算法的選擇 9
1.5 構(gòu)建預(yù)測模型的流程 11
1.5.1 構(gòu)造一個機器學習問題 12
1.5.2 特征提取和特征工程 14
1.5.3 確定訓練后的模型的性能 15
1.6 各章內(nèi)容及其依賴關(guān)系 15
1.7 小結(jié) 17
1.8 參考文獻 17
第 2 章 通過理解數(shù)據(jù)來了解
問題 19
2.1 “解剖”一個新問題 19
2.1.1 屬性和標簽的不同類型
決定模型的選擇 21
2.1.2 新數(shù)據(jù)集的注意事項 22
2.2 分類問題:用聲納發(fā)現(xiàn)未
爆炸的水雷 23
2.2.1 “ 巖石vs 水雷”數(shù)據(jù)集的
物理特性 23
2.2.2 “ 巖石vs 水雷”數(shù)據(jù)集統(tǒng)計
特征 27
2.2.3 用分位數(shù)圖展示異常點 30
2.2.4 類別屬性的統(tǒng)計特征 32
2.2.5 利用Python Pandas 對“巖石
vs 水雷”數(shù)據(jù)集進行統(tǒng)計
分析 32
2.3 對“巖石vs 水雷數(shù)據(jù)集”屬性的
可視化展示 35
2.3.1 利用平行坐標圖進行可視化
展示 35
2.3.2 屬性和標簽的關(guān)系可視化 37
2.3.3 用熱圖(heat map)展示
屬性和標簽的相關(guān)性 44
2.3.4 對“巖石vs. 水雷”數(shù)據(jù)集
探究過程小結(jié) 45
2.4 基于因素變量的實數(shù)值預(yù)測-
鮑魚的年齡 45
2.4.1 回歸問題的平行坐標圖- 鮑魚
問題的變量關(guān)系可視化 51
2.4.2 回歸問題如何使用關(guān)聯(lián)熱
圖-鮑魚問題的屬性對關(guān)
系的可視化 55
2.5 用實數(shù)值屬性預(yù)測實數(shù)值目標:
評估紅酒口感 57
2.6 多類別分類問題:它屬于哪種
玻璃 63
小結(jié) 68
參考文獻 69
第3 章 預(yù)測模型的構(gòu)建:平衡性
能、復雜性以及大數(shù)據(jù) 71
3.1 基本問題:理解函數(shù)逼近 71
3.1.1 使用訓練數(shù)據(jù) 72
3.1.2 評估預(yù)測模型的性能 73
3.2 影響算法選擇及性能的因素——
復雜度以及數(shù)據(jù) 74
3.2.1 簡單問題和復雜問題的
對比 74
3.2.2 一個簡單模型與復雜模型的
對比 77
3.2.3 影響預(yù)測算法性能的因素 80
3.2.4 選擇一個算法:線性或者
非線性 81
3.3 度量預(yù)測模型性能 81
3.3.1 不同類型問題的性能評價
指標 82
3.3.2 部署模型的性能模擬 92
3.4 模型與數(shù)據(jù)的均衡 94
3.4.1 通過權(quán)衡問題復雜度、模型
復雜度以及數(shù)據(jù)集規(guī)模來選
擇模型 94
3.4.2 使用前向逐步回歸來控制過
擬合 95
3.4.3 評估并理解你的預(yù)測模型 101
3.4.4 通過懲罰回歸系數(shù)來控制
過擬合——嶺回歸 103
小結(jié) 112
參考文獻 112
第4 章 懲罰線性回歸模型 113
4.1 為什么懲罰線性回歸方法如此
有效 113
4.1.1 足夠快速地估計系數(shù) 114
4.1.2 變量的重要性信息 114
4.1.3 部署時的預(yù)測足夠快速 114
4.1.4 性能可靠 114
4.1.5 稀疏解 115
4.1.6 問題本身可能需要線性
模型 115
4.1.7 什么時候使用集成方法 115
4.2 懲罰線性回歸:對線性回歸進行
正則化以獲得**優(yōu)性能 115
4.2.1 訓練線性模型:**小化錯誤
以及更多 117
4.2.2 向OLS 公式中添加一個
系數(shù)懲罰項 118
4.2.3 其他有用的系數(shù)懲罰項:
Manhattan 以及ElasticNet 118
4.2.4 為什么套索懲罰會導致稀疏的
系數(shù)向量 119
4.2.5 ElasticNet 懲罰項包含套索
懲罰項以及嶺懲罰項 120
4.3 求解懲罰線性回歸問題 121
4.3.1 理解**小角度回歸與前向逐步
回歸的關(guān)系 121
4.3.2 LARS 如何生成數(shù)百個不同
復雜度的模型 125
4.3.3 從數(shù)百個LARS 生成結(jié)果中
選擇**佳模型 127
4.3.4 使用Glmnet :非常快速
并且通用 133
4.4 基于數(shù)值輸入的線性回歸方法的
擴展 140
4.4.1 使用懲罰回歸求解分類
問題 140
4.4.2 求解超過2 種輸出的分類
問題 145
4.4.3 理解基擴展:使用線性方法來
解決非線性問題 145
4.4.4 向線性方法中引入非數(shù)值
屬性 148
小結(jié) 152
參考文獻 153
第5 章 使用懲罰線性方法來
構(gòu)建預(yù)測模型 155
5.1 懲罰線性回歸的Python 包 155
5.2 多變量回歸:預(yù)測紅酒口感 156
5.2.1 構(gòu)建并測試模型以預(yù)測紅酒
口感 157
5.2.2 部署前在整個數(shù)據(jù)集上進行
訓練 162
5.2.3 基擴展:基于原始屬性擴展
新屬性來改進性能 168
5.3 二分類:使用懲罰線性回歸來
檢測未爆炸的水雷 172
5.3.1 構(gòu)建部署用的巖石水雷
分類器 183
5.4 多類別分類- 分類犯罪現(xiàn)場的
玻璃樣本 196
小結(jié) 201
參考文獻 202
第6 章 集成方法 203
6.1 二元決策樹 203
6.1.1 如何利用二元決策樹進行
預(yù)測 205
6.1.2 如何訓練一個二元決策樹 207
6.1.3 決策樹的訓練等同于
分割點的選擇 211
6.1.4 二元決策樹的過擬合 214
6.1.5 針對分類問題和類別特征
所做的修改 218
6.2 自舉集成:Bagging 算法 219
6.2.1 Bagging 算法是如何
工作的 219
6.2.2 Bagging 算法小結(jié) 230
6.3 梯度提升法(Gradient
Boosting) 230
6.3.1 梯度提升法的基本原理 230
6.3.2 獲取梯度提升法的**佳
性能 234
6.3.3 針對多變量問題的梯度
提升法 237
6.3.4 梯度提升方法的小結(jié) 241
6.4 隨機森林 241
6.4.1 隨機森林:Bagging 加上隨機
屬性子集 246
6.4.2 隨機森林的性能 246
6.4.3 隨機森林小結(jié) 247
6.5 小結(jié) 248
6.6 參考文獻 248
第7 章 用Python 構(gòu)建集成
模型 251
7.1 用Python 集成方法工具包解決
回歸問題 251
7.1.1 構(gòu)建隨機森林模型來預(yù)測
紅酒口感 251
7.1.2 用梯度提升預(yù)測紅酒品質(zhì) 258
7.2 用Bagging 來預(yù)測紅酒口感 266
7.3 Python 集成方法引入非數(shù)值
屬性 271
7.3.1 對鮑魚性別屬性編碼引入
Python 隨機森林回歸
方法 271
7.3.2 評估性能以及變量編碼的
重要性 274
7.3.3 在梯度提升回歸方法中引入
鮑魚性別屬性 276
7.3.4 梯度提升法的性能評價以及
變量編碼的重要性 279
7.4 用Python 集成方法解決二分類
問題 282
7.4.1 用Python 隨機森林方法探測
未爆炸的水雷 282
7.4.2 構(gòu)建隨機森林模型探測未
爆炸水雷 283
7.4.3 隨機森林分類器的性能 288
7.4.4 用Python 梯度提升法探測
未爆炸水雷 289
7.4.5 梯度提升法分類器的性能 296
7.5 用Python 集成方法解決多類別
分類問題 300
7.5.1 用隨機森林對玻璃進行
分類 300
7.5.2 處理類不均衡問題 304
7.5.3 用梯度提升法對玻璃進行
分類 306
7.5.4 評估在梯度提升法中使用隨機
森林基學習器的好處 311
7.6 算法比較 313
小結(jié) 315
參考文獻 315
閱讀過本文的人還看了以下文章:
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《深度學習入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學習視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉(zhuǎn)深度學習:基于TensorFlow的實踐詳解》完整版PDF+附書代碼
PyTorch深度學習快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學習方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學習》最新2018版中英PDF+源碼
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
【Keras】完整實現(xiàn)‘交通標志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現(xiàn)醫(yī)學圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特征工程
不斷更新資源
深度學習、機器學習、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
機大數(shù)據(jù)技術(shù)與機器學習工程
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
