<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一文全覽機器學(xué)習(xí)建模流程(Python代碼)

          共 7007字,需瀏覽 15分鐘

           ·

          2022-01-19 21:11

          注:本文基于之前的文章做了些修改,重復(fù)部分可以跳過看。示例的項目為基于LR模型對癌細(xì)胞分類的任務(wù)。


          隨著人工智能時代的到來,機器學(xué)習(xí)已成為解決問題的關(guān)鍵工具,如識別交易是否欺詐、預(yù)測降雨量、新聞分類、產(chǎn)品營銷推薦。我們接下來會詳細(xì)介紹機器學(xué)習(xí)如何應(yīng)用到實際問題,并概括機器學(xué)習(xí)應(yīng)用的一般流程。

          1.1 明確問題

          明確業(yè)務(wù)問題是機器學(xué)習(xí)的先決條件,即抽象出該問題為機器學(xué)習(xí)的預(yù)測問題:需要學(xué)習(xí)什么樣的數(shù)據(jù)作為輸入,目標(biāo)是得到什么樣的模型做決策作為輸出。

          一個簡單的新聞分類的場景,就是學(xué)習(xí)已有的新聞及其類別標(biāo)簽數(shù)據(jù),得到一個文本分類模型,通過模型對每天新的新聞做類別預(yù)測,以歸類到每個新聞頻道。

          1.2 數(shù)據(jù)選擇

          機器學(xué)習(xí)廣泛流傳一句話:“數(shù)據(jù)和特征決定了機器學(xué)習(xí)結(jié)果的上限,而模型算法只是盡可能逼近這個上限”,意味著數(shù)據(jù)及其特征表示的質(zhì)量決定了模型的最終效果,且在實際的工業(yè)應(yīng)用中,算法通常占了很小的一部分,大部分的工作都是在找數(shù)據(jù)、提煉數(shù)據(jù)、分析數(shù)據(jù)及特征工程。

          數(shù)據(jù)選擇是準(zhǔn)備機器學(xué)習(xí)原料的關(guān)鍵,需要關(guān)注的是:① 數(shù)據(jù)的代表性:數(shù)據(jù)質(zhì)量差或無代表性,會導(dǎo)致模型擬合效果差;② 數(shù)據(jù)時間范圍:對于監(jiān)督學(xué)習(xí)的特征變量X及標(biāo)簽Y,如與時間先后有關(guān),則需要劃定好數(shù)據(jù)時間窗口,否則可能會導(dǎo)致數(shù)據(jù)泄漏,即存在和利用因果顛倒的特征變量的現(xiàn)象。(如預(yù)測明天會不會下雨,但是訓(xùn)練數(shù)據(jù)引入明天溫濕度情況);③ 數(shù)據(jù)業(yè)務(wù)范圍:明確與任務(wù)相關(guān)的數(shù)據(jù)表范圍,避免缺失代表性數(shù)據(jù)或引入大量無關(guān)數(shù)據(jù)作為噪音。

          2 特征工程

          特征工程就是對原始數(shù)據(jù)分析處理轉(zhuǎn)化為模型可用的特征,這些特征可以更好地向預(yù)測模型描述潛在規(guī)律,從而提高模型對未見數(shù)據(jù)的準(zhǔn)確性。特征工程按技術(shù)上可分為如下幾步:① 探索性數(shù)據(jù)分析:數(shù)據(jù)分布、缺失、異常及相關(guān)性等情況;② 數(shù)據(jù)預(yù)處理:缺失值/異常值處理,數(shù)據(jù)離散化,數(shù)據(jù)標(biāo)準(zhǔn)化等;③ 特征提取:特征表示,特征衍生,特征選擇,特征降維等;

          2.1 探索性數(shù)據(jù)分析

          拿到數(shù)據(jù)后,可以先做探索性數(shù)據(jù)分析(EDA)去理解數(shù)據(jù)本身的內(nèi)部結(jié)構(gòu)及規(guī)律,如果你對數(shù)據(jù)情況不了解也沒有相關(guān)的業(yè)務(wù)背景知識,不做相關(guān)的分析及預(yù)處理,直接將數(shù)據(jù)喂給傳統(tǒng)模型往往效果不太好。通過探索性數(shù)據(jù)分析,可以了解數(shù)據(jù)分布、缺失、異常及相關(guān)性等情況,利用這些基本信息做數(shù)據(jù)的處理及特征加工,可以進(jìn)一步提高特征質(zhì)量,靈活選擇合適的模型方法。

          2.2 數(shù)據(jù)預(yù)處理

          異常值處理

          收集的數(shù)據(jù)由于人為或者自然因素可能引入了異常值(噪音),這會對模型學(xué)習(xí)進(jìn)行干擾。?通常需要處理人為引起的異常值,通過業(yè)務(wù)或技術(shù)手段(如3σ準(zhǔn)則)判定異常值,再由(正則式匹配)等方式篩選異常的信息,并結(jié)合業(yè)務(wù)情況刪除或者替換數(shù)值。

          缺失值處理

          數(shù)據(jù)缺失值可以通過結(jié)合業(yè)務(wù)進(jìn)行填充數(shù)值、不做處理或者刪除。根據(jù)特征缺失率情況及處理方式分為以下情況:① 缺失率較高,并結(jié)合業(yè)務(wù)可以直接刪除該特征變量。經(jīng)驗上可以新增一個bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;② 缺失率較低,結(jié)合業(yè)務(wù)可使用一些缺失值填充手段,如pandas的fillna方法、訓(xùn)練回歸模型預(yù)測缺失值并填充;③ 不做處理:部分模型如隨機森林、xgboost、lightgbm能夠處理數(shù)據(jù)缺失的情況,不需要對缺失數(shù)據(jù)再做處理。

          數(shù)據(jù)離散化

          離散化是將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間,分段的原則有等寬、等頻等方法。通過離散化一般可以增加抗噪能力、使特征更有業(yè)務(wù)解釋性、減小算法的時間及空間開銷(不同算法情況不一)。

          數(shù)據(jù)標(biāo)準(zhǔn)化

          數(shù)據(jù)各個特征變量的量綱差異很大,可以使用數(shù)據(jù)標(biāo)準(zhǔn)化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:① min-max 標(biāo)準(zhǔn)化:可將數(shù)值范圍縮放到(0, 1)且無改變數(shù)據(jù)分布。max為樣本最大值,min為樣本最小值。

          ② z-score 標(biāo)準(zhǔn)化:可將數(shù)值范圍縮放到0附近, 經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。是平均值,σ是標(biāo)準(zhǔn)差。

          2.3 特征提取

          特征表示

          數(shù)據(jù)需要轉(zhuǎn)換為計算機能夠處理的數(shù)值形式,圖片類的數(shù)據(jù)需要轉(zhuǎn)換為RGB三維矩陣的表示。

          字符類的數(shù)據(jù)可以用多維數(shù)組表示,有Onehot獨熱編碼表示(用單獨一個位置的1來表示)、word2vetor分布式表示等;

          特征衍生

          基礎(chǔ)特征對樣本信息的表達(dá)有限,可通過特征衍生可以增加特征的非線性表達(dá)能力,提升模型效果。另外,在業(yè)務(wù)上的理解設(shè)計特征,還可以增加模型的可解釋性。(如體重除以身高就是表達(dá)健康情況的重要特征。) 特征衍生是對現(xiàn)有基礎(chǔ)特征的含義進(jìn)行某種處理(聚合/轉(zhuǎn)換之類),常用方法人工設(shè)計、自動化特征衍生(圖4.15):① 結(jié)合業(yè)務(wù)的理解做人工衍生設(shè)計:聚合的方式是指對字段聚合后求平均值、計數(shù)、最大值等。比如通過12個月工資可以加工出:平均月工資,薪資最大值 等等;轉(zhuǎn)換的方式是指對字段間做加減乘除之類。比如通過12個月工資可以加工出:當(dāng)月工資收入與支出的比值、差值等等;

          ② 使用自動化特征衍生工具:如Featuretools等,可以使用聚合(agg_primitives)、轉(zhuǎn)換(trans_primitives)或則自定義方式暴力生成特征;

          特征選擇

          特征選擇的目標(biāo)是尋找最優(yōu)特征子集,通過篩選出顯著特征、摒棄冗余特征,減少模型的過擬合風(fēng)險并提高運行效率。特征選擇方法一般分為三類:① 過濾法:計算特征的缺失情況、發(fā)散性、相關(guān)性、信息量、穩(wěn)定性等類型的指標(biāo)對各個特征進(jìn)行評估選擇,常用如缺失率、單值率、方差驗證、pearson相關(guān)系數(shù)、chi2卡方檢驗、IV值、信息增益及PSI等方法。② 包裝法:通過每次選擇部分特征迭代訓(xùn)練模型,根據(jù)模型預(yù)測效果評分選擇特征的去留,如sklearn的RFE遞歸特征消除。③ 嵌入法:直接使用某些模型訓(xùn)練的到特征重要性,在模型訓(xùn)練同時進(jìn)行特征選擇。通過模型得到各個特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小來選擇特征。常用如基于L1正則項的邏輯回歸、XGBOOST特征重要性選擇特征。

          特征降維

          如果特征選擇后的特征數(shù)目仍太多,這種情形下常會有數(shù)據(jù)樣本稀疏、距離計算困難的問題(稱為 “維數(shù)災(zāi)難”),可以通過特征降維解決。常用的降維方法有:主成分分析法(PCA)等。

          3 模型訓(xùn)練

          模型訓(xùn)練是利用既定的模型方法去學(xué)習(xí)數(shù)據(jù)經(jīng)驗的過程,這過程還需要結(jié)合模型評估以調(diào)整算法的超參數(shù),最終選擇表現(xiàn)較優(yōu)的模型。

          3.1 數(shù)據(jù)集劃分

          訓(xùn)練模型前,常用的HoldOut驗證法(此外還有留一法、k折交叉驗證等方法),把數(shù)據(jù)集分為訓(xùn)練集和測試集,并可再對訓(xùn)練集進(jìn)一步細(xì)分為訓(xùn)練集和驗證集,以方便評估模型的性能。① 訓(xùn)練集(training set):用于運行學(xué)習(xí)算法,訓(xùn)練模型。② 開發(fā)驗證集(development set)用于調(diào)整超參數(shù)、選擇特征等,以選擇合適模型。③ 測試集(test set)只用于評估已選擇模型的性能,但不會據(jù)此改變學(xué)習(xí)算法或參數(shù)。###3.2 模型方法選擇 結(jié)合當(dāng)前任務(wù)及數(shù)據(jù)情況選擇合適的模型方法,常用的方法如下圖 ,scikit-learn模型方法的選擇。此外還可以結(jié)合多個模型做模型融合。

          3.3 訓(xùn)練過程

          模型的訓(xùn)練過程即學(xué)習(xí)數(shù)據(jù)經(jīng)驗得到較優(yōu)模型及對應(yīng)參數(shù)(如神經(jīng)網(wǎng)絡(luò)最終學(xué)習(xí)到較優(yōu)的權(quán)重值)。整個訓(xùn)練過程還需要通過調(diào)節(jié)超參數(shù)(如神經(jīng)網(wǎng)絡(luò)層數(shù)、梯度下降的學(xué)習(xí)率)進(jìn)行控制優(yōu)化的。調(diào)節(jié)超參數(shù)是一個基于數(shù)據(jù)集、模型和訓(xùn)練過程細(xì)節(jié)的實證過程,需要基于對算法的原理理解和經(jīng)驗,借助模型在驗證集的評估進(jìn)行參數(shù)調(diào)優(yōu),此外還有自動調(diào)參技術(shù):網(wǎng)格搜索、隨機搜索及貝葉斯優(yōu)化等。

          4 模型評估

          機器學(xué)習(xí)的直接目的是學(xué)(擬合)到“好”的模型,不僅僅是學(xué)習(xí)過程中對訓(xùn)練數(shù)據(jù)的良好的學(xué)習(xí)預(yù)測能力,根本上在于要對新數(shù)據(jù)能有很好的預(yù)測能力(泛化能力),所以客觀地評估模型性能至關(guān)重要。技術(shù)上常根據(jù)訓(xùn)練集及測試集的指標(biāo)表現(xiàn),評估模型的性能。

          4.1 評估指標(biāo)

          評估分類模型

          常用的評估標(biāo)準(zhǔn)有查準(zhǔn)率P、查全率R及兩者調(diào)和平均F1-score 等,并由混淆矩陣的統(tǒng)計相應(yīng)的個數(shù)計算出數(shù)值:

          查準(zhǔn)率是指分類器分類正確的正樣本(TP)的個數(shù)占該分類器所有預(yù)測為正樣本個數(shù)(TP+FP)的比例;查全率是指分類器分類正確的正樣本個數(shù)(TP)占所有的正樣本個數(shù)(TP+FN)的比例。F1-score是查準(zhǔn)率P、查全率R的調(diào)和平均:

          評估回歸模型

          常用的評估指標(biāo)有MSE均方誤差等。反饋的是預(yù)測數(shù)值與實際值的擬合情況。

          評估聚類模型

          可分為兩類方式,一類將聚類結(jié)果與某個“參考模型”的結(jié)果進(jìn)行比較,稱為“外部指標(biāo)”(external index):如蘭德指數(shù),F(xiàn)M指數(shù)等。另一類是直接考察聚類結(jié)果而不利用任何參考模型,稱為“內(nèi)部指標(biāo)”(internal index):如緊湊度、分離度等。

          4.2 模型評估及優(yōu)化

          訓(xùn)練機器學(xué)習(xí)模型所使用的數(shù)據(jù)樣本集稱之為訓(xùn)練集(training set), 在訓(xùn)練數(shù)據(jù)的誤差稱之為訓(xùn)練誤差(training error),在測試數(shù)據(jù)上的誤差,稱之為測試誤差(test error)或泛化誤差 (generalization error)。

          描述模型擬合(學(xué)習(xí))程度常用欠擬合、擬合良好、過擬合,我們可以通過訓(xùn)練誤差及測試誤差評估模型的擬合程度。從整體訓(xùn)練過程來看,欠擬合時訓(xùn)練誤差和測試誤差均較高,隨著訓(xùn)練時間及模型復(fù)雜度的增加而下降。在到達(dá)一個擬合最優(yōu)的臨界點之后,訓(xùn)練誤差下降,測試誤差上升,這個時候就進(jìn)入了過擬合區(qū)域。

          欠擬合是指相較于數(shù)據(jù)而言模型結(jié)構(gòu)過于簡單,以至于無法學(xué)習(xí)到數(shù)據(jù)中的規(guī)律。過擬合是指模型只過分地匹配訓(xùn)練數(shù)據(jù)集,以至于對新數(shù)據(jù)無良好地擬合及預(yù)測。其本質(zhì)是較復(fù)雜模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了統(tǒng)計噪聲導(dǎo)致的。分析模型擬合效果并對模型進(jìn)行優(yōu)化,常用的方法有:

          5 模型決策

          決策應(yīng)用是機器學(xué)習(xí)最終目的,對模型預(yù)測信息加以分析解釋,并應(yīng)用于實際的工作領(lǐng)域。需要注意的是,工程上是結(jié)果導(dǎo)向,模型在線上運行的效果直接決定模型的成敗,不僅僅包括其準(zhǔn)確程度、誤差等情況,還包括其運行的速度(時間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性的綜合考慮。

          6 機器學(xué)習(xí)項目實戰(zhàn)(數(shù)據(jù)挖掘)

          6.1 項目介紹

          項目的實驗數(shù)據(jù)來源著名的UCI機器學(xué)習(xí)數(shù)據(jù)庫,該數(shù)據(jù)庫有大量的人工智能數(shù)據(jù)挖掘數(shù)據(jù)。本例選用的是sklearn上的數(shù)據(jù)集版本:Breast Cancer Wisconsin DataSet(威斯康星州乳腺癌數(shù)據(jù)集),這些數(shù)據(jù)來源美國威斯康星大學(xué)醫(yī)院的臨床病例報告,每條樣本有30個特征屬性,標(biāo)簽為是否良性腫瘤,即有監(jiān)督分類預(yù)測的問題。?項目的建模思路是通過分析乳腺癌數(shù)據(jù)集數(shù)據(jù),特征工程,構(gòu)建邏輯回歸模型學(xué)習(xí)數(shù)據(jù),預(yù)測樣本的類別是否為良性腫瘤。

          6.2 代碼實現(xiàn)

          導(dǎo)入相關(guān)的Python庫,加載cancer數(shù)據(jù)集,查看數(shù)據(jù)介紹, 并轉(zhuǎn)為DataFrame格式。

          import?numpy?as?np??
          import?pandas?as?pd
          import?matplotlib.pyplot?as?plt

          from?keras.models?import?Sequential
          from?keras.layers?import?Dense,?Dropout
          from?keras.utils?import?plot_model
          from?sklearn?import?datasets
          from?sklearn.preprocessing?import?StandardScaler
          from?sklearn.model_selection?import?train_test_split
          from?sklearn.metrics?import?precision_score,?recall_score,?f1_score
          dataset_cancer?=?datasets.load_breast_cancer()????#?加載癌細(xì)胞數(shù)據(jù)集

          print(dataset_cancer['DESCR'])

          df?=?pd.DataFrame(dataset_cancer.data,?columns=dataset_cancer.feature_names)??

          df['label']?=?dataset_cancer.target

          print(df.shape)

          df.head()

          探索性數(shù)據(jù)分析EDA:使用pandas_profiling庫分析數(shù)據(jù)數(shù)值情況,缺失率及相關(guān)性等。

          import?pandas_profiling

          pandas_profiling.ProfileReport(df,?title='Breast?Cancer?DataSet?EDA')

          特征工程方面主要的分析及處理有:

          ● 分析特征無明顯異常值及缺失的情況,無需處理;

          ● 已有mean/standard error等衍生特征,無需特征衍生;

          ● 結(jié)合相關(guān)性等指標(biāo)做特征選擇(過濾法);

          ● 對特征進(jìn)行標(biāo)準(zhǔn)化以加速模型學(xué)習(xí)過程;

          #?篩選相關(guān)性>0.99的特征清單列表及標(biāo)簽
          drop_feas?=?['label','worst_radius','mean_radius']

          #?選擇標(biāo)簽y及特征x
          y?=?df.label
          x?=?df.drop(drop_feas,axis=1)??#?刪除相關(guān)性強特征及標(biāo)簽列

          # holdout驗證法:?按3:7劃分測試集?訓(xùn)練集
          x_train,?x_test,?y_train,?y_test?=?train_test_split(x,?y,?test_size=0.3)

          #?特征z-score?標(biāo)準(zhǔn)化
          sc?=?StandardScaler()

          x_train?=?sc.fit_transform(x_train)??#?注:訓(xùn)練集測試集要分別標(biāo)準(zhǔn)化,以免測試集信息泄露到模型訓(xùn)練
          x_test?=?sc.transform(x_test)?

          模型訓(xùn)練:使用keras搭建邏輯回歸模型,訓(xùn)練模型,觀察模型訓(xùn)練集及驗證集的loss損失

          _dim?=?x_train.shape[1]???#?輸入模型的特征數(shù)

          #?LR邏輯回歸模型
          model?=?Sequential()???

          model.add(Dense(1,?input_dim=_dim,?activation='sigmoid',bias_initializer='uniform'))??#?添加網(wǎng)絡(luò)層,激活函數(shù)sigmoid

          model.summary()

          plot_model(model,show_shapes=True)
          model.compile(optimizer='adam',?loss='binary_crossentropy')??#模型編譯:選擇交叉熵?fù)p失函數(shù)及adam梯度下降法優(yōu)化算法

          model.fit(x,?y,?validation_split=0.3,?epochs=200)???#?模型迭代訓(xùn)練:?validation_split比例0.3,?迭代epochs200次

          #?模型訓(xùn)練集及驗證集的損失

          plt.figure()

          plt.plot(model.history.history['loss'],'b',label='Training?loss')

          plt.plot(model.history.history['val_loss'],'r',label='Validation?val_loss')

          plt.title('Traing?and?Validation?loss')

          plt.legend()

          以測試集F1-score等指標(biāo)的表現(xiàn),評估模型的泛化能力。最終測試集的f1-score有88%,有較好的模型表現(xiàn)。

          def?model_metrics(model,?x,?y):
          ????"""

          ????評估指標(biāo)

          ????"
          ""
          ????yhat?=?model.predict(x).round()??#?模型預(yù)測yhat,預(yù)測閾值按默認(rèn)0.5劃分

          ????result?=?{
          ??????????????'f1_score':?f1_score(y,?yhat),

          ??????????????'precision':precision_score(y,?yhat),

          ??????????????'recall':recall_score(y,?yhat)
          ?????????????}

          ????return?result

          #?模型評估結(jié)果

          print("TRAIN")

          print(model_metrics(model,?x_train,?y_train))

          print("TEST")

          print(model_metrics(model,?x_test,?y_test))


          推薦閱讀

          1. 準(zhǔn)備寫本書
          2. 21個深度學(xué)習(xí)開源數(shù)據(jù)集匯總!
          3. 耗時一個月,做了一個純粹的機器學(xué)習(xí)網(wǎng)站
          4. 用 Python 從 0 實現(xiàn)一個神經(jīng)網(wǎng)絡(luò)
          5. 40篇AI論文!附PDF下載,代碼、視頻講解


          三連在看,月入百萬??

          瀏覽 51
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产性爱在线视频 | 国产色久 | 曰本国电影黄色免看费 | 乱伦激情视频 | 欧美精品久久久又大又粗 |