<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Python數(shù)據(jù)預(yù)處理——數(shù)據(jù)標準化(歸一化)及數(shù)據(jù)特征轉(zhuǎn)換

          共 2058字,需瀏覽 5分鐘

           ·

          2020-10-19 01:08

          一、數(shù)據(jù)標準化(歸一化)

          首先,數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理(中心化處理)和無量綱化處理。
          同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標數(shù)據(jù)性質(zhì),使所有指標對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。
          無量綱化處理主要為了消除不同指標量綱的影響,解決數(shù)據(jù)的可比性,防止原始特征中量綱差異影響距離運算(比如歐氏距離的運算)。它是縮放單個樣本以具有單位范數(shù)的過程,這與標準化有著明顯的不同。簡單來說,標準化是針對特征矩陣的列數(shù)據(jù)進行無量綱化處理,而歸一化是針對數(shù)據(jù)集的行記錄進行處理,使得一行樣本所有的特征數(shù)據(jù)具有統(tǒng)一的標準,是一種單位化的過程。即標準化會改變數(shù)據(jù)的分布情況,歸一化不會,標準化的主要作用是提高迭代速度,降低不同維度之間影響權(quán)重不一致的問題。

          ?數(shù)據(jù)標準化(歸一化)的方法有很多種,常用的有"最小-最大標準化"、"Z-score標準化"和"按小數(shù)定標標準化"等等。經(jīng)過標準化處理后,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標測評值,即各指標值都處于同一個數(shù)量級別上,可以進行綜合測評分析。


          這里介紹常用的三種常見的轉(zhuǎn)換方法

          1. 極值法(區(qū)間縮放法)

          線性比例變換法:正向指標:y = (x)/(max),即新數(shù)據(jù)=(原數(shù)據(jù))/(最大值)。負向指標:y = (min)/(x),即新數(shù)據(jù)=(最小值)/(原數(shù)據(jù))。

          極差變換法:正向指標:y = (x- min)/(max - min),即新數(shù)據(jù)=(原數(shù)據(jù)-最小值)/(最大值-最小值)。負向指標:y = (max - x)/(max - min),即新數(shù)據(jù)=(最大值-原數(shù)據(jù))/(最大值-最小值)。

          使用這種方法的目的包括:

          (1)0-1標準化,又稱最大值-最小值標準化,核心要義是將原始指標縮放到0~1之間的區(qū)間內(nèi),但不改變原始數(shù)據(jù)的分布
          (2)對于方差非常小的屬性可以增強其穩(wěn)定性;
          (3)維持稀疏矩陣中為0的條目。

          2. 比重法

          L2正則化:y = x/sqrt(Σx^2),即新數(shù)據(jù)=(原數(shù)據(jù))/sqrt(平方和),被稱為L2正則轉(zhuǎn)換。

          正則化則是通過范數(shù)規(guī)則來約束特征屬性,通過正則化我們可以降低數(shù)據(jù)訓(xùn)練處來的模 型的過擬合可能,和機器學(xué)習(xí)中所講述的L1、L2正則的效果一樣。在進行正則化 操作的過程中,不會改變數(shù)據(jù)的分布情況,但是會改變數(shù)據(jù)特征之間的相關(guān)特性。

          3. 標準化
          Z-score:y = (x - mean)/σ,基于原始數(shù)據(jù)的均值(mean)和標準(standard deviation)進行數(shù)據(jù)的標準化,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1。

          4. 二值化

          對于定量數(shù)據(jù)(特征取值連續(xù)),根據(jù)給定的閾值將其進行轉(zhuǎn)換,如果大于閾值賦值為1,否則賦值為0;對于定性數(shù)據(jù)(特征取值離散,也有可能是文本數(shù)據(jù)),根據(jù)給定規(guī)則將其進行轉(zhuǎn)換,符合規(guī)則的賦值為1,否則賦值為0。


          二、特征轉(zhuǎn)換

          特征轉(zhuǎn)換主要指將原始數(shù)據(jù)中的字段數(shù)據(jù)進行轉(zhuǎn)換操作,從而得到適合進行算法 模型構(gòu)建的輸入數(shù)據(jù)(數(shù)值型數(shù)據(jù)),在這個過程中主要包括但不限于以下幾種數(shù)據(jù)的處理:文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)、缺省值填充、定性特征屬性啞編碼、定量特征屬性二值化、特征標準化與歸一化

          1.文本特征屬性轉(zhuǎn)換:機器學(xué)習(xí)的模型算法均要求輸入的數(shù)據(jù)必須是數(shù)值型的,所以對于文本類型的特征屬性,需要進行文本數(shù)據(jù)轉(zhuǎn)換,也就是需要將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。常用方式如下:詞袋法(BOW/TF)、TF-IDF(Term frequency-inverse document frequency)、HashTF、Word2Vec(主要用于單詞的相似性考量)。

          2.缺省值填充:缺省值是數(shù)據(jù)中最常見的一個問題,處理缺省值有很多方式,主要包括以下四個 步驟進行缺省值處理:確定缺省值范圍->去除不需要的字段->填充缺省值內(nèi)容->重新獲取數(shù)據(jù)。

          3.啞編碼(OneHotEncoder):也稱啞變量處理,對于定性的數(shù)據(jù)(也就是分類的數(shù)據(jù)),可以采用N位的狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都有一個獨立的寄存器位,并且在任意狀態(tài)下只有一位有效;是一種常用的將特征數(shù)字化的方式。比如有一個特征屬性:['male','female'],那么male使用向量[1,0]表示,female使用[0,1]表。


          公眾號推薦:數(shù)據(jù)思踐

          數(shù)據(jù)思踐公眾號記錄和分享數(shù)據(jù)人思考和踐行的內(nèi)容與故事

          《數(shù)據(jù)科學(xué)與人工智能》公眾號推薦朋友們學(xué)習(xí)和使用Python語言,需要加入Python語言群的,請掃碼加我個人微信,備注【姓名-Python群】,我誠邀你入群,大家學(xué)習(xí)和分享。

          關(guān)于Python語言,有任何問題或者想法,請留言或者加群討論

          瀏覽 137
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99热在| 国产第8页 | 免费A片在线观看 | a v在线视频 | 欧美乱伦一区 |