<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          5 分鐘了解機器學習的特征工程

          共 5365字,需瀏覽 11分鐘

           ·

          2021-08-19 17:30

          點擊下方卡片,關注“新機器視覺”公眾號

          視覺/圖像重磅干貨,第一時間送達

          轉自:數據派THU

          介紹


          在我們進一步研究之前,我們需要定義機器學習中的特征。

          如果您不熟悉機器學習,那么特征就是機器學習算法模型的輸入。


          什么是特征工程?

          特征工程使用數學、統(tǒng)計學和領域知識從原始數據中提取有用的特征的方法。

          例如,如果兩個數字特征的比率對分類實例很重要,那么計算該比率并將其作為特征包含可能會提高模型質量。

          例如有兩個特征:平方米和公寓價格。您可能需要通過獲取每平方米價格來創(chuàng)建特征以改進您的模型。


          如何做特征工程?


          讓我們看看特征工程的不同策略。在本文中,我們不會看到所有方法,而是最流行的方法。添加和刪除特征:

          假設我們確實具有以下特征:


          如果我們想預測公寓的價格,植物的數量可能無關緊要。在這種情況下,我們需要從機器學習模型中刪除此功能,以免添加額外的噪音。

          這種噪音被稱為維度災難。這意味著隨著數據中特征數量的增加,構建良好模型所需的數據點數量呈指數增長。

          我們需要選擇哪些特征與我們的模型最相關。

          將多個特征組合成一個特征:


          在上面的例子中,我們可以看到平方米和平方英尺實際上是相同的數據,但不是相同的單位。如果我們將其提供給我們的算法,它將必須了解平方米和平方英尺是相關的并且實際上是相同的特征。

          這就是為什么我們需要決定采用哪種測量并只保留一個。

          我們也可以有兩個特征,狗的數量和貓的數量,并在動物數量下將它們組合起來。


          盡管如此,結合這些功能并不是每次都是一個好主意。例如,在日期特征的情況下,可能是星期幾很重要。

          你需要記住質量勝于數量。

          清理現有特征:

          您需要保留您認為與模型相關的特征,以獲取數據中的正確信號。

          為此,您可以:
          1. 估算缺失值。
          2. 刪除不嘗試使用不具有代表性的數據點進行訓練的異常值。
          3. 擺脫比例尺,例如,如果您有以厘米為單位的要素而其他一些以米為單位的要素,請嘗試將所有要素都以厘米為單位進行轉換。這稱為規(guī)范化。
          4. 由于更容易的分布,轉換傾斜的數據以使其更適合我們的模型。

          分箱:

          分箱是指您進行數值測量并將其轉換為類別。

          以下是房屋銷售的示例:


          在那個例子中,我們可以假設銷售價格取決于有游泳池的事實。

          然后我們可以通過預處理數據并用布爾未來替換游泳池長度來簡化我們的模型。


          獨熱(One-hot)編碼:

          獨熱編碼是一種以機器學習算法能夠理解的方式表示分類數據的方式。

          我們的模型理解數字但不理解字符串,這就是我們需要將字符串轉換為數字的原因。但是,我們不能為我們的字符串分配隨機數,因為我們的模型可能比小數字更重視大數字。這就是為什么我們要使用 one-hot 編碼的原因。

          以下是有關房屋銷售的示例:


          One-hot 編碼對于用機器學習模型能夠理解的簡單數字數據替換分類數據很有用。


          總結


          特征工程將幫助您:
          借助適當的特征,解決適當的業(yè)務案例問題。
          提高機器學習算法的性能。

          —版權聲明—

          僅用于學術分享,版權屬于原作者。

          若有侵權,請聯(lián)系微信號:yiyang-sy 刪除或修改!


          —THE END—
          瀏覽 47
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线不卡视频 | 日韩草逼网 | 亚洲另类调教 | 韩国一区二区在线观看 | 成人精品18|