<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          機(jī)器學(xué)習(xí)工程師心得:特征工程比超參數(shù)調(diào)優(yōu)更重要

          共 2577字,需瀏覽 6分鐘

           ·

          2020-07-28 15:14

          事實(shí)上,特征工程比超參數(shù)調(diào)優(yōu)更重要,這是作為一個(gè)教訓(xùn)和一個(gè)重要的提醒而言的,這將徹底改變?cè)跇?gòu)建任何機(jī)器學(xué)習(xí)模型之前處理問(wèn)題和數(shù)據(jù)的方式。
          當(dāng)我開(kāi)始作第一份全職工作時(shí),作為一名研究機(jī)器學(xué)習(xí)的工程師,我非常興奮,癡迷于建立奇特的機(jī)器學(xué)習(xí)模型,而沒(méi)有真正關(guān)注我所擁有的數(shù)據(jù)。
          其實(shí)我很不耐煩。我非常想要結(jié)果,所以我只關(guān)心從我的模型中擠出每一個(gè)性能百分比。不用說(shuō),我嘗試了這么多次都失敗了,我想找出原因。
          一個(gè)團(tuán)隊(duì)成員告訴我,“你應(yīng)該更多地關(guān)注獲得好的特征(特征工程),而不是優(yōu)化模型的超參數(shù)(超參數(shù)調(diào)優(yōu))。如果你沒(méi)有可以學(xué)習(xí)好特征的模型,即使你有最佳的超參數(shù),也不會(huì)改善模型的性能。”
          從那一刻開(kāi)始,我知道我必須做出須改變,方法必須改變,心態(tài)也必須改變。
          一旦我試圖理解我想要解決的實(shí)際業(yè)務(wù)問(wèn)題和我擁有的數(shù)據(jù),我添加了一些新特征以更好地表示問(wèn)題,這樣模型可以有效地學(xué)習(xí)基礎(chǔ)模式。
          結(jié)果如何呢?
          我成功地改進(jìn)了模型的AUC(這是一個(gè)分類(lèi)問(wèn)題),與使用超參數(shù)調(diào)優(yōu)進(jìn)行少量或沒(méi)有改進(jìn)相比,這是一個(gè)顯著的改進(jìn)。
          鑒于我認(rèn)識(shí)到了特征工程的重要性,在此,我希望分享特征工程和超參數(shù)調(diào)優(yōu)的重要性。
          到本文結(jié)束時(shí),我希望你能理解為什么特征工程比超參數(shù)調(diào)優(yōu)更重要,并且在進(jìn)入調(diào)優(yōu)部分之前使用特征工程來(lái)解決問(wèn)題。

          特征工程的重要性

          我記得第一次開(kāi)始學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),特征工程并不總是包含在書(shū)籍和在線課程中。這給了我一個(gè)錯(cuò)覺(jué):在應(yīng)用機(jī)器學(xué)習(xí)來(lái)解決問(wèn)題時(shí),特征工程可能并不重要。

          在討論什么是特征工程及其重要性之前。讓我們先來(lái)嘗試了解機(jī)器學(xué)習(xí)模型的工作原理。
          機(jī)器學(xué)習(xí)模型如何運(yùn)作?從本質(zhì)上講,機(jī)器學(xué)習(xí)模型只是一種算法,通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)模式,最終根據(jù)看不見(jiàn)的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。
          換句話說(shuō),如果數(shù)據(jù)的代表性不足以描述你嘗試解決的問(wèn)題,那么模型將無(wú)法學(xué)習(xí)基礎(chǔ)模式。而這就是特征工程要發(fā)揮作用的地方。

          特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更能代表預(yù)測(cè)模型的基礎(chǔ)問(wèn)題的特征的過(guò)程,從而提高了模型對(duì)于不可見(jiàn)數(shù)據(jù)的準(zhǔn)確性。特征工程是機(jī)器學(xué)習(xí)應(yīng)用的基礎(chǔ),數(shù)據(jù)中的特征對(duì)于你使用的預(yù)測(cè)模型非常重要,并將影響你將要實(shí)現(xiàn)的結(jié)果。

          特征的質(zhì)量和數(shù)量對(duì)模型的好壞有很大的影響。你可以說(shuō)特征越好,結(jié)果就越好。但這并不完全正確,因?yàn)楂@得的結(jié)果還取決于模型和數(shù)據(jù),而不僅僅是選擇的特征。不過(guò)選擇正確的特征仍然非常重要。更好的特性可以產(chǎn)生更簡(jiǎn)單、更靈活的模型,并且通常會(huì)產(chǎn)生更好的結(jié)果。
          雖然模型的性能取決于幾個(gè)因素:準(zhǔn)備的數(shù)據(jù)和特征,訓(xùn)練中使用的模型,問(wèn)題陳述,衡量模型成功的指標(biāo)等等,但特征仍然是確定模型成功的關(guān)鍵部分。
          在我看來(lái),雖然你可以匯總數(shù)據(jù)以生成其他功能(平均值和最大值等),但擁有強(qiáng)大的業(yè)務(wù)領(lǐng)域知識(shí)可以讓你更多地了解擁有的數(shù)據(jù),并根據(jù)其相關(guān)性和關(guān)系生成新特征。
          憑借出色的特征,它在模型選擇方面提供了更多空間。你可以選擇更簡(jiǎn)單的模型,但仍然能夠獲得良好的結(jié)果,因?yàn)槟愕臄?shù)據(jù)現(xiàn)在更具代表性,而不那么復(fù)雜的模型可以輕松地學(xué)習(xí)基礎(chǔ)模式。
          最終,特性工程歸結(jié)為問(wèn)題表示。如果你的數(shù)據(jù)具有能夠很好地表示問(wèn)題的優(yōu)秀特征,那么模型很可能會(huì)因?yàn)楹芎玫貙W(xué)習(xí)了模式而給出更好的結(jié)果。

          超參數(shù)調(diào)優(yōu)的重要性

          什么是超參數(shù)調(diào)優(yōu)?在機(jī)器學(xué)習(xí)中,超參數(shù)調(diào)優(yōu)是為學(xué)習(xí)算法選擇一組最優(yōu)超參數(shù)的問(wèn)題。

          模型超參數(shù)是模型外部的配置,其值無(wú)法從數(shù)據(jù)估計(jì)。作為一名數(shù)據(jù)科學(xué)家(或機(jī)器學(xué)習(xí)從業(yè)者),模型超參數(shù)對(duì)我們來(lái)說(shuō)是未知的。
          我們只能通過(guò)搜索超參數(shù)的離散空間,根據(jù)給定的默認(rèn)值,經(jīng)驗(yàn)法則或反復(fù)試驗(yàn)找到最佳值。
          例如,一些超參數(shù)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率,支持向量機(jī)(SVM)的C和sigma值,或k近鄰(KNN)的k值。
          超參數(shù)是至關(guān)重要的,因?yàn)樗鼈兛刂茩C(jī)器學(xué)習(xí)模型的整體行為。最終目標(biāo)是找到超參數(shù)的最佳組合,最小化預(yù)定義的損失函數(shù)以提供更好的結(jié)果。
          如果不這樣做,由于模型不能收斂且無(wú)法最小化損失函數(shù),將導(dǎo)致次優(yōu)結(jié)果。
          這就像探索各種可能性并嘗試找到最佳組合,以提供最佳結(jié)果。用于調(diào)整超參數(shù)的一些常用技術(shù)包括網(wǎng)格搜索,隨機(jī)搜索,貝葉斯優(yōu)化等。

          特征工程比超參數(shù)調(diào)優(yōu)更重要

          現(xiàn)在我們已經(jīng)了解了特征工程和超參數(shù)調(diào)優(yōu)的重要性,讓我們深入挖掘,看看為什么前者比后者更重要。

          這并不是說(shuō)超參數(shù)調(diào)優(yōu)并不重要,而是當(dāng)我們談?wù)摳倪M(jìn)模型的性能和最終結(jié)果時(shí),特征工程是一個(gè)優(yōu)先事項(xiàng),特別是在現(xiàn)實(shí)生活中的場(chǎng)景。
          首先,我們必須了解大多數(shù)機(jī)器學(xué)習(xí)庫(kù)中超參數(shù)的默認(rèn)值足以滿(mǎn)足大多數(shù)用例,通常很難顯著提高性能。在Kaggle中,超參數(shù)調(diào)優(yōu)非常重要。在現(xiàn)實(shí)生活中,這并不重要。
          其次,面對(duì)現(xiàn)實(shí)吧。超參數(shù)調(diào)優(yōu)耗費(fèi)時(shí)間且計(jì)算成本高。迭代不同的超參數(shù)組合需要花費(fèi)大量時(shí)間才能實(shí)現(xiàn)微小的改進(jìn)。更糟糕的是,如果是大量數(shù)據(jù)和復(fù)雜模型,每次迭代都需要大量資源。在商業(yè)領(lǐng)域中,時(shí)間就是金錢(qián)。如果搜索最佳超參數(shù)所需的工作量和時(shí)間不能匹配最終的ROI,那么如果你的模型足夠好,可以在給定一組具有強(qiáng)大功能的數(shù)據(jù)下部署,根本不需要超參數(shù)調(diào)優(yōu)。
          最后,在現(xiàn)實(shí)生活中,由于給定的時(shí)間限制,要同時(shí)獲得最優(yōu)特征和超參數(shù)是極其困難的。因此,為了在更短的時(shí)間內(nèi)實(shí)現(xiàn)改進(jìn)的巨大成果,更智能的選擇是首先進(jìn)行特征工程以足夠好地表示問(wèn)題,使模型可以準(zhǔn)確地學(xué)習(xí)和預(yù)測(cè)。只有在擁有強(qiáng)大的功能之后,如果時(shí)間允許或業(yè)務(wù)環(huán)境需要,我們才能考慮超參數(shù)調(diào)優(yōu)。這就是為什么特征工程最重要,而超參數(shù)調(diào)優(yōu)應(yīng)該排在后面。

          教材推薦

          通過(guò)分享我的錯(cuò)誤和學(xué)習(xí)經(jīng)驗(yàn),希望你已經(jīng)理解了這兩者的重要性,以及為什么在提高模型性能時(shí),特征工程應(yīng)該是首要任務(wù)。

          如果你想了解有關(guān)特征工程以及如何將其應(yīng)用于機(jī)器學(xué)習(xí)問(wèn)題的更多信息,那么我向你推薦一本書(shū)“?Feature Engineering for Machine Learning”。
          在典型的機(jī)器學(xué)習(xí)課程中,特征工程并不是作為一個(gè)正式的主題,而這本書(shū)旨在通過(guò)貫穿全書(shū)的幾個(gè)特征工程技術(shù),供你應(yīng)用和練習(xí)。

          獲取方式

          1. 識(shí)別并關(guān)注公眾號(hào)「程序員大濕兄」

          2. 在下面公眾號(hào)里回復(fù)關(guān)鍵字:特征工程


          ?長(zhǎng)按上方二維碼?2 秒

          回復(fù)「特征工程
          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91人人澡人人爽人人看 | 操逼电影视频 | 一区中文字幕 | 爱情岛一区二区三区 | 久草社区男人天堂 |