<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          淺析機(jī)器學(xué)習(xí)算法的應(yīng)用場(chǎng)景!

          共 3770字,需瀏覽 8分鐘

           ·

          2022-01-08 04:20

          ?Datawhale干貨?
          作者:知乎King James,倫敦國(guó)王大學(xué)

          知乎 |?https://www.zhihu.com/people/xu-xiu-jian-33

          在學(xué)習(xí)算法的過程里,難免有疑問:k近鄰、貝葉斯、決策樹、svm、邏輯斯蒂回歸和最大熵模型、隱馬爾科夫、條件隨機(jī)場(chǎng)、adaboost、em 這些算法在一般工作中分別用到的幾率多大?一般用途是什么?需要注意什么?

          首先簡(jiǎn)要回答一下:以上這些算法,如果是書本或者大學(xué)課堂里面教的,那么在目前國(guó)內(nèi)機(jī)器學(xué)習(xí)應(yīng)用最多的一些工業(yè)界場(chǎng)景中,它們的使用頻率接近0,沒啥實(shí)際用途。如果樓主是想為未來(lái)工作做積累,或者是面試做準(zhǔn)備,你還得對(duì)以下算法多做研究,這些才是目前工業(yè)界主流應(yīng)用的算法。

          (決策樹模型這部分專門說(shuō)一下:大部分課程里面教的決策樹模型比如CART、ID3等,這類模型工業(yè)界幾乎不用,樹模型用的最多的是GBDT、XGBoost和LightGBM。GBDT金融科技領(lǐng)域用的多,LightGBM目前銷量預(yù)測(cè)領(lǐng)域用的多。)

          01 國(guó)內(nèi)工業(yè)界應(yīng)用最多的領(lǐng)域

          我們先從工業(yè)界對(duì)于機(jī)器學(xué)習(xí)的需求開始說(shuō)起,明白用戶需求才知道什么算法用的多。首先大家可以看一下IDC MarketScape發(fā)布的2019中國(guó)機(jī)器學(xué)習(xí)開發(fā)平臺(tái)市場(chǎng)的報(bào)告,里面國(guó)內(nèi)做機(jī)器學(xué)習(xí)頭部公司是:第四范式、百度、阿里云,這是頭部三家企業(yè)。

          然后我們看一下上圖中某頭部公司的客戶都來(lái)自于哪個(gè)領(lǐng)域:

          圖片來(lái)自于官網(wǎng)截圖

          我們可以很清晰地看出主要來(lái)自于這些領(lǐng)域:金融、媒體、零售;為什么?原因如下:

          第一個(gè)是因?yàn)閿?shù)據(jù):做To C生意的客戶積累的用戶多,數(shù)據(jù)也多,滿足機(jī)器學(xué)習(xí)建模對(duì)數(shù)據(jù)量的要求。金融、媒體、零售積累了大量C端用戶的數(shù)據(jù);

          第二個(gè)是因?yàn)閳?chǎng)景:這些領(lǐng)域的客戶有些大量可以使用機(jī)器學(xué)習(xí)建模的場(chǎng)景,也是國(guó)內(nèi)工業(yè)界最早嘗試將機(jī)器學(xué)習(xí)引入到實(shí)際的建模場(chǎng)景中的。

          具體哪些場(chǎng)景下面會(huì)細(xì)述。

          02 國(guó)內(nèi)工業(yè)界應(yīng)用最多的機(jī)器學(xué)習(xí)算法

          說(shuō)清楚主要應(yīng)用領(lǐng)域和場(chǎng)景以后,分析算法就很清楚了。

          2.1 金融領(lǐng)域

          金融領(lǐng)域使用機(jī)器學(xué)習(xí)建模最多的場(chǎng)景就是風(fēng)控。當(dāng)然風(fēng)控也要進(jìn)行細(xì)分,主要應(yīng)用機(jī)器學(xué)習(xí)建模的細(xì)分場(chǎng)景如下:

          • 信用卡交易反欺詐:分類任務(wù),GBDT算法+LR邏輯回歸;
          • 信用卡申請(qǐng)反欺詐:分類任務(wù),GBDT算法+LR邏輯回歸;
          • 貸款申請(qǐng)反欺詐:分類任務(wù),GBDT算法+LR邏輯回歸;
          • 反洗錢:分類任務(wù),GBDT算法+LR邏輯回歸;

          是的沒錯(cuò),目前在金融領(lǐng)域涉及到風(fēng)控的幾乎都是GBDT+LR,目前市場(chǎng)上還沒有哪一家金融科技公司做反欺詐、反洗錢場(chǎng)景使用的不是GBDT+LR,這是目前市場(chǎng)上做該場(chǎng)景效果最好的算法。

          同時(shí)金融行業(yè)存在高監(jiān)管的屬性,乙方AI廠商給銀行做項(xiàng)目時(shí),最終項(xiàng)目交付時(shí)都需要模型可解釋,LR模型存在一個(gè)優(yōu)點(diǎn)就是特征可以解釋,特征工程很清晰,每個(gè)特征的貢獻(xiàn)度也可以統(tǒng)計(jì)出來(lái)。如果用深度學(xué)習(xí)模型等,可能效果差不多,但是完全不可解釋,這種在金融這種強(qiáng)監(jiān)管的場(chǎng)景下,不可解釋的模型是不符合監(jiān)管要求的。金融行業(yè)的屬性導(dǎo)致的,目前深度學(xué)習(xí)在金融風(fēng)控領(lǐng)域應(yīng)用非常有限。

          此外確實(shí)也有用XGBT算法在上述這些場(chǎng)景,XGBT在GBDT算法進(jìn)行了一些優(yōu)化。具體大家可以參考這里:https://www.zhihu.com/question/41354392。但實(shí)際目前用GBDT的還是多。

          • 營(yíng)銷場(chǎng)景:為用戶推薦理財(cái)產(chǎn)品、基金產(chǎn)品、保險(xiǎn)產(chǎn)品或者邀請(qǐng)用戶辦理信用卡賬單分期等;

          這部分主要用的都是推薦的算法,主要都是基于協(xié)同過濾CF算法+簡(jiǎn)單的策略;營(yíng)銷場(chǎng)景做推薦,一般分為三個(gè)部分:召回+排序+業(yè)務(wù)規(guī)則。召回層面會(huì)利用協(xié)同過濾CF算法、FM算法,構(gòu)建排序模型還是LR模型居多,金融領(lǐng)域目前使用深度學(xué)習(xí)相對(duì)較少,但是在互聯(lián)網(wǎng)和其他領(lǐng)域使用深度學(xué)習(xí)做排序模型已經(jīng)很廣泛了。

          2.2 媒體領(lǐng)域

          在媒體領(lǐng)域最典型的就是今日頭條了,包括像很多其他的媒體端如小紅書、抖音等;這里面最常應(yīng)用機(jī)器學(xué)習(xí)的就是推薦場(chǎng)景。大家經(jīng)常發(fā)現(xiàn)的一點(diǎn)就是今日頭條、小紅書經(jīng)常會(huì)根據(jù)你之前看過的一些內(nèi)容來(lái)給你推相關(guān)內(nèi)容。比如你經(jīng)常看大長(zhǎng)腿,小紅書就一直給你推,別問我怎么知道的。

          • 推薦:基于內(nèi)容item的推薦、基于知識(shí)圖譜的推薦、基于協(xié)同過濾算法的推薦。資訊信息物料的推薦,這里面會(huì)涉及到Doc2Vec、Lsi等算法,因?yàn)樯婕暗揭徊糠謱?duì)于物料語(yǔ)義的理解。今日頭條推薦算法詳解:https://www.leiphone.com/news/201801/XlIxFZ5W3j8MvaEL.html

          2.3 零售領(lǐng)域

          在零售領(lǐng)域,使用機(jī)器學(xué)習(xí)建模最多的場(chǎng)景也是推薦場(chǎng)景和搜索場(chǎng)景中的排序。APP上購(gòu)物車頁(yè)面提交訂單時(shí)為用戶推薦相似商品、推薦可能感興趣的商品,以及針對(duì)什么樣的用戶推薦什么樣的優(yōu)惠券等等。

          • 推薦:協(xié)同過濾CF算法、FM算法+LR排序模型、深度學(xué)習(xí)模型目前在推薦領(lǐng)域使用也十分廣泛了。

          除去推薦,零售領(lǐng)域還有一個(gè)使用機(jī)器學(xué)習(xí)建模比較多的場(chǎng)景,就是對(duì)某類商品進(jìn)行銷量預(yù)測(cè),根據(jù)預(yù)測(cè)量來(lái)調(diào)整商品的供給。

          • 銷量預(yù)測(cè):目前基本都轉(zhuǎn)用LightGBM算法了;

          這里附上之前Kaggle里面關(guān)于銷量預(yù)測(cè)的case,排名第一的將自己的源碼share出來(lái)的,感興趣的可以自行下載研究。https://www.kaggle.com/c/favorita-grocery-sales-forecasting/discussion/47582

          零售領(lǐng)域還有一個(gè)應(yīng)用非常多的場(chǎng)景,就是做供應(yīng)鏈優(yōu)化,物流調(diào)度,給外賣騎手配單等。但這部分不能算作機(jī)器學(xué)習(xí),更多是運(yùn)籌學(xué)的知識(shí)。目前國(guó)內(nèi)做的比較好的是杉數(shù)科技。

          • 供應(yīng)鏈優(yōu)化:運(yùn)籌學(xué)的知識(shí)

          03 未來(lái)工業(yè)界應(yīng)用比較有前景的算法

          所以如果你是一個(gè)學(xué)生或者想轉(zhuǎn)行到機(jī)器學(xué)習(xí)領(lǐng)域,課堂上教的那些算法只是簡(jiǎn)單入門完全不夠用,只是讓你了解基本的思想。如果你想進(jìn)入工業(yè)界的機(jī)器學(xué)習(xí)領(lǐng)域尤其是當(dāng)前比較熱門的推薦&金融科技領(lǐng)域,你需要對(duì):GBDT、LR、推薦算法等很了解,如果能再對(duì)XGBoost和LightGBM了解就更好了,而所謂的KNN、Kmeans、貝葉斯、最大熵模型等等,這些只是基礎(chǔ)算法,了解這些基礎(chǔ)算法完全無(wú)法解決你校招找工作時(shí)面試的問題。

          同時(shí)給大家分享幾個(gè)當(dāng)下比較火的機(jī)器學(xué)習(xí)熱門研究方向:

          3.1 AutoML

          目前工業(yè)界最火的機(jī)器學(xué)習(xí)研究方向就是AutoML,自動(dòng)機(jī)器學(xué)習(xí)技術(shù),不需要機(jī)器學(xué)習(xí)專家參與建模,機(jī)器全自動(dòng)完成建模。之前華為開出200多萬(wàn)年薪的那位博士生就是研究AutoML的。

          AutoML技術(shù)這兩年發(fā)展的很迅速,工作上自己了解我司的AutoML實(shí)際場(chǎng)景落地時(shí),在一些場(chǎng)景上AutoML構(gòu)建的模型效果表現(xiàn)已經(jīng)和經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家人工構(gòu)建的模型效果沒有任何差異了,但是AutoML大幅降低了人力成本和時(shí)間成本。但AutoML在實(shí)際工業(yè)界落地時(shí),遇到的最大問題就是對(duì)于數(shù)據(jù)治理,科學(xué)家們很多時(shí)候80%建模的工作在做數(shù)據(jù)整合和數(shù)據(jù)清洗等。

          關(guān)于AutoML技術(shù)的出現(xiàn)會(huì)不會(huì)導(dǎo)致大量ML從業(yè)人員失業(yè)了?希望進(jìn)一步了解的可以閱讀下面回答:https://www.zhihu.com/question/387574523/answer/1796066073

          3.2 強(qiáng)化學(xué)習(xí)

          另一個(gè)熱門研究領(lǐng)域就是強(qiáng)化學(xué)習(xí),隨著阿法狗戰(zhàn)勝柯潔和王者榮耀AI絕悟的火爆,將強(qiáng)化學(xué)習(xí)這一細(xì)分領(lǐng)域帶入到廣大從業(yè)人員的事業(yè)里。強(qiáng)化學(xué)習(xí)在工業(yè)界的熱度也在逐步攀升,工作上越來(lái)越多的甲方來(lái)咨詢強(qiáng)化學(xué)習(xí),希望用強(qiáng)化學(xué)習(xí)來(lái)嘗試一些場(chǎng)景的應(yīng)用,之前強(qiáng)化學(xué)習(xí)更多還是在學(xué)術(shù)界研究。目前強(qiáng)化學(xué)習(xí)在游戲行業(yè)應(yīng)用已經(jīng)十分成熟了,現(xiàn)在有向其他行業(yè)擴(kuò)展的趨勢(shì),比如零售領(lǐng)域的供應(yīng)鏈干線優(yōu)化、互聯(lián)網(wǎng)領(lǐng)域的推薦場(chǎng)景、軍工領(lǐng)域的仿真等。對(duì)于強(qiáng)化學(xué)習(xí)不了解的讀者可以閱讀下面文章:通俗易懂講解強(qiáng)化學(xué)習(xí)

          3.3 聯(lián)邦學(xué)習(xí)

          AI發(fā)展的三大核心要素:算法、算力和數(shù)據(jù)。而當(dāng)前AI發(fā)展面臨的一個(gè)問題就是如何在面臨監(jiān)管對(duì)于用戶數(shù)據(jù)隱私安全越來(lái)越嚴(yán),如何合理合法地采集和應(yīng)用用戶信息,甚至在保證用戶數(shù)據(jù)不離開本地的情況下實(shí)現(xiàn)模型訓(xùn)練和更新。各大AI公司和互聯(lián)網(wǎng)廠商都要尋求這方面的解決方案,聯(lián)邦學(xué)習(xí)的出現(xiàn)就是為了解決這一問題。

          聯(lián)邦學(xué)習(xí)的解釋如下:

          在保護(hù)各方數(shù)據(jù)隱私安全的情況下,實(shí)現(xiàn)各方聯(lián)合建模,最終得到比聯(lián)邦中任意一方單獨(dú)建模效果更優(yōu)的模型。目前世界上B端企業(yè)間的縱向聯(lián)邦學(xué)習(xí)的研究是由香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系主任,第一位華人國(guó)際人工智能協(xié)會(huì)(AAAI)院士&AAAI執(zhí)行委員會(huì)委員-楊強(qiáng)教授牽頭發(fā)起的,縱向聯(lián)邦學(xué)習(xí)已經(jīng)在金融&廣告領(lǐng)域大規(guī)模應(yīng)用。因?yàn)槁?lián)邦學(xué)習(xí)是一個(gè)新興的領(lǐng)域,專業(yè)性人才很稀缺,企業(yè)對(duì)于這方面的人才也是求賢若渴。希望對(duì)聯(lián)邦學(xué)習(xí)做進(jìn)一步了解的可以點(diǎn)擊閱讀通俗易懂講解聯(lián)邦學(xué)習(xí)。

          ——The ?End——

          為了方便讀者學(xué)習(xí),我們建立了微信群,歡迎大家進(jìn)群討論。請(qǐng)先加我的微信后,邀請(qǐng)進(jìn)群。無(wú)關(guān)人員請(qǐng)繞道,謝謝合作!


          整理不易,點(diǎn)三連
          瀏覽 62
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人视频在线观看18 | 无码 人妻 精 | 综合网一区二区三区 | 大鸡巴在线视频观看 | 成人中文字幕免费最近 |