<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【數(shù)據(jù)競(jìng)賽】競(jìng)賽常見問題解答

          共 1872字,需瀏覽 4分鐘

           ·

          2021-11-04 19:42

          問題:Kaggle與國(guó)內(nèi)比賽有什么區(qū)別么?

          Kaggle與國(guó)內(nèi)競(jìng)賽模式存在區(qū)別,比如Notebook平臺(tái)資源,其次Kaggle的分享機(jī)制比較好。

          Kaggle整體面向全球,國(guó)內(nèi)人數(shù)也蠻多,整體難度也會(huì)更難。

          問題:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法方向,需要有多少數(shù)學(xué)基礎(chǔ)?

          大學(xué)數(shù)學(xué)的基礎(chǔ)即可,特別是線性代數(shù)、矩陣計(jì)算。可以多關(guān)注如何計(jì)算和求導(dǎo)的過程,其他的過程可以之后用到再學(xué)。

          問題:CV方面輕量化transformer有哪些idea,可以從哪些方面入手,可以不使用官方預(yù)訓(xùn)練評(píng)判模型效果嗎?

          答:transformer在推薦系統(tǒng)和CV中有使用,具體可以參考CNN輕量化的思路。

          問題:lightgbm如何調(diào)參?

          可以關(guān)注比較核心的參數(shù):https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html

          同時(shí)也建議多去理解模型的參數(shù)含義,以及參數(shù)如何影響模型的精度。

          問題:stacking具體的細(xì)節(jié)能講講嗎?

          按照如下交叉驗(yàn)證的思路進(jìn)行,每個(gè)模型對(duì)訓(xùn)練集和測(cè)試集增加一列特征,迭代進(jìn)行。


          問題:智能科學(xué)與技術(shù)專業(yè)大四在讀,老師說畢業(yè)設(shè)計(jì)題目任選,且目前在準(zhǔn)備考研,想問關(guān)于選題有什么建議嗎?

          首先建議考研方向和選題相關(guān),其次本科畢業(yè)設(shè)計(jì)其實(shí)要求不是很多,要么是做應(yīng)用,要么是研究。

          問題:能說一下,對(duì)于nan值的處理方法嗎?

          你應(yīng)該知道數(shù)據(jù)是如何產(chǎn)生的,哪些特征對(duì)業(yè)務(wù)有影響,只有這樣你才能給出最好的數(shù)據(jù)結(jié)果。

          具體參考我們之前的文章Kaggle知識(shí)點(diǎn):缺失值處理方法

          問題:怎么處理數(shù)據(jù)類別極度不均衡的情況?

          可以從損失函數(shù)、樣本權(quán)重、評(píng)價(jià)指標(biāo)、數(shù)據(jù)采樣考慮。調(diào)節(jié)權(quán)重與采樣在概率部分存在區(qū)別,采樣后的模型的輸出概率需要校準(zhǔn)。

          問題:回歸用什么損失函數(shù)比較好,訓(xùn)練后期進(jìn)行驗(yàn)證,驗(yàn)證集上指標(biāo)有1到3個(gè)點(diǎn)波動(dòng)正常嗎?

          這個(gè)看看數(shù)據(jù)量和標(biāo)簽量級(jí),從文字表達(dá)暫時(shí)看不出問題。

          問題:如果構(gòu)造一個(gè)驗(yàn)證集?

          首先分任務(wù),時(shí)序任務(wù) & 非時(shí)序任務(wù)

          • 時(shí)序任務(wù):與測(cè)試集最近的一天 & 最相似的一天作為驗(yàn)證集
          • 非時(shí)序任務(wù):按照樣本的分布采樣驗(yàn)證集

          問題:小白不知道怎么開始一個(gè)有質(zhì)量的競(jìng)賽

          推薦先掌握pandas、sklearn工具,理論和工具不斷累計(jì)即可。

          問題:結(jié)構(gòu)化數(shù)據(jù)中的文本特征應(yīng)該如何處理,(不采用nn,使用樹模型的話)

          -?文本?->?分詞?-> TFIDF -> SVD/PCA/LDA降維
          -?文本?->?嵌入?->?mean/max?pooling

          問題:如何形成規(guī)模的代碼塊?

          可以按照模型API、數(shù)據(jù)特征處理、特征編碼

          問題:對(duì)數(shù)據(jù)比賽無從下手,該從什么地方開始好?或者很難在baseline上做提升,怎么辦?

          如果無從下手,可以去嘗試做一個(gè)baseline。如果想對(duì)baseline做改進(jìn),可以從驗(yàn)證集的分?jǐn)?shù)去分析,然后做改進(jìn),可以參考類似的模型,或者添加業(yè)務(wù)特征。

          問題:就那種用歷史數(shù)據(jù)預(yù)測(cè)未來數(shù)據(jù)時(shí),如何構(gòu)造特征呢

          序列的模式,趨勢(shì)、周期、相關(guān)性、隨機(jī)性 自回歸 & 多元回歸



          問題:全是匿名字段的結(jié)構(gòu)化數(shù)據(jù)應(yīng)該怎么進(jìn)行特征構(gòu)造和eda探索呢。

          首先看字段類型、看字段分布、相關(guān)性

          問題:想請(qǐng)教水哥和魚佬,業(yè)內(nèi)通常是怎么做分布式訓(xùn)練的呀?

          工業(yè)主要看庫和平臺(tái),具體的方法有模型并行,數(shù)據(jù)并行和參數(shù)平均。

          具體細(xì)節(jié)可以參考:《分布式機(jī)器學(xué)習(xí):算法、理論與實(shí)踐》

          問題:torch和tensorflow推薦?

          初學(xué)者torch,tensorflow1.X比較多,paddlepaddle也是不錯(cuò)的選擇。

          問題:在分類問題中,對(duì)于樹模型輸出的特征重要度里面有些重要度為0的特征,drop后auc下降了,那這類特征需要?jiǎng)h除嗎?

          樹模型的特征重要性和最終的得分并不是一致的,這里可以通過模型包裹式來選擇特征。

          問題:魚佬,你的書有推薦的閱讀路線嗎?小白讀的讀起來有點(diǎn)難懂。

          如果數(shù)據(jù)集比較大可以用部分?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練,小白建議按照章節(jié)依次閱讀。



          往期精彩回顧




          站qq群554839127,加入微信群請(qǐng)掃碼:
          瀏覽 66
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费的黄色国产视频 | 大鸡吧在线观看 | 亚州午夜双飞 | 韩国三级HD中文久久车子 | 伊人久久大香蕉视频 |