【數(shù)據(jù)競(jìng)賽】Kaggle知識(shí)點(diǎn):比賽類型介紹
在Kaggle平臺(tái)上,經(jīng)常有好多個(gè)比賽可供選擇。如下圖所示,為正在進(jìn)行比賽的截圖。那么對(duì)于入門同學(xué)(從沒(méi)參加過(guò)一次Kaggle比賽)如何選擇一場(chǎng)適合的比賽呢?

本文將對(duì)Kaggle平臺(tái)上的比賽按照類型進(jìn)行劃分,并對(duì)每種類型的比賽進(jìn)行介紹。總有一個(gè)比賽適合你,文末還給出了快速上手Kaggle比賽的指南。
比賽類型
在Kaggle平臺(tái)上比賽按照維度劃分為:

按照比賽的形式:比賽可以劃分為Getting Started、PlayGround、Research和Featured四類。其中Getting Started是難度最低的比賽,非常適合入門學(xué)習(xí),比如TItanic和House Prices。

PlayGround類型的比賽難度稍微高一點(diǎn),但難度也不會(huì)太高,適合針對(duì)特定問(wèn)題進(jìn)行深度學(xué)習(xí)。比如Dogs vs. Cats就是典型的圖像分類的學(xué)習(xí)賽。

Research比賽是學(xué)術(shù)類型的比賽,F(xiàn)eatured是商業(yè)公司的比賽。這兩類比賽在賽題背景和難度上都更難,適合深入學(xué)習(xí)。需要注意的是,在Kaggle中只有Research和Featured類型的比賽會(huì)累計(jì)積分和獎(jiǎng)牌。

按照比賽階段:比賽可以劃分為One-Stage、Two-Stage和Kernel賽,或者分為非Kernel賽和Kernle賽。非Kernel賽通過(guò)選手提交預(yù)測(cè)結(jié)果文件進(jìn)行打分,Kernel賽需要選手通過(guò)Notebook進(jìn)行預(yù)測(cè)打分。

需要注意的是,Kernel賽的Notebook提交是有運(yùn)行時(shí)間和聯(lián)網(wǎng)要求限制的。所以Kernel賽的復(fù)雜度會(huì)更高一些。在選擇一個(gè)賽題時(shí),可以根據(jù)自身的基礎(chǔ)來(lái)選擇,也可以根據(jù)賽題的要求進(jìn)行選擇。
比賽頁(yè)面
在Kaggle平臺(tái)上,舉辦方將每一個(gè)比賽都劃分為如下的頁(yè)面。在Notebooks頁(yè)面中會(huì)有參賽選手公開(kāi)的Notebook,也可以自己新建一個(gè)運(yùn)行。

學(xué)習(xí)路線
對(duì)于入門學(xué)習(xí)Kaggle的同學(xué)來(lái)說(shuō),在選擇好一場(chǎng)比賽之后,如何開(kāi)始學(xué)習(xí)呢?這個(gè)要跟自身的知識(shí)背景出發(fā)。

如果你對(duì)賽題數(shù)據(jù)/任務(wù)比較熟悉,那么直接可以下載數(shù)據(jù)集開(kāi)始建模;反之可以查看賽題的Notebook頁(yè)面和Discussion頁(yè)面找到其他選手分享的資源。
然后就可以按照如下流程開(kāi)始:理解賽題內(nèi)容、賽題數(shù)據(jù)、特種工程、構(gòu)建模型和模型集成,不斷迭代提高模型精度。
以Kaggle上的Real or Not? NLP with Disaster Tweets為例,這個(gè)比賽是一個(gè)對(duì)推特上推文進(jìn)行分類的比賽,具體來(lái)說(shuō)是NLP領(lǐng)域中的文本分類比賽。如果你對(duì)文本分類有一點(diǎn)了解,那么就可以直接上手做了。
按照文本分類的思路,可以按照如下思路迭代模型:

好的,本文就到這里。希望大家能找到適合自己的比賽,并參與其中學(xué)有所成。
往期精彩回顧
獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開(kāi):
https://t.zsxq.com/yFQV7am
本站qq群1003271085。
加入微信群請(qǐng)掃碼進(jìn)群:
