<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          下載kaggle數(shù)據(jù)集的小妙招

          共 2525字,需瀏覽 6分鐘

           ·

          2021-03-11 15:12

          ↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜

          kaggle是很多數(shù)據(jù)分析和機(jī)器學(xué)習(xí)初學(xué)者非常喜愛的數(shù)據(jù)科學(xué)競賽平臺(tái)。

          這個(gè)平臺(tái)上有很多接近現(xiàn)實(shí)業(yè)務(wù)場景的數(shù)據(jù)集,非常適合練手。

          今天向大家推薦一個(gè)下載kaggle數(shù)據(jù)集的小工具——kaggleAPI 

          配置好之后,可以寫個(gè)腳本,以后下載數(shù)據(jù)就方便多了。

          安裝

          pip install kaggle

          安裝完畢之后執(zhí)行

          kaggle compeitions list

          然后就會(huì)報(bào)錯(cuò),提示沒有kaggle.json文件,不用理他。
          這一步主要是讓其運(yùn)行后生成配置文件夾,一般在C盤-用戶-用戶名下的.kaggle

          配置

          登錄kaggle官網(wǎng)右上角頭像處點(diǎn)擊,選擇Account進(jìn)去之后滾動(dòng)到最下面API處,選擇Create New API Token

          然后就會(huì)自動(dòng)下載一個(gè)kaggle.json文件,另存到第一步那個(gè).kaggle文件夾

          下載數(shù)據(jù)集

          再執(zhí)行以下

          kaggle compeitions list

          可以看到近期的一些競賽,重點(diǎn)關(guān)注以下獎(jiǎng)金??

          除了list,kaggle competitions 還有一些其他用法,不展開講了。

          kaggle competitions {list, files, download, submit, submissions, leaderboard}

          大家最關(guān)心的數(shù)據(jù)集下載

          kaggle datasets{list,files,download,create,version,init,metadata,status}

          比較常用的是:list(可用數(shù)據(jù)集列表)、files(數(shù)據(jù)文件)、download(下載)

          kaggle datasets list

          用法

          usage: kaggle datasets list [-h] [--sort-by SORT_BY]
          [--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME] 
          [--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]

          這個(gè)里面還有2個(gè)常用的參數(shù):-s 搜索,后面可以加關(guān)鍵詞;-p 展示多少行,默認(rèn)是20

          kaggle datasets download

          用法

          usage: kaggle datasets download 
          [-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
          [-o] [-q][dataset]

          更真實(shí)的用法

          如果單純在cmd執(zhí)行個(gè)下載指令就大材小用了,我們還可以用kaggleAPI寫shell腳本完成更復(fù)雜的用法,比如:

          #!/bin/sh
          DATASET="noxmoon/chinese-official-daily-news-since-2016"
          ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
          DATA_FILE="chinese_news.csv"
          DATA_DIR="data"
          COL_NAME="headline"
          LINES=3000
          OUTPUT_FILE="headlines.txt"

          if [ -d ${DATA_DIR} ]; then
            echo ${DATA_DIR}' exists, please remove it before running the script'
            exit 1
          fi

          echo "Creating dir"
          mkdir -p ${DATA_DIR}
          cd ${DATA_DIR}
          kaggle datasets download -d ${DATASET}
          unzip ${ARCHIVE_FILE}

          echo "Deleting original dataset archive"
          rm -f ${ARCHIVE_FILE}

          echo "Extracting, cutting, shuffling data"
          awk  -v col=$COL_NAME -F "\"*,\"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}

          下載-解壓一氣呵成!

          如有收獲,歡迎給個(gè)在看!轉(zhuǎn)發(fā)!

          也可以加一下老胡的微信
          圍觀朋友圈~~~


          推薦閱讀

          (點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)

          100天搞定機(jī)器學(xué)習(xí)|Day1-62 合集

          所以,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別是什么?
          墻裂建議收藏,100道Python練手題目

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 60
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲三级在线免费观看 | 欧美精品成人在线 | 成人一二区 | 色老板最新网址 | 大香蕉在线网亚洲欧洲中文字 |