<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)從哪里找?手把手教你構(gòu)建數(shù)據(jù)集

          共 4051字,需瀏覽 9分鐘

           ·

          2021-03-29 21:19

          導(dǎo)讀:了解如何以及在何處查找要使用的數(shù)據(jù)集是很好的。在AI的廣闊領(lǐng)域和它可以應(yīng)用到的大量問(wèn)題中,這兩者都是非常主觀的,但是存在一些通用的真理和建議。


          作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent
          來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)




          01 去哪里找

          對(duì)于常見(jiàn)問(wèn)題,有很多地方可以開(kāi)始你的搜索。

          就像谷歌學(xué)術(shù)(Google Scholar)用于研究論文那樣,Google Dataset Search用于數(shù)據(jù)集。谷歌搜索的應(yīng)用是無(wú)處不在的。這是了解特定主題的絕佳起點(diǎn)。谷歌還管理自己的通用公共數(shù)據(jù)存儲(chǔ)庫(kù),稱(chēng)為Google Public Data,亞馬遜也擁有自己的AWS數(shù)據(jù)注冊(cè)中心。

          Kaggle.com是致力于數(shù)據(jù)科學(xué)的在線(xiàn)社區(qū)。它具有由社區(qū)和組織貢獻(xiàn)的大型數(shù)據(jù)集存儲(chǔ)庫(kù),其中包含大量主題,任你選擇。該站點(diǎn)還是以比賽或討論方式學(xué)習(xí)數(shù)據(jù)分析細(xì)節(jié)的重要資源。

          研究機(jī)構(gòu)通常會(huì)發(fā)布科學(xué)數(shù)據(jù)供公眾使用。如果你需要敏感的人類(lèi)數(shù)據(jù)(如果可以確信已經(jīng)適當(dāng)匿名),這將特別有用。在澳大利亞,我們擁有諸如澳大利亞統(tǒng)計(jì)局、聯(lián)邦科學(xué)與工業(yè)研究組織(CSIRO)之類(lèi)的機(jī)構(gòu),甚至還有一個(gè)用于訪(fǎng)問(wèn)所有政府?dāng)?shù)據(jù)的在線(xiàn)門(mén)戶(hù),名為data.gov.au。

          在世界其他地方,著名的機(jī)構(gòu)包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。
          同樣,許多國(guó)家或地區(qū)都有中央政府?dāng)?shù)據(jù)存儲(chǔ)庫(kù),例如data.gov(美國(guó))、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

          一些具有非科學(xué)目的的公司,如果達(dá)到了自己能夠進(jìn)行內(nèi)部研究或被要求進(jìn)行內(nèi)部研究的規(guī)模,甚至?xí)l(fā)布數(shù)據(jù)存儲(chǔ)庫(kù)。世界銀行國(guó)際貨幣基金組織(IMF)就是一個(gè)很好的例子,它們已經(jīng)成為開(kāi)放的金融和大眾數(shù)據(jù)的主要來(lái)源。

          在允許的情況下,從信譽(yù)良好的組織采購(gòu)數(shù)據(jù)是確保準(zhǔn)確性、覆蓋范圍以及適用的價(jià)值類(lèi)型和格式的絕佳方法。

          FiveThirtyEightBuzzFeed這樣的新聞網(wǎng)站,提供了從公眾調(diào)查中獲得的數(shù)據(jù)以及關(guān)鍵文章收集的數(shù)據(jù),從可能涉及公眾福祉的重要社會(huì)和政治數(shù)據(jù)(網(wǎng)絡(luò)審查、政府監(jiān)控、槍支、醫(yī)療保健等),到體育等一切內(nèi)容的分?jǐn)?shù)或民意測(cè)驗(yàn)。

          Reddit的/r/datasets是一個(gè)信息共享的好地方。你可以瀏覽人們發(fā)布的有趣的東西,或者在特定的問(wèn)題上尋求幫助。甚至還有一些很好的元信息,比如有人發(fā)布了一個(gè)詳盡的每個(gè)開(kāi)放數(shù)據(jù)門(mén)戶(hù)的列表。當(dāng)你瀏覽Reddit的時(shí)候,/r/MachineLearning也是一個(gè)好選擇。

          有時(shí),隨機(jī)發(fā)燒友也會(huì)真正為你服務(wù)。作者個(gè)人最喜歡的網(wǎng)站是Jonathan’s Space Home Page,其中一位來(lái)自哈佛大學(xué)史密森天體物理學(xué)中心的天體物理學(xué)家,在網(wǎng)站上保存著發(fā)射到太空的所有物體的廣泛列表。只是作為附帶項(xiàng)目,太奇妙了。

          稍微不尋常的數(shù)據(jù)的另一個(gè)重要來(lái)源是整數(shù)數(shù)列在線(xiàn)大全(OEIS),它是各種數(shù)字?jǐn)?shù)列及其附加信息(例如圖或用于生成數(shù)列的公式)的龐大集合。因此,如果你對(duì)卡塔蘭數(shù)感到好奇或想了解忙碌的海貍問(wèn)題,OEIS幫你排序了。

          還有無(wú)數(shù)的網(wǎng)站致力于成為諸如開(kāi)放政府、重要研究出版物中使用的學(xué)術(shù)數(shù)據(jù)等領(lǐng)域數(shù)據(jù)集的中央注冊(cè)中心。

          這或許說(shuō)明了這一點(diǎn):數(shù)據(jù)無(wú)處不在。我們每時(shí)每刻都在創(chuàng)造更多的東西,而且很多人和組織都致力于讓這對(duì)我們所有人都有用。個(gè)人對(duì)數(shù)據(jù)源的喜好是靠時(shí)間和經(jīng)驗(yàn)建立起來(lái)的,因此要廣泛地進(jìn)行探索和實(shí)驗(yàn)。



          02 尋找什么

          在開(kāi)始搜索之前要有一個(gè)清晰的計(jì)劃,知道你需要什么來(lái)對(duì)你要解決的問(wèn)題建模。在要包括的潛在數(shù)據(jù)中,考慮以下因素:

          • 數(shù)據(jù)中顯示的值及其類(lèi)型。
          • 收集數(shù)據(jù)的個(gè)人或組織。
          • 收集數(shù)據(jù)所使用的方法(如果知道的話(huà))。
          • 收集數(shù)據(jù)的時(shí)間范圍。
          • 該集合單獨(dú)是否足以解決你的問(wèn)題。如果不能,那么是否容易合并其他的來(lái)源?

          預(yù)準(zhǔn)備的數(shù)據(jù)集經(jīng)常需要進(jìn)行修改以適合其他用途。通過(guò)這種方式,即使可以假設(shè)數(shù)據(jù)已經(jīng)是干凈的(應(yīng)該進(jìn)行驗(yàn)證以防萬(wàn)一),仍然可能需要進(jìn)行一些數(shù)據(jù)轉(zhuǎn)換。為了確保輸出質(zhì)量,你應(yīng)該從這里開(kāi)始觀察通常的數(shù)據(jù)準(zhǔn)備步驟。

          請(qǐng)記住,在某種程度上,可能需要一些額外的或不同格式的信息才能產(chǎn)生預(yù)期的結(jié)果。一個(gè)預(yù)構(gòu)建的數(shù)據(jù)集是一個(gè)很好的起點(diǎn),但是它絕不應(yīng)該被免除審查:即使在短期內(nèi)需要做大量的工作,也要修改或替換不合適的數(shù)據(jù)集。



          03 構(gòu)建數(shù)據(jù)集

          要從頭創(chuàng)建數(shù)據(jù)集,你必須從某個(gè)地方獲取原始數(shù)據(jù)。這些工作通常分為三個(gè)主要的維度:記錄數(shù)據(jù)、整理數(shù)據(jù)和收集數(shù)據(jù)。

          免責(zé)聲明

          每個(gè)國(guó)家都有自己關(guān)于數(shù)據(jù)集收集、存儲(chǔ)和維護(hù)的法律法規(guī)。本節(jié)中描述的一些方法在一個(gè)地區(qū)可能是合法的,但在下一個(gè)地區(qū)則是非法的。在沒(méi)有首先檢查數(shù)據(jù)集合法性的情況下,你決不能采取任何行動(dòng)來(lái)獲取數(shù)據(jù)集。

          通過(guò)數(shù)據(jù)抓取或追蹤的方法觀察你不擁有的在線(xiàn)內(nèi)容,在世界上的某些地方會(huì)招致嚴(yán)重的懲罰,不管你是不知道,也不管你這么做的目的是什么。這是不值得做的。

          其他方法在法律中可能不明確,例如從公共場(chǎng)所收集照片或錄像,或出于其他目的提供數(shù)據(jù)的所有權(quán)。

          即使數(shù)據(jù)集有一個(gè)許可證說(shuō)明你可以使用所需的數(shù)據(jù),在你擁有數(shù)據(jù)之后,也要仔細(xì)考慮收集它的方法和職責(zé)。你所在地區(qū)的法律總是優(yōu)先于授予你數(shù)據(jù)權(quán)限的許可。

          根據(jù)經(jīng)驗(yàn),如果不是你自己創(chuàng)建的數(shù)據(jù),你就不擁有它(即使你確實(shí)創(chuàng)建了它,仍然可能不擁有它)。所以,除非你得到明確的許可,否則不能收集或使用它。

          1. 數(shù)據(jù)記錄

          數(shù)據(jù)記錄是一流的數(shù)據(jù)收集:你自己在做一些現(xiàn)象和屬性的觀察,記錄屬于你自己的獨(dú)特?cái)?shù)據(jù)。這可以通過(guò)物理設(shè)備(如傳感器或相機(jī))或數(shù)字觀測(cè)設(shè)備(如網(wǎng)絡(luò)追蹤器或爬蟲(chóng))來(lái)完成。

          你可以收集關(guān)于在特定位置發(fā)生的動(dòng)作或環(huán)境條件的數(shù)據(jù),記錄你想要識(shí)別的不同對(duì)象的圖像,或者記錄Web服務(wù)的流量以預(yù)測(cè)用戶(hù)行為。

          針對(duì)以前可能沒(méi)有觀察到的主題,你可以使用這些方法創(chuàng)建高度針對(duì)性的數(shù)據(jù)集,但這是最耗時(shí)的方法。收集的數(shù)據(jù)的質(zhì)量也取決于收集數(shù)據(jù)的設(shè)備或方法,因此建議你具備一些專(zhuān)業(yè)知識(shí)。

          2. 數(shù)據(jù)整理

          數(shù)據(jù)整理是將多個(gè)信息源組合起來(lái),以創(chuàng)建要分析的新數(shù)據(jù)的實(shí)踐過(guò)程。可以通過(guò)從報(bào)告中提取數(shù)據(jù)、從不同的在線(xiàn)來(lái)源合并數(shù)據(jù)或查詢(xún)API等方法來(lái)構(gòu)建。它將存在于許多地方的數(shù)據(jù)以一種有用的方式整合在一起。

          在某些情況下,整理數(shù)據(jù)幾乎和記錄或生成自己的數(shù)據(jù)一樣耗時(shí),但更有可能會(huì)創(chuàng)建一組關(guān)于發(fā)生在難以觸及的地方(如海外或私人組織內(nèi)部)的現(xiàn)象的數(shù)據(jù)。

          不共享某個(gè)問(wèn)題初始數(shù)據(jù)集的公司可能會(huì)發(fā)表多篇包含所有數(shù)據(jù)的論文。或者,一個(gè)站點(diǎn)不允許你下載每個(gè)做過(guò)Y操作的用戶(hù)的記錄,可能會(huì)允許你無(wú)數(shù)次查詢(xún)用戶(hù)X是否做過(guò)Y?

          整理的數(shù)據(jù)的質(zhì)量取決于在合并來(lái)源時(shí)你的關(guān)注程度。某些數(shù)據(jù)整理錯(cuò)誤可能危及整個(gè)項(xiàng)目,例如合并了使用不同測(cè)量單位的來(lái)源或發(fā)生簡(jiǎn)單的轉(zhuǎn)錄錯(cuò)誤等。

          3. 數(shù)據(jù)抓取

          數(shù)據(jù)抓取是一種收集大量信息的方法,這些信息已經(jīng)存在,但可能沒(méi)有被觀察到,它們可以生成適合使用的結(jié)構(gòu)化數(shù)據(jù)。這是過(guò)去社交媒體分析的主要方式(尤其是由第三方進(jìn)行),但許多平臺(tái)都限制了人們獲取數(shù)據(jù)或使用從其服務(wù)中獲取的數(shù)據(jù)的能力。

          抓取是用軟件來(lái)執(zhí)行的,該軟件可以加載、觀察和下載大量的內(nèi)容,這些內(nèi)容通常是不加區(qū)別地從Web目標(biāo)上下載的,然后就可以對(duì)其進(jìn)行調(diào)整以供使用。數(shù)據(jù)抓取要有目的性。

          關(guān)于作者:Mars Geldard,來(lái)自澳大利亞塔斯馬尼亞州的研究者和計(jì)算機(jī)科學(xué)家。
          Jonathon Manning,Secret 實(shí)驗(yàn)室的聯(lián)合創(chuàng)始人兼技術(shù)主管,該實(shí)驗(yàn)室位于澳大利亞塔斯馬尼亞州,已成立十幾年了。
          Paris Buttfield-Addison,計(jì)算機(jī)科學(xué)家和歷史學(xué)家,也是Secret 實(shí)驗(yàn)室的聯(lián)合創(chuàng)始人和產(chǎn)品研發(fā)負(fù)責(zé)人
          Tim Nugent,移動(dòng)應(yīng)用程序開(kāi)發(fā)者、游戲設(shè)計(jì)師和計(jì)算機(jī)研究者。

          本文摘編自Swift人工智能實(shí)戰(zhàn):從基礎(chǔ)理論到AI驅(qū)動(dòng)的應(yīng)用程序開(kāi)發(fā)》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀Swift人工智能實(shí)戰(zhàn)
          點(diǎn)擊上圖了解及購(gòu)買(mǎi)
          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

          推薦語(yǔ):本書(shū)從實(shí)戰(zhàn)角度出發(fā),為所有程序員和開(kāi)發(fā)人員提供了使用Swift進(jìn)行AI和機(jī)器學(xué)習(xí)開(kāi)發(fā)的一站式服務(wù)。全書(shū)分為三部分:一部分介紹機(jī)器學(xué)習(xí)和人工智能背后的基礎(chǔ)知識(shí);第二部分討論許多有趣的主題,包括計(jì)算機(jī)視覺(jué)、音頻、運(yùn)動(dòng)和語(yǔ)言;第三部分詳細(xì)研究為第二部分的應(yīng)用程序提供支持的技術(shù)。



          劃重點(diǎn)??



          干貨直達(dá)??


          更多精彩??

          在公眾號(hào)對(duì)話(huà)框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書(shū) | 書(shū)單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫(kù) | Python | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺(tái) | 用戶(hù)畫(huà)像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
          ??
          瀏覽 32
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月天婷婷六月丁香91 | 男人天堂手机在线 | 污污无码视频 | 中国黄色视频免费看 | 操逼视频下载 |