機器學習 | 數(shù)據從哪里找?手把手教你構建數(shù)據集
來源:大數(shù)據DT 本文約2680字,干貨滿滿,建議閱讀5分鐘
了解如何以及在何處查找要使用的數(shù)據集是很好的。在AI的廣闊領域和它可以應用到的大量問題中,這兩者都是非常主觀的,但是存在一些通用的真理和建議。


數(shù)據中顯示的值及其類型 收集數(shù)據的個人或組織 收集數(shù)據所使用的方法(如果知道的話) 收集數(shù)據的時間范圍 該集合單獨是否足以解決你的問題。如果不能,那么是否容易合并其他的來源

免責聲明
每個國家都有自己關于數(shù)據集收集、存儲和維護的法律法規(guī)。本節(jié)中描述的一些方法在一個地區(qū)可能是合法的,但在下一個地區(qū)則是非法的。在沒有首先檢查數(shù)據集合法性的情況下,你決不能采取任何行動來獲取數(shù)據集。通過數(shù)據抓取或追蹤的方法觀察你不擁有的在線內容,在世界上的某些地方會招致嚴重的懲罰,不管你是不知道,也不管你這么做的目的是什么。這是不值得做的。
其他方法在法律中可能不明確,例如從公共場所收集照片或錄像,或出于其他目的提供數(shù)據的所有權。
即使數(shù)據集有一個許可證說明你可以使用所需的數(shù)據,在你擁有數(shù)據之后,也要仔細考慮收集它的方法和職責。你所在地區(qū)的法律總是優(yōu)先于授予你數(shù)據權限的許可。
根據經驗,如果不是你自己創(chuàng)建的數(shù)據,你就不擁有它(即使你確實創(chuàng)建了它,仍然可能不擁有它)。所以,除非你得到明確的許可,否則不能收集或使用它。
1. 數(shù)據記錄
2. 數(shù)據整理
3. 數(shù)據抓取
評論
圖片
表情

