全新HuggingFace數(shù)據(jù)集庫(kù)發(fā)布!帶來(lái)467種語(yǔ)言的611個(gè)文本數(shù)據(jù)集

??新智元報(bào)道??
??新智元報(bào)道??
來(lái)源:Huggingface
編輯:Q
【新智元導(dǎo)讀】NLP初創(chuàng)公司 HuggingFace 近日發(fā)布新版其Datasets庫(kù) v1.2,包括611 個(gè)文本數(shù)據(jù)集,可以下載以準(zhǔn)備在一行 python 中使用;涵蓋 467 種語(yǔ)言,其中 99 種包含至少 10 個(gè)數(shù)據(jù)集;當(dāng)使用非常大的數(shù)據(jù)集時(shí)(默認(rèn)情況下是內(nèi)存映射),高效的預(yù)處理可以使用戶(hù)擺脫內(nèi)存限制。




推薦閱讀:


評(píng)論
圖片
表情
