<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          全新HuggingFace數(shù)據(jù)集庫(kù)發(fā)布!帶來(lái)467種語(yǔ)言的611個(gè)文本數(shù)據(jù)集

          共 1767字,需瀏覽 4分鐘

           ·

          2021-01-14 10:55



          ??新智元報(bào)道??

          來(lái)源:Huggingface

          編輯:Q

          【新智元導(dǎo)讀】NLP初創(chuàng)公司 HuggingFace 近日發(fā)布新版其Datasets庫(kù) v1.2,包括611 個(gè)文本數(shù)據(jù)集,可以下載以準(zhǔn)備在一行 python 中使用;涵蓋 467 種語(yǔ)言,其中 99 種包含至少 10 個(gè)數(shù)據(jù)集;當(dāng)使用非常大的數(shù)據(jù)集時(shí)(默認(rèn)情況下是內(nèi)存映射),高效的預(yù)處理可以使用戶(hù)擺脫內(nèi)存限制。



          談到?Hugging Face,熟悉NLP的朋友們可能無(wú)人不知。

          Hugging Face是一家領(lǐng)先的 NLP 創(chuàng)業(yè)公司,有超過(guò)一千家公司使用他們的產(chǎn)品庫(kù),其中包括必應(yīng),蘋(píng)果,Monzo等。
          ?
          ?
          它擁有一個(gè)大型的開(kāi)源社區(qū),尤其是transformers庫(kù)。transformers 是一個(gè)基于 python 的庫(kù),它公開(kāi)了一個(gè) API 來(lái)使用許多著名的transformer架構(gòu),如 BERT、 RoBERTa、 GPT-2或 DistilBERT等,這些架構(gòu)可以獲得各種 NLP 任務(wù)的SOTA結(jié)果,如文本分類(lèi)、信息抽取、問(wèn)答和文本生成。
          ?
          ?
          這些架構(gòu)都通過(guò)預(yù)訓(xùn)練得到了權(quán)重。通過(guò)pip命令即可安裝:
          ?
          ?
          而本次更新的datasets是一個(gè)提供兩個(gè)主要特性的輕量級(jí)庫(kù):
          ?
          一行程序處理: 這是用于下載和預(yù)處理任何主要公共數(shù)據(jù)集的一行程序(使用467種語(yǔ)言和方言),在HuggingFace Datasets Hub提供。
          ?
          使用一個(gè)簡(jiǎn)單的命令,比如:
          ?
          squad _ dataset = load _ datasets (“ squad”)
          ?
          即可獲得這些數(shù)據(jù)集中的任何一個(gè),以便在數(shù)據(jù)采集器中用于訓(xùn)練/評(píng)估 ML 模型(Numpy/Pandas/PyTorch/TensorFlow/JAX) 。
          ?
          高效的數(shù)據(jù)預(yù)處理:簡(jiǎn)單、快速、可復(fù)制的數(shù)據(jù)數(shù)據(jù)預(yù)處理,可用于上述公共數(shù)據(jù)集以及用 CSV/JSON/text 編寫(xiě)的本地?cái)?shù)據(jù)集。使用簡(jiǎn)單的命令,比如:tokenized_dataset = dataset.map(tokenize_exemple), ?,可以有效地準(zhǔn)備數(shù)據(jù)集進(jìn)行檢驗(yàn)和 ML 模型評(píng)估和訓(xùn)練。
          ?
          Datasets還提供了15個(gè)以上的評(píng)價(jià)指標(biāo),旨在讓社區(qū)容易地添加和共享新的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。
          ?
          Datasets還有許多其他有趣的特性:
          ?
          將用戶(hù)從 RAM 內(nèi)存限制中釋放出來(lái),所有數(shù)據(jù)集都使用一個(gè)有效的零序列化開(kāi)銷(xiāo)后端(Apache Arrow)進(jìn)行內(nèi)存映射;
          ?
          ?智能緩存: 永遠(yuǎn)無(wú)需等待數(shù)據(jù)被多次處理;
          ?
          ?使用透明和 pythonic API (多處理/緩存/內(nèi)存映射)實(shí)現(xiàn)輕量級(jí)和快速;
          ?
          ?與 NumPy、 pandas、 PyTorch、 Tensorflow 2和 JAX 的內(nèi)置互操作性。
          ?
          安裝和用法
          ?
          datasets可以從 PyPi 安裝,而且必須在虛擬環(huán)境中安裝(例如 venv 或 conda):
          ?
          pip install datasets
          ?
          如果想要將Datasets與 PyTorch (1.0 +)、 TensorFlow (2.2 +)或Pandas等一起使用,還應(yīng)該安裝對(duì)應(yīng)版本的框架和庫(kù)。
          ?
          Datasets使用起來(lái)非常簡(jiǎn)單,其中主要的方法有:
          ?
          1.datasets.list_datasets() 列出可用的數(shù)據(jù)集
          ?
          2.datasets.load_dataset(dataset_name, **kwargs) ?實(shí)例化一個(gè)數(shù)據(jù)集
          ?
          3.datasets.list_metrics() ?列出可用的指標(biāo)
          ?
          4.datasets.load_metric(metric_name, **kwargs)實(shí)例化一個(gè)指標(biāo)
          ?
          舉一個(gè)簡(jiǎn)單的例子:
          ?
          ?
          ?
          更多詳細(xì)信息,可以查看文檔中的快速瀏覽頁(yè)面:
          https://huggingface.co/docs/datasets/quicktour.html

          推薦閱讀:

          15歲上浙大、22歲獲世界冠軍,90后「天才黑客」為何被開(kāi)除、錯(cuò)失上億股票?

          克勞德·香農(nóng):看我如何發(fā)明未來(lái)




          瀏覽 61
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99视频免费在线观看 | 久久精品96无码内射 | 成人免费黄色视频网站 | 日本丰满熟妇一国产成人免费一 | 黄色电影免费在线观看 |