<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

PatrickStar分布式深度學(xué)習(xí)訓(xùn)練工具

聯(lián)合創(chuàng)作 · 2023-09-26 06:19

PatrickStar 是一款騰訊開(kāi)發(fā)的分布式深度學(xué)習(xí)訓(xùn)練工具，它的設(shè)計(jì)目標(biāo)是支持以 GPT、Bert 為代表的超大預(yù)訓(xùn)練模型訓(xùn)練。

用法

PatrickStar 基于 PyTorch，這使得遷移 pytorch 項(xiàng)目變得容易。以下是 PatrickStar 的示例：

from patrickstar.runtime import initialize_engine

config = {
    "optimizer": {
        "type": "Adam",
        "params": {
            "lr": 0.001,
            "betas": (0.9, 0.999),
            "eps": 1e-6,
            "weight_decay": 0,
            "use_hybrid_adam": True,
        },
    },
    "fp16": {  # loss scaler params
        "enabled": True,
        "loss_scale": 0,
        "initial_scale_power": 2 ** 3,
        "loss_scale_window": 1000,
        "hysteresis": 2,
        "min_loss_scale": 1,
    },
    "default_chunk_size": 64 * 1024 * 1024,
    "release_after_init": True,
    "use_cpu_embedding": False,
}

def model_func():
    # MyModel is a derived class for torch.nn.Module
    return MyModel(...)

model, optimizer = initialize_engine(model_func=model_func, local_rank=0, config=config)

...

for data in dataloader:
    optimizer.zero_grad()

    loss = model(data)
    model.backward(loss)
    optimizer.step()

使用與 DeepSpeed 配置 JSON 相同的config格式，主要包括優(yōu)化器、損失縮放器和一些 PatrickStar 特定配置的參數(shù)。

引用我們

@article{fang2021patrickstar,
  title={PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management},
  author={Fang, Jiarui and Yu, Yang and Zhu, Zilin and Li, Shenggui and You, Yang and Zhou, Jie},
  journal={arXiv preprint arXiv:2108.05818},
  year={2021}
}

瀏覽 10

點(diǎn)贊

收藏

分享

舉報(bào)

評(píng)論

圖片

表情

PatrickStar分布式深度學(xué)習(xí)訓(xùn)練工具

PatrickStar是一款騰訊開(kāi)發(fā)的分布式深度學(xué)習(xí)訓(xùn)練工具，它的設(shè)計(jì)目標(biāo)是支持以GPT、Bert為代表的超大預(yù)訓(xùn)練模型訓(xùn)練。用法PatrickStar基于PyTorch，這使得遷移pytorch項(xiàng)目

Petastorm深度學(xué)習(xí)分布式訓(xùn)練庫(kù)

Petastorm 是由 Uber ATG(Advanced Technologies Group)

【深度學(xué)習(xí)】聊一聊深度學(xué)習(xí)分布式訓(xùn)練

機(jī)器學(xué)習(xí)初學(xué)者

Petastorm深度學(xué)習(xí)分布式訓(xùn)練庫(kù)

Petastorm是由UberATG(AdvancedTechnologiesGroup)開(kāi)發(fā)的開(kāi)源數(shù)據(jù)訪問(wèn)庫(kù)。這個(gè)庫(kù)可以直接基于數(shù)TBParquet格式的數(shù)據(jù)集進(jìn)行單機(jī)或分布式訓(xùn)練和深度學(xué)習(xí)模型評(píng)估

BytePS高性能分布式深度學(xué)習(xí)訓(xùn)練框架

BytePS是字節(jié)跳動(dòng)開(kāi)源的高性能分布式深度學(xué)習(xí)訓(xùn)練框架，官方宣稱BytePS在性能上顛覆了過(guò)去幾年allreduce流派一直占據(jù)上風(fēng)的局面，超出目前其他所有分布式訓(xùn)練框架一倍以上的性能，且同時(shí)能夠支

BytePS高性能分布式深度學(xué)習(xí)訓(xùn)練框架

BytePS 是字節(jié)跳動(dòng)開(kāi)源的高性能分布式深度學(xué)習(xí)訓(xùn)練框架，官方宣稱 BytePS 在性能上顛覆了過(guò)

PyTorch深度學(xué)習(xí)訓(xùn)練可視化工具tensorboardX

小白學(xué)視覺(jué)

CaffeOnSpark分布式深度學(xué)習(xí)

該項(xiàng)目已歸檔許多現(xiàn)有的DL框架需要一個(gè)分離的集群進(jìn)行深度學(xué)習(xí)，而一個(gè)典型的機(jī)器學(xué)習(xí)管道需要?jiǎng)?chuàng)建一個(gè)復(fù)雜的程序（如圖1）。分離的集群需要大型的數(shù)據(jù)集在它們之間進(jìn)行傳輸，從而系統(tǒng)的復(fù)雜性和端到端學(xué)習(xí)的延遲

CaffeOnSpark分布式深度學(xué)習(xí)

該項(xiàng)目已歸檔許多現(xiàn)有的DL框架需要一個(gè)分離的集群進(jìn)行深度學(xué)習(xí)，而一個(gè)典型的機(jī)器學(xué)習(xí)管道需要?jiǎng)?chuàng)建一個(gè)復(fù)

HorovodTensorFlow 分布式深度學(xué)習(xí)框架

Horovod是Uber開(kāi)源的針對(duì)?TensorFlow?的分布式深度學(xué)習(xí)框架，旨在使分布式深度學(xué)習(xí)更快速，更易于使用。Horovod吸取了Facebook的?TrainingImageNetin1H

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

WW成| 蜜芽av在线播放免费成人性爱网站 | 黄色成人网站在线 | 亚洲AV高清无码 | 青娱乐少妇在线免费视频 |