<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          verl RL 訓(xùn)練庫

          聯(lián)合創(chuàng)作 · 2025-03-04 09:48

          verl 是一个灵活、高效且可用于生产的 RL 训练库,适用于大型语言模型 (LLM)。

          verl 是 HybridFlow:一种灵活高效的 RLHF 框架 论文的开源实现。

          verl 灵活且易于使用:

          • 轻松扩展各种 RL 算法:混合编程模型结合了单控制器和多控制器范式的优势,能够灵活地表示和高效执行复杂的训练后数据流。允许用户用几行代码构建 RL 数据流。

          • 现有 LLM 基础架构与模块化 API 无缝集成:解耦计算和数据依赖关系,实现与现有 LLM 框架(如 PyTorch FSDP、Megatron-LM 和 vLLM)无缝集成。此外,用户可以轻松扩展到其他 LLM 训练和推理框架。

          • 灵活的设备映射:支持将模型放置到不同的 GPU 组上,以实现高效的资源利用率和跨不同集群规模的可扩展性。

          • 轻松与流行的 HuggingFace 模型集成

          verl 速度很快:

          • 最先进的吞吐量:通过无缝集成现有的 SOTA LLM 训练和推理框架,verl 实现了高生成和训练吞吐量。

          • 使用 3D-HybridEngine 进行高效的演员模型重新分片:消除内存冗余并显著减少训练和生成阶段之间转换期间的通信开销

          主要特点

          • FSDPMegatron-LM用于训练。
          • vLLMTGI用于推出生成,SGLang支持即将推出。
          • huggingface 模型支持
          • 监督微调
          • 使用PPOGRPOReMaxReinforce++RLOO等 从人类反馈中进行强化学习

            • 支持基于模型的奖励和基于函数的奖励(可验证的奖励)

          • flash-attention、序列打包、通过 DeepSpeed Ulysses、LoRALiger-kernel提供长上下文支持
          • 可扩展至 70B 模型和数百个 GPU
          • 使用 wandb、swanlab 和 mlflow 进行实验跟踪

          瀏覽 141
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲精品成人a v久久久 | 亚洲免费永久精品国产无损音乐 | 苍井空| 亚洲办公室丝袜在线 | 国产黄色操逼视频 |