Text Generation Inference大語言模型文本生成推理
用于文本生成推理的 Rust、Python 和 gRPC 服務(wù)器。在HuggingFace的生產(chǎn)中用于為 LLM 的 api 推理小部件提供支持。
特性:
- 使用簡單的啟動器為最流行的大型語言模型提供服務(wù)
- Tensor Parallelism 用于在多個 GPU 上進(jìn)行更快的推理
- 使用服務(wù)器發(fā)送事件 (SSE) 的令牌流
- 連續(xù)批處理傳入請求以提高總吞吐量
- 優(yōu)化的變換器代碼,用于在最流行的架構(gòu)上使用flash-attention進(jìn)行推理
- 使用 bitsandbytes 進(jìn)行量化
- Safetensors weight loading
- 使用 A Watermark 的大型語言模型的Watermarking
- Logits warper(temperature scaling、top-p、top-k、repetition penalty,更多細(xì)節(jié)見transformers.LogitsProcessor)
- Stop sequences
- Log probabilities
- 生產(chǎn)就緒(使用 Open Telemetry、Prometheus 指標(biāo)進(jìn)行分布式跟蹤)
評論
圖片
表情
