BentoML統(tǒng)一模型部署框架
BentoML 是 AI 應(yīng)用程序開發(fā)人員的平臺(tái),提供工具和基礎(chǔ)架構(gòu)來簡化整個(gè) AI 產(chǎn)品開發(fā)生命周期。BentoML 使創(chuàng)建準(zhǔn)備好部署和擴(kuò)展的機(jī)器學(xué)習(xí)服務(wù)變得容易。
數(shù)據(jù)科學(xué)家和 ML 工程師可以使用 BentoML:
- 加速并標(biāo)準(zhǔn)化將 ML 模型投入生產(chǎn)的過程
- 構(gòu)建可擴(kuò)展的高性能預(yù)測服務(wù)
- 在生產(chǎn)中持續(xù)部署、監(jiān)控和運(yùn)行預(yù)測服務(wù)
BentoML 原生支持所有流行的 ML 框架,包括 Pytorch、Tensorflow、JAX、XGBoost、HuggingFace、MLFlow,以及最新的預(yù)構(gòu)建開源 LLM(大型語言模型)和生成式 AI 模型。
BentoML 可擴(kuò)展你使用 Python 構(gòu)建的 AI 工作負(fù)載。多模型圖推理、并行模型推理和自適應(yīng)批處理,以及許多高級(jí) AI 功能,都包含在易于使用的 Python 原語中。
BentoML 是一個(gè)統(tǒng)一的 online、offline 和 streaming 框架;使用一個(gè)統(tǒng)一接口進(jìn)行開發(fā),該接口可以作為 REST API endpoin 或 gRPC service 輕松推出,集成到批處理工作負(fù)載的數(shù)據(jù)管道中,或使用流式架構(gòu)進(jìn)行實(shí)時(shí)處理。
BentoML 是用于創(chuàng)建 AI 應(yīng)用程序的開放標(biāo)準(zhǔn),它帶來了一致性,使開發(fā)人員能夠在所有 AI 產(chǎn)品團(tuán)隊(duì)中變得更加敏捷、創(chuàng)新和高效。
Highlights
Unified Model Serving API
- 適用于Tensorflow、PyTorch、XGBoost、Scikit-Learn、ONNX等的框架無關(guān)的模型打包
- 為預(yù)處理/后處理和業(yè)務(wù)邏輯編寫自定義 Python 代碼以及模型推理
- 為在線(REST API 或 gRPC)、離線批處理和流式推理應(yīng)用相同的代碼
- 用于構(gòu)建多模型推理管道或圖形的簡單抽象
無摩擦過渡到生產(chǎn)的標(biāo)準(zhǔn)化流程
- 將Bento構(gòu)建為 ML 服務(wù)的標(biāo)準(zhǔn)可部署工件
- 自動(dòng)生成具有所需依賴項(xiàng)的 docker 鏡像
- 使用 GPU 進(jìn)行推理的簡單 CUDA 設(shè)置
- 與 MLOps 生態(tài)系統(tǒng)的豐富集成,包括 Kubeflow、Airflow、MLFlow、Triton
具有強(qiáng)大的性能優(yōu)化的可擴(kuò)展性
- 自適應(yīng)批處理根據(jù)服務(wù)器端最佳性能動(dòng)態(tài)分組推理請求
- Runner 抽象將模型推理與你的自定義代碼分開進(jìn)行 scales
- 通過自動(dòng)配置最大化你的 GPU和多核 CPU 利用率
以 DevOps 友好的方式部署到任何地方
- 通過以下方式簡化生產(chǎn)部署工作流程:
- BentoML Cloud:部署便當(dāng)?shù)淖羁旆绞剑唵吻掖笠?guī)模
- Yatai:在 Kubernetes 上大規(guī)模部署模型
- bentoctl:在 AWS SageMaker、Lambda、ECE、GCP、Azure、Heroku 等平臺(tái)上快速部署模型!
- 使用 Spark 或 Dask 運(yùn)行離線批量推理作業(yè)
- 對(duì) Prometheus 指標(biāo)和 OpenTelemetry 的內(nèi)置支持
- 用于高級(jí) CI/CD 工作流程的靈活 API
