Mooncake 大模型推理架構(gòu)聯(lián)合創(chuàng)作 · 2025-02-18 07:50月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。Mooncake 采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。瀏覽 11點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評(píng)論圖片表情視頻評(píng)價(jià)全部評(píng)論推薦 Mooncake 大模型推理架構(gòu)月之暗面Kimi和清华大学MADSys实验MooncakeMooncake0SGLang 大模型推理框架SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架&SGLang 大模型推理框架SGLang 大模型推理框架0三種大模型架構(gòu)肉眼品世界0MooncakeMooncake0KTransformers 大模型推理優(yōu)化框架KTransformers是由清华大学的KVCache.AIVfastllm高性能大模型推理庫(kù)fastllm是純C++實(shí)現(xiàn)的全平臺(tái)llm加速庫(kù)。支持Python調(diào)用,chatglm-6B級(jí)模型單卡可達(dá)10000+token/s,支持glm、llama、moss基座,手機(jī)端流暢運(yùn)行。功能概述純Cfastllm高性能大模型推理庫(kù)fastllm 是純 C++ 實(shí)現(xiàn)的全平臺(tái) llm 加速庫(kù)。支持 Python 調(diào)用,chatglmKTransformers 大模型推理優(yōu)化框架KTransformers是由清华大学的KVCache.AI团队与趋境科技联合发布的开&點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)