Mooncake

<div align="center"> <h1>月饼：以KVCache为中心的分解式<br/>大语言模型服务架构</h1> <a href="https://arxiv.org/abs/2407.00079" target="_blank"><strong>📃 技术报告</strong></a> </div> <br/>

月饼是 <a href="https://kimi.ai/"><img src="https://yellow-cdn.veclightyear.com/835a84d5/74b7efcf-9113-41eb-86e4-93db797bb7c3.png" alt="icon" style="height: 16px; vertical-align: middle;"> Kimi</a> 的服务平台，Kimi是由 <a href="https://www.moonshot.cn/"><img src="https://yellow-cdn.veclightyear.com/835a84d5/0883c6f2-eb79-4a84-9911-fec010c66c62.jpg" alt="icon" style="height: 16px; vertical-align: middle;"> Moonshot AI</a> 提供的领先大语言模型服务。本仓库包含其技术报告和开源的跟踪数据。

更多内容即将推出 - 可能不会太快，但敬请期待！

2024年7月9日: 我们将跟踪数据以<a href="https://github.com/kvcache-ai/Mooncake/blob/main/mooncake_trace.jsonl" target="_blank">jsonl文件</a>形式开源！
2024年6月27日: 我们在知乎上发布了一系列中文博客，进行更深入的讨论 <a href="https://zhuanlan.zhihu.com/p/705754254">知乎1</a>, <a href="https://zhuanlan.zhihu.com/p/705910725">2</a>, <a href="https://zhuanlan.zhihu.com/p/706204757">3</a>, <a href="https://zhuanlan.zhihu.com/p/707997501">4</a>。
2024年6月26日: 初始技术报告发布。

月饼采用以KVCache为中心的分解式架构，将预填充和解码集群分离。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的分布式缓存。

月饼的核心是其以KVCache为中心的调度器，在最大化整体有效吞吐量的同时满足与延迟相关的服务水平目标（SLO）要求。与假设所有请求都将被处理的传统研究不同，月饼面临高度超载场景的挑战。为缓解这些问题，我们开发了基于预测的早期拒绝策略。实验表明，月饼在长上下文场景中表现出色。与基线方法相比，月饼在某些模拟场景中可以在遵守SLO的同时实现高达525%的吞吐量增加。在真实工作负载下，月饼的创新架构使<a href="https://kimi.ai/">Kimi</a>能够处理75%更多的请求。

<h2 id="trace">📦 开源跟踪数据</h2>

{
    "timestamp": 27482,
    "input_length": 6955,
    "output_length": 52,
    "hash_ids": [46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 2353, 2354]
}
{
    "timestamp": 30535,
    "input_length": 6472,
    "output_length": 26,
    "hash_ids": [46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 2366]
}

以上展示了我们跟踪数据集中的两个样本。跟踪数据包括请求到达的时间、输入token数量、输出token数量和重新映射的块哈希。为保护客户隐私，我们应用了多种机制来移除用户相关信息，同时保留数据集对模拟评估的实用性。更多关于跟踪数据的描述（例如，高达50%的缓存命中率）可以在论文第3版的第4节中找到。

<h2 id="citation">📑 引用</h2> 如果您发现论文或跟踪数据有用，请引用我们的论文：

@article{qin2024mooncake,
  title        = {Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving},
  author       = {Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, and Xinran Xu},
  year         = {2024},
  url          = {https://arxiv.org/abs/2407.00079}
}