AcmeTrace是一个由上海人工智能实验室发布的开源项目,旨在为研究人员和开发者提供宝贵的大型语言模型(LLM)开发数据。该项目包含了从2023年3月到8月期间Acme集群的详细工作负载追踪数据,为我们深入了解LLM在现代数据中心中的开发过程提供了独特的视角。
AcmeTrace数据集具有以下主要特征:
这些数据涵盖了大型AI项目开发的方方面面,从单个作业的执行情况到整个集群的资源利用率,为我们提供了全面的视角。
AcmeTrace数据集的结构设计非常清晰,主要包含以下几个部分:
作业追踪数据存储在data/job_trace
目录下,包含两个主要文件:
trace_kalos.csv
: Kalos集群的作业追踪数据trace_seren.csv
: Seren集群的作业追踪数据这些文件记录了每个提交到调度器的作业的详细信息,包括作业ID、用户、所需资源(GPU、CPU等)、作业类型、状态、提交时间、开始时间、结束时间等。这些数据让我们能够深入分析作业的执行特征、资源需求和调度效率。
资源利用率数据存储在data/utilization
目录下,进 一步分为以下子目录:
ipmi
: 包含Seren集群中不同服务器型号的功耗数据,通过IPMI收集kalos
和seren
: 分别包含Kalos和Seren集群的资源利用率日志,通过DCGM和Prometheus收集util_pkl
: 包含处理后的pickle文件,用于绘图这些数据让我们能够全面了解集群的资源使用情况,包括CPU利用率、GPU利用率、内存使用、功耗等,为优化资源分配和提高能效提供了重要依据。
通过对AcmeTrace数据集的深入分析,我们可以得出以下几个关键洞察:
从作业追踪数据中,我们可以观察到LLM开发过程中的一些典型特征:
通过分析资源利用率数据,我们可以得出以下结论: