yet-another-cloudwatch-exporter

yet-another-cloudwatch-exporter

AWS CloudWatch指标的开源Prometheus导出工具

yet-another-cloudwatch-exporter是一个Go语言开发的AWS CloudWatch指标导出工具。它能自动发现AWS资源、支持结构化日志、正则过滤和标签管理。此外,它可从多个AWS账户获取数据,支持众多AWS服务,还可作为库集成到其他应用中。该项目为CloudWatch指标提供了灵活全面的导出方案。

CloudWatchPrometheusAWS指标导出监控Github开源项目

YACE - 又一个 CloudWatch 导出器

YACE,即"又一个 CloudWatch 导出器",是一个用于 AWS CloudWatch 指标的 Prometheus 导出器。它使用 Go 语言编写,并使用官方 AWS SDK。

该项目最初由 Thomas Peitz 在 InVision.de 工作期间创建,后来移至公司仓库之外。完整的品牌重塑故事可以在这里阅读。

替代方案

如果你更喜欢 Java 实现,可以考虑使用官方的 CloudWatch 导出器

项目状态

当 YACE 版本低于 1.0.0 时,预计任何新版本都可能引入重大变更。我们会在 CHANGELOG.md 中记录变更。

在可行的情况下,功能将被弃用而不是立即更改或删除。这意味着 YACE 将继续工作但可能会记录警告信息。预计被弃用的功能将在接下来的 2/3 个版本中永久更改/删除。

安全

SECURITY.md 中了解更多如何报告安全漏洞的信息。

支持的版本

只有最新版本会获得安全更新。我们不会支持旧版本。

功能

  • 停止担心您的 AWS ID - 通过标签自动发现资源
  • 结构化日志记录(json 和 logfmt)
  • 通过正则表达式过滤监控资源
  • 自动为指标添加标签标签
  • 自动为指标添加维度标签
  • 允许导出 0,即使 CloudWatch 返回 nil
  • 允许使用 CloudWatch 时间戳导出指标(默认禁用)
  • 所有 CloudWatch 指标的静态指标支持,无需自动发现
  • 使用跨账户角色从多个 AWS 账户拉取数据
  • 可作为外部应用程序中的库使用
  • 支持使用 CloudWatch 维度抓取自定义命名空间指标
  • 通过标签支持自动发现的服务:
    • /aws/sagemaker/Endpoints - Sagemaker 端点
    • /aws/sagemaker/InferenceRecommendationsJobs - Sagemaker 推理推荐器作业
    • /aws/sagemaker/ProcessingJobs - Sagemaker 处理作业
    • /aws/sagemaker/TrainingJobs - Sagemaker 训练作业
    • /aws/sagemaker/TransformJobs - Sagemaker 批量转换作业
    • AmazonMWAA - 托管 Apache Airflow
    • AWS/ACMPrivateCA - ACM 私有 CA
    • AWS/AmazonMQ - 托管消息代理服务
    • AWS/AppRunner - 托管容器应用服务
    • AWS/AOSS - OpenSearch Serverless
    • AWS/ApiGateway - API 网关(V1 和 V2)
    • AWS/ApplicationELB - 应用负载均衡器
    • AWS/AppStream - AppStream
    • AWS/AppSync - AppSync
    • AWS/Athena - Athena
    • AWS/AutoScaling - 自动扩展组
    • AWS/Backup - 备份
    • AWS/Bedrock - 生成式 AI
    • AWS/Billing - 计费
    • AWS/Cassandra - Cassandra
    • AWS/CertificateManager - 证书管理器
    • AWS/ClientVPN - 基于客户端的 VPN
    • AWS/CloudFront - CloudFront
    • AWS/Cognito - Cognito
    • AWS/DataSync - DataSync
    • AWS/DDoSProtection - 分布式拒绝服务(DDoS)保护服务
    • AWS/DMS - 数据库迁移服务
    • AWS/DocDB - DocumentDB(与 MongoDB 兼容)
    • AWS/DX - Direct Connect
    • AWS/DynamoDB - NoSQL 键值数据库
    • AWS/EBS - 弹性块存储
    • AWS/EC2 - 弹性计算云
    • AWS/EC2Spot - 竞价型实例的弹性计算云
    • AWS/ECS - 弹性容器服务(服务指标)
    • AWS/EFS - 弹性文件系统
    • AWS/ElastiCache - ElastiCache
    • AWS/ElasticBeanstalk - Elastic Beanstalk
    • AWS/ElasticMapReduce - Elastic MapReduce
    • AWS/ELB - 弹性负载均衡器
    • AWS/EMRServerless - Amazon EMR Serverless
    • AWS/ES - ElasticSearch
    • AWS/Events - EventBridge
    • AWS/Firehose - 托管流服务
    • AWS/FSx - FSx 文件系统
    • AWS/GameLift - GameLift
    • AWS/GatewayELB - 网关负载均衡器
    • AWS/GlobalAccelerator - AWS 全球加速器
    • AWS/IoT - 物联网
    • AWS/IPAM - IP 地址管理器
    • AWS/Kafka - 托管 Apache Kafka
    • AWS/KafkaConnect - AWS MSK 连接器
    • AWS/Kinesis - Kinesis 数据流
    • AWS/KinesisAnalytics - Kinesis Data Analytics for SQL 应用程序
    • AWS/KMS - 密钥管理服务
    • AWS/Lambda - Lambda 函数
    • AWS/Logs - CloudWatch 日志
    • AWS/MediaConnect - AWS Elemental MediaConnect
    • AWS/MediaConvert - AWS Elemental MediaConvert
    • AWS/MediaLive - AWS Elemental MediaLive
    • AWS/MediaPackage - AWS Elemental MediaPackage
    • AWS/MediaTailor - AWS Elemental MediaTailor
    • AWS/MemoryDB - AWS MemoryDB
    • AWS/MWAA - 托管 Apache Airflow(容器、队列和数据库指标)
    • AWS/NATGateway - NAT 网关
    • AWS/Neptune - Neptune
    • AWS/NetworkELB - 网络负载均衡器
    • AWS/NetworkFirewall - 网络防火墙
    • AWS/PrivateLinkEndpoints - VPC 终端节点
    • AWS/PrivateLinkServices - VPC 终端节点服务
    • AWS/Prometheus - 托管 Prometheus 服务
    • AWS/QLDB - 量子账本数据库
    • AWS/RDS - 关系数据库服务
    • AWS/Redshift - Redshift 数据库
    • AWS/Route53 - Route53 健康检查
    • AWS/Route53Resolver - Route53 解析器
    • AWS/RUM - 实时用户监控
    • AWS/S3 - 对象存储
    • AWS/Sagemaker/ModelBuildingPipeline - Sagemaker 模型构建管道
    • AWS/SageMaker - Sagemaker 调用
    • AWS/SecretsManager - 秘密管理器
    • AWS/SES - 简单电子邮件服务
    • AWS/SNS - 简单通知服务
    • AWS/SQS - 简单队列服务
    • AWS/States - Step Functions
    • AWS/StorageGateway - 本地访问云存储
    • AWS/TransitGateway - 中转网关
    • AWS/TrustedAdvisor - Trusted Advisor
    • AWS/Usage - 某些 AWS 资源和 API 的使用情况
    • AWS/VPN - VPN 连接
  • AWS/WAFV2 - Web应用防火墙v2
  • AWS/WorkSpaces - WorkSpaces虚拟桌面
  • CWAgent - CloudWatch代理
  • ECS/ContainerInsights - ECS/ContainerInsights(Fargate指标)
  • Glue - AWS Glue作业
  • ContainerInsights - EKS ContainerInsights(依赖于CloudWatch代理)

功能标志

为了提供向后兼容性,YACE 的一些新功能或破坏性变更可能会受功能标志保护。详情请参阅 docs/feature_flags.md

安装和运行

请参阅安装指南

身份验证

导出器需要在能够访问 AWS 的环境中运行。导出器使用 AWS SDK for Go 并支持通过 AWS 默认凭证链 提供身份验证。无论使用何种方法获取凭证,导出器都需要一些权限才能正常工作。

作为快速入门,可以使用以下 IAM 策略来授予 YACE 所需的所有权限

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "tag:GetResources", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics", "apigateway:GET", "aps:ListWorkspaces", "autoscaling:DescribeAutoScalingGroups", "dms:DescribeReplicationInstances", "dms:DescribeReplicationTasks", "ec2:DescribeTransitGatewayAttachments", "ec2:DescribeSpotFleetRequests", "shield:ListProtections", "storagegateway:ListGateways", "storagegateway:ListTagsForResource", "iam:ListAccountAliases" ], "Effect": "Allow", "Resource": "*" } ] }

如果您想根据需求移除某些权限,可以根据您要抓取的 CloudWatch 命名空间调整策略

以下是运行静态和发现作业所需的最低权限

"tag:GetResources", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics"

以下权限用于发现 AWS/ApiGateway 命名空间的资源

"apigateway:GET"

以下权限用于发现 AWS/AutoScaling 命名空间的资源

"autoscaling:DescribeAutoScalingGroups"

以下权限用于发现 AWS/DMS 命名空间的资源

"dms:DescribeReplicationInstances", "dms:DescribeReplicationTasks"

以下权限用于发现 AWS/EC2Spot 命名空间的资源

"ec2:DescribeSpotFleetRequests"

以下权限用于发现 AWS/Prometheus 命名空间的资源

"aps:ListWorkspaces"

以下权限用于发现 AWS/StorageGateway 命名空间的资源

"storagegateway:ListGateways", "storagegateway:ListTagsForResource"

以下权限用于发现 AWS/TransitGateway 命名空间的资源

"ec2:DescribeTransitGatewayAttachments"

以下权限用于发现 AWS/DDoSProtection 命名空间的受保护资源

"shield:ListProtections"

AWS IAM API 支持创建账户别名,这是可用于轻松识别账户的人性化名称。一个账户最多只能有一个别名,参见(文档)。每个别名在 AWS 网络分区中必须是唯一的(文档)。以下权限用于获取账户的别名,该别名作为标签导出到 aws_account_info 指标中:

"iam:ListAccountAliases"

如果在 AWS EC2 实例内运行 YACE,导出器将自动尝试承担关联的 IAM 角色。如果不希望出现这种行为,可以通过设置环境变量 AWS_EC2_METADATA_DISABLED=true 来关闭使用元数据端点。

配置

请参阅配置文档。

指标示例

### 带有 exportedTagsOnMetrics 的指标 aws_ec2_cpuutilization_maximum{dimension_InstanceId="i-someid", name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid", tag_Name="jenkins"} 57.2916666666667 ### 带有标签的信息辅助指标 aws_elb_info{name="arn:aws:elasticloadbalancing:eu-west-1:472724724:loadbalancer/a815b16g3417211e7738a02fcc13bbf9",tag_KubernetesCluster="production-19",tag_Name="",tag_kubernetes_io_cluster_production_19="owned",tag_kubernetes_io_service_name="nginx-ingress/private-ext",region="eu-west-1"} 0 aws_ec2_info{name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid",tag_Name="jenkins"} 0 ### 跟踪 CloudWatch 请求以计算成本 yace_cloudwatch_requests_total 168

不带 exportedTagsOnMetrics 的查询示例

# CPU 使用率 + 实例 ID 的 Name 标签 - 无需再使用实例 ID 进行监控 aws_ec2_cpuutilization_average + on (name) group_left(tag_Name) aws_ec2_info # 以兆字节为单位的可用存储空间 + Elasticsearch 集群的 Type 标签 (aws_es_free_storage_space_sum + on (name) group_left(tag_Type) aws_es_info) / 1024 # 在 ELB 4xx 指标上添加 Kubernetes / kops 标签 (aws_elb_httpcode_backend_4_xx_sum + on (name) group_left(tag_KubernetesCluster,tag_kubernetes_io_service_name) aws_elb_info) # ELB 的可用性指标(成功请求 / 总请求)+ k8s 服务名称 # 对所有指标使用 nilToZero,否则将无法工作 ((aws_elb_request_count_sum - on (name) group_left() aws_elb_httpcode_backend_4_xx_sum) - on (name) group_left() aws_elb_httpcode_backend_5_xx_sum) + on (name) group_left(tag_kubernetes_io_service_name) aws_elb_info

预测7天内你的elasticsearch磁盘大小并用标签类型和版本报告指标

predict_linear(aws_es_free_storage_space_minimum[2d], 86400 * 7) + on (name) group_left(tag_type, tag_version) aws_es_info

根据过去10分钟预测未来32天的cloudwatch成本

100万次请求免费

每1000次GetMetricStatistics API请求0.01美元 (https://aws.amazon.com/cloudwatch/pricing/)

((increase(yace_cloudwatch_requests_total[10m]) * 6 * 24 * 32) - 100000) / 1000 * 0.01


## 覆盖AWS端点URL
为了支持本地测试,所有AWS URL都可以通过设置环境变量`AWS_ENDPOINT_URL`来覆盖
```shell
docker run -d --rm -v $PWD/credentials:/exporter/.aws/credentials -v $PWD/config.yml:/tmp/config.yml \
-e AWS_ENDPOINT_URL=http://localhost:4766 -p 5000:5000 --name yace ghcr.io/nerdswords/yet-another-cloudwatch-exporter:vx.xx.x # 使用发布版本作为标签 - 不要忘记版本号前的'v'

选项

RoleArns

多个roleArn在监控多账户设置时很有用,其中所有账户都使用相同的AWS服务。例如,你在监控账户中运行yace,并且有多个账户(比如报纸、广播和电视)运行ECS集群。每个账户都授予yace权限以承担本地IAM角色,该角色具有所有必要的Cloudwatch指标权限。在这种设置下,你可以简单地列出:

apiVersion: v1alpha1 sts-region: eu-west-1 discovery: jobs: - type: AWS/ECS regions: - eu-north-1 roles: - roleArn: "arn:aws:iam::1111111111111:role/prometheus" # 报纸 - roleArn: "arn:aws:iam::2222222222222:role/prometheus" # 广播 - roleArn: "arn:aws:iam::3333333333333:role/prometheus" # 电视 metrics: - name: MemoryReservation statistics: - Average - Minimum - Maximum period: 600 length: 600

此外,如果你要承担的IAM角色需要外部ID,你可以这样指定:

roles: - roleArn: "arn:aws:iam::1111111111111:role/prometheus" externalId: "shared-external-identifier"

请求并发

标志'cloudwatch-concurrency'和'tag-concurrency'定义了对cloudwatch指标和标签的并发请求数。它们的默认值是5。

设置更高的值可以加快抓取时间,但可能会导致节流和API被阻塞。

解耦抓取

导出器在固定间隔的后台抓取cloudwatch指标。 这可以防止API请求的滥用,避免在AWS账户中产生额外的账单。

标志'scraping-interval'定义了抓取之间的秒数。 默认值是300。

将YACE嵌入到你的应用程序中

YACE可以作为库使用并嵌入到你的应用程序中,请参阅嵌入指南

故障排除 / 调试

帮助,我的指标是间歇性的

  • 请尝试使用更大的长度,例如对于elb,尝试使用600的长度和600的周期。然后测试你可以降低到多低而不会丢失数据。AWS上的ELB指标默认每5分钟(300)写入一次。

我的指标在5分钟后才显示新值

  • 请尝试为'scraping-interval'标志设置较低的值,或将'decoupled-scraping'设置为false。

贡献

开发设置 / 指南

感谢

  • Justin Santa Barbara - 告诉我关于AWS标签API的信息,这大大简化了很多工作 - 谢谢!
  • Brian Brazil - 就用户体验和Prometheus库提供了大量反馈 - 谢谢!

编辑推荐精选

讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

TRELLIS

TRELLIS

用于可扩展和多功能 3D 生成的结构化 3D 潜在表示

TRELLIS 是一个专注于 3D 生成的项目,它利用结构化 3D 潜在表示技术,实现了可扩展且多功能的 3D 生成。项目提供了多种 3D 生成的方法和工具,包括文本到 3D、图像到 3D 等,并且支持多种输出格式,如 3D 高斯、辐射场和网格等。通过 TRELLIS,用户可以根据文本描述或图像输入快速生成高质量的 3D 资产,适用于游戏开发、动画制作、虚拟现实等多个领域。

下拉加载更多