whylogs: 开源数据日志库的全面介绍

RayRay
whylogs数据日志机器学习监控数据概要WhyLabsGithub开源项目

whylogs

whylogs简介

whylogs是一个开源的数据日志库,旨在为任何类型的数据提供标准化的日志记录方法。它允许用户生成数据集的统计摘要(称为whylogs profiles),这些profiles可以用于:

  1. 跟踪数据集的变化
  2. 创建数据约束条件,以验证数据是否符合预期
  3. 快速可视化数据集的关键统计信息

这些功能为数据科学家、机器学习工程师和数据工程师提供了多种用例:

  • 检测模型输入特征的数据漂移
  • 检测训练-服务偏差、概念漂移和模型性能下降
  • 验证模型输入或数据管道中的数据质量
  • 对大型数据集进行探索性数据分析
  • 跟踪ML实验的数据分布和数据质量
  • 实现跨组织的数据审计和治理
  • 标准化跨组织的数据文档实践

whylogs profiles

whylogs profiles是whylogs库的核心。它们捕获数据的关键统计属性,如分布(远超简单的均值、中位数和标准差度量)、缺失值数量以及广泛的可配置自定义指标。通过捕获这些统计摘要,我们能够准确地表示数据并实现前述的所有用例。

whylogs profiles具有三个理想的数据日志记录属性:

  1. 高效: whylogs profiles高效地描述它们所代表的数据集。这种高保真度的数据集表示使得whylogs profiles成为数据的有效快照。

  2. 可定制: whylogs profiles收集的统计信息易于配置和定制。这很有用,因为不同的数据类型和用例需要不同的指标,而whylogs用户需要能够轻松为这些指标定义自定义跟踪器。

  3. 可合并: whylogs profiles最强大的特性之一是它们的可合并性。这意味着whylogs profiles可以组合在一起,形成新的profiles,代表其组成profiles的集合。这使得分布式和流式系统的日志记录成为可能,并允许用户查看任何时间粒度的聚合数据。

使用whylogs

安装whylogs后,在Python和Java环境中都可以轻松生成profiles。以下是在Python中从Pandas数据框生成profile的简单示例:

import whylogs as why import pandas as pd # 数据框 df = pd.read_csv("path/to/file.csv") results = why.log(df)

生成whylogs profiles后,您可以:

  • 在本地Python环境中设置数据约束或可视化profiles
  • 将profiles发送到WhyLabs平台进行监控和可观察性分析

数据约束

whylogs profiles的一个强大功能是数据约束,它使您能够快速轻松地验证数据是否符合预期。您可以在数据上设置多种类型的约束(例如数值数据始终在特定范围内,文本数据始终采用JSON格式等)。如果数据集不满足约束条件,您可以使单元测试或CI/CD管道失败。

Profile可视化

除了自动获得潜在数据问题的通知外,手动检查数据也很有用。使用profile可视化器,您可以直接在Jupyter notebook环境中生成有关profiles的交互式报告(单个profile或比较多个profiles)。这支持探索性数据分析、数据漂移检测和数据可观察性。

支持的数据类型

whylogs支持结构化和非结构化数据,具体包括:

  • 表格数据
  • 图像数据
  • 文本数据
  • 嵌入向量
  • 其他数据类型(可根据需求扩展)

集成

whylogs可以无缝地与数据和ML管道中的不同工具交互。目前已经构建了与以下工具的集成:

  • AWS S3
  • Apache Airflow
  • Apache Spark
  • MLflow
  • GCS

等等。

通过whylogs,用户可以全面监控和分析他们的数据和机器学习模型,确保数据质量,检测异常,并优化模型性能。它为现代数据科学和机器学习工作流程提供了必不可少的工具。

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成热门AI工具AI图像AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多