DataProfiler

项目介绍：DataProfiler

DataProfiler是一个专为简化数据分析、监控与敏感数据检测而设计的Python库。在数据处理与分析中，DataProfiler提供了无缝的集成体验，支持多种文件格式和数据来源自动加载为DataFrame，只需简单几行代码便能开始工作。

功能概览

DataProfiler的核心功能包括自动数据加载、数据分析与报告生成：

数据加载 - 只需一个命令，DataProfiler便能自动识别文件格式，将CSV、AVRO、Parquet、JSON等类型文件格式化并加载为DataFrame。
数据分析 - 通过分析数据集的结构模式，实现了自动提取统计信息、实体识别（PII/NPI），并生成可用于下游应用或报告的数据概况。
敏感数据检测 - 预训练的深度学习模型可高效识别敏感数据，如个人信息、银行账号等，并支持用户自定义添加新的识别实体。

如何开始

通过以下几行代码即可快速开始使用DataProfiler：

import json
from dataprofiler import Data, Profiler

data = Data("your_file.csv") # 自动检测并加载，支持多种格式
print(data.data.head(5)) # 借助兼容Pandas的DataFrame直接访问数据

profile = Profiler(data) # 计算统计信息及实体识别

readable_report = profile.report(report_options={"output_format": "compact"})
print(json.dumps(readable_report, indent=4))

安装指南

通过PyPI可轻松安装DataProfiler，命令如下：

pip install DataProfiler[full]

如果仅需机器学习组件且不生成报告，可使用下列命令安装：

pip install DataProfiler[ml]

对于不需要安装特定依赖的场景（如tensorflow），可使用精简安装包：

pip install DataProfiler[reports]

数据概况

DataProfiler生成的数据概况是一种字典，包含数据集的统计信息与预测值。主要信息包括全局统计（global_stats）与列/行级统计（data_stats）。详细描述包括行列数量、数据类型、文件编码、空值比例、实体识别及更多统计信息。这些信息旨在帮助用户快速掌握数据集的概貌，更好支持数据分析与决策。