数据管道工具与资源合集 | 最佳AI解决方案指南

dataform

dataform

Dataform CoreBigQuery

开源SQL扩展工具助力BigQuery数据转换管道构建

pachyderm

pachyderm

Pachyderm数据管道

自动化数据处理与版本控制平台

prefect

prefect

Prefect工作流编排

Python工作流编排框架助力数据管道构建

dud

dud

Dud数据版本控制

高效数据版本管理与流程自动化工具

dataplane

dataplane

Dataplane数据管道

高效灵活的开源数据管道构建平台

ploomber

ploomber

Ploomber数据管道

快速构建和部署数据流水线的开源框架

murex

murex

Murex命令行工具

智能化shell工具 革新命令行操作

pg_replicate

pg_replicate

pg_replicatePostgreSQL

基于Rust的PostgreSQL数据复制框架

awesome-apache-airflow

awesome-apache-airflow

Apache Airflow工作流管理

Apache Airflow资源大全 工作流管理平台指南

Neum AI

Neum AI

AI工具RAG

开源框架助力构建高效RAG数据管道

Tablesmith

Tablesmith

AI工具Tablesmith

高效隐私的电子表格自动化解决方案

indexify

indexify

Indexify数据管道

构建快速数据管道 实时处理非结构化数据的开源引擎

lineapy

lineapy

LineaPy数据管道

两行代码将混乱笔记本转化为数据管道的开源工具

klio

klio

Klio音频处理

基于Apache Beam的音频处理数据管道生态系统

alloy

alloy

Grafana AlloyOpenTelemetry

开源OpenTelemetry收集器分发版Grafana Alloy

dlt

dlt

dlt数据加载

简化数据加载流程的Python库

bento

bento

Bento流处理器

灵活高效的流处理工具 支持多源多目标数据连接

webdataset

webdataset

WebDatasettar文件

大规模深度学习数据集的管理工具

instill-core

instill-core

Instill CoreAI基础设施

一款用于数据、模型和管道编排的全栈 AI 基础设施工具

rags

rags

RAGsStreamlit

使用自然语言从数据源创建RAG管道