精选的数据工程相关awesome事物列表。
Hadoop MapReduce - Hadoop MapReduce是一个软件框架,用于轻松编写能够处理海量数据(多TB数据集)的应用程序,可在大型集群(数千个节点)上以可靠、容错的方式并行处理。
Spark - 一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习任务。
AWS EMR - 一项Web服务,可以快速、经济高效地处理海量数据。
Data Mechanics - 一个部署在Kubernetes上的云平台,使Apache Spark更加开发者友好且具有成本效益。
Tez - 一个应用框架,允许复杂的有向无环图任务来处理数据。
Bistro - 一个轻量级引擎,用于通用数据处理,包括批处理和流分析。它基于一种新颖独特的数据模型,通过函数表示数据,通过列操作处理数据,而不是像MapReduce或SQL等传统方法那样只有集合操作。
批处理机器学习
批处理图
批处理SQL