如果您喜欢DataFlint,请给我们一个⭐️,并加入我们的Slack社区,获取功能请求、支持等更多内容!
</div>DataFlint是为大数据工程师打造的Apache Spark开源D-APM(数据应用性能监控)工具。
DataFlint的使命是将DataDog和New Relic等APM(应用性能监控)解决方案的开发体验带入大数据世界。
DataFlint通过开源库几分钟内即可安装完成,基于现有的Spark-UI基础设施运行,旨在帮助您解决大数据性能问题并调试故障!

更多信息请参阅我们的功能
通过sbt安装DataFlint:
libraryDependencies += "io.dataflint" %% "spark" % "0.2.3"
然后指示Spark加载DataFlint插件:
val spark = SparkSession .builder() .config("spark.plugins", "io.dataflint.spark.SparkDataflintPlugin") ... .getOrCreate()
在PySpark会话构建器中添加这两个配置:
builder = pyspark.sql.SparkSession.builder ... .config("spark.jars.packages", "io.dataflint:spark_2.12:0.2.3") \ .config("spark.plugins", "io.dataflint.spark.SparkDataflintPlugin") \ ...
或者,通过在spark-submit命令中添加这两行,无需代码更改即可将DataFlint作为Spark ivy包安装:
spark-submit --packages io.dataflint:spark_2.12:0.2.3 \ --conf spark.plugins=io.dataflint.spark.SparkDataflintPlugin \ ...
安装完成后,您将在Spark UI中看到一个"DataFlint"按钮,点击它即可开始使用DataFlint
<img alt="标志" src="https://yellow-cdn.veclightyear.com/0a4dffa0/85baabb9-3113-414e-9d07-85f1f68e7517.png">
DataFlint作为插件安装在Spark驱动程序和历史服务器上。
该插件暴露了额外的HTTP资源,用于提供Spark UI中不可用的其他指标,以及一个现代化的SPA网络应用程序,可以从Spark获取数据而无需刷新页面。
更多信息,请参阅工作原理文档
使用DataFlint修复Apache Spark中的小文件性能问题
DataFlint需要Spark 3.2及以上版本,并支持Scala 2.12或2.13版本。
| Spark平台 | DataFlint实时 | DataFlint历史服务器 |
|---|---|---|
| 本地 | ✅ | ✅ |
| 独立模式 | ✅ | ✅ |
| Kubernetes Spark Operator | ✅ | ✅ |
| EMR | ✅ | ✅ |
| Dataproc | ✅ | ❓ |
| HDInsights | ✅ | ❓ |
| Databricks | ✅ | ❌ |
更多信息,请参阅支持的版本文档


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

