Batch Processing Gateway(BPG)是Apple公司开源的一个项目,旨在简化Spark应用程序在Kubernetes集群上的运行。它为用户提供了一个直观的接口,使得提交、监控和删除Spark应用变得更加容易,而无需深入了解底层的复杂实现细节。BPG作为Spark服务栈的前端组件,通常包括一个网关实例和多个Spark Kubernetes集群。

简化的API接口:BPG提供REST API endpoints,允许用户通过简单的API调用来提交和管理Spark应用。
灵活的集群路由:支持基于队列和权重的集群选择,可以根据业务需求灵活分配资源。
应用日志管理:提供应用日志的收集和查询功能,支持从Kubernetes pods或S3存储中获取日志。
多集群支持:可以配置多个Spark Kubernetes集群,实现服务的水平扩展。
身份验证和授权:虽然没有内置的身份验证机制,但提供了简单的基于配置的用户列表授权器,并支持与外部认证系统集成。
BPG的工作流程主要包括以下步骤:
用户将应用程序artifacts(如.jar、.py、.zip等文件)上传到S3 artifacts存储桶。
用户编写包含关键信息(如作业路径、驱动核心数、执行器内存等)的作业规范,并将其提交到REST endpoint。
BPG解析请求,将其转换为Spark on K8s Operator支持的自定义资源定义(CRD)。
使用基于队列和权重的配置,BPG选择一个Spark Kubernetes集群并将CRD提交给它。
Spark on K8s Operator处理CRD并使用spark-submit提交Spark应用程序。
BPG采用了灵活的集群路由机制,主要包括以 下几个方面:
基于命名空间的集群配置:每个配置在BPG中的Spark集群都映射到实际Spark Kubernetes集群中的一个命名空间。这种设计允许在单个Spark Kubernetes集群中配置多个Spark集群条目,每个条目映射到一个命名空间,从而提供更灵活的资源分配。
队列配置:每个配置的Spark集群都有一个可以提交Spark应用程序的队列列表。如果没有指定队列,BPG默认会尝试提交到"poc"队列。
基于权重的集群选择:当多个Spark集群支持同一个队列时,BPG会根据集群权重和一些随机因素来选择集群。这允许管理员通过调整权重来控制某个集群被选中的概率。

BPG提供了强大的应用日志管理功能。当Spark应用程序在Spark Kubernetes集群上运行时,驱动程序和执行器的应用程序日志会写入pod的本地存储。然而,当应用程序完成后,这些pods会被销毁,日志也会随之消失。为了解决这个问题,BPG采用了以下策略:
当用户通过日志endpoint请求驱动程序/执行器日志时,BPG首先尝试从驱动程序/执行器pods加载日志。
如果pods已经不存在或日志不可用,BPG会从预先配置的S3存储桶中读取日志。
为了使S3日志存储功能正常工作,需要两个额外的组件:

在生产环境中,Spark应用程序通常运行在不同的Spark Kubernetes集群上,因为Spark应用程序可能非常资源密集。BPG在Kubernetes上的部署可以通过Helm chart来管理,这提供了更加简便和标准化的部署方式。
对于开发者来说,BPG提供了详细的入门指南,包括如何设置开发环境、如何构建和运行项目等。此外,项目还提供了一个名为SparkClusterTest的工具,用于排查BPG连接底层Spark集群时可能遇到的问题。
BPG使用了多种开源技术和框架:
作为一个开源项目,BPG欢迎社区贡献。项目提供了详细的贡献指南,包括如何提交问题、如何提出新功能建议以及如何提交代码等。
Batch Processing Gateway是一个强大而灵活的工具,它极大地简化了在Kubernetes环境中运行和管理Spark应用程序的复杂性。通过提供直观的API接口、灵活的集群路由机制和强大的日志管理功能,BPG为数据工程师和开发者提供了一个高效的Spark on Kubernetes解决方案。
无论是对于刚开始使用Spark on Kubernetes的团队,还是需要在大规模环境中管理复杂Spark工作负载的组织,Batch Processing Gateway都是一个值得考虑的工具。它不仅能够提高开发效率,还能帮助组织更好地利用Kubernetes的弹性和可扩展性,从而更好地满足现代大数据处理的需求。
随着云原生技术的不断发展,像Batch Processing Gateway这样的项目将在未来扮演越来越重要的角色,为企业提供更加灵活、高效的大数据处理解决方案。🚀💻🔧


GPT充值
支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。


AI 图片生成平台
GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。


你的AI Agent团队
Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整 合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独 创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号