在遥感图像分析领域,建筑物提取一直是一个重要而具有挑战性的任务。传统的图像分割方法通常输出栅格格式的结果,这与地理信息系统中常用的矢量多边形格式存在差异。为了弥合深度学习网络输出与下游任务所需格式之间的鸿沟,研究人员提出了一种基于帧场学习的创新方法,用于从遥感图像中提取多边形建筑物轮廓。
帧场学习的核心思想是在图像分割神经网络中增加一个帧场输出。这个帧场是一个二维向量场,它在每个像素位置上定义了一个局部参考框架。通过训练网络预测与真实建筑物轮廓对齐的帧场,可以获得更高质量的分割结果,并为后续的多边形化处理提供有价值的结构信息。
图1: 测试图像上的帧场输出示例
该方法使用了一个基于U-Net结构的深度神经网络。网络的输入是遥感图像,输出包括边缘掩码、内部掩码以及建筑物的帧场。训练过程中,损失函数包含了将掩码和帧场与真实数据对齐的项,以及用于强制帧场平滑性和输出一致性的正则化项。
图2: 模型训练过程示意图
在得到网络输出后,研究人员设计了一个创新的多边形化算法,充分利用了分割掩码和帧场信息。该算法首先使用活动骨架模型(ASM)优化骨架多段线,使其与帧场对齐。然后,利用帧场信息检测角点,并简化非角点顶点,最终生成高质量的建筑物多边形轮廓。