大家好,今天我们来聊聊最新的模型—STAR模型
一种基于自回归方法的T2I模型。
想必大家都对AI生成的图像不陌生,但STAR模型的出现,无疑将这一领域推向了一个新的高度。
STAR模型是什么?
STAR模型是一种自回归文本至图像的生成模型。
它通过多尺度的方法来改进图像生成的质量和效率。
相比较主流的扩散模型,STAR采用自回归方法,在效率上有了显著提升。
仅仅用2.9s就能生成高质量的图像!
这个速度简直比我拿出手机打开相机想记录下眼前美好的一刻都要快~
模型实现思路
STAR模型生成图像步骤:
预训练的文本编码器:使用预训练的文本编码器来提取文本的特征表示,这些特征将作为生成图像的指导。
多尺度交叉注意力层:模型在每个尺度上加入了交叉注意力层,这样做可以改善文本指导与生成图像之间的交互,提高生成结果的可控性和精细度。
归一化的旋转位置编码(RoPE):STAR模型还采用了一种新的位置编码方法,以确保在不同尺度的图像生成中能够保持相对位置的一致解释,这一点对于保持训练过程的稳定性至关重要。
模型效果展示
STAR模型生成的图像无论是在图像细节与真实性、文本与图像的一致性以及美观度上。
都超越了现有模型的基准。
尤其在处理细节丰富的图像,如动物毛发、植物叶片和人脸特征时,STAR模型能生成更加细腻和高质量的图像。
看着下面生成的图像 我不禁感慨“AI真的在改变世界”
生成的图像与SDXL及PixArt-α等模型相比,有着更加细腻清晰的表现。
并且在专为评估美学质量设计的MJHQ-30K基准测试中的FID和CLIP score也都超越了SDXL和PixArt-α等模型。
同时STAR在ImageReward上也有着不俗的表现数据。
总结
STAR模型的提出为当前由扩散方法主导的文本到图像生成领域带来了新的思路。
它在生成高质量图像的同时大幅缩短了推理时间,这对于需要实时生成图像的应用尤其重要。
我们有理由相信,随着这项技术的不断发展,AI在艺术和创意领域的角色将变得更加重要。
STAR模型展示了自回归方法在未来视觉生成任务中的巨大潜力。
大家请共同期待STAR带来的更多奇迹!
扫码加入AI交流群
获得更多技术支持和交流
关注「向量光年」公众号
加速全行业向AI的改变
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「AGI光年」公众号
获取每日最新咨询