STAR:文本生成图像模型中的璀璨之星!自回归取代扩散

RayRay
STAR模型自回归方法T2I模型文本至图像高质量图像热门

大家好,今天我们来聊聊最新的模型—STAR模型

一种基于自回归方法T2I模型

想必大家都对AI生成的图像不陌生,但STAR模型的出现,无疑将这一领域推向了一个新的高度。

Image

STAR模型是什么?

STAR模型是一种自回归文本至图像的生成模型。

它通过多尺度的方法来改进图像生成的质量和效率。

相比较主流的扩散模型,STAR采用自回归方法,在效率上有了显著提升。

仅仅用2.9s就能生成高质量的图像!

这个速度简直比我拿出手机打开相机想记录下眼前美好的一刻都要快~

Image

模型实现思路

STAR模型生成图像步骤:

预训练的文本编码器:使用预训练的文本编码器来提取文本的特征表示,这些特征将作为生成图像的指导。

多尺度交叉注意力层:模型在每个尺度上加入了交叉注意力层,这样做可以改善文本指导与生成图像之间的交互,提高生成结果的可控性和精细度。

归一化的旋转位置编码(RoPE):STAR模型还采用了一种新的位置编码方法,以确保在不同尺度的图像生成中能够保持相对位置的一致解释,这一点对于保持训练过程的稳定性至关重要。

Image

模型效果展示

STAR模型生成的图像无论是在图像细节与真实性、文本与图像的一致性以及美观度上。

都超越了现有模型的基准。

尤其在处理细节丰富的图像,如动物毛发、植物叶片和人脸特征时,STAR模型能生成更加细腻和高质量的图像。

看着下面生成的图像 我不禁感慨“AI真的在改变世界”

Image

生成的图像与SDXL及PixArt-α等模型相比,有着更加细腻清晰的表现。

并且在专为评估美学质量设计的MJHQ-30K基准测试中的FIDCLIP score也都超越了SDXL和PixArt-α等模型。

Image

同时STAR在ImageReward上也有着不俗的表现数据。

Image

总结

STAR模型的提出为当前由扩散方法主导的文本到图像生成领域带来了新的思路

它在生成高质量图像的同时大幅缩短了推理时间,这对于需要实时生成图像的应用尤其重要。

我们有理由相信,随着这项技术的不断发展,AI在艺术和创意领域的角色将变得更加重要。

STAR模型展示了自回归方法在未来视觉生成任务中的巨大潜力。

大家请共同期待STAR带来的更多奇迹!

扫码加入AI交流群

获得更多技术支持和交流

Image

关注「向量光年」公众号

加速全行业向AI的改变

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新咨询

编辑推荐精选

Pixmax

Pixmax

一站式AI短剧创作平台

Pixmax专注打造下一代“ AI 视觉创作引擎”,整合行业顶尖 AI 大模型、工工业级精准控制及企业级协同管理功能,是全方位的 AI 内容创作平台。

豆包

豆包

字节跳动旗下 AI 智能助手

字节跳动旗下 AI 智能助手

GPT Plus|Pro充值

GPT Plus|Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。

GPT Image 2中文站

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。

Vecbase

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

下拉加载更多