轻量级自动编码器:高速解码Stable Diffusion潜在空间
TAESD是一款小巧的自动编码器,采用与Stable Diffusion VAE相同的潜在API。它能高效地将Stable Diffusion潜在空间解码为全尺寸图像。TAESD兼容SD1/2、SDXL、SD3和FLUX.1等多种模型,已整合到主流AI绘画工具中。该工具适用于实时预览图像生成过程和替代官方VAE的场景。尽管在细节还原方面稍有欠缺,TAESD通过轻微的质量损失换取了显著的速度和便利性提升。
TAESD是一个非常小的自编码器,它使用与Stable Diffusion的VAE*相同的"潜在API"。TAESD可以以(几乎)零成本将Stable Diffusion的潜在表示解码为全尺寸图像。以下是在我的笔记本电脑上的对比:
TAESD与基于SD1/2的模型兼容(使用taesd_*
权重)。
TAESD也与基于SDXL的模型(使用taesdxl_*
权重)、基于SD3的模型(使用taesd3_*
权重)和基于FLUX.1的模型(使用taef1_*
权重)兼容。
--preview-method taesd
启动ComfyUI)taesd_encoder.pth
和taesd_decoder.pth
都下载到models/vae_approx
中,然后添加一个Load VAE
节点并将vae_name
设置为taesd
)safetensors
格式使用
由于TAESD非常快,你可以使用TAESD实时观看Stable Diffusion的图像生成进度。这里有一个最小的示例笔记本,为🧨 Diffusers实现的SD2.1添加了TAESD预览功能。
由于TAESD包含一个编码器,你可以将TAESD用于官方VAE不方便的任何任务。请注意,TAESD使用的缩放约定与官方VAE不同(TAESD期望图像值在[0, 1]范围内,而不是[-1, 1],并且TAESD的潜在表示的"scale_factor"为1,而不是某个长小数)。这里有一个示例笔记本展示了如何使用TAESD进行编码/解码。
TAESD是Stable Diffusion的VAE*的一个微型蒸馏版本,它由一个编码器和一个解码器组成。编码器将全尺寸图像转换为小型"潜在"图像(48倍有损压缩),然后解码器通过创造新细节,基于编码的潜在表示生成新的全尺寸图像。
原始/解码后的图像形状为3xHxW
,值大约在[0, 1]
范围内,潜在表示的形状为4x(H/8)x(W/8)
,值大约在[-3, 3]
范围内。你可以将TAESD潜在表示裁剪并量化为8位PNG,而不会损失太多质量。TAESD潜在表示应该看起来很像Stable Diffusion的潜在表示。
在内部,TAESD是一堆Conv+ReLU残差块和2倍上采样层:
如果你想解码详细、高质量的图像,并且不在意花费多长时间,你应该直接使用原始SD VAE*解码器(或可能使用OpenAI的Consistency Decoder)。TAESD非常小,试图非常快速地工作,所以它倾向于模糊细节。例如:
TAESD以(适度的)质量损失换取(显著的)速度和便利性提升。
SD VAE* | TAESD | |
---|---|---|
编码器参数 | 34,163,592 | 1,222,532 |
解码器参数 | 49,490,179 | 1,222,531 |
ONNX算子 | Add, Cast, Concat, Constant, ConstantOfShape, Conv, Div, Gather, InstanceNormalization, MatMul, Mul, Pad, Reshape, Resize, Shape, Sigmoid, Slice, Softmax, Transpose, Unsqueeze | Add, Constant, Conv, Div, Mul, Relu, Resize, Tanh |
运行时/内存随潜在表示大小线性缩放 | 否 | 是 |
有界感受野,所以你可以将解码工作分割成瓦片而不会出现奇怪的接缝等问题 | 否 | |
高质量细节 | 是 | 否 |
微型 | 否 | 是 |
* VQGAN?AutoencoderKL?first_stage_model
?就是这个东西。
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片 、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。
全能AI智能助手,随时解答生活与工作的多样问题
问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。
实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号