
轻量级自动编码器:高速解码Stable Diffusion潜在空间
TAESD是一款小巧的自动编码器,采用与Stable Diffusion VAE相同的潜在API。它能高效地将Stable Diffusion潜在空间解码为全尺寸图像。TAESD兼容SD1/2、SDXL、SD3和FLUX.1等多种模型,已整合到主流AI绘画工具中。该工具适用于实时预览图像生成过程和替代官方VAE的场景。尽管在细节还原方面稍有欠缺,TAESD通过轻微的质量损失换取了显著的速度和便利性提升。
TAESD是一个非常小的自编码器,它使用与Stable Diffusion的VAE*相同的"潜在API"。TAESD可以以(几乎)零成本将Stable Diffusion的潜在表示解码为全尺寸图像。以下是在我的笔记本电脑上的对比:

TAESD与基于SD1/2的模型兼容(使用taesd_*权重)。

TAESD也与基于SDXL的模型(使用taesdxl_*权重)、基于SD3的模型(使用taesd3_*权重)和基于FLUX.1的模型(使用taef1_*权重)兼容。

--preview-method taesd启动ComfyUI)taesd_encoder.pth和taesd_decoder.pth都下载到models/vae_approx中,然后添加一个Load VAE节点并将vae_name设置为taesd)safetensors格式使用
由于TAESD非常快,你可以使用TAESD实时观看Stable Diffusion的图像生成进度。这里有一个最小的示例笔记本,为🧨 Diffusers实现的SD2.1添加了TAESD预览功能。

由于TAESD包含一个编码器,你可以将TAESD用于官方VAE不方便的任何任务。请注意,TAESD使用的缩放约定与官方VAE不同(TAESD期望图像值在[0, 1]范围内,而不是[-1, 1],并且TAESD的潜在表示的"scale_factor"为1,而不是某个长小数)。这里有一个示例笔记本展示了如何使用TAESD进行编码/解码。
TAESD是Stable Diffusion的VAE*的一个微型蒸馏版本,它由一个编码器和一个解码器组成。编码器将全尺寸图像转换为小型"潜在"图像(48倍有损压缩),然后解码器通过创造新细节,基于编码的潜在表示生成新的全尺寸图像。

原始/解码后的图像形状为3xHxW,值大约在[0, 1]范围内,潜在表示的形状为4x(H/8)x(W/8),值大约在[-3, 3]范围内。你可以将TAESD潜在表示裁剪并量化为8位PNG,而不会损失太多质量。TAESD潜在表示应该看起来很像Stable Diffusion的潜在表示。

在内部,TAESD是一堆Conv+ReLU残差块和2倍上采样层:

如果你想解码详细、高质量的图像,并且不在意花费多长时间,你应该直接使用原始SD VAE*解码器(或可能使用OpenAI的Consistency Decoder)。TAESD非常小,试图非常快速地工作,所以它倾向于模糊细节。例如:

TAESD以(适度的)质量损失换取(显著的)速度和便利性提升。
| SD VAE* | TAESD | |
|---|---|---|
| 编码器参数 | 34,163,592 | 1,222,532 |
| 解码器参数 | 49,490,179 | 1,222,531 |
| ONNX算子 | Add, Cast, Concat, Constant, ConstantOfShape, Conv, Div, Gather, InstanceNormalization, MatMul, Mul, Pad, Reshape, Resize, Shape, Sigmoid, Slice, Softmax, Transpose, Unsqueeze | Add, Constant, Conv, Div, Mul, Relu, Resize, Tanh |
| 运行时/内存随潜在表示大小线性缩放 | 否 | 是 |
| 有界感受野,所以你可以将解码工作分割成瓦片而不会出现奇怪的接缝等问题 | 否 | |
| 高质量细节 | 是 | 否 |
| 微型 | 否 | 是 |
* VQGAN?AutoencoderKL?first_stage_model?就是这个东西。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决 方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频


实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。


选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


最强AI数据分析助手
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。


像人一样思考的AI智能 体
imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。