扩散变换器精选资源

标题	初始日期	发表场所
MotionDiffuse: 基于扩散模型的文本驱动人体运动生成	2022年8月31日	TPAMI'2024
字字珠玑：扩散模型的ViT骨干网络	2022年9月25日	CVPR'2023
利用神经网络检查点的生成模型学习如何学习	2022年9月26日	arXiv
基于Transformer的可扩展扩散模型	2022年12月19日	ICCV'2023
探索视觉Transformer作为扩散学习器	2022年12月28日	arXiv
DLT: 基于联合离散-连续扩散布局Transformer的条件布局生成	2023年3月7日	ICCV'2023
掩蔽扩散Transformer是强大的图像合成器	2023年3月25日	ICCV'2023
用于自适应文本到语音的扩散Transformer	2023年5月3日	Interspeech'2023
VDT: 基于掩蔽建模的通用视频扩散Transformer	2023年5月22日	ICLR'2024
ViT-TTS: 基于可扩展扩散Transformer的视觉文本到语音	2023年5月22日	EMNLP'2023
U-DiT TTS: 用于文本到语音的U型扩散视觉Transformer	2023年5月22日	arXiv
使用掩码Transformer快速训练扩散模型	2023年6月15日	TMLR
DiT-3D：探索用于3D形状生成的普通扩散Transformer	2023年7月4日	NeurIPS'2023
使用Transformer的大词汇量3D扩散模型	2023年9月14日	ICLR'2024
Cartoondiff：使用扩散Transformer模型进行无需训练的卡通图像生成	2023年9月15日	arXiv
PixArt-α：快速训练扩散Transformer用于逼真的文本到图像合成	2023年9月30日	ICLR'2024
Dolfin：无自动编码器的扩散布局Transformer	2023年10月25日	arXiv
Mapache：用于高级语音编辑和合成的掩码并行Transformer	2023年12月3日	ICASSP'2024
DiffiT：用于图像生成的扩散视觉Transformer	2023年12月4日	arXiv
GenTron：深入研究用于图像和视频生成的扩散Transformer	2023年12月7日	CVPR'2024
使用扩散模型生成逼真视频	2023年12月11日	arXiv
DiT-Head：使用扩散Transformer的高分辨率说话头合成	2023年12月11日	arXiv
使用极端掩码快速训练扩散Transformer用于3D点云生成	2023年12月12日	arXiv
NViST: 使用Transformer从单幅图像实现野外新视角合成	2023年12月13日	arXiv
TransDDPM: 基于Transformer的去噪扩散概率模型用于图像恢复	2023年12月28日	PRCV'2023
Latte: 用于视频生成的潜在扩散Transformer	2024年1月5日	arXiv
PIXART-δ: 使用潜在一致性模型实现快速可控的图像生成	2024年1月10日	arXiv
SiT: 利用可扩展插值Transformer探索流式和扩散生成模型	2024年1月16日	arXiv
使用沙漏扩散Transformer实现可扩展的高分辨率像素级图像合成	2024年1月21日	arXiv
用于人物图像合成的跨视角掩码扩散Transformer	2024年2月2日	arXiv
DiffsFormer: 用于股票因子增强的扩散Transformer	2024年2月5日	arXiv
Sora	2024年2月15日	OpenAI
SDiT: 脉冲扩散Transformer模型	2024年2月18日	arXiv
FiT: 用于扩散模型的灵活视觉Transformer	2024年2月19日	arXiv
Snap Video: 用于文本到视频合成的扩展时空Transformer	2024年2月22日	arXiv
OpenDiT	2024年2月26日	GitHub
FineDiffusion：通过10,000个类别扩展扩散模型实现细粒度图像生成	2024年2月28日	arXiv
开放Sora计划	2024年3月1日	GitHub
Stable Diffusion 3：研究论文	2024年3月5日	Stability AI