最佳Github AI工具与开源项目集锦

PixArt-alpha

PixArt-alpha

PixArt-α文本生成图像

高效训练的Transformer扩散模型实现逼真文本到图像生成

RectifiedFlow

RectifiedFlow

Rectified Flow生成模型

直线路径优化的快速数据生成与传输技术

Latte

Latte

Latte视频生成

创新的潜在扩散Transformer视频生成技术

SiT

SiT

SiT生成模型

可扩展插值变换器 融合流模型和扩散模型的图像生成新方法

autoregressive-diffusion-pytorch

autoregressive-diffusion-pytorch

自回归扩散图像生成

自回归扩散模型:无向量量化的图像生成方法

Open-MAGVIT2

Open-MAGVIT2

Open-MAGVIT2视觉生成

自回归视觉生成新突破 大幅提升图像分词性能

AudioLCM

AudioLCM

AudioLCM文本生成音频

基于潜在一致性模型的文本到音频生成系统

1d-tokenizer

1d-tokenizer

TiTok图像标记化

创新1D图像分词框架实现高效图像处理

mar

mar

MAR图像生成

创新自回归图像生成方法

TATS

TATS

TATS视频生成

创新长视频生成框架 基于时间无关VQGAN和时间敏感Transformer

OmniTokenizer

OmniTokenizer

OmniTokenizer视觉生成

联合图像视频标记器实现高效视觉生成

audio-ai-timeline

audio-ai-timeline

AI音频生成文本转语音

音频AI领域2023年重大进展及模型概览

panel

panel

PanelPython

Python数据探索和Web应用开发框架

Awesome-Sketch-Based-Applications

Awesome-Sketch-Based-Applications

Sketch-Based Applications图像合成

草图应用资源汇总 涵盖多领域前沿技术

multi-doc-chatbot

multi-doc-chatbot

LangChainOpenAI

多文档智能阅读与对话系统

SadTalker

SadTalker

SadTalkerAI动画

将单张肖像图片与音频结合生成逼真的动态说话视频

awesome-nuclear

awesome-nuclear

核科学工程

核科学与工程领域开源项目汇总

Wav2Lip

Wav2Lip

Wav2Lip唇形同步

先进的AI视频口型同步技术

fMRI-reconstruction-NSD

fMRI-reconstruction-NSD

fMRI重建MindEye

MindEye 从fMRI数据重建和检索视觉信息

versatile_audio_super_resolution

versatile_audio_super_resolution

AudioSR音频超分辨率

开源音频超分辨率工具 适用多种类型和采样率