APISR

APISR

动漫超分辨率技术提升图像视频质量

APISR是一个开源的动漫超分辨率项目,专注于恢复和增强现实世界中低质量的动漫图像和视频。该技术融合了动漫制作流程的特点,能有效处理各种复杂的图像退化情况。项目提供预训练模型、在线演示和训练流程,支持单张图像和视频的超分辨率处理。APISR在真实动漫内容质量提升方面表现出色,为研究者和开发者提供了实用的工具。

APISR动漫超分辨率图像增强深度学习计算机视觉Github开源项目
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/35d28e1c-8409-4973-86b7-8b483ee3d099.png" height="100"> </p>

APISR:受动画制作启发的真实世界动画超分辨率技术(CVPR 2024)

APISR是一个图像和视频放大器,旨在恢复和增强来自真实场景中各种质量退化的低质量低分辨率动画图像和视频源。

ArxivHF DemoOpen In ColabHF Demo

🔥 更新 | 👀 可视化 | 🔧 安装 | 🏰 模型库 |推理 | 🧩 数据集制作 | 💻 训练

<a name="Update"></a>更新 🔥🔥🔥

  • 发布APISR论文版本实现
  • 发布不同放大倍数的权重(2倍、4倍等)
  • Gradio演示(在线版)
  • 提供不同架构的权重(DAT-Small)
  • 添加与Toon Crafter结合的结果
  • 发布使用扩散生成图像训练的权重
  • 创建项目页面
  • 为中国用户提供在线演示 && 中文README

:star: 如果你喜欢APISR,请给这个仓库点个星。谢谢! :hugs:

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6151d412-fe68-4dd9-aacf-a8a6033631e3.png" style="border-radius: 15px"> </p>

<a name="Visualization"></a> 可视化(点击查看最佳效果!)👀

<img src="https://yellow-cdn.veclightyear.com/835a84d5/436a24b9-ea52-4a93-bc53-c916acc53815.png" height="223px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/e5074184-9fad-4ad0-9e43-1e1b28e6e12f.png" height="223px"/>

<img src="https://yellow-cdn.veclightyear.com/835a84d5/b4d07b88-49ef-4d64-9444-4c5a79c36c5a.png" height="223px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/638255c0-9c98-47e4-81ae-d237a586cb19.png" height="223px"/>

<img src="https://yellow-cdn.veclightyear.com/835a84d5/251c9e81-681c-4dc9-9c08-4843b952985c.png" height="223px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/a97bf1e4-af67-4c8a-9486-3e3e86de0421.png" height="223px"/>

<img src="https://yellow-cdn.veclightyear.com/835a84d5/658bbef9-2745-4ac0-bbff-d0e3384a4fd3.png" height="223px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/81f0de8d-3e48-4750-959d-ae46c6278d22.png" height="223px"/>

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/43a031fa-774e-4686-91d2-136547a5dd84.png"> </p>

Toon Crafter示例放大

请查看toon_crafter_upscale

<a name="installation"></a> 安装 🔧

git clone git@github.com:Kiteretsu77/APISR.git cd APISR # 创建conda环境 conda create -n APISR python=3.10 conda activate APISR # 安装PyTorch和其他所需包 pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt # 为确保tensorboard能够正常执行,我建议执行以下命令(来自 "https://github.com/pytorch/pytorch/issues/22676#issuecomment-534882021") pip uninstall tb-nightly tensorboard tensorflow-estimator tensorflow-gpu tf-estimator-nightly pip install tensorflow # 安装FFMPEG [仅在训练和数据集制作阶段需要;仅推理不需要ffmpeg](以下适用于Linux系统,Windows用户可以从 https://ffmpeg.org/download.html 下载ffmpeg) sudo apt install ffmpeg

<a name="inference"></a> Gradio快速推理 ⚡⚡⚡

Gradio选项无需用户自行准备权重,但每次只能处理一张图像。

在线演示可以在 https://huggingface.co/spaces/HikariDawn/APISR (HuggingFace) 或 https://colab.research.google.com/github/camenduru/APISR-jupyter/blob/main/APISR_jupyter.ipynb (Colab) 找到

本地Gradio可以通过运行以下命令创建:

python app.py

注意: Gradio专为快速推理设计,因此我们会自动下载现有权重并降采样至720P以减少显存消耗。如需完整的推理,请查看下面的常规推理部分。

<a name="regular_inference"></a> 常规推理 ⚡⚡

  1. 模型库下载模型权重并将权重放入"pretrained"文件夹

  2. 然后,执行(单张图像/视频包含图像和视频的目录均可!)

    python test_code/inference.py --input_dir XXX --weight_path XXX --store_dir XXX

    如果你下载的是论文权重,test_code/inference.py的默认参数可以直接执行"assets"文件夹中的示例图像

<a name="dataset_curation"></a> 数据集制作 🧩

我们的数据集制作流程位于dataset_curation_pipeline文件夹中。

你可以通过将视频(mp4或其他格式)送入流程来收集数据集,并获取视频源中压缩最少、信息最丰富的图像。

  1. https://drive.google.com/drive/folders/1N3FSS91e7FkJWUKqT96y_zcsG9CRuIJw 下载IC9600权重(ck.pth)并将其放置在"pretrained/"文件夹中(否则,你可以在执行以下collect.py时定义不同的**--IC9600_pretrained_weight_path**)

  2. 对于包含视频源的文件夹,你可以执行以下命令获取基本数据集(需要安装ffmpeg):

    python dataset_curation_pipeline/collect.py --video_folder_dir XXX --save_dir XXX
  3. 一旦获得具有各种纵横比和分辨率的图像数据集,你可以运行以下脚本

    请仔细检查 uncropped_hr && degrade_hr_dataset_path && train_hr_dataset_path(我们将在训练阶段的 opt.py 设置中使用这些路径)

    为了减少内存使用并提高训练效率,我们在数据集准备阶段预处理所有耗时的伪真实图像(train_hr_dataset_path)。

    但是,为了创建面向预测的压缩的自然输入,在每个训练周期中,降质过程都从未裁剪的真实图像(uncropped_hr)开始,并同时存储生成的低分辨率图像。裁剪后的高分辨率真实图像数据集(degrade_hr_dataset_path)和裁剪后的伪真实图像(train_hr_dataset_path)在数据集准备阶段就已固定,在训练过程中不会被修改。

    请注意检查是否出现内存溢出(OOM)。如果出现,就无法正确准备数据集。通常,这是因为 scripts/anime_strong_usm.py 中的 num_workers 设置得太大!

    bash scripts/prepare_datasets.sh

<a name="train"></a> 训练 💻

整个训练过程可以在一块 RTX3090/4090 上完成!

  1. 准备一个经过数据集整理中步骤 2 和 3 预处理的数据集(AVC / API)

    在执行以下命令之前,你需要准备 3 个文件夹:

    --> uncropped_hr:未裁剪的真实图像

    --> degrade_hr_dataset_path:裁剪后的真实图像

    --> train_hr_dataset_path:裁剪后的伪真实图像

  2. 训练:请仔细检查 opt.py 以设置你想要的超参数(通常只需修改常变设置即可)。

    注意1:执行以下操作时,我们将创建一个"tmp"文件夹来存放生成的低分辨率图像以进行完整性检查。如果需要,你可以修改代码删除它。

    注意2:如果你有强大的 CPU,想要加速,可以在 opt.py 中增加 parallel_num

    步骤1(网络 L1 损失训练):运行

    python train_code/train.py

    训练好的模型权重将保存在"saved_models"文件夹中(与检查点相同)

    步骤2(GAN 对抗 训练):

    1. opt.py 中的 opt['architecture'] 更改为 "GRLGAN",并根据需要更改 batch size。顺便说一句,我认为对于个人训练,不需要训练 300K 次迭代的 GAN。我这样做是为了遵循与 AnimeSR 和 VQDSR 相同的设置,但 100K ~ 130K 应该能得到不错的视觉效果。

    2. 按照之前的工作,GAN 应该从预训练的 L1 损失网络开始,所以请携带一个 pretrained_path(下面的默认路径应该没问题)

    python train_code/train.py --pretrained_path saved_models/grl_best_generator.pth

引用

如果我们的工作对你的研究有用,请引用我们。

@inproceedings{wang2024apisr,
  title={APISR: Anime Production Inspired Real-World Anime Super-Resolution},
  author={Wang, Boyang and Yang, Fengyu and Yu, Xihang and Zhang, Chao and Zhao, Hanbin},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={25574--25584},
  year={2024}
}

免责声明

本项目仅供学术用途。我们对模型权重和样本图像的分发不承担责任。用户对自己的行为承担全部责任。 项目贡献者在法律上与用户的行为无关,也不对其负责。

许可证

本项目在 GPL 3.0 许可证 下发布。另请查看免责声明。

📧 <a name="contact"></a> 联系方式

如果你有任何问题,请随时通过 hikaridawn412316@gmail.comboyangwa@umich.edu 与我联系。

🧩 使用 APISR 的项目

如果你在项目中开发/使用 APISR,欢迎告诉我。我会在这里列出所有项目。谢谢!

🤗 致谢

  • VCISR:我的代码基于我之前的论文(WACV 2024)。
  • IC9600:数据集整理流程使用 IC9600 代码来评分图像复杂度。
  • danbooru-pretrained:我们的动漫数据集(Danbooru)预训练 RESNET50 模型。
  • Jupyter Demo:Jupyter notebook 演示来自 camenduru
  • AVIF&HEIF:AVIF 和 HEIF 的降质来自 pillow_heif。
  • DAT:我们在模型库中用于 4 倍缩放的 DAT 架构来自这个链接

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多