ultimatevocalremovergui

ultimatevocalremovergui

音频人声分离开源工具,支持多种AI模型

Ultimate Vocal Remover GUI是一个开源的音频人声分离工具,采用先进的源分离模型从音频文件中提取人声。它集成了多种AI模型,包括开发者自训练模型和Demucs v3/v4模型。该工具支持Windows、MacOS和Linux平台,提供图形界面操作,支持GPU加速和多种音频格式。此外,它还具备时间拉伸和音调变换功能,适合音频处理爱好者使用。

Ultimate Vocal Remover音频处理人声分离开源软件AI模型Github开源项目

Ultimate Vocal Remover GUI v5.6

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/683b00d4-1bca-4c58-92ee-3099deb274e1.png?raw=true" />

发布版本 下载量

关于

本应用使用最先进的源分离模型从音频文件中移除人声。UVR的核心开发者训练了此软件包中提供的所有模型(除了Demucs v3和v4的4声部模型)。

安装

这些软件包包含UVR界面、Python、PyTorch和其他运行应用程序所需的依赖项。无需任何先决条件。

Windows安装

  • 请注意:

    • 此安装程序适用于运行Windows 10或更高版本的系统。
    • 不保证在运行Windows 7或更低版本的系统上正常运行。
    • 不保证在使用Intel奔腾和赛扬CPU的系统上正常运行。
    • 您必须将UVR安装到主C:\驱动器。将UVR安装到其他驱动器会导致不稳定。
  • 通过以下链接下载Windows版UVR安装程序:

  • 如果您使用AMD Radeon或Intel Arc显卡,可以尝试OpenCL版本:

  • 已安装UVR的用户更新包说明:

    • 如果您已安装UVR,可以直接在原有版本上安装此包,或从应用程序内直接下载,或点击此处获取补丁
<details id="WindowsManual"> <summary>Windows手动安装</summary>

Windows手动安装

  • 此处下载并解压仓库
  • 此处下载并安装Python
    • 安装时请确保勾选"Add python.exe to PATH"
  • 在解压的仓库目录中运行以下命令:
python.exe -m pip install -r requirements.txt

如果您有兼容的Nvidia GPU,请运行以下命令:

python.exe -m pip install --upgrade torch --extra-index-url https://download.pytorch.org/whl/cu117

如果您未安装FFmpeg或Rubber Band,且想避免繁琐的安装过程,请按照以下说明操作。

FFmpeg安装

  • 此处下载预编译版本
  • 从压缩包中提取以下文件到UVR应用程序目录:
  • ffmpeg-5.1.2-essentials_build/bin/ffmpeg.exe

Rubber Band 安装

为了使用时间拉伸或改变音高工具,你需要安装 Rubber Band。

  • 这里下载预编译版本
  • 从压缩包中提取以下文件到 UVR 应用程序目录:
    • rubberband-3.1.2-gpl-executable-windows/rubberband.exe
    • rubberband-3.1.2-gpl-executable-windows/sndfile.dll

MacOS 安装

  • 请注意:

    • MacOS Sonoma 鼠标点击问题已修复。
    • Mac M1 的 MPS (GPU) 加速已扩展到支持 Demucs v4 和所有 MDX-Net 模型。
    • 此安装包适用于运行 macOS Big Sur 及以上版本的系统。
    • 不保证在运行 macOS Catalina 或更低版本系统上的应用程序功能。
    • 不保证在较旧或低配置 Mac 系统上的应用程序功能。
    • 安装完成后,首次启动应用程序可能需要 5-10 分钟(取决于你的 Macbook)。
  • 通过以下链接之一下载 MacOS 版 UVR dmg 文件:

MacOS 手动安装

  • 这里下载并保存此仓库
  • 这里下载并安装 Python 3.10
  • 在保存的目录中运行以下命令 -
pip3 install -r requirements.txt
  • 如果你的 Mac 使用的是 M1 芯片,请接下来运行以下命令。如果不是,请跳过这一步。 -
cp /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile_arm64.dylib /Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/_soundfile_data/libsndfile.dylib

FFmpeg 安装

  • 安装完成后,在这里下载适合你系统的 FFmpeg 二进制文件,并将其放入主应用程序目录。

Rubber Band 安装 要使用时间拉伸或改变音高工具,你需要安装Rubber Band。

  • 在这里下载预编译的构建包链接
  • 从压缩包中,将以下文件解压到UVR/lib_v5应用程序目录:
    • rubberband-3.1.2-gpl-executable-macos/rubberband

此过程已在2021年款MacBook Pro(使用M1芯片)和2017年款MacBook Air上测试,并确认在两者上都能正常工作。

Linux安装

<details id="LinuxInstall"> <summary>查看Linux安装说明</summary> <br />

这些安装说明适用于基于Debian和Arch的Linux系统。

  • 在这里下载并保存此仓库链接
  • 从保存的目录按以下顺序运行以下命令-

对于基于Debian的系统(Ubuntu、Mint等):

sudo apt update && sudo apt upgrade
sudo apt-get update
sudo apt install ffmpeg
sudo apt install python3-pip
sudo apt-get -y install python3-tk
pip3 install -r requirements.txt
python3 UVR.py

对于基于Arch的系统(EndeavourOS):

sudo pacman -Syu
sudo pacman -Sy
sudo pacman -S python-pip
sudo pacman -S --noconfirm tk
sudo pacman -S ffmpeg

要跳过环境设置并继续安装,请使用:

  • 请谨慎操作;这将修改系统文件。
sudo rm /usr/lib/python3.11/EXTERNALLY-MANAGED

然后按顺序执行以下操作:

chmod +x install_packages.sh
./install_packages.sh
python UVR.py
</details>

其他应用程序注意事项

  • GPU转换的最低要求是Nvidia RTX 1060 6GB。
  • 推荐使用至少8GB显存的Nvidia GPU。
  • AMD Radeon GPU的支持目前有限。
    • 目前有一个针对AMD GPU用户的工作分支在这里
  • 此应用程序仅兼容64位平台。
  • 此应用程序依赖Rubber Band库实现时间拉伸和音高转换选项。
  • 此应用程序依赖FFmpeg处理非wav音频文件。
  • 应用程序关闭时会自动记住你的设置。
  • 转换时间将很大程度上取决于你的硬件。
  • 这些模型计算密集。

性能:

  • 模型加载时间更快。
  • 导入/导出音频文件更快。

故障排除

常见问题

  • 如果未安装FFmpeg,当用户尝试转换非WAV文件时,应用程序将抛出错误。
  • 内存分配错误通常可以通过降低"段"或"窗口"大小来解决。

MacOS Sonoma左键点击错误

在MacOS Sonoma上存在一个已知问题,即应用程序内的左键点击无法正确注册。这影响了Sonoma上所有使用Tkinter构建的应用程序,现已得到解决。如果你仍然遇到问题,请通过以下链接下载最新版本 - 链接

此问题正在这里追踪。

问题报告

发布新问题时请尽可能详细。

如果可能,请点击"开始处理"按钮左侧的"设置按钮",然后点击"错误日志"按钮,获取可以提供给我们的详细错误信息。

许可证

Ultimate Vocal Remover GUI代码采用MIT许可证

  • **请注意:**对于所有希望使用我们模型的第三方应用程序开发者,请遵守MIT许可证,给予UVR及其开发者应有的信誉。

致谢

  • ZFTurbo - 创建并训练了新的MDX23C模型的权重。
  • DilanBoskan - 你在项目初期的贡献对UVR的成功至关重要。谢谢你!
  • Bas Curtiz - 设计了UVR的官方标志、图标、横幅和启动画面。
  • tsurumeso - 开发了原始的VR架构代码。
  • Kuielab & Woosung Choi - 开发了原始的MDX-Net AI代码。
  • Adefossez & Demucs - 开发了原始的Demucs AI代码。
  • KimberleyJSN - 为MDX-Net和Demucs的训练脚本实施提供了建议和帮助。谢谢你!
  • Hv - 帮助在MDX-Net AI代码中实现了分块处理。谢谢你!

贡献

  • 对于任何对Ultimate Vocal Remover GUI的持续开发感兴趣的人,请向我们发送拉取请求,我们将进行审核。
  • 这个项目是100%开源的,任何人都可以免费使用和修改。
  • 我们只维护Ultimate Vocal Remover GUI的开发和支持以及所提供的模型。

参考文献

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多