AICoverGen

AICoverGen

AI驱动的翻唱生成工具 自动创作个性化歌曲

AICoverGen是一个开源的AI翻唱生成工具,基于RVC v2训练的声音模型,可从YouTube视频或本地音频自动创作翻唱作品。它具备用户友好的WebUI,支持模型管理和多样化的音频处理功能。AICoverGen适用于开发者为AI项目添加歌唱能力,或普通用户制作喜爱角色的翻唱版本。这款工具操作直观,功能全面,为AI音乐创作提供了便利。

AICoverGenAI生成歌曲语音模型WebUIRVCGithub开源项目

AICoverGen

一个自主式管道,可以使用任何经过 RVC v2 训练的 AI 声音从 YouTube 视频或本地音频文件创建翻唱。适用于希望在 AI 助手/聊天机器人/虚拟主播中添加唱歌功能的开发者,或者想听自己喜欢的角色唱自己喜欢的歌的人。

示例:https://www.youtube.com/watch?v=2qZuE4WM7CM

设置指南:https://www.youtube.com/watch?v=pdlhk4vVHQk

WebUI 正在持续开发和测试中,但您现在就可以在本地和 Colab 上试用!

更新日志

  • 新增 WebUI,便于转换和下载语音模型
  • 支持从本地音频文件生成翻唱
  • 选项可保留生成的中间文件,如分离的人声/伴奏
  • 可从带有搜索/标签过滤的表格中下载推荐的公共语音模型
  • 支持 Pixeldrain 语音模型下载链接
  • 实施新的 rmvpe 音高提取技术,实现更快速、更高质量的声音转换
  • AI 主音、和声和伴奏的音量控制
  • 声音转换的索引率
  • AI 主音的混响控制
  • WebUI 的本地网络共享选项
  • 额外的 RVC 选项 - filter_radius、rms_mix_rate、protect
  • 通过文件浏览器上传本地文件的选项
  • 通过 WebUI 上传本地训练的 RVC v2 模型
  • 音高检测方法控制,如 rmvpe/mangio-crepe
  • 人声和伴奏一起变调。效果与在卡拉 OK 中改变歌曲调性相同。
  • 音频输出格式选项:wav 或 mp3。

更新 AICoverGen 到最新版本

通过在 AICoverGen 目录中打开命令行窗口并运行以下命令来安装和拉取任何新的需求和更改。

pip install -r requirements.txt
git pull

对于 Colab 用户,只需点击 Colab 笔记本顶部导航栏中的 Runtime,然后在下拉菜单中选择 Disconnect and delete runtime。 然后按照笔记本中的说明运行 WebUI。

Colab 笔记本

对于没有足够强大的 NVIDIA GPU 的人,您可以使用 Google Colab 尝试 AICoverGen。

Open In Colab

对于那些在使用 Google Colab 笔记本时遇到几分钟后断开连接问题的人,这里有一个不使用 WebUI 的替代方案。

Open In Colab

对于想在本地运行的人,请按照以下设置指南进行操作。

设置

安装 Git 和 Python

按照这里的说明在您的计算机上安装 Git。如果您还没有安装 Python,也请按照这个指南安装 Python 3.9 版本。使用其他版本的 Python 可能会导致依赖冲突。

安装 ffmpeg

按照这里的说明在您的计算机上安装 ffmpeg。

安装 sox

按照这里的说明安装 sox 并将其添加到您的 Windows 路径环境中。

克隆 AICoverGen 仓库

打开命令行窗口并运行这些命令来克隆整个仓库并安装所需的额外依赖项。

git clone https://github.com/SociallyIneptWeeb/AICoverGen
cd AICoverGen
pip install -r requirements.txt

下载所需模型

运行以下命令下载所需的 MDXNET 人声分离模型和 hubert base 模型。

python src/download_models.py

使用 WebUI

要运行 AICoverGen WebUI,请运行以下命令。

python src/webui.py
标志描述
-h, --help显示此帮助信息并退出。
--share创建一个公共 URL。这对于在 Google Colab 上运行 Web UI 很有用。
--listen使 Web UI 可从您的本地网络访问。
--listen-host LISTEN_HOST服务器将使用的主机名。
--listen-port LISTEN_PORT服务器将使用的监听端口。

当出现以下输出消息 Running on local URL: http://127.0.0.1:7860 时,您可以点击链接在新标签页中打开 WebUI。

通过 WebUI 下载 RVC 模型

导航到 Download model 标签页,粘贴 RVC 模型的下载链接并给它一个唯一的名称。 您可以搜索 AI Hub Discord,那里有已训练好的语音模型可供下载。您可以参考示例了解下载链接应该是什么样子。 下载的 zip 文件应包含 .pth 模型文件和一个可选的 .index 文件。

填写完这两个输入字段后,只需点击 Download!当输出消息显示 [NAME] Model successfully downloaded! 时,您应该可以在点击刷新模型按钮后在 Generate 标签页中使用它!

通过 WebUI 上传 RVC 模型

对于在本地训练了 RVC v2 模型并希望将其用于 AI 翻唱生成的人。 导航到 Upload model 标签页,并按照说明操作。 当输出消息显示 [NAME] Model successfully uploaded! 时,您应该可以在点击刷新模型按钮后在 Generate 标签页中使用它!

通过 WebUI 运行管道

  • 从 Voice Models 下拉菜单中选择要使用的语音模型。如果您手动将文件添加到 rvc_models 目录中,请点击 Update 刷新列表。
  • 在歌曲输入字段中,复制并粘贴 YouTube 上任何歌曲的链接或本地音频文件的完整路径。
  • 音高应根据原始人声和 RVC AI 模型设置为 -12、0 或 12。这确保声音不会走调
  • 点击折叠箭头可以查看声音转换和音频混合的其他高级选项。

填写完所有主要选项后,点击 Generate,AI 生成的翻唱应该会在几分钟内(取决于您的 GPU)出现。

使用命令行界面

手动下载 RVC 模型

解压(如果需要)并将 .pth.index 文件转移到 rvc_models 目录中的新文件夹。每个文件夹应只包含一个 .pth 和一个 .index 文件。

目录结构应该类似这样:

├── rvc_models
│   ├── John
│   │   ├── JohnV2.pth
│   │   └── added_IVF2237_Flat_nprobe_1_v2.index
│   ├── May
│   │   ├── May.pth
│   │   └── added_IVF2237_Flat_nprobe_1_v2.index
│   ├── MODELS.txt
│   └── hubert_base.pt
├── mdxnet_models
├── song_output
└── src

运行管道

要使用命令行运行 AI 翻唱生成管道,请运行以下命令。

python src/main.py [-h] -i SONG_INPUT -dir RVC_DIRNAME -p PITCH_CHANGE [-k | --keep-files | --no-keep-files] [-ir INDEX_RATE] [-fr FILTER_RADIUS] [-rms RMS_MIX_RATE] [-palgo PITCH_DETECTION_ALGO] [-hop CREPE_HOP_LENGTH] [-pro PROTECT] [-mv MAIN_VOL] [-bv BACKUP_VOL] [-iv INST_VOL] [-pall PITCH_CHANGE_ALL] [-rsize REVERB_SIZE] [-rwet REVERB_WETNESS] [-rdry REVERB_DRYNESS] [-rdamp REVERB_DAMPING] [-oformat OUTPUT_FORMAT]
标志描述
-h, --help显示此帮助信息并退出。
-i SONG_INPUTYouTube 歌曲链接或本地音频文件路径。Windows 系统应使用双引号,Unix 类系统使用单引号。
-dir MODEL_DIR_NAMErvc_models 目录中包含特定声音的 .pth.index 文件的文件夹名称。
-p PITCH_CHANGE以八度音程改变 AI 声音的音高。设为 0 表示不改变。通常,男声转女声用 1,反之用 -1。
-k可选。添加此选项可保留所有生成的中间音频文件,如分离的 AI 声音/伴奏。省略可节省空间。
-ir INDEX_RATE可选。默认 0.5。控制 AI 口音保留程度。0 <= INDEX_RATE <= 1。
-fr FILTER_RADIUS可选。默认 3。如果 >=3:对提取的音高结果应用中值滤波。0 <= FILTER_RADIUS <= 7。
-rms RMS_MIX_RATE可选。默认 0.25。控制使用原始声音音量(0)或固定音量(1)的程度。0 <= RMS_MIX_RATE <= 1。
-palgo PITCH_DETECTION_ALGO可选。默认 rmvpe。最佳选项是 rmvpe(声音清晰度高),其次是 mangio-crepe(声音更平滑)。
-hop CREPE_HOP_LENGTH可选。默认 128。特定使用 mangio-crepe 算法时,控制检查音高变化的频率(毫秒)。较低值会导致转换时间更长,声音破裂风险更高,但音高准确度更好。
-pro PROTECT可选。默认 0.33。控制原始声音中呼吸和无声辅音保留在 AI 声音中的程度。设为 0.5 可禁用。0 <= PROTECT <= 0.5。
-mv MAIN_VOCALS_VOLUME_CHANGE可选。默认 0。控制主 AI 声音的音量。使用 -3 降低 3 分贝,或 3 提高 3 分贝。
-bv BACKUP_VOCALS_VOLUME_CHANGE可选。默认 0。控制背景 AI 声音的音量。
-iv INSTRUMENTAL_VOLUME_CHANGE可选。默认 0。控制背景音乐/伴奏的音量。
-pall PITCH_CHANGE_ALL可选。默认 0。以半音改变背景音乐、背景声音和 AI 声音的音高/调。略微降低音质。
-rsize REVERB_SIZE可选。默认 0.15。房间越大,混响时间越长。0 <= REVERB_SIZE <= 1。
-rwet REVERB_WETNESS可选。默认 0.2。带混响的 AI 声音水平。0 <= REVERB_WETNESS <= 1。
-rdry REVERB_DRYNESS可选。默认 0.8。无混响的 AI 声音水平。0 <= REVERB_DRYNESS <= 1。
-rdamp REVERB_DAMPING可选。默认 0.7。混响中高频的吸收。0 <= REVERB_DAMPING <= 1。
-oformat OUTPUT_FORMAT可选。默认 mp3。wav 提供最佳质量和较大文件大小,mp3 提供不错的质量和较小文件大小。

使用条款

禁止将转换后的声音用于以下目的:

  • 批评或攻击个人。

  • 倡导或反对特定的政治立场、宗教或意识形态。

  • 在没有适当分区的情况下公开展示强烈刺激性表达。

  • 销售声音模型和生成的语音片段。

  • 恶意冒充原声音所有者以伤害/伤害他人。

  • 导致身份盗窃或欺诈电话的欺骗目的。

免责声明

对于因使用/滥用或无法使用本软件而直接或间接导致的任何直接、间接、后果性、附带或特殊损害,我概不负责。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多