bark

bark

多功能文本到音频AI转换模型

Bark是Suno开发的开源文本到音频生成模型,能生成逼真的多语言语音、音乐、背景噪音和简单音效。支持笑声、叹息等非语言交流,适用于研究目的。采用transformer架构,直接将文本转换为音频。提供100多种语音预设,可生成随机语音,但不支持自定义语音克隆。该模型为全生成式设计,可能偏离给定脚本,适合各种音频生成任务。

Bark文本转语音AI模型多语言音频生成Github开源项目

注意:Bark 是 Suno 的开源文本转语音+模型。如果您正在寻找我们的文本转音乐模型,请访问我们的网页并加入我们的Discord社区。

🐶 Bark

Twitter

🔗 示例Suno Studio 等候名单更新如何使用安装常见问题

<br> <p align="center"> <img src="https://yellow-cdn.veclightyear.com/2b54e442/ae431245-b2c2-463b-9673-97a607e07baf.png" width="500"></img> </p> <br>

Bark 是由 Suno 创建的基于 transformer 的文本转音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如笑声、叹息和哭泣。为了支持研究社区,我们提供预训练模型检查点的访问权限,这些检查点已准备好进行推理并可用于商业用途。

⚠ 免责声明

Bark 是为研究目的而开发的。它不是传统的文本转语音模型,而是一个完全生成式的文本转音频模型,可能会以意想不到的方式偏离提供的提示。Suno 不对生成的任何输出负责。使用风险自负,请负责任地行事。

📖 快速索引

🎧 演示

在 Spaces 中打开 在 Replicate 上打开 在 Colab 中打开

🚀 更新

2023.05.01

  • ©️ Bark 现在采用 MIT 许可证,这意味着它现在可以用于商业用途!

  • ⚡ GPU 上速度提高 2 倍。CPU 上速度提高 10 倍。我们还添加了 Bark 的较小版本选项,以提供额外的加速,但代价是略低的质量。

  • 📕 长形式生成、语音一致性增强和其他示例现在记录在新的 notebooks 部分中。

  • 👥 我们创建了一个语音提示库。我们希望这个资源能帮助您找到适合您用例的有用提示!您也可以加入我们的 Discord,社区在 #audio-prompts 频道积极分享有用的提示。

  • 💬 在这里获得不断增长的社区支持和新功能访问:

  • 💾 现在您可以在低 VRAM (<4GB) 的 GPU 上使用 Bark。

2023.04.20

  • 🐶 Bark 发布!

🐍 Python 中的使用

<details open> <summary><h3>🪑 基础</h3></summary>
from bark import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav from IPython.display import Audio # 下载并加载所有模型 preload_models() # 从文本生成音频 text_prompt = """ 你好,我的名字是 Suno。呃 — 我喜欢披萨。[笑] 但我也有其他兴趣,比如玩井字游戏。 """ audio_array = generate_audio(text_prompt) # 将音频保存到磁盘 write_wav("bark_generation.wav", SAMPLE_RATE, audio_array) # 在笔记本中播放文本 Audio(audio_array, rate=SAMPLE_RATE)
</details> <details open> <summary><h3>🌎 外语</h3></summary> <br> Bark 支持各种语言的开箱即用,并自动从输入文本中确定语言。当提示包含代码切换的文本时,Bark 将尝试采用各自语言的本地口音。目前英语质量最佳,我们预计其他语言将随着规模扩大而进一步改进。 <br> <br>
text_prompt = """ 추석은 내가 가장 좋아하는 명절이다. 나는 며칠 동안 휴식을 취하고 친구 및 가족과 시간을 보낼 수 있습니다. """ audio_array = generate_audio(text_prompt)

注意:由于 Bark 自动从输入文本中识别语言,因此可以使用例如德语历史提示与英语文本。这通常会导致带有德语口音的英语音频。

text_prompt = """ Der Dreißigjährige Krieg (1618-1648) war ein verheerender Konflikt, der Europa stark geprägt hat. This is a beginning of the history. If you want to hear more, please continue. """ audio_array = generate_audio(text_prompt)
</details> <details open> <summary><h3>🎶 音乐</h3></summary> Bark 可以生成所有类型的音频,原则上不区分语音和音乐。有时 Bark 会选择将文本生成为音乐,但您可以通过在歌词周围添加音乐符号来帮助它。 <br> <br>
text_prompt = """ ♪ In the jungle, the mighty jungle, the lion barks tonight ♪ """ audio_array = generate_audio(text_prompt)
</details> <details open> <summary><h3>🎤 语音预设</h3></summary>

Bark 支持 100 多个支持语言的说话者预设。您可以在这里代码中浏览支持的语音预设库。社区也经常在 Discord 中分享预设。

Bark 尝试匹配给定预设的音调、音高、情感和韵律,但目前不支持自定义语音克隆。该模型还尝试保留音乐、环境噪音等。

text_prompt = """ I have a silky smooth voice, and today I will tell you about the exercise regimen of the common sloth. """ audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")
</details>

📃 生成更长的音频

默认情况下,generate_audio 适用于大约 13 秒的口语文本。有关如何进行长形式生成的示例,请参见 👉 笔记本 👈

<details> <summary>点击切换示例长形式生成(来自示例笔记本)</summary> </details>

命令行

python -m bark --text "你好,我的名字是 Suno。" --output_filename "example.wav"

💻 安装

‼️ 注意 ‼️ 不要使用 pip install bark。它会安装一个不同的包,该包不是由 Suno 管理的。

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark cd bark && pip install .

🤗 Transformers 使用

Bark 从 4.31.0 版本开始在 🤗 Transformers 库中可用,只需要最少的依赖项和额外的包。开始使用的步骤:

  1. 首先从主分支安装 🤗 Transformers 库
pip install git+https://github.com/huggingface/transformers.git
  1. 运行以下 Python 代码生成语音样本:
from transformers import AutoProcessor, BarkModel processor = AutoProcessor.from_pretrained("suno/bark") model = BarkModel.from_pretrained("suno/bark") voice_preset = "v2/en_speaker_6" inputs = processor("Hello, my dog is cute", voice_preset=voice_preset) audio_array = model.generate(**inputs) audio_array = audio_array.cpu().numpy().squeeze()
  1. 在ipynb笔记本中收听音频样本:
from IPython.display import Audio sample_rate = model.generation_config.sample_rate Audio(audio_array, rate=sample_rate)

或使用第三方库(如scipy)将其保存为.wav文件:

import scipy sample_rate = model.generation_config.sample_rate scipy.io.wavfile.write("bark_out.wav", rate=sample_rate, data=audio_array)

有关使用🤗 Transformers库进行Bark模型推理的更多详细信息,请参阅Bark文档或实践Google Colab

🛠️ 硬件和推理速度

Bark已在CPU和GPU上进行了测试并能正常工作(pytorch 2.0+, CUDA 11.7和CUDA 12.0)。

在企业级GPU和PyTorch nightly版本上,Bark可以实时生成音频。在较旧的GPU、默认的colab或CPU上,推理时间可能会明显变慢。对于较旧的GPU或CPU,您可能需要考虑使用较小的模型。详细信息可以在我们的教程部分找到。

Bark的完整版本需要大约12GB的VRAM才能同时将所有内容保存在GPU上。 要使用较小版本的模型(应该能适应8GB VRAM),请设置环境标志SUNO_USE_SMALL_MODELS=True

如果您没有可用的硬件,或者想要使用我们更大版本的模型,您也可以在这里注册我们模型操场的早期访问权限。

⚙️ 详细信息

Bark是一个完全生成式的文本到音频模型,专为研究和演示目的而开发。它遵循类似于AudioLMVall-E的GPT风格架构,以及来自EnCodec的量化音频表示。它不是传统的TTS模型,而是一个完全生成式的文本到音频模型,能够以意想不到的方式偏离任何给定的脚本。与以前的方法不同,输入文本提示直接转换为音频,无需中间使用音素。因此,它可以泛化到语音以外的任意指令,如音乐歌词、音效或其他非语音声音。

以下是一些已知的非语音声音列表,但我们每天都在发现更多。如果您发现特别有效的模式,请在Discord上告诉我们!

  • [laughter]
  • [laughs]
  • [sighs]
  • [music]
  • [gasps]
  • [clears throat]
  • ... 表示犹豫
  • 表示歌词
  • 大写字母用于强调某个词
  • [MAN][WOMAN] 分别用于使Bark倾向于男性和女性说话者

支持的语言

语言状态
英语 (en)
德语 (de)
西班牙语 (es)
法语 (fr)
印地语 (hi)
意大利语 (it)
日语 (ja)
韩语 (ko)
波兰语 (pl)
葡萄牙语 (pt)
俄语 (ru)
土耳其语 (tr)
中文简体 (zh)

未来语言支持请求在这里或在Discord的**#forums**频道。

🙏 致谢

  • nanoGPT提供了一个简单明了且快速的GPT风格模型实现
  • EnCodec提供了一个最先进的出色音频编解码器实现
  • AudioLM提供了相关的训练和推理代码
  • Vall-EAudioLM以及许多其他开创性论文使Bark的开发成为可能

© 许可证

Bark使用MIT许可证。

📱 社区

🎧 Suno Studio (早期访问)

我们正在开发一个模型操场,包括Bark。

如果您感兴趣,可以在这里注册早期访问权限。

❓ 常见问题

如何指定模型下载和缓存的位置?

  • Bark使用Hugging Face下载和存储模型。您可以在这里找到更多信息。

Bark的生成有时与我的提示不同。这是怎么回事?

  • Bark是一个GPT风格的模型。因此,它可能会在生成过程中采取一些创造性的自由,导致模型输出的变异性比传统的文本到语音方法更高。

Bark支持哪些声音?

  • Bark支持支持的语言中的100多种说话者预设。您可以在这里浏览说话者预设库。社区也在Discord上分享预设。Bark还支持生成适合输入文本的独特随机声音。Bark目前不支持自定义语音克隆。

为什么输出限制在约13-14秒?

  • Bark是一个GPT风格的模型,其架构/上下文窗口针对大约这个长度的输出生成进行了优化。

我需要多少VRAM?

  • Bark的完整版本需要大约12Gb的内存才能同时将所有内容保存在GPU上。然而,即使是小到~2Gb的显卡也可以通过一些额外的设置工作。只需在生成之前添加以下代码片段:
import os os.environ["SUNO_OFFLOAD_CPU"] = "True" os.environ["SUNO_USE_SMALL_MODELS"] = "True"

我生成的音频听起来像1980年代的电话通话。这是怎么回事?

  • Bark从头开始生成音频。它并不旨在仅创建高保真度、录音室质量的语音。相反,输出可以是从完美的语音到使用劣质麦克风录制的棒球比赛上多人争论的任何内容。

编辑推荐精选

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

下拉加载更多