目前的文本转语音(TTS)技术通常专注于合成自然、清晰的语音,并且在语调、节奏和情感表达方面已经取得了显著进展。
然而,合成非言语发声还是一个相对较新的领域。虽然一些高级TTS系统可能在合成笑声方面取得了一些进展,但要完全准确地生成非语言发声仍然存在挑战。

但是微软最近提出的EmoCtrl-TTS是一款可控制情绪的零样本 TTS,可以为任何说话者生成带有非语言发声(例如笑声和哭声)的高度情绪化的语音。
EmoCtrl-TTS利用表示情感和非语言声效的嵌入来调节基于流匹配的零样本文本转语音(TTS)技术。
为了生成高质量的情感语音,EmoCtrl-TTS使用伪标签法筛选出超过27,000小时的表达数据进行训练。
该技术目前有三个突破性的创新,分别是生成含有随时间变化的情感状态的语音、生成非言语性发声、情感语音翻译。
EmoCtrl-TTS利用情感嵌入和流匹配技术,能够捕捉语音提示中的情感变化状态,生成具有动态情感的语音。
这使得合成的语音更加自然和真实,能更好地表达说话者的情感变化。
demo:
输入:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="11.86" isaac2="1" low_size="7.19" name="M_spk_01-angrycalm_reference" play_length="3000" source_size="7.2" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=M_spk_01-angrycalm_reference&play_length=3秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDcz"></mp-common-mpaudio>
Voicebox:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="11.86" isaac2="1" low_size="8.05" name="M_spk_01-angrycalm_baseline_tts" play_length="3000" source_size="8.1" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=M_spk_01-angrycalm_baseline_tts&play_length=3秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc0"></mp-common-mpaudio>
Elate:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="11.86" isaac2="1" low_size="7.59" name="M_spk_01-angrycalm_elate" play_length="3000" source_size="7.6" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=M_spk_01-angrycalm_elate&play_length=3秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDcy"></mp-common-mpaudio>
Emoctrl:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="11.86" isaac2="1" low_size="7.18" name="M_spk_01-angrycalm_emoctrl" play_length="3000" source_size="7.2" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=M_spk_01-angrycalm_emoctrl&play_length=3秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc1"></mp-common-mpaudio>
从demo中可以很明显的听出EmoCtrl-TTS对于示例语音当中的情绪模仿的是最逼真的,而且对于这种情绪的变化的生成也是最相近的。
而且这种对于情绪的识别不受语言的限制,EmoCtrl-TTS还具备将一种语言的情感语音翻译成另一种语言的情感的能力,保留说话者的情感表达。
输入日语的的语音生成英语的语音,其中要表达的情感EmoCtrl-TTS几乎能够完美的呈现。
demo:
输入:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="26.09" isaac2="1" low_size="16.35" name="R8004_M8006_N_SPK8033_756.21_765.01_ref" play_length="8800" source_size="16.3" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=R8004_M8006_N_SPK8033_756.21_765.01_ref&play_length=8秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc2"></mp-common-mpaudio>
Voicebox:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="26.09" isaac2="1" low_size="20.07" name="R8004_M8006_N_SPK8033_756.21_765.01_baseline_tts" play_length="8800" source_size="20.1" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=R8004_M8006_N_SPK8033_756.21_765.01_baseline_tts&play_length=8秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc3"></mp-common-mpaudio>
Elate:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="26.09" isaac2="1" low_size="18.85" name="R8004_M8006_N_SPK8033_756.21_765.01_elate" play_length="8800" source_size="18.9" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=R8004_M8006_N_SPK8033_756.21_765.01_elate&play_length=8秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc4"></mp-common-mpaudio>
Emoctrl:
<mp-common-mpaudio author="向量光年" class="js_editor_audio res_iframe js_uneditable custom_select_card" cover="http://mmbiz.qpic.cn/mmbiz_jpg/2Q588Ho27Oya1zwvey4EOAn9yumcV2J80FOJWOibCfmLtNFOVSdOybNb5l5nCic7ic03qxuTmn8eZJ1ACibuGoS7wg/0?wx_fmt=jpeg" data-pluginname="insertaudio" data-topic_id="" data-topic_name="" data-trans_state="1" data-verify_state="3" high_size="26.09" isaac2="1" low_size="18.84" name="R8004_M8006_N_SPK8033_756.21_765.01_emoctrl" play_length="8800" source_size="18.8" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=R8004_M8006_N_SPK8033_756.21_765.01_emoctrl&play_length=8秒" voice_encode_fileid="MzkwMzY4NjU4NV8yMjQ3NDg1MDc5"></mp-common-mpaudio>


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号