AI多语言实时表情语音翻译系统
Seamless Communication项目开发了一系列AI模型,包括SeamlessM4T、SeamlessExpressive和SeamlessStreaming,支持近100种语言的多模态、实时和富有表现力的翻译。该项目通过开源工具和数据集,为研究人员和开发者提供了强大的序列建模组件,推动了更自然、真实的跨语言交流技术发展。
Seamless是一系列人工智能模型,旨在实现跨语言更自然、更真实的交流。SeamlessM4T是一个大规模多语言多模态机器翻译模型,支持约100种语言。SeamlessM4T为SeamlessExpressive提供基础,后者是一个跨语言保留语调和声音风格元素的模型。SeamlessStreaming则是一个支持约100种语言的同声传译和流式自动语音识别模型。SeamlessExpressive和SeamlessStreaming被整合到Seamless中,形成一个具有多语言、实时和富有表现力翻译特征的统一模型。
SeamlessM4T v2 | SeamlessExpressive | SeamlessStreaming | |
---|---|---|---|
演示 | SeamlessM4T v2 演示 | SeamlessExpressive 演示 | |
HuggingFace Space 演示 | 🤗 SeamlessM4T v2 Space | 🤗 SeamlessExpressive Space | 🤗 SeamlessStreaming Space |
在NeurIPS 2023 - Seamless EXPO上提供的详尽教程,是学习如何使用整套Seamless模型的一站式资源。请随意尝试该notebook。
SeamlessM4T是我们基础的全能大规模多语言多模态机器翻译模型,为近100种语言的语音和文本提供高质量翻译。
SeamlessM4T模型支持以下任务:
:star2: 我们正在发布SeamlessM4T v2,这是一个采用我们新颖的UnitY2架构的更新版本。这个新模型在质量和语音生成任务的推理延迟方面都优于SeamlessM4T v1。
要了解更多关于SeamlessM4T模型系列、每个模型使用的方法、它们的语言覆盖范围及其性能,请访问SeamlessM4T README或🤗 模型卡片。
[!注意] Seamless M4T也可在🤗 Transformers库中使用。访问此部分获取更多详情。
SeamlessExpressive是一个语音到语音翻译模型,它捕捉某些未被充分探索的语调方面,如语速和停顿,同时保留说话者的声音风格和高质量的内容翻译。
要了解更多关于SeamlessExpressive模型的信息,请访问SeamlessExpressive README或🤗 模型卡片。
SeamlessStreaming是一个流式翻译模型。该模型支持语音作为输入模态,语音/文本作为输出模态。
SeamlessStreaming模型支持以下任务:
要了解更多关于SeamlessStreaming模型的信息,请访问SeamlessStreaming README或🤗 模型卡片。
Seamless模型是用于富有表现力的流式语音到语音翻译的统一模型。
[!注意] 先决条件之一是fairseq2,它只为Linux x86-64和Apple silicon Mac计算机提供预构建包。此外,它依赖于libsndfile,可能尚未安装在您的机器上。如果遇到任何安装问题,请参阅其README获取进一步说明。
pip install .
[!注意] 转录推理音频以计算指标使用Whisper,它会自动安装。Whisper反过来需要在您的系统上安装命令行工具
ffmpeg
,可从大多数包管理器获得。
以下是从根目录使用CLI运行推理的示例。
S2ST任务:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
T2TT任务:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
请参阅推理README获取如何运行推理的详细说明,以及源端和目标端支持的语音、文本模态的语言列表。
关于使用GGML原生运行S2TT/ASR(无需Python),请参阅unity.cpp部分。
[!注意] 请查看部分了解如何下载模型。
以下是从根目录使用CLI运行推理的示例。
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
流式评估README提供了运行SeamlessStreaming和Seamless模型评估的详细说明。CLI有一个--no-scoring
选项,可用于跳过评分部分,仅运行推理。
请查看推理README获取更多详情。
您可以复制SeamlessStreaming HF space来运行流式演示。
您也可以通过从这里克隆space在本地运行演示。有关安装的更多详情,请参阅SeamlessStreaming HF仓库的README。
要在本地启动与我们在Hugging Face上托管的相同演示Space:
[object Object],[object Object],[object Object],[object Object]
模型名称 | 参数数量 | 检查点 | 指标 |
---|---|---|---|
SeamlessM4T-Large v2 | 23亿 | 🤗 模型卡 - 检查点 | 指标 |
SeamlessM4T-Large (v1) | 23亿 | 🤗 模型卡 - 检查点 | 指标 |
SeamlessM4T-Medium (v1) | 12亿 | 🤗 模型卡 - 检查点 | 指标 |
要访问和下载 SeamlessExpressive,请通过此申请表申请模型资源。获得批准后,您将收到一封包含每个模型资源下载链接的电子邮件。
请注意,SeamlessExpressive 是根据其自身的许可协议和可接受使用政策提供的。
模型名称 | 参数数量 | 检查点 | 指标 |
---|---|---|---|
SeamlessStreaming | 25亿 | 🤗 模型卡 - 单调解码器检查点 - 流式 UnitY2 检查点 | 指标 |
Seamless 模型实际上就是将 SeamlessStreaming 模型中的非表现力 vocoder_v2
替换为表现力 vocoder_pretssel
的版本。
请查看上面的章节了解如何获取 vocoder_pretssel
检查点。
模型名称 | 参数数量 | 检查点 |
---|---|---|
W2v-BERT 2.0 | 6亿 | 🤗 模型卡 - 检查点 |
以下是如何通过语音编码器进行前向传播的方法:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
要复现我们的结果,或使用相同的指标对您自己的测试集进行评估,请查看此处的 README。
以下是高效批量评估的脚本。
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
请查看此 README 章节
流式评估 README 中有关于运行 SeamlessStreaming 和 Seamless 模型评估的详细说明。
为了实现无处不在的无缝通信,我们实现了 unity.cpp,使用户可以在 GGML(一个 C 语言张量库,便于在各种平台上集成)中运行 SeamlessM4T 模型。
要转录/翻译给定的音频,请执行以下命令:
./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav
有关构建和更多用法的详细信息,请查看 unity.cpp
我们创建了两个表现力语音到语音翻译数据集,mExpresso 和 mDRAL,涵盖英语和其他五种语言 —— 法语、德语、意大利语、普通话和西班牙语。目前,我们开源了 mExpresso 中英语到其他语言方向的语音到文本部分,剩余部分的数据集将很快开源。详情请查看 README
我们正在推出首个表现力语音对齐程序。从原始数据开始,表现力对齐程序自动发现不仅含义相同,而且整体表现力相同的音频片段对。为展示这一程序,我们提供了元数据,用于创建一个名为 SeamlessAlignExpressive 的基准数据集,可用于验证我们的对齐方法的质量。SeamlessAlignExpressive 是首个大规模(11,000+ 小时)多语言表现力翻译音频对齐集合。更多详情可在 SeamlessAlignExpressive README 中找到。
请查看此处的 README。请注意,SeamlessM4T v1 模型使用简化单元,而其他模型使用非简化单元。
无缝通信依赖于 Meta 开发的 4 个库。
fairseq2 是我们下一代开源序列建模组件库,为研究人员和开发人员提供机器翻译、语言建模和其他序列生成任务的构建模块。本仓库中的所有 SeamlessM4T 模型都由 fairseq2 提供支持。
SONAR(Sentence-level multimOdal and laNguage-Agnostic Representations)是一个新的多语言和多模态句子嵌入空间,在 xsim 和 xsim++ 多语言相似度搜索任务上优于现有的句子嵌入,如 LASER3 和 LabSE。SONAR 为多种语言提供文本和语音编码器。SeamlessAlign 是基于 SONAR 嵌入进行挖掘的。 BLASER 2.0是我们最新的基于模型的多模态翻译评估指标。它是BLASER的扩展版本,支持语音和文本。它直接在源信号上操作,因此不需要像ASR-BLEU那样的中间ASR系统。与第一个版本一样,BLASER 2.0利用输入和输出句子嵌入之间的相似性。SONAR是BLASER 2.0的底层嵌入空间。使用BLASER 2.0进行评估的脚本可以在SONAR仓库中找到。
作为无缝通信项目的一部分,我们扩展了stopes库。第一版提供了用于构建翻译模型训练数据集的文本到文本挖掘工具。第二版借助SONAR进行了扩展,支持围绕训练大型语音翻译模型的任务。特别是,我们提供了读取/写入fairseq audiozip数据集的工具,以及一个新的挖掘流程,可以进行语音到语音、文本到语音、语音到文本和文本到文本的挖掘,所有这些都基于新的SONAR嵌入空间。
SimulEval是一个用于评估同声传译模型的库。SimulEval还提供了一个后端,用于使用部分/增量输入进行生成,具有灵活/可扩展的状态,用于实现流式推理。用户定义实现SimulEval接口的代理,这些代理可以在管道中连接在一起。您可以在这里找到为SeamlessStreaming实现的代理。
请查看此处的README。
除了Seamless-M4T大型(2.3B)和中型(1.2B)模型外,我们还发布了一个针对设备端推理的小型模型(281M)。要了解更多关于使用和模型详情,请查看此处的README。
我们开源了SeamlessAlign的元数据,这是最大的开放多模态翻译数据集,总计超过27万小时的对齐语音和文本数据。社区可以根据SeamlessAlign readme重建该数据集。
如果您在工作中使用Seamless或任何在Seamless中发布的模型/数据集/工件,请引用:
@inproceedings{seamless2023, title="Seamless: Multilingual Expressive and Streaming Speech Translation", author="{Seamless Communication}, Lo{\"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{\`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{\'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson", journal={ArXiv}, year={2023} }
我们有三个许可证类别。
以下非生成组件根据MIT_LICENSE中的MIT许可证授权:
以下模型根据LICENSE中的CC-BY-NC 4.0许可证授权:
以下模型根据SEAMLESS_LICENSE中的Seamless许可证授权:
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
全能AI智能助手,随时解答生活与工作的多样问题
问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。
实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号