jhu-clsp/seamless-align-expressive

Name: jhu-clsp/seamless-align-expressive
Creator: jhu-clsp
Published: 2024-02-22 03:10:56
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jhu-clsp/seamless-align-expressive

下载链接

链接失效反馈

官方服务：

资源简介：

Seamless-Align-Expressive数据集是一个用于翻译和音频到音频任务的多语言数据集，支持德语、英语、西班牙语、法语、意大利语和中文。数据集基于Meta AI发布的表达性语音到语音（S2S）数据，包含5种语言对的数据，压缩后约为228GB。数据集未进行分割，且数据可能包含个人身份信息、敏感内容或互联网上公开的有毒内容。数据集的创建过程中使用了SONAR Expressive编码器来识别平行句子，数据未经过人工注释。数据集的使用需要考虑数据中可能存在的偏见和限制，例如数据可能包含机器翻译的内容。数据集以MIT许可证发布，使用时需负责任。

提供机构：

jhu-clsp

原始信息汇总

数据集卡片 Seamless-Align-Expressive

数据集描述

数据集摘要

该数据集基于Meta AI发布的挖掘表达性语音到语音（Speech-to-Speech, S2S）的元数据创建，包含5种语言对的数据。S2S数据集压缩后约为228GB。

支持的任务和排行榜

N/A

语言

语言对包括：

de-en
en-es
en-fr
en-it
en-zh

数据集结构

数据实例

语言对	样本数量
de-en	1385380
en-es
en-fr
en-it
en-zh

数据字段

数据字段详情请参见此处。

数据分割

数据未进行分割。

数据集创建

策划理由

N/A

源数据

语音数据从网络上收集，许多来自网络爬取。

源语言生产者

语音数据从网络上收集，许多来自网络爬取。

注释

注释过程

使用SONAR Expressive编码器识别并行句子。

注释者

数据未经人工注释。

个人和敏感信息

数据可能包含个人身份信息、敏感内容或互联网上公开分享的有毒内容。

使用数据时的考虑

数据集的社会影响

该数据集为多种语言的机器学习系统训练提供数据。

偏见的讨论

数据中的偏见尚未具体研究，但由于原始数据来源为互联网，数据可能存在与互联网上普遍存在的偏见相似的偏见。数据可能还表现出由语言识别和数据过滤技术引入的偏见；低资源语言的准确性通常较低。

其他已知限制

部分翻译实际上是机器翻译。虽然一些网站的机器翻译工具可以从HTML源代码中识别，但由于某些来源的原始HTML不可用，且CommonCrawl处理从WET文件开始，这些工具未被大量过滤。

附加信息

数据集策展人

数据未经策展。

许可信息

数据集根据MIT许可发布。请负责任地使用数据

引用信息

Seamless Communication et al, Seamless: Multilingual Expressive and Streaming Speech Translation. arXiv Seamless: Multilingual Expressive and Streaming Speech Translation, 2023. Duquenne et al, SONAR EXPRESSIVE: Zero-shot Expressive Speech-to-Speech Translation. https://ai.meta.com/research/publications/sonar-expressive-zero-shot-expressive-speech-to-speech-translation/, 2023

贡献

感谢Seamless Communication Meta AI团队开源元数据和使用说明，特别感谢Loïc Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia Gonzalez, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-jussà, Maha Elbayad, Hongyu Gong, Francisco Guzmán, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson。也感谢语言和语音处理中心（CLSP）托管和发布此数据，包括Bismarck Bamfo Odoom和Philipp Koehn（负责托管数据和发布huggingface数据集的工程工作），以及Alexandre Mourachko（负责组织连接）。

搜集汇总

数据集介绍

构建方式

在跨语言语音处理领域，Seamless-Align-Expressive数据集的构建体现了对大规模多语言语音对齐的前沿探索。该数据集基于Meta AI发布的表达性语音到语音（S2S）挖掘元数据创建，覆盖德语、英语、西班牙语、法语、意大利语及中文等多种语言对。其核心构建过程依赖于SONAR Expressive编码器自动识别平行句子，无需人工标注，数据源主要来自网络爬取的公开语音内容，通过压缩文件形式组织，每个语言对包含源语言与目标语言的语音数据包，整体规模约228GB，为语音翻译研究提供了丰富的原始素材。

使用方法

针对Seamless-Align-Expressive数据集的应用，研究人员可通过两种主要途径获取数据以支持语音翻译模型的训练与评估。一是利用Hugging Face的datasets库进行编程式访问，相关脚本即将发布；二是直接克隆Git仓库，通过Git LFS技术下载完整的压缩数据文件。使用时需注意数据可能包含个人身份信息或敏感内容，建议遵循MIT许可协议并负责任地使用。该数据集适用于多语言语音对齐、表达性语音合成等任务，为构建流式、跨语言的语音通信系统提供了关键资源。

背景与挑战

背景概述

在跨语言语音通信技术迅猛发展的背景下，Seamless-Align-Expressive数据集由Meta AI团队于2023年主导构建，并得到约翰霍普金斯大学语言与语音处理中心（CLSP）的工程支持。该数据集聚焦于多语言表达性语音到语音（S2S）翻译任务，旨在解决传统语音翻译中情感与韵律信息流失的核心问题。通过涵盖德语、英语、西班牙语、法语、意大利语及中文等多语言对，数据集为开发零样本表达性语音翻译模型提供了关键资源，推动了语音交互系统在自然度与情感传递方面的突破，对人工智能与计算语言学领域产生了深远影响。

当前挑战

该数据集致力于应对表达性语音翻译中的双重挑战：在领域层面，如何准确捕捉并跨语言迁移语音中的情感、语调及韵律等副语言信息，以克服机械式翻译导致的表达扁平化问题；在构建过程中，数据源自互联网公开爬取，面临语音质量参差、个人敏感信息混杂以及机器翻译内容混杂等难题。此外，基于SONAR Expressive编码器的自动对齐方法虽提升效率，但可能引入语言识别偏差，尤其对低资源语言处理精度有限，且未经过人工标注校验，这些因素共同制约了数据集的纯净度与可靠性。

常用场景

经典使用场景

在语音处理与多语言通信领域，Seamless-Align-Expressive数据集为表达性语音到语音翻译任务提供了关键支持。该数据集通过大规模平行语音样本，覆盖德语、英语、西班牙语、法语、意大利语和中文等多种语言对，使得研究人员能够训练模型在跨语言转换中保留原始语音的情感、语调及韵律特征。其经典应用场景集中于构建零样本表达性语音翻译系统，利用SONAR Expressive编码器自动对齐语音单元，无需人工标注即可实现高质量的多语言语音合成与转换，为语音交互系统的自然度和真实感奠定基础。

解决学术问题

该数据集有效应对了多语言表达性语音翻译中的核心学术挑战，包括跨语言语音对齐的自动化处理、情感与韵律特征的迁移学习，以及低资源语言对的翻译质量提升。通过提供大规模平行语音数据，它缓解了传统语音翻译依赖文本中间表示导致的表达信息丢失问题，促进了端到端语音翻译模型的发展。其意义在于推动了语音处理领域向更自然、更具表现力的多模态通信迈进，为打破语言障碍并保留说话者个性特征提供了实证基础，对人工智能在全球化背景下的包容性应用产生深远影响。

实际应用

在实际应用中，Seamless-Align-Expressive数据集支撑了智能语音助手、实时会议翻译、娱乐媒体配音及无障碍通信工具的开发。例如，在多语言视频会议系统中，该数据集训练的模型能够实时将发言者的语音转换为目标语言，同时保持原有的情感强调和说话风格，增强跨文化沟通的流畅性与亲和力。此外，在影视行业，它可用于自动化配音生成，为不同语言观众提供更沉浸式的观看体验，体现了语音技术在全球化社会中的实用价值与广泛适应性。

数据集最近研究