jhu-clsp/seamless-align-expressive
收藏数据集卡片 Seamless-Align-Expressive
数据集描述
数据集摘要
该数据集基于Meta AI发布的挖掘表达性语音到语音(Speech-to-Speech, S2S)的元数据创建,包含5种语言对的数据。S2S数据集压缩后约为228GB。
支持的任务和排行榜
N/A
语言
语言对包括:
- de-en
- en-es
- en-fr
- en-it
- en-zh
数据集结构
数据实例
| 语言对 | 样本数量 |
|---|---|
| de-en | 1385380 |
| en-es | |
| en-fr | |
| en-it | |
| en-zh |
数据字段
数据字段详情请参见此处。
数据分割
数据未进行分割。
数据集创建
策划理由
N/A
源数据
语音数据从网络上收集,许多来自网络爬取。
源语言生产者
语音数据从网络上收集,许多来自网络爬取。
注释
注释过程
使用SONAR Expressive编码器识别并行句子。
注释者
数据未经人工注释。
个人和敏感信息
数据可能包含个人身份信息、敏感内容或互联网上公开分享的有毒内容。
使用数据时的考虑
数据集的社会影响
该数据集为多种语言的机器学习系统训练提供数据。
偏见的讨论
数据中的偏见尚未具体研究,但由于原始数据来源为互联网,数据可能存在与互联网上普遍存在的偏见相似的偏见。数据可能还表现出由语言识别和数据过滤技术引入的偏见;低资源语言的准确性通常较低。
其他已知限制
部分翻译实际上是机器翻译。虽然一些网站的机器翻译工具可以从HTML源代码中识别,但由于某些来源的原始HTML不可用,且CommonCrawl处理从WET文件开始,这些工具未被大量过滤。
附加信息
数据集策展人
数据未经策展。
许可信息
数据集根据MIT许可发布。请负责任地使用数据
引用信息
Seamless Communication et al, Seamless: Multilingual Expressive and Streaming Speech Translation. arXiv Seamless: Multilingual Expressive and Streaming Speech Translation, 2023. Duquenne et al, SONAR EXPRESSIVE: Zero-shot Expressive Speech-to-Speech Translation. https://ai.meta.com/research/publications/sonar-expressive-zero-shot-expressive-speech-to-speech-translation/, 2023
贡献
感谢Seamless Communication Meta AI团队开源元数据和使用说明,特别感谢Loïc Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia Gonzalez, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-jussà, Maha Elbayad, Hongyu Gong, Francisco Guzmán, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson。也感谢语言和语音处理中心(CLSP)托管和发布此数据,包括Bismarck Bamfo Odoom和Philipp Koehn(负责托管数据和发布huggingface数据集的工程工作),以及Alexandre Mourachko(负责组织连接)。




