jhu-clsp/seamless-align
收藏数据集卡片 Seamless-Align
数据集描述
数据集摘要
该数据集是基于Meta AI发布的Speech-to-Speech(S2S)、Text-to-Speech(TTS)和Speech-to-Text(S2T)的元数据创建的。S2S数据集包含35个语言对的数据,压缩后大小约为1000GB。
支持的任务和排行榜
N/A
语言
语言对可以在这里找到。
数据集结构
S2S数据集包含两个压缩文件src.tar.gz和tgt.tar.gz。
数据实例
每个语言对的实例数量可以在dataset_infos.json文件中找到。
数据字段
数据字段可以在这里找到。
数据分割
数据未进行分割。
数据集创建
策划理由
N/A
源数据
语音和文本数据从网络上收集,许多来自网络爬虫。
源语言生产者是谁?
语音和文本数据从网络上收集,许多来自网络爬虫。
注释
注释过程
使用SONAR编码器识别平行句子。(Duquenne et al., 2023)
注释者是谁?
数据未进行人工注释。
个人和敏感信息
数据可能包含个人身份信息、敏感内容或互联网上公开分享的有害内容。
使用数据的注意事项
数据集的社会影响
该数据集为训练多种语言的机器学习系统提供数据。
偏见的讨论
数据中的偏见尚未进行具体研究,但由于原始数据来源是互联网,数据可能存在与互联网上普遍存在的偏见相似的偏见。数据也可能因语言识别和数据过滤技术而引入偏见;低资源语言的准确性通常较低。
其他已知限制
部分翻译实际上是机器翻译。虽然一些网站的机器翻译工具可以从HTML源代码中识别,但由于某些来源的原始HTML不可用,且CommonCrawl处理从WET文件开始,这些工具未被大量过滤。
附加信息
数据集策展人
数据未进行策展。
许可信息
数据集根据MIT许可发布。请负责任地使用数据
引用信息
Seamless Communication et al, SeamlessM4T: Massively Multilingual & Multimodal Machine Translation. arXiv https://arxiv.org/abs/2308.11596, 2023.
Duquenne et al, SONAR: Sentence-Level Multimodal and Language-Agnostic Representations. arXiv https://arxiv.org/abs/2308.11466, 2023
贡献
感谢Seamless Communication Meta AI团队开源元数据和使用说明,特别感谢Loïc Barrault、Yu-An Chung、Mariano Cora Meglioli、David Dale、Ning Dong、Paul-Ambroise Duquenne、Hady Elsahar、Hongyu Gong、Kevin Heffernan、John Hoffman、Christopher Klaiber、Pengwei Li、Daniel Licht、Jean Maillard、Alice Rakotoarison、Kaushik Ram Sadagopan、Guillaume Wenzek、Ethan Ye、Bapi Akula、Peng-Jen Chen、Naji El Hachem、Brian Ellis、Gabriel Mejia Gonzalez、Justin Haaheim、Prangthip Hansanti、Russ Howes、Bernie Huang、Min-Jae Hwang、Hirofumi Inaguma、Somya Jain、Elahe Kalbassi、Amanda Kallet、Ilia Kulikov、Janice Lam、Daniel Li、Xutai Ma、Ruslan Mavlyutov、Benjamin Peloquin、Mohamed Ramadan、Abinesh Ramakrishnan、Anna Sun、Kevin Tran、Tuan Tran、Igor Tufanov、Vish Vogeti、Carleigh Wood、Yilin Yang、Bokai Yu、Pierre Andrews、Can Balioglu、Marta R. Costa-jussà、Onur Celebi、Maha Elbayad、Cynthia Gao、Francisco Guzmán、Justine Kao、Ann Lee、Alexandre Mourachko、Juan Pino、Sravya Popuri、Christophe Ropers、Safiyyah Saleem、Holger Schwenk、Paden Tomasello、Changhan Wang、Jeff Wang、Skyler Wang。也感谢语言和语音处理中心(CLSP)托管和发布此数据,包括Bismarck Bamfo Odoom和Philipp Koehn(负责托管数据和发布huggingface数据集的工程工作),以及Alexandre Mourachko(负责组织连接)。




