jhu-clsp/seamless-align

Name: jhu-clsp/seamless-align
Creator: jhu-clsp
Published: 2024-06-02 17:03:04
License: 暂无描述

Hugging Face2024-06-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jhu-clsp/seamless-align

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于Meta AI发布的Speech-to-Speech(S2S)、Text-to-Speech(TTS)和Speech-to-Text(S2T)的元数据创建，主要用于翻译和音频到音频的任务。数据集支持35种语言对，规模约为1000GB压缩文件。数据集的创建过程涉及使用SONAR编码器识别平行句子，且数据未经过人工标注。数据集可能包含个人身份信息、敏感内容或互联网上公开的有毒内容。数据集的使用对社会有积极影响，但可能存在互联网数据中的偏见和机器翻译的局限性。

This dataset is constructed using metadata from Speech-to-Speech (S2S), Text-to-Speech (TTS), and Speech-to-Text (S2T) released by Meta AI. It is primarily intended for translation and audio-to-audio tasks. The dataset supports 35 language pairs, with a total size of approximately 1000GB of compressed files. The dataset creation process uses the SONAR Encoder to identify parallel sentences, and the data has not undergone manual annotation. The dataset may contain personally identifiable information (PII), sensitive content, or publicly available toxic content from the internet. While the utilization of this dataset has positive social impacts, it may carry biases from internet-sourced data and limitations of machine translation.

提供机构：

jhu-clsp

原始信息汇总

数据集卡片 Seamless-Align

数据集描述

数据集摘要

该数据集是基于Meta AI发布的Speech-to-Speech(S2S)、Text-to-Speech(TTS)和Speech-to-Text(S2T)的元数据创建的。S2S数据集包含35个语言对的数据，压缩后大小约为1000GB。

支持的任务和排行榜

N/A

语言

语言对可以在这里找到。

数据集结构

S2S数据集包含两个压缩文件src.tar.gz和tgt.tar.gz。

数据实例

每个语言对的实例数量可以在dataset_infos.json文件中找到。

数据字段

数据字段可以在这里找到。

数据分割

数据未进行分割。

数据集创建

策划理由

N/A

源数据

语音和文本数据从网络上收集，许多来自网络爬虫。

源语言生产者是谁？

语音和文本数据从网络上收集，许多来自网络爬虫。

注释

注释过程

使用SONAR编码器识别平行句子。（Duquenne et al., 2023）

注释者是谁？

数据未进行人工注释。

个人和敏感信息

数据可能包含个人身份信息、敏感内容或互联网上公开分享的有害内容。

使用数据的注意事项

数据集的社会影响

该数据集为训练多种语言的机器学习系统提供数据。

偏见的讨论

数据中的偏见尚未进行具体研究，但由于原始数据来源是互联网，数据可能存在与互联网上普遍存在的偏见相似的偏见。数据也可能因语言识别和数据过滤技术而引入偏见；低资源语言的准确性通常较低。

其他已知限制

部分翻译实际上是机器翻译。虽然一些网站的机器翻译工具可以从HTML源代码中识别，但由于某些来源的原始HTML不可用，且CommonCrawl处理从WET文件开始，这些工具未被大量过滤。

附加信息

数据集策展人

数据未进行策展。

许可信息

数据集根据MIT许可发布。请负责任地使用数据

引用信息

Seamless Communication et al, SeamlessM4T: Massively Multilingual & Multimodal Machine Translation. arXiv https://arxiv.org/abs/2308.11596, 2023.
Duquenne et al, SONAR: Sentence-Level Multimodal and Language-Agnostic Representations. arXiv https://arxiv.org/abs/2308.11466, 2023

贡献

感谢Seamless Communication Meta AI团队开源元数据和使用说明，特别感谢Loïc Barrault、Yu-An Chung、Mariano Cora Meglioli、David Dale、Ning Dong、Paul-Ambroise Duquenne、Hady Elsahar、Hongyu Gong、Kevin Heffernan、John Hoffman、Christopher Klaiber、Pengwei Li、Daniel Licht、Jean Maillard、Alice Rakotoarison、Kaushik Ram Sadagopan、Guillaume Wenzek、Ethan Ye、Bapi Akula、Peng-Jen Chen、Naji El Hachem、Brian Ellis、Gabriel Mejia Gonzalez、Justin Haaheim、Prangthip Hansanti、Russ Howes、Bernie Huang、Min-Jae Hwang、Hirofumi Inaguma、Somya Jain、Elahe Kalbassi、Amanda Kallet、Ilia Kulikov、Janice Lam、Daniel Li、Xutai Ma、Ruslan Mavlyutov、Benjamin Peloquin、Mohamed Ramadan、Abinesh Ramakrishnan、Anna Sun、Kevin Tran、Tuan Tran、Igor Tufanov、Vish Vogeti、Carleigh Wood、Yilin Yang、Bokai Yu、Pierre Andrews、Can Balioglu、Marta R. Costa-jussà、Onur Celebi、Maha Elbayad、Cynthia Gao、Francisco Guzmán、Justine Kao、Ann Lee、Alexandre Mourachko、Juan Pino、Sravya Popuri、Christophe Ropers、Safiyyah Saleem、Holger Schwenk、Paden Tomasello、Changhan Wang、Jeff Wang、Skyler Wang。也感谢语言和语音处理中心(CLSP)托管和发布此数据，包括Bismarck Bamfo Odoom和Philipp Koehn（负责托管数据和发布huggingface数据集的工程工作），以及Alexandre Mourachko（负责组织连接）。

搜集汇总

数据集介绍

构建方式

在语音与文本跨模态对齐的研究领域，Seamless-Align数据集依托Meta AI发布的元数据构建而成，其核心在于挖掘多语言语音与文本之间的平行对应关系。该数据集通过SONAR编码器自动识别并配对平行语句，无需人工标注，涵盖了35种语言对的语音到语音、文本到语音及语音到文本数据，原始数据源自网络爬取，虽可能存在机器翻译内容，但整体规模庞大，压缩后约达1000GB，为大规模多语言模型训练提供了坚实基础。

特点

Seamless-Align数据集以其多语言覆盖与跨模态对齐的独特性脱颖而出，支持包括中文、英语、法语等在内的广泛语言对，尤其注重低资源语言的纳入。数据集中可能包含个人身份信息或敏感内容，反映了互联网数据的真实性与复杂性，同时未进行人工分割，保持了原始数据的完整性，便于研究者根据需求灵活处理，但其潜在偏见与机器翻译混杂问题需在使用中审慎考量。

使用方法

研究者可通过两种途径访问Seamless-Align数据集：一是利用Hugging Face的Python datasets库，相关脚本即将发布；二是直接克隆Git仓库，使用git lfs工具下载压缩的源文件与目标文件。数据集以tar.gz格式存储，未预设训练或测试划分，用户需自行处理数据分割与预处理，适用于多语言语音翻译、语音合成等任务，使用时应注意遵守MIT许可协议，并承担数据中可能存在的敏感内容风险。

背景与挑战

背景概述

在语音与文本跨模态翻译研究领域，多语言语音对齐数据集的构建对于推动语音到语音、语音到文本及文本到语音技术的融合至关重要。Seamless-Align数据集由约翰霍普金斯大学语言与语音处理中心（CLSP）与Meta AI研究团队合作，于2023年基于SeamlessM4T项目发布。该数据集旨在解决大规模多语言语音翻译中的对齐问题，通过挖掘网络公开数据，覆盖包括英语、中文、法语等在内的数十种语言对，为构建无缝跨语言通信系统提供了关键的数据支撑，显著促进了多模态机器翻译技术的发展与应用。

当前挑战

Seamless-Align数据集致力于应对多语言语音翻译中数据稀缺与对齐精度不足的核心挑战。在领域问题层面，语音信号与文本之间的跨模态对齐复杂度高，尤其对于低资源语言，语音特征提取与语义映射的准确性难以保障。构建过程中，数据源自网络爬取，面临噪声干扰、个人敏感信息混杂以及机器翻译内容渗入等问题；同时，依赖SONAR编码器进行自动对齐，可能引入算法偏差，且未经过人工标注校验，数据质量与可靠性存在潜在局限。

常用场景

经典使用场景

在语音与文本跨模态对齐的研究领域，Seamless-Align数据集为大规模多语言语音到语音、语音到文本及文本到语音任务提供了关键支持。该数据集通过SONAR编码器自动挖掘平行语料，覆盖35种语言对，压缩规模约1000GB，成为训练端到端多模态翻译系统的核心资源。研究者常利用其海量对齐数据，构建能够处理低资源语言的统一模型，推动语音与文本在跨语言环境中的无缝转换。

实际应用

在实际应用中，Seamless-Align数据集为开发实时语音翻译工具、多语言虚拟助手及无障碍通信系统提供了数据支撑。基于该数据集训练的模型可集成于会议翻译、教育辅助及跨境商务平台，实现高准确度的语音跨语言转换。尤其在服务小众语言社区方面，它有助于缩小数字鸿沟，提升全球信息获取的平等性，体现了技术普惠的社会价值。

衍生相关工作

该数据集衍生了一系列经典研究工作，其中Meta AI团队发布的SeamlessM4T模型便是直接代表，该模型利用此类对齐数据实现了大规模多语言多模态机器翻译。同时，SONAR编码器的相关研究进一步优化了句子级跨模态表征学习。这些工作共同推动了多语言语音处理领域的进展，为后续如语音合成跨语言适配、低资源语音识别等方向提供了可借鉴的框架与方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集