neulab/ted_multi

Name: neulab/ted_multi
Creator: neulab
Published: 2024-01-18 11:16:56
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/neulab/ted_multi

下载链接

链接失效反馈

官方服务：

资源简介：

TEDMulti数据集是一个包含60种语言的大规模多语言数据集，源自TED演讲的转录文本。每个记录由语言和文本的并行数组组成，缺失和不完整的翻译会被过滤掉。数据集包含训练集、验证集和测试集，分别包含258098、6049和7213个样本。数据集的下载文件大小为352.23 MB，生成的数据集大小为791.01 MB，总磁盘使用量为1.14 GB。数据集的字段包括`translations`（多语言字符串）和`talk_name`（字符串）。

提供机构：

neulab

原始信息汇总

数据集概述

数据集名称

pretty_name: TEDMulti

数据集特征

features:
- name: translations
  - dtype: multilingual string
  - languages: 60 languages including ar, az, be, bg, bn, etc.
- name: talk_name
  - dtype: string

数据集配置

config_name: plain_text

数据集分割

splits:
- name: test
  - num_bytes: 23364983
  - num_examples: 7213
- name: train
  - num_bytes: 748209995
  - num_examples: 258098
- name: validation
  - num_bytes: 19435383
  - num_examples: 6049

数据集大小

download_size: 352222045
dataset_size: 791010361

数据集结构

数据实例

示例:

{ "talk_name": "shabana_basij_rasikh_dare_to_educate_afghan_girls", "translations": "{"language": ["ar", "az", "bg", "bn", "cs", "da", "de", "el", "en", "es", "fa", "fr", "he", "hi", "hr", "hu", "hy", "id", "it", ..." }

数据字段

plain_text:
- translations: multilingual string
- talk_name: string

数据分割

splits:

name train validation test

plain_text 258098 6049 7213

数据集创建

数据集来源

source: TED Talk transcripts

数据集描述

summary: Massively multilingual (60 language) data set derived from TED Talk transcripts. Each record consists of parallel arrays of language and text. Missing and incomplete translations will be filtered out.

引用信息

@InProceedings{qi-EtAl:2018:N18-2, author = {Qi, Ye and Sachan, Devendra and Felix, Matthieu and Padmanabhan, Sarguna and Neubig, Graham}, title = {When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation?}, booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)}, month = {June}, year = {2018}, address = {New Orleans, Louisiana}, publisher = {Association for Computational Linguistics}, pages = {529--535}, abstract = {The performance of Neural Machine Translation (NMT) systems often suffers in low-resource scenarios where sufficiently large-scale parallel corpora cannot be obtained. Pre-trained word embeddings have proven to be invaluable for improving performance in natural language analysis tasks, which often suffer from paucity of data. However, their utility for NMT has not been extensively explored. In this work, we perform five sets of experiments that analyze when we can expect pre-trained word embeddings to help in NMT tasks. We show that such embeddings can be surprisingly effective in some cases -- providing gains of up to 20 BLEU points in the most favorable setting.}, url = {http://www.aclweb.org/anthology/N18-2084} }

搜集汇总

数据集介绍

构建方式

在机器翻译领域，大规模平行语料库的构建对于提升模型性能至关重要。TEDMulti数据集源于TED演讲的多语言转录文本，通过系统化采集与筛选流程，整合了涵盖60种语言的平行翻译数据。其构建过程注重数据的完整性与一致性，自动过滤缺失或不完整的翻译条目，确保每条记录均包含对应演讲名称及多语言文本阵列，从而形成结构清晰、质量可靠的大规模多语言语料资源。

特点

该数据集的核心特征体现在其卓越的多语言覆盖能力与高质量平行文本结构。它囊括了从阿拉伯语到中文的60种语言，为跨语言研究提供了丰富的语言多样性基础。数据以演讲为单位组织，每条记录包含统一的演讲名称及多语言翻译阵列，这种设计便于进行多语言对齐分析与比较研究。数据规模庞大，包含超过25万训练样本，且经过严格筛选，缺失翻译已被剔除，确保了语料的一致性与可用性。

使用方法

在自然语言处理应用中，该数据集主要服务于多语言机器翻译模型的训练与评估。研究人员可通过HuggingFace平台直接加载数据集，利用其预划分的训练、验证与测试子集进行模型开发。典型使用流程包括：解析每条记录中的translations字段以获取平行句对，结合talk_name进行语料溯源，继而构建多语言翻译模型。该数据集支持端到端的流水线处理，能够无缝集成于现代深度学习框架，为低资源语言翻译、多语言嵌入学习等任务提供坚实的数据支撑。

背景与挑战

背景概述

在机器翻译研究领域，多语言平行语料库的构建对于推动跨语言理解与生成技术至关重要。TEDMulti数据集由卡内基梅隆大学等机构的研究团队于2018年前后创建，核心研究问题聚焦于低资源语言环境下神经机器翻译的性能提升。该数据集源自TED演讲的多语言转录文本，涵盖60种语言，旨在探索预训练词嵌入在神经机器翻译中的有效性，为多语言自然语言处理模型提供了宝贵的实验基础，显著促进了跨语言表示学习的发展。

当前挑战

TEDMulti数据集致力于解决低资源语言机器翻译的挑战，其核心问题在于如何利用有限平行语料实现高质量多语言翻译。构建过程中的主要挑战包括：多语言对齐的复杂性，需确保60种语言间翻译句对的精确匹配；数据质量控制的难度，必须过滤缺失或不完整的翻译内容；以及语言覆盖的均衡性，避免资源丰富语言主导模型训练。这些挑战共同影响了数据集的代表性与实用性。

常用场景

经典使用场景

在机器翻译领域，TEDMulti数据集以其涵盖60种语言的平行语料特性，成为大规模多语言神经机器翻译模型训练与评估的经典资源。该数据集源自TED演讲转录文本，内容涉及科技、教育、文化等多领域话题，语言风格正式且富有逻辑性，为模型提供了高质量、多样化的跨语言对齐样本。研究者常利用其构建从英语到多种低资源语言的翻译系统，探索在数据稀缺情境下的迁移学习与泛化能力。

衍生相关工作

围绕TEDMulti数据集，学术界衍生了一系列经典研究工作。例如，Qi等人2018年发表的论文系统探讨了预训练词嵌入在神经机器翻译中的有效性，成为该领域引用广泛的基准研究之一。后续工作进一步利用该数据集探索多语言联合训练、零样本翻译迁移等前沿方向，推动了跨语言表示学习与低资源翻译技术的协同发展，为后续大规模多语言模型如mBART、M2M-100等提供了重要的数据验证基础。

数据集最近研究