five

neulab/ted_multi

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/neulab/ted_multi
下载链接
链接失效反馈
官方服务:
资源简介:
TEDMulti数据集是一个包含60种语言的大规模多语言数据集,源自TED演讲的转录文本。每个记录由语言和文本的并行数组组成,缺失和不完整的翻译会被过滤掉。数据集包含训练集、验证集和测试集,分别包含258098、6049和7213个样本。数据集的下载文件大小为352.23 MB,生成的数据集大小为791.01 MB,总磁盘使用量为1.14 GB。数据集的字段包括`translations`(多语言字符串)和`talk_name`(字符串)。

TEDMulti数据集是一个包含60种语言的大规模多语言数据集,源自TED演讲的转录文本。每个记录由语言和文本的并行数组组成,缺失和不完整的翻译会被过滤掉。数据集包含训练集、验证集和测试集,分别包含258098、6049和7213个样本。数据集的下载文件大小为352.23 MB,生成的数据集大小为791.01 MB,总磁盘使用量为1.14 GB。数据集的字段包括`translations`(多语言字符串)和`talk_name`(字符串)。
提供机构:
neulab
原始信息汇总

数据集概述

数据集名称

  • pretty_name: TEDMulti

数据集特征

  • features:
    • name: translations
      • dtype: multilingual string
      • languages: 60 languages including ar, az, be, bg, bn, etc.
    • name: talk_name
      • dtype: string

数据集配置

  • config_name: plain_text

数据集分割

  • splits:
    • name: test
      • num_bytes: 23364983
      • num_examples: 7213
    • name: train
      • num_bytes: 748209995
      • num_examples: 258098
    • name: validation
      • num_bytes: 19435383
      • num_examples: 6049

数据集大小

  • download_size: 352222045
  • dataset_size: 791010361

数据集结构

数据实例

  • 示例:

    { "talk_name": "shabana_basij_rasikh_dare_to_educate_afghan_girls", "translations": "{"language": ["ar", "az", "bg", "bn", "cs", "da", "de", "el", "en", "es", "fa", "fr", "he", "hi", "hr", "hu", "hy", "id", "it", ..." }

数据字段

  • plain_text:
    • translations: multilingual string
    • talk_name: string

数据分割

  • splits:

    name train validation test
    plain_text 258098 6049 7213

数据集创建

数据集来源

  • source: TED Talk transcripts

数据集描述

  • summary: Massively multilingual (60 language) data set derived from TED Talk transcripts. Each record consists of parallel arrays of language and text. Missing and incomplete translations will be filtered out.

引用信息

@InProceedings{qi-EtAl:2018:N18-2, author = {Qi, Ye and Sachan, Devendra and Felix, Matthieu and Padmanabhan, Sarguna and Neubig, Graham}, title = {When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation?}, booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)}, month = {June}, year = {2018}, address = {New Orleans, Louisiana}, publisher = {Association for Computational Linguistics}, pages = {529--535}, abstract = {The performance of Neural Machine Translation (NMT) systems often suffers in low-resource scenarios where sufficiently large-scale parallel corpora cannot be obtained. Pre-trained word embeddings have proven to be invaluable for improving performance in natural language analysis tasks, which often suffer from paucity of data. However, their utility for NMT has not been extensively explored. In this work, we perform five sets of experiments that analyze when we can expect pre-trained word embeddings to help in NMT tasks. We show that such embeddings can be surprisingly effective in some cases -- providing gains of up to 20 BLEU points in the most favorable setting.}, url = {http://www.aclweb.org/anthology/N18-2084} }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译领域,大规模平行语料库的构建对于提升模型性能至关重要。TEDMulti数据集源于TED演讲的多语言转录文本,通过系统化采集与筛选流程,整合了涵盖60种语言的平行翻译数据。其构建过程注重数据的完整性与一致性,自动过滤缺失或不完整的翻译条目,确保每条记录均包含对应演讲名称及多语言文本阵列,从而形成结构清晰、质量可靠的大规模多语言语料资源。
特点
该数据集的核心特征体现在其卓越的多语言覆盖能力与高质量平行文本结构。它囊括了从阿拉伯语到中文的60种语言,为跨语言研究提供了丰富的语言多样性基础。数据以演讲为单位组织,每条记录包含统一的演讲名称及多语言翻译阵列,这种设计便于进行多语言对齐分析与比较研究。数据规模庞大,包含超过25万训练样本,且经过严格筛选,缺失翻译已被剔除,确保了语料的一致性与可用性。
使用方法
在自然语言处理应用中,该数据集主要服务于多语言机器翻译模型的训练与评估。研究人员可通过HuggingFace平台直接加载数据集,利用其预划分的训练、验证与测试子集进行模型开发。典型使用流程包括:解析每条记录中的translations字段以获取平行句对,结合talk_name进行语料溯源,继而构建多语言翻译模型。该数据集支持端到端的流水线处理,能够无缝集成于现代深度学习框架,为低资源语言翻译、多语言嵌入学习等任务提供坚实的数据支撑。
背景与挑战
背景概述
在机器翻译研究领域,多语言平行语料库的构建对于推动跨语言理解与生成技术至关重要。TEDMulti数据集由卡内基梅隆大学等机构的研究团队于2018年前后创建,核心研究问题聚焦于低资源语言环境下神经机器翻译的性能提升。该数据集源自TED演讲的多语言转录文本,涵盖60种语言,旨在探索预训练词嵌入在神经机器翻译中的有效性,为多语言自然语言处理模型提供了宝贵的实验基础,显著促进了跨语言表示学习的发展。
当前挑战
TEDMulti数据集致力于解决低资源语言机器翻译的挑战,其核心问题在于如何利用有限平行语料实现高质量多语言翻译。构建过程中的主要挑战包括:多语言对齐的复杂性,需确保60种语言间翻译句对的精确匹配;数据质量控制的难度,必须过滤缺失或不完整的翻译内容;以及语言覆盖的均衡性,避免资源丰富语言主导模型训练。这些挑战共同影响了数据集的代表性与实用性。
常用场景
经典使用场景
在机器翻译领域,TEDMulti数据集以其涵盖60种语言的平行语料特性,成为大规模多语言神经机器翻译模型训练与评估的经典资源。该数据集源自TED演讲转录文本,内容涉及科技、教育、文化等多领域话题,语言风格正式且富有逻辑性,为模型提供了高质量、多样化的跨语言对齐样本。研究者常利用其构建从英语到多种低资源语言的翻译系统,探索在数据稀缺情境下的迁移学习与泛化能力。
衍生相关工作
围绕TEDMulti数据集,学术界衍生了一系列经典研究工作。例如,Qi等人2018年发表的论文系统探讨了预训练词嵌入在神经机器翻译中的有效性,成为该领域引用广泛的基准研究之一。后续工作进一步利用该数据集探索多语言联合训练、零样本翻译迁移等前沿方向,推动了跨语言表示学习与低资源翻译技术的协同发展,为后续大规模多语言模型如mBART、M2M-100等提供了重要的数据验证基础。
数据集最近研究
最新研究方向
在机器翻译领域,多语言平行语料库的构建与利用始终是推动技术革新的核心动力。TEDMulti数据集凭借其涵盖60种语言的庞大平行文本资源,为大规模多语言神经机器翻译模型的研究提供了关键支撑。当前前沿探索聚焦于低资源语言翻译性能的提升,通过迁移学习与跨语言表示对齐技术,模型能够借助高资源语言的知识增强对稀缺语言的处理能力。这一方向不仅响应了全球语言多样性保护的迫切需求,也为构建包容性人工智能系统奠定了数据基础,在促进跨文化交流与信息平等方面具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作