five

neulab/ted_hrlr

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/neulab/ted_hrlr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为TEDHrlr,主要来源于TED演讲的转录文本,用于比较高资源和低资源语言对的翻译任务。数据集包含多种语言的翻译对,如阿塞拜疆语到英语、白俄罗斯语到英语等。数据集的创建过程涉及专家生成和众包注释,且数据集的大小在1M到10M之间。数据集的许可证为CC BY-NC-ND 4.0。

该数据集名为TEDHrlr,主要来源于TED演讲的转录文本,用于比较高资源和低资源语言对的翻译任务。数据集包含多种语言的翻译对,如阿塞拜疆语到英语、白俄罗斯语到英语等。数据集的创建过程涉及专家生成和众包注释,且数据集的大小在1M到10M之间。数据集的许可证为CC BY-NC-ND 4.0。
提供机构:
neulab
原始信息汇总

数据集概述

数据集名称: TEDHrlr

数据集大小: 1M<n<10M

语言:

  • 源语言: az, be, en, es, fr, gl, he, it, pt, ru, tr
  • 目标语言: 根据配置不同而变化

语言创建方式: 专家生成

许可证: cc-by-nc-nd-4.0

多语言性: 翻译

源数据集: 扩展自 ted_talks_iwslt

任务类别: 翻译

数据集结构

配置名称及语言对:

  • az_to_en: az -> en
  • aztr_to_en: az_tr -> en
  • be_to_en: be -> en
  • beru_to_en: be_ru -> en
  • es_to_pt: es -> pt
  • fr_to_pt: fr -> pt
  • gl_to_en: gl -> en
  • glpt_to_en: gl_pt -> en
  • he_to_pt: he -> pt
  • it_to_pt: it -> pt
  • pt_to_en: pt -> en
  • ru_to_en: ru -> en
  • ru_to_pt: ru -> pt
  • tr_to_en: tr -> en

数据集大小及分割:

  • az_to_en:
    • 训练: 5947 个样本, 1226853 字节
    • 验证: 672 个样本, 122709 字节
    • 测试: 904 个样本, 186540 字节
  • aztr_to_en:
    • 训练: 188397 个样本, 39834469 字节
    • 验证: 672 个样本, 122709 字节
    • 测试: 904 个样本, 186540 字节
  • be_to_en:
    • 训练: 4510 个样本, 1176899 字节
    • 验证: 249 个样本, 59328 字节
    • 测试: 665 个样本, 186606 字节
  • beru_to_en:
    • 训练: 212615 个样本, 59953616 字节
    • 验证: 249 个样本, 59328 字节
    • 测试: 665 个样本, 186606 字节
  • es_to_pt:
    • 训练: 44939 个样本, 8611393 字节
    • 验证: 1017 个样本, 181535 字节
    • 测试: 1764 个样本, 343640 字节
  • fr_to_pt:
    • 训练: 43874 个样本, 8755387 字节
    • 验证: 1132 个样本, 212317 字节
    • 测试: 1495 个样本, 311650 字节
  • gl_to_en:
    • 训练: 10018 个样本, 1961363 字节
    • 验证: 683 个样本, 137929 字节
    • 测试: 1008 个样本, 193213 字节
  • glpt_to_en:
    • 训练: 61803 个样本, 11734254 字节
    • 验证: 683 个样本, 137929 字节
    • 测试: 1008 个样本, 193213 字节
  • he_to_pt:
    • 训练: 48512 个样本, 10627615 字节
    • 验证: 1146 个样本, 230725 字节
    • 测试: 1624 个样本, 361378 字节
  • it_to_pt:
    • 训练: 46260 个样本, 8905825 字节
    • 验证: 1163 个样本, 210375 字节
    • 测试: 1670 个样本, 324726 字节
  • pt_to_en:
    • 训练: 51786 个样本, 9772911 字节
    • 验证: 1194 个样本, 207960 字节
    • 测试: 1804 个样本, 347803 字节
  • ru_to_en:
    • 训练: 208107 个样本, 58778442 字节
    • 验证: 4806 个样本, 1318357 字节
    • 测试: 5477 个样本, 1459576 字节
  • ru_to_pt:
    • 训练: 47279 个样本, 11882860 字节
    • 验证: 1185 个样本, 276866 字节
    • 测试: 1589 个样本, 409062 字节
  • tr_to_en:
    • 训练: 182451 个样本, 38607636 字节
    • 验证: 4046 个样本, 832358 字节
    • 测试: 5030 个样本, 1026406 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译研究领域,TED演讲因其内容多样且语言规范,常被用作高质量平行语料库的来源。本数据集以TED演讲转录文本为基础,通过专家生成与群体标注相结合的方式构建。具体而言,数据源自扩展的TED Talks IWSLT语料库,涵盖了从阿塞拜疆语到英语、西班牙语到葡萄牙语等多种语言对。构建过程中,数据被精心划分为训练集、验证集和测试集,确保模型训练与评估的科学性。这种构建方式不仅保证了语料的权威性,也为研究高资源与低资源语言对的翻译差异提供了坚实基础。
特点
本数据集的核心特点在于其多语言性与资源对比性。它囊括了阿塞拜疆语、白俄罗斯语、英语、西班牙语、法语、加利西亚语、希伯来语、意大利语、葡萄牙语、俄语和土耳其语等十一种语言,并特别设计了如“az_to_en”与“aztr_to_en”等配置,以区分单一语言对与合并语言对的翻译场景。数据规模介于百万到千万词级别,每个配置均提供标准的训练、验证和测试分割。这种设计使得研究者能够深入探究语言相似性、数据资源多寡对神经机器翻译性能的影响,尤其适用于跨语言迁移学习与低资源翻译的模型评估。
使用方法
在自然语言处理实践中,该数据集主要用于神经机器翻译模型的训练与基准测试。使用者可通过Hugging Face的`datasets`库直接加载特定配置,例如`load_dataset('neulab/ted_hrlr', 'az_to_en')`,便捷获取结构化的平行句对。每个数据实例均以字典形式呈现,包含`translation`字段及对应的语言文本。研究人员可利用训练集进行模型参数优化,通过验证集进行超参数调优,并最终在测试集上评估翻译质量,如BLEU分数。该数据集尤其适合用于探究预训练词嵌入在多语言翻译任务中的有效性,以及分析高、低资源语言对之间的知识迁移机制。
背景与挑战
背景概述
在神经机器翻译领域,资源不平衡问题长期制约着多语言模型的发展,尤其对于低资源语言而言,高质量平行语料的匮乏成为技术突破的主要瓶颈。TED-HRLR数据集由卡内基梅隆大学等机构的研究团队于2018年构建,其核心研究目标在于探究预训练词嵌入在神经机器翻译中的有效性机制。该数据集以TED演讲转录文本为基础,精心设计了高资源与低资源语言对的对比实验框架,涵盖阿塞拜疆语、白俄罗斯语、加利西亚语等十余种语言,为跨语言表示学习提供了重要的实证研究平台。通过系统性地控制语言资源差异变量,该数据集显著推动了迁移学习在低资源翻译场景中的应用,成为衡量多语言模型泛化能力的关键基准之一。
当前挑战
该数据集致力于解决低资源语言机器翻译的核心难题,其挑战主要体现在两方面:在领域问题层面,低资源语言对往往面临词汇稀疏、句法结构差异显著以及语义对齐困难等固有障碍,导致模型难以捕捉跨语言的深层语义关联;同时,高资源与低资源语言之间的数据分布差异,容易引发迁移学习中的负迁移现象,降低模型泛化性能。在构建过程层面,数据采集需从多语言TED演讲中精确提取并校对平行语句,涉及复杂的人工标注与质量控制流程;此外,为确保语言对的对比有效性,需平衡不同语种的数据规模与文本领域代表性,这对语料筛选与划分策略提出了极高的技术要求。
常用场景
经典使用场景
在机器翻译研究领域,TED演讲数据集因其多语言平行语料特性,常被用于构建高资源与低资源语言对的对比实验。该数据集通过精心设计的语言配对,如阿塞拜疆语到英语或西班牙语到葡萄牙语,为研究者提供了考察相似语言间翻译性能差异的基准平台。经典使用场景涉及训练神经机器翻译模型,评估跨语言迁移学习的效果,尤其在资源稀缺语言上验证预训练词嵌入的效用。
解决学术问题
该数据集有效解决了神经机器翻译中资源不均衡带来的学术挑战,特别是低资源语言因训练数据不足导致的性能瓶颈问题。通过提供高、低资源语言对的平行语料,它使研究者能够深入探究预训练词嵌入在何种条件下能提升翻译质量,以及语言相似性对迁移学习的影响。其意义在于为多语言翻译模型的设计提供了实证基础,推动了跨语言表示学习理论的发展。
衍生相关工作
围绕该数据集衍生的经典工作包括Qi等人2018年发表的论文《When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation?》,该研究系统探讨了预训练词嵌入在神经机器翻译中的作用机制。后续研究基于此数据集进一步拓展了低资源翻译的迁移学习策略,例如通过语言聚类增强多语言模型泛化能力,或利用对抗训练减少语言间表征偏差,推动了跨语言自然语言处理技术的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作