gsarti/iwslt2017_context
收藏Hugging Face2023-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/iwslt2017_context
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language:
- ar
- de
- en
- fr
- it
- ja
- ko
- nl
- ro
- zh
language_creators:
- expert-generated
license:
- cc-by-nc-nd-4.0
multilinguality:
- translation
pretty_name: IWSLT 2017
size_categories:
- 1M<n<10M
source_datasets:
- original
task_categories:
- translation
task_ids: []
paperswithcode_id: iwslt-2017
dataset_info:
- config_name: iwslt2017-en-it
features:
- name: translation
dtype:
translation:
languages:
- en
- it
splits:
- name: train
num_bytes: 46647925
num_examples: 231619
- name: test
num_bytes: 305246
num_examples: 1566
- name: validation
num_bytes: 200023
num_examples: 929
download_size: 329391132
dataset_size: 47153194
- config_name: iwslt2017-en-nl
features:
- name: translation
dtype:
translation:
languages:
- en
- nl
splits:
- name: train
num_bytes: 42843933
num_examples: 237240
- name: test
num_bytes: 311646
num_examples: 1777
- name: validation
num_bytes: 197814
num_examples: 1003
download_size: 329391132
dataset_size: 43353393
- config_name: iwslt2017-en-ro
features:
- name: translation
dtype:
translation:
languages:
- en
- ro
splits:
- name: train
num_bytes: 44129950
num_examples: 220538
- name: test
num_bytes: 316790
num_examples: 1678
- name: validation
num_bytes: 205028
num_examples: 914
download_size: 329391132
dataset_size: 44651768
- config_name: iwslt2017-it-en
features:
- name: translation
dtype:
translation:
languages:
- it
- en
splits:
- name: train
num_bytes: 46647925
num_examples: 231619
- name: test
num_bytes: 305246
num_examples: 1566
- name: validation
num_bytes: 200023
num_examples: 929
download_size: 329391132
dataset_size: 47153194
- config_name: iwslt2017-it-nl
features:
- name: translation
dtype:
translation:
languages:
- it
- nl
splits:
- name: train
num_bytes: 43033168
num_examples: 233415
- name: test
num_bytes: 309725
num_examples: 1669
- name: validation
num_bytes: 197774
num_examples: 1001
download_size: 329391132
dataset_size: 43540667
- config_name: iwslt2017-it-ro
features:
- name: translation
dtype:
translation:
languages:
- it
- ro
splits:
- name: train
num_bytes: 44485169
num_examples: 217551
- name: test
num_bytes: 314974
num_examples: 1643
- name: validation
num_bytes: 204989
num_examples: 914
download_size: 329391132
dataset_size: 45005132
- config_name: iwslt2017-nl-en
features:
- name: translation
dtype:
translation:
languages:
- nl
- en
splits:
- name: train
num_bytes: 42843933
num_examples: 237240
- name: test
num_bytes: 311646
num_examples: 1777
- name: validation
num_bytes: 197814
num_examples: 1003
download_size: 329391132
dataset_size: 43353393
- config_name: iwslt2017-nl-it
features:
- name: translation
dtype:
translation:
languages:
- nl
- it
splits:
- name: train
num_bytes: 43033168
num_examples: 233415
- name: test
num_bytes: 309725
num_examples: 1669
- name: validation
num_bytes: 197774
num_examples: 1001
download_size: 329391132
dataset_size: 43540667
- config_name: iwslt2017-nl-ro
features:
- name: translation
dtype:
translation:
languages:
- nl
- ro
splits:
- name: train
num_bytes: 41338738
num_examples: 206920
- name: test
num_bytes: 320952
num_examples: 1680
- name: validation
num_bytes: 202380
num_examples: 913
download_size: 329391132
dataset_size: 41862070
- config_name: iwslt2017-ro-en
features:
- name: translation
dtype:
translation:
languages:
- ro
- en
splits:
- name: train
num_bytes: 44129950
num_examples: 220538
- name: test
num_bytes: 316790
num_examples: 1678
- name: validation
num_bytes: 205028
num_examples: 914
download_size: 329391132
dataset_size: 44651768
- config_name: iwslt2017-ro-it
features:
- name: translation
dtype:
translation:
languages:
- ro
- it
splits:
- name: train
num_bytes: 44485169
num_examples: 217551
- name: test
num_bytes: 314974
num_examples: 1643
- name: validation
num_bytes: 204989
num_examples: 914
download_size: 329391132
dataset_size: 45005132
- config_name: iwslt2017-ro-nl
features:
- name: translation
dtype:
translation:
languages:
- ro
- nl
splits:
- name: train
num_bytes: 41338738
num_examples: 206920
- name: test
num_bytes: 320952
num_examples: 1680
- name: validation
num_bytes: 202380
num_examples: 913
download_size: 329391132
dataset_size: 41862070
- config_name: iwslt2017-ar-en
features:
- name: translation
dtype:
translation:
languages:
- ar
- en
splits:
- name: train
num_bytes: 56481059
num_examples: 231713
- name: test
num_bytes: 2014296
num_examples: 8583
- name: validation
num_bytes: 241206
num_examples: 888
download_size: 27748780
dataset_size: 58736561
- config_name: iwslt2017-de-en
features:
- name: translation
dtype:
translation:
languages:
- de
- en
splits:
- name: train
num_bytes: 42608380
num_examples: 206112
- name: test
num_bytes: 1608474
num_examples: 8079
- name: validation
num_bytes: 210975
num_examples: 888
download_size: 16758320
dataset_size: 44427829
- config_name: iwslt2017-en-ar
features:
- name: translation
dtype:
translation:
languages:
- en
- ar
splits:
- name: train
num_bytes: 56481059
num_examples: 231713
- name: test
num_bytes: 2014296
num_examples: 8583
- name: validation
num_bytes: 241206
num_examples: 888
download_size: 29333173
dataset_size: 58736561
- config_name: iwslt2017-en-de
features:
- name: translation
dtype:
translation:
languages:
- en
- de
splits:
- name: train
num_bytes: 42608380
num_examples: 206112
- name: test
num_bytes: 1608474
num_examples: 8079
- name: validation
num_bytes: 210975
num_examples: 888
download_size: 16758334
dataset_size: 44427829
- config_name: iwslt2017-en-fr
features:
- name: translation
dtype:
translation:
languages:
- en
- fr
splits:
- name: train
num_bytes: 49273286
num_examples: 232825
- name: test
num_bytes: 1767465
num_examples: 8597
- name: validation
num_bytes: 207579
num_examples: 890
download_size: 27699724
dataset_size: 51248330
- config_name: iwslt2017-en-ja
features:
- name: translation
dtype:
translation:
languages:
- en
- ja
splits:
- name: train
num_bytes: 48204987
num_examples: 223108
- name: test
num_bytes: 1809007
num_examples: 8469
- name: validation
num_bytes: 208124
num_examples: 871
download_size: 26983602
dataset_size: 50222118
- config_name: iwslt2017-en-ko
features:
- name: translation
dtype:
translation:
languages:
- en
- ko
splits:
- name: train
num_bytes: 51678043
num_examples: 230240
- name: test
num_bytes: 1869793
num_examples: 8514
- name: validation
num_bytes: 219295
num_examples: 879
download_size: 19364776
dataset_size: 53767131
- config_name: iwslt2017-en-zh
features:
- name: translation
dtype:
translation:
languages:
- en
- zh
splits:
- name: train
num_bytes: 44271004
num_examples: 231266
- name: test
num_bytes: 1605527
num_examples: 8549
- name: validation
num_bytes: 202537
num_examples: 879
download_size: 27597071
dataset_size: 46079068
- config_name: iwslt2017-fr-en
features:
- name: translation
dtype:
translation:
languages:
- fr
- en
splits:
- name: train
num_bytes: 49273286
num_examples: 232825
- name: test
num_bytes: 1767465
num_examples: 8597
- name: validation
num_bytes: 207579
num_examples: 890
download_size: 26880731
dataset_size: 51248330
- config_name: iwslt2017-ja-en
features:
- name: translation
dtype:
translation:
languages:
- ja
- en
splits:
- name: train
num_bytes: 48204987
num_examples: 223108
- name: test
num_bytes: 1809007
num_examples: 8469
- name: validation
num_bytes: 208124
num_examples: 871
download_size: 26190859
dataset_size: 50222118
- config_name: iwslt2017-ko-en
features:
- name: translation
dtype:
translation:
languages:
- ko
- en
splits:
- name: train
num_bytes: 51678043
num_examples: 230240
- name: test
num_bytes: 1869793
num_examples: 8514
- name: validation
num_bytes: 219295
num_examples: 879
download_size: 19364733
dataset_size: 53767131
- config_name: iwslt2017-zh-en
features:
- name: translation
dtype:
translation:
languages:
- zh
- en
splits:
- name: train
num_bytes: 44271004
num_examples: 231266
- name: test
num_bytes: 1605527
num_examples: 8549
- name: validation
num_bytes: 202537
num_examples: 879
download_size: 26849290
dataset_size: 46079068
---
# Dataset Card for IWSLT 2017
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [https://sites.google.com/site/iwsltevaluation2017/TED-tasks](https://sites.google.com/site/iwsltevaluation2017/TED-tasks)
- **Repository:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
- **Paper:** [Overview of the IWSLT 2017 Evaluation Campaign](https://aclanthology.org/2017.iwslt-1.1/)
- **Point of Contact:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
- **Size of downloaded dataset files:** 4.24 GB
- **Size of the generated dataset:** 1.14 GB
- **Total amount of disk used:** 5.38 GB
*This repository contain a modified version of the loading script used in the official [iwslt2017](https://huggingface.co/datasets/iwslt2017) repository updated to include document and segment information for all available sentence pairs, enabling their usage for document-level and context-aware MT applications. Refer to the original repository for additional information.*
提供机构:
gsarti
原始信息汇总
数据集概述:IWSLT 2017
基本信息
- 数据集名称: IWSLT 2017
- 数据集大小: 1M<n<10M
- 语言: 阿拉伯语 (ar), 德语 (de), 英语 (en), 法语 (fr), 意大利语 (it), 日语 (ja), 韩语 (ko), 荷兰语 (nl), 罗马尼亚语 (ro), 中文 (zh)
- 语言创建方式: 专家生成
- 许可证: cc-by-nc-nd-4.0
- 多语言性: 翻译
数据集结构
配置详情
- 配置名称: iwslt2017-en-it, iwslt2017-en-nl, iwslt2017-en-ro, iwslt2017-it-en, iwslt2017-it-nl, iwslt2017-it-ro, iwslt2017-nl-en, iwslt2017-nl-it, iwslt2017-nl-ro, iwslt2017-ro-en, iwslt2017-ro-it, iwslt2017-ro-nl, iwslt2017-ar-en, iwslt2017-de-en, iwslt2017-en-ar, iwslt2017-en-de, iwslt2017-en-fr, iwslt2017-en-ja, iwslt2017-en-ko, iwslt2017-en-zh, iwslt2017-fr-en, iwslt2017-ja-en, iwslt2017-ko-en, iwslt2017-zh-en
- 特征: 翻译
- 数据分割:
- 训练集: 示例数量和字节数各异,范围从206112到237240,字节数从42608380到56481059
- 测试集: 示例数量和字节数各异,范围从8583到1777,字节数从1608474到2014296
- 验证集: 示例数量和字节数各异,范围从871到1003,字节数从197774到241206
- 下载大小: 329391132
- 数据集大小: 各配置不同,范围从41862070到58736561
数据集创建
- 注释创建者: 众包
- 源数据: 原始数据
- 任务类别: 翻译
使用注意事项
- 许可证: 本数据集使用cc-by-nc-nd-4.0许可证,使用时需遵守相关条款。
- 数据集大小: 请确保有足够的存储空间和计算资源来处理数据集。
搜集汇总
数据集介绍

构建方式
在机器翻译研究领域,构建高质量的双语平行语料库是推动模型性能提升的基石。IWSLT 2017数据集源自国际口语翻译研讨会(IWSLT)2017年评估任务,其核心语料来源于TED演讲的转录文本,这些演讲内容覆盖了科技、教育、文化等多个主题,确保了语料的多样性与实用性。数据构建过程融合了专家生成与众包标注两种模式,首先由语言专家进行初步的翻译与校对,随后通过众包平台进行质量验证与细化,最终形成了包含训练集、验证集和测试集的标准划分,为模型训练与评估提供了结构化支持。
使用方法
在自然语言处理应用中,该数据集主要用于训练和评估机器翻译模型。研究人员可通过Hugging Face平台直接加载特定语言对的配置,如“iwslt2017-en-zh”,快速获取已分割的训练、验证和测试数据。使用过程中,需注意数据遵循CC-BY-NC-ND 4.0许可协议,限制了商业用途,并应参考原始论文以了解数据偏差与社会影响。典型工作流程包括:利用训练集进行模型参数优化,通过验证集调整超参数,最终在测试集上评估翻译质量,支持从基线模型到前沿神经网络的广泛实验。
背景与挑战
背景概述
在机器翻译领域,高质量平行语料的构建是推动技术革新的基石。IWSLT 2017数据集作为国际口语翻译研讨会(International Workshop on Spoken Language Translation)2017年评估活动的核心资源,由学术机构联合构建,旨在为多语言翻译研究提供标准化的评测基准。该数据集聚焦于从TED演讲等真实口语场景中提取的文本,涵盖了阿拉伯语、德语、英语、法语、意大利语、日语、韩语、荷兰语、罗马尼亚语及中文等多种语言对的互译任务。其创建不仅促进了统计机器翻译向神经机器翻译的范式转变,而且通过提供丰富的语境信息,为文档级和上下文感知的翻译模型发展奠定了数据基础,对提升翻译系统的流畅性与一致性产生了深远影响。
当前挑战
IWSLT 2017数据集所应对的核心挑战在于解决口语化文本的机器翻译难题,这类文本通常包含即兴表达、文化特定隐喻及复杂句式,对模型的语义捕捉与生成能力提出更高要求。在构建过程中,挑战主要体现在多语言对齐的复杂性上,尤其是对于语序差异显著或资源稀缺的语言对,如阿拉伯语或罗马尼亚语,需要依赖专家生成与众包结合的方式确保翻译质量。同时,从TED演讲中提取并保持对话连贯的文档结构,涉及大量人工标注与校验,以克服口语转录中的噪声干扰,确保语料在语境层面的完整性,这为数据集的可扩展性与泛化能力带来了持续考验。
常用场景
经典使用场景
在机器翻译研究领域,IWSLT 2017数据集作为国际口语翻译评测任务的核心资源,其经典使用场景聚焦于多语言神经机器翻译模型的训练与评估。该数据集源自TED演讲的转录文本,涵盖了英语、德语、中文、日语等多种语言对的平行语料,为研究者提供了丰富的口语化、领域广泛的翻译实例。通过利用这些高质量的双语句对,学者们能够构建并优化端到端的翻译系统,特别是在处理口语风格文本和低资源语言翻译方面展现出独特价值。
解决学术问题
该数据集有效解决了机器翻译领域中若干关键学术问题,包括低资源语言对的翻译性能提升、口语化文本的语境建模以及跨语言语义对齐的挑战。通过提供多语言、大规模且经过专家标注的平行语料,它促进了翻译模型在词汇覆盖、句法结构和语用层面的泛化能力研究。其意义在于为翻译质量评估提供了标准化基准,推动了注意力机制、Transformer架构等前沿技术在翻译任务中的应用与创新,对自然语言处理领域的理论发展产生了深远影响。
实际应用
在实际应用层面,IWSLT 2017数据集支撑了众多商业化翻译系统和辅助工具的研发,例如实时演讲翻译、跨语言视频字幕生成以及多语言内容本地化服务。基于该数据集训练的模型能够有效处理TED演讲等教育娱乐内容,实现高质量的口语翻译,促进全球知识传播与文化交换。这些应用不仅提升了跨语言沟通的效率,还为在线教育、国际会议和媒体行业提供了可靠的技术解决方案。
数据集最近研究
最新研究方向
在机器翻译领域,IWSLT 2017数据集作为多语言口语翻译的基准,持续推动着前沿技术的发展。当前研究聚焦于利用其丰富的文档与片段信息,探索上下文感知的神经机器翻译模型,以提升对话和演讲等连贯文本的翻译质量。随着大语言模型与多模态学习的兴起,该数据集亦被用于训练跨语言表示,促进低资源语言对的迁移学习。这些进展不仅深化了对语境依赖性的理解,也为实时语音翻译系统的优化提供了关键数据支撑,具有重要的学术与应用价值。
以上内容由遇见数据集搜集并总结生成



