gsarti/iwslt2017_context

Name: gsarti/iwslt2017_context
Creator: gsarti
Published: 2023-05-07 14:09:24
License: 暂无描述

Hugging Face2023-05-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gsarti/iwslt2017_context

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - crowdsourced language: - ar - de - en - fr - it - ja - ko - nl - ro - zh language_creators: - expert-generated license: - cc-by-nc-nd-4.0 multilinguality: - translation pretty_name: IWSLT 2017 size_categories: - 1M<n<10M source_datasets: - original task_categories: - translation task_ids: [] paperswithcode_id: iwslt-2017 dataset_info: - config_name: iwslt2017-en-it features: - name: translation dtype: translation: languages: - en - it splits: - name: train num_bytes: 46647925 num_examples: 231619 - name: test num_bytes: 305246 num_examples: 1566 - name: validation num_bytes: 200023 num_examples: 929 download_size: 329391132 dataset_size: 47153194 - config_name: iwslt2017-en-nl features: - name: translation dtype: translation: languages: - en - nl splits: - name: train num_bytes: 42843933 num_examples: 237240 - name: test num_bytes: 311646 num_examples: 1777 - name: validation num_bytes: 197814 num_examples: 1003 download_size: 329391132 dataset_size: 43353393 - config_name: iwslt2017-en-ro features: - name: translation dtype: translation: languages: - en - ro splits: - name: train num_bytes: 44129950 num_examples: 220538 - name: test num_bytes: 316790 num_examples: 1678 - name: validation num_bytes: 205028 num_examples: 914 download_size: 329391132 dataset_size: 44651768 - config_name: iwslt2017-it-en features: - name: translation dtype: translation: languages: - it - en splits: - name: train num_bytes: 46647925 num_examples: 231619 - name: test num_bytes: 305246 num_examples: 1566 - name: validation num_bytes: 200023 num_examples: 929 download_size: 329391132 dataset_size: 47153194 - config_name: iwslt2017-it-nl features: - name: translation dtype: translation: languages: - it - nl splits: - name: train num_bytes: 43033168 num_examples: 233415 - name: test num_bytes: 309725 num_examples: 1669 - name: validation num_bytes: 197774 num_examples: 1001 download_size: 329391132 dataset_size: 43540667 - config_name: iwslt2017-it-ro features: - name: translation dtype: translation: languages: - it - ro splits: - name: train num_bytes: 44485169 num_examples: 217551 - name: test num_bytes: 314974 num_examples: 1643 - name: validation num_bytes: 204989 num_examples: 914 download_size: 329391132 dataset_size: 45005132 - config_name: iwslt2017-nl-en features: - name: translation dtype: translation: languages: - nl - en splits: - name: train num_bytes: 42843933 num_examples: 237240 - name: test num_bytes: 311646 num_examples: 1777 - name: validation num_bytes: 197814 num_examples: 1003 download_size: 329391132 dataset_size: 43353393 - config_name: iwslt2017-nl-it features: - name: translation dtype: translation: languages: - nl - it splits: - name: train num_bytes: 43033168 num_examples: 233415 - name: test num_bytes: 309725 num_examples: 1669 - name: validation num_bytes: 197774 num_examples: 1001 download_size: 329391132 dataset_size: 43540667 - config_name: iwslt2017-nl-ro features: - name: translation dtype: translation: languages: - nl - ro splits: - name: train num_bytes: 41338738 num_examples: 206920 - name: test num_bytes: 320952 num_examples: 1680 - name: validation num_bytes: 202380 num_examples: 913 download_size: 329391132 dataset_size: 41862070 - config_name: iwslt2017-ro-en features: - name: translation dtype: translation: languages: - ro - en splits: - name: train num_bytes: 44129950 num_examples: 220538 - name: test num_bytes: 316790 num_examples: 1678 - name: validation num_bytes: 205028 num_examples: 914 download_size: 329391132 dataset_size: 44651768 - config_name: iwslt2017-ro-it features: - name: translation dtype: translation: languages: - ro - it splits: - name: train num_bytes: 44485169 num_examples: 217551 - name: test num_bytes: 314974 num_examples: 1643 - name: validation num_bytes: 204989 num_examples: 914 download_size: 329391132 dataset_size: 45005132 - config_name: iwslt2017-ro-nl features: - name: translation dtype: translation: languages: - ro - nl splits: - name: train num_bytes: 41338738 num_examples: 206920 - name: test num_bytes: 320952 num_examples: 1680 - name: validation num_bytes: 202380 num_examples: 913 download_size: 329391132 dataset_size: 41862070 - config_name: iwslt2017-ar-en features: - name: translation dtype: translation: languages: - ar - en splits: - name: train num_bytes: 56481059 num_examples: 231713 - name: test num_bytes: 2014296 num_examples: 8583 - name: validation num_bytes: 241206 num_examples: 888 download_size: 27748780 dataset_size: 58736561 - config_name: iwslt2017-de-en features: - name: translation dtype: translation: languages: - de - en splits: - name: train num_bytes: 42608380 num_examples: 206112 - name: test num_bytes: 1608474 num_examples: 8079 - name: validation num_bytes: 210975 num_examples: 888 download_size: 16758320 dataset_size: 44427829 - config_name: iwslt2017-en-ar features: - name: translation dtype: translation: languages: - en - ar splits: - name: train num_bytes: 56481059 num_examples: 231713 - name: test num_bytes: 2014296 num_examples: 8583 - name: validation num_bytes: 241206 num_examples: 888 download_size: 29333173 dataset_size: 58736561 - config_name: iwslt2017-en-de features: - name: translation dtype: translation: languages: - en - de splits: - name: train num_bytes: 42608380 num_examples: 206112 - name: test num_bytes: 1608474 num_examples: 8079 - name: validation num_bytes: 210975 num_examples: 888 download_size: 16758334 dataset_size: 44427829 - config_name: iwslt2017-en-fr features: - name: translation dtype: translation: languages: - en - fr splits: - name: train num_bytes: 49273286 num_examples: 232825 - name: test num_bytes: 1767465 num_examples: 8597 - name: validation num_bytes: 207579 num_examples: 890 download_size: 27699724 dataset_size: 51248330 - config_name: iwslt2017-en-ja features: - name: translation dtype: translation: languages: - en - ja splits: - name: train num_bytes: 48204987 num_examples: 223108 - name: test num_bytes: 1809007 num_examples: 8469 - name: validation num_bytes: 208124 num_examples: 871 download_size: 26983602 dataset_size: 50222118 - config_name: iwslt2017-en-ko features: - name: translation dtype: translation: languages: - en - ko splits: - name: train num_bytes: 51678043 num_examples: 230240 - name: test num_bytes: 1869793 num_examples: 8514 - name: validation num_bytes: 219295 num_examples: 879 download_size: 19364776 dataset_size: 53767131 - config_name: iwslt2017-en-zh features: - name: translation dtype: translation: languages: - en - zh splits: - name: train num_bytes: 44271004 num_examples: 231266 - name: test num_bytes: 1605527 num_examples: 8549 - name: validation num_bytes: 202537 num_examples: 879 download_size: 27597071 dataset_size: 46079068 - config_name: iwslt2017-fr-en features: - name: translation dtype: translation: languages: - fr - en splits: - name: train num_bytes: 49273286 num_examples: 232825 - name: test num_bytes: 1767465 num_examples: 8597 - name: validation num_bytes: 207579 num_examples: 890 download_size: 26880731 dataset_size: 51248330 - config_name: iwslt2017-ja-en features: - name: translation dtype: translation: languages: - ja - en splits: - name: train num_bytes: 48204987 num_examples: 223108 - name: test num_bytes: 1809007 num_examples: 8469 - name: validation num_bytes: 208124 num_examples: 871 download_size: 26190859 dataset_size: 50222118 - config_name: iwslt2017-ko-en features: - name: translation dtype: translation: languages: - ko - en splits: - name: train num_bytes: 51678043 num_examples: 230240 - name: test num_bytes: 1869793 num_examples: 8514 - name: validation num_bytes: 219295 num_examples: 879 download_size: 19364733 dataset_size: 53767131 - config_name: iwslt2017-zh-en features: - name: translation dtype: translation: languages: - zh - en splits: - name: train num_bytes: 44271004 num_examples: 231266 - name: test num_bytes: 1605527 num_examples: 8549 - name: validation num_bytes: 202537 num_examples: 879 download_size: 26849290 dataset_size: 46079068 --- # Dataset Card for IWSLT 2017 ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [https://sites.google.com/site/iwsltevaluation2017/TED-tasks](https://sites.google.com/site/iwsltevaluation2017/TED-tasks) - **Repository:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Paper:** [Overview of the IWSLT 2017 Evaluation Campaign](https://aclanthology.org/2017.iwslt-1.1/) - **Point of Contact:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Size of downloaded dataset files:** 4.24 GB - **Size of the generated dataset:** 1.14 GB - **Total amount of disk used:** 5.38 GB *This repository contain a modified version of the loading script used in the official [iwslt2017](https://huggingface.co/datasets/iwslt2017) repository updated to include document and segment information for all available sentence pairs, enabling their usage for document-level and context-aware MT applications. Refer to the original repository for additional information.*

提供机构：

gsarti

原始信息汇总

数据集概述：IWSLT 2017

基本信息

数据集名称: IWSLT 2017
数据集大小: 1M<n<10M
语言: 阿拉伯语 (ar), 德语 (de), 英语 (en), 法语 (fr), 意大利语 (it), 日语 (ja), 韩语 (ko), 荷兰语 (nl), 罗马尼亚语 (ro), 中文 (zh)
语言创建方式: 专家生成
许可证: cc-by-nc-nd-4.0
多语言性: 翻译

数据集结构

配置详情

配置名称: iwslt2017-en-it, iwslt2017-en-nl, iwslt2017-en-ro, iwslt2017-it-en, iwslt2017-it-nl, iwslt2017-it-ro, iwslt2017-nl-en, iwslt2017-nl-it, iwslt2017-nl-ro, iwslt2017-ro-en, iwslt2017-ro-it, iwslt2017-ro-nl, iwslt2017-ar-en, iwslt2017-de-en, iwslt2017-en-ar, iwslt2017-en-de, iwslt2017-en-fr, iwslt2017-en-ja, iwslt2017-en-ko, iwslt2017-en-zh, iwslt2017-fr-en, iwslt2017-ja-en, iwslt2017-ko-en, iwslt2017-zh-en
特征: 翻译
数据分割:
- 训练集: 示例数量和字节数各异，范围从206112到237240，字节数从42608380到56481059
- 测试集: 示例数量和字节数各异，范围从8583到1777，字节数从1608474到2014296
- 验证集: 示例数量和字节数各异，范围从871到1003，字节数从197774到241206
下载大小: 329391132
数据集大小: 各配置不同，范围从41862070到58736561

数据集创建

注释创建者: 众包
源数据: 原始数据
任务类别: 翻译

使用注意事项

许可证: 本数据集使用cc-by-nc-nd-4.0许可证，使用时需遵守相关条款。
数据集大小: 请确保有足够的存储空间和计算资源来处理数据集。

搜集汇总

数据集介绍

构建方式

在机器翻译研究领域，构建高质量的双语平行语料库是推动模型性能提升的基石。IWSLT 2017数据集源自国际口语翻译研讨会（IWSLT）2017年评估任务，其核心语料来源于TED演讲的转录文本，这些演讲内容覆盖了科技、教育、文化等多个主题，确保了语料的多样性与实用性。数据构建过程融合了专家生成与众包标注两种模式，首先由语言专家进行初步的翻译与校对，随后通过众包平台进行质量验证与细化，最终形成了包含训练集、验证集和测试集的标准划分，为模型训练与评估提供了结构化支持。

使用方法

在自然语言处理应用中，该数据集主要用于训练和评估机器翻译模型。研究人员可通过Hugging Face平台直接加载特定语言对的配置，如“iwslt2017-en-zh”，快速获取已分割的训练、验证和测试数据。使用过程中，需注意数据遵循CC-BY-NC-ND 4.0许可协议，限制了商业用途，并应参考原始论文以了解数据偏差与社会影响。典型工作流程包括：利用训练集进行模型参数优化，通过验证集调整超参数，最终在测试集上评估翻译质量，支持从基线模型到前沿神经网络的广泛实验。

背景与挑战

背景概述

在机器翻译领域，高质量平行语料的构建是推动技术革新的基石。IWSLT 2017数据集作为国际口语翻译研讨会（International Workshop on Spoken Language Translation）2017年评估活动的核心资源，由学术机构联合构建，旨在为多语言翻译研究提供标准化的评测基准。该数据集聚焦于从TED演讲等真实口语场景中提取的文本，涵盖了阿拉伯语、德语、英语、法语、意大利语、日语、韩语、荷兰语、罗马尼亚语及中文等多种语言对的互译任务。其创建不仅促进了统计机器翻译向神经机器翻译的范式转变，而且通过提供丰富的语境信息，为文档级和上下文感知的翻译模型发展奠定了数据基础，对提升翻译系统的流畅性与一致性产生了深远影响。

当前挑战

IWSLT 2017数据集所应对的核心挑战在于解决口语化文本的机器翻译难题，这类文本通常包含即兴表达、文化特定隐喻及复杂句式，对模型的语义捕捉与生成能力提出更高要求。在构建过程中，挑战主要体现在多语言对齐的复杂性上，尤其是对于语序差异显著或资源稀缺的语言对，如阿拉伯语或罗马尼亚语，需要依赖专家生成与众包结合的方式确保翻译质量。同时，从TED演讲中提取并保持对话连贯的文档结构，涉及大量人工标注与校验，以克服口语转录中的噪声干扰，确保语料在语境层面的完整性，这为数据集的可扩展性与泛化能力带来了持续考验。

常用场景

经典使用场景

在机器翻译研究领域，IWSLT 2017数据集作为国际口语翻译评测任务的核心资源，其经典使用场景聚焦于多语言神经机器翻译模型的训练与评估。该数据集源自TED演讲的转录文本，涵盖了英语、德语、中文、日语等多种语言对的平行语料，为研究者提供了丰富的口语化、领域广泛的翻译实例。通过利用这些高质量的双语句对，学者们能够构建并优化端到端的翻译系统，特别是在处理口语风格文本和低资源语言翻译方面展现出独特价值。

解决学术问题

该数据集有效解决了机器翻译领域中若干关键学术问题，包括低资源语言对的翻译性能提升、口语化文本的语境建模以及跨语言语义对齐的挑战。通过提供多语言、大规模且经过专家标注的平行语料，它促进了翻译模型在词汇覆盖、句法结构和语用层面的泛化能力研究。其意义在于为翻译质量评估提供了标准化基准，推动了注意力机制、Transformer架构等前沿技术在翻译任务中的应用与创新，对自然语言处理领域的理论发展产生了深远影响。

实际应用

在实际应用层面，IWSLT 2017数据集支撑了众多商业化翻译系统和辅助工具的研发，例如实时演讲翻译、跨语言视频字幕生成以及多语言内容本地化服务。基于该数据集训练的模型能够有效处理TED演讲等教育娱乐内容，实现高质量的口语翻译，促进全球知识传播与文化交换。这些应用不仅提升了跨语言沟通的效率，还为在线教育、国际会议和媒体行业提供了可靠的技术解决方案。

数据集最近研究