five

gsarti/iwslt2017_context

收藏
Hugging Face2023-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/iwslt2017_context
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - crowdsourced language: - ar - de - en - fr - it - ja - ko - nl - ro - zh language_creators: - expert-generated license: - cc-by-nc-nd-4.0 multilinguality: - translation pretty_name: IWSLT 2017 size_categories: - 1M<n<10M source_datasets: - original task_categories: - translation task_ids: [] paperswithcode_id: iwslt-2017 dataset_info: - config_name: iwslt2017-en-it features: - name: translation dtype: translation: languages: - en - it splits: - name: train num_bytes: 46647925 num_examples: 231619 - name: test num_bytes: 305246 num_examples: 1566 - name: validation num_bytes: 200023 num_examples: 929 download_size: 329391132 dataset_size: 47153194 - config_name: iwslt2017-en-nl features: - name: translation dtype: translation: languages: - en - nl splits: - name: train num_bytes: 42843933 num_examples: 237240 - name: test num_bytes: 311646 num_examples: 1777 - name: validation num_bytes: 197814 num_examples: 1003 download_size: 329391132 dataset_size: 43353393 - config_name: iwslt2017-en-ro features: - name: translation dtype: translation: languages: - en - ro splits: - name: train num_bytes: 44129950 num_examples: 220538 - name: test num_bytes: 316790 num_examples: 1678 - name: validation num_bytes: 205028 num_examples: 914 download_size: 329391132 dataset_size: 44651768 - config_name: iwslt2017-it-en features: - name: translation dtype: translation: languages: - it - en splits: - name: train num_bytes: 46647925 num_examples: 231619 - name: test num_bytes: 305246 num_examples: 1566 - name: validation num_bytes: 200023 num_examples: 929 download_size: 329391132 dataset_size: 47153194 - config_name: iwslt2017-it-nl features: - name: translation dtype: translation: languages: - it - nl splits: - name: train num_bytes: 43033168 num_examples: 233415 - name: test num_bytes: 309725 num_examples: 1669 - name: validation num_bytes: 197774 num_examples: 1001 download_size: 329391132 dataset_size: 43540667 - config_name: iwslt2017-it-ro features: - name: translation dtype: translation: languages: - it - ro splits: - name: train num_bytes: 44485169 num_examples: 217551 - name: test num_bytes: 314974 num_examples: 1643 - name: validation num_bytes: 204989 num_examples: 914 download_size: 329391132 dataset_size: 45005132 - config_name: iwslt2017-nl-en features: - name: translation dtype: translation: languages: - nl - en splits: - name: train num_bytes: 42843933 num_examples: 237240 - name: test num_bytes: 311646 num_examples: 1777 - name: validation num_bytes: 197814 num_examples: 1003 download_size: 329391132 dataset_size: 43353393 - config_name: iwslt2017-nl-it features: - name: translation dtype: translation: languages: - nl - it splits: - name: train num_bytes: 43033168 num_examples: 233415 - name: test num_bytes: 309725 num_examples: 1669 - name: validation num_bytes: 197774 num_examples: 1001 download_size: 329391132 dataset_size: 43540667 - config_name: iwslt2017-nl-ro features: - name: translation dtype: translation: languages: - nl - ro splits: - name: train num_bytes: 41338738 num_examples: 206920 - name: test num_bytes: 320952 num_examples: 1680 - name: validation num_bytes: 202380 num_examples: 913 download_size: 329391132 dataset_size: 41862070 - config_name: iwslt2017-ro-en features: - name: translation dtype: translation: languages: - ro - en splits: - name: train num_bytes: 44129950 num_examples: 220538 - name: test num_bytes: 316790 num_examples: 1678 - name: validation num_bytes: 205028 num_examples: 914 download_size: 329391132 dataset_size: 44651768 - config_name: iwslt2017-ro-it features: - name: translation dtype: translation: languages: - ro - it splits: - name: train num_bytes: 44485169 num_examples: 217551 - name: test num_bytes: 314974 num_examples: 1643 - name: validation num_bytes: 204989 num_examples: 914 download_size: 329391132 dataset_size: 45005132 - config_name: iwslt2017-ro-nl features: - name: translation dtype: translation: languages: - ro - nl splits: - name: train num_bytes: 41338738 num_examples: 206920 - name: test num_bytes: 320952 num_examples: 1680 - name: validation num_bytes: 202380 num_examples: 913 download_size: 329391132 dataset_size: 41862070 - config_name: iwslt2017-ar-en features: - name: translation dtype: translation: languages: - ar - en splits: - name: train num_bytes: 56481059 num_examples: 231713 - name: test num_bytes: 2014296 num_examples: 8583 - name: validation num_bytes: 241206 num_examples: 888 download_size: 27748780 dataset_size: 58736561 - config_name: iwslt2017-de-en features: - name: translation dtype: translation: languages: - de - en splits: - name: train num_bytes: 42608380 num_examples: 206112 - name: test num_bytes: 1608474 num_examples: 8079 - name: validation num_bytes: 210975 num_examples: 888 download_size: 16758320 dataset_size: 44427829 - config_name: iwslt2017-en-ar features: - name: translation dtype: translation: languages: - en - ar splits: - name: train num_bytes: 56481059 num_examples: 231713 - name: test num_bytes: 2014296 num_examples: 8583 - name: validation num_bytes: 241206 num_examples: 888 download_size: 29333173 dataset_size: 58736561 - config_name: iwslt2017-en-de features: - name: translation dtype: translation: languages: - en - de splits: - name: train num_bytes: 42608380 num_examples: 206112 - name: test num_bytes: 1608474 num_examples: 8079 - name: validation num_bytes: 210975 num_examples: 888 download_size: 16758334 dataset_size: 44427829 - config_name: iwslt2017-en-fr features: - name: translation dtype: translation: languages: - en - fr splits: - name: train num_bytes: 49273286 num_examples: 232825 - name: test num_bytes: 1767465 num_examples: 8597 - name: validation num_bytes: 207579 num_examples: 890 download_size: 27699724 dataset_size: 51248330 - config_name: iwslt2017-en-ja features: - name: translation dtype: translation: languages: - en - ja splits: - name: train num_bytes: 48204987 num_examples: 223108 - name: test num_bytes: 1809007 num_examples: 8469 - name: validation num_bytes: 208124 num_examples: 871 download_size: 26983602 dataset_size: 50222118 - config_name: iwslt2017-en-ko features: - name: translation dtype: translation: languages: - en - ko splits: - name: train num_bytes: 51678043 num_examples: 230240 - name: test num_bytes: 1869793 num_examples: 8514 - name: validation num_bytes: 219295 num_examples: 879 download_size: 19364776 dataset_size: 53767131 - config_name: iwslt2017-en-zh features: - name: translation dtype: translation: languages: - en - zh splits: - name: train num_bytes: 44271004 num_examples: 231266 - name: test num_bytes: 1605527 num_examples: 8549 - name: validation num_bytes: 202537 num_examples: 879 download_size: 27597071 dataset_size: 46079068 - config_name: iwslt2017-fr-en features: - name: translation dtype: translation: languages: - fr - en splits: - name: train num_bytes: 49273286 num_examples: 232825 - name: test num_bytes: 1767465 num_examples: 8597 - name: validation num_bytes: 207579 num_examples: 890 download_size: 26880731 dataset_size: 51248330 - config_name: iwslt2017-ja-en features: - name: translation dtype: translation: languages: - ja - en splits: - name: train num_bytes: 48204987 num_examples: 223108 - name: test num_bytes: 1809007 num_examples: 8469 - name: validation num_bytes: 208124 num_examples: 871 download_size: 26190859 dataset_size: 50222118 - config_name: iwslt2017-ko-en features: - name: translation dtype: translation: languages: - ko - en splits: - name: train num_bytes: 51678043 num_examples: 230240 - name: test num_bytes: 1869793 num_examples: 8514 - name: validation num_bytes: 219295 num_examples: 879 download_size: 19364733 dataset_size: 53767131 - config_name: iwslt2017-zh-en features: - name: translation dtype: translation: languages: - zh - en splits: - name: train num_bytes: 44271004 num_examples: 231266 - name: test num_bytes: 1605527 num_examples: 8549 - name: validation num_bytes: 202537 num_examples: 879 download_size: 26849290 dataset_size: 46079068 --- # Dataset Card for IWSLT 2017 ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [https://sites.google.com/site/iwsltevaluation2017/TED-tasks](https://sites.google.com/site/iwsltevaluation2017/TED-tasks) - **Repository:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Paper:** [Overview of the IWSLT 2017 Evaluation Campaign](https://aclanthology.org/2017.iwslt-1.1/) - **Point of Contact:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Size of downloaded dataset files:** 4.24 GB - **Size of the generated dataset:** 1.14 GB - **Total amount of disk used:** 5.38 GB *This repository contain a modified version of the loading script used in the official [iwslt2017](https://huggingface.co/datasets/iwslt2017) repository updated to include document and segment information for all available sentence pairs, enabling their usage for document-level and context-aware MT applications. Refer to the original repository for additional information.*
提供机构:
gsarti
原始信息汇总

数据集概述:IWSLT 2017

基本信息

  • 数据集名称: IWSLT 2017
  • 数据集大小: 1M<n<10M
  • 语言: 阿拉伯语 (ar), 德语 (de), 英语 (en), 法语 (fr), 意大利语 (it), 日语 (ja), 韩语 (ko), 荷兰语 (nl), 罗马尼亚语 (ro), 中文 (zh)
  • 语言创建方式: 专家生成
  • 许可证: cc-by-nc-nd-4.0
  • 多语言性: 翻译

数据集结构

配置详情

  • 配置名称: iwslt2017-en-it, iwslt2017-en-nl, iwslt2017-en-ro, iwslt2017-it-en, iwslt2017-it-nl, iwslt2017-it-ro, iwslt2017-nl-en, iwslt2017-nl-it, iwslt2017-nl-ro, iwslt2017-ro-en, iwslt2017-ro-it, iwslt2017-ro-nl, iwslt2017-ar-en, iwslt2017-de-en, iwslt2017-en-ar, iwslt2017-en-de, iwslt2017-en-fr, iwslt2017-en-ja, iwslt2017-en-ko, iwslt2017-en-zh, iwslt2017-fr-en, iwslt2017-ja-en, iwslt2017-ko-en, iwslt2017-zh-en
  • 特征: 翻译
  • 数据分割:
    • 训练集: 示例数量和字节数各异,范围从206112到237240,字节数从42608380到56481059
    • 测试集: 示例数量和字节数各异,范围从8583到1777,字节数从1608474到2014296
    • 验证集: 示例数量和字节数各异,范围从871到1003,字节数从197774到241206
  • 下载大小: 329391132
  • 数据集大小: 各配置不同,范围从41862070到58736561

数据集创建

  • 注释创建者: 众包
  • 源数据: 原始数据
  • 任务类别: 翻译

使用注意事项

  • 许可证: 本数据集使用cc-by-nc-nd-4.0许可证,使用时需遵守相关条款。
  • 数据集大小: 请确保有足够的存储空间和计算资源来处理数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译研究领域,构建高质量的双语平行语料库是推动模型性能提升的基石。IWSLT 2017数据集源自国际口语翻译研讨会(IWSLT)2017年评估任务,其核心语料来源于TED演讲的转录文本,这些演讲内容覆盖了科技、教育、文化等多个主题,确保了语料的多样性与实用性。数据构建过程融合了专家生成与众包标注两种模式,首先由语言专家进行初步的翻译与校对,随后通过众包平台进行质量验证与细化,最终形成了包含训练集、验证集和测试集的标准划分,为模型训练与评估提供了结构化支持。
使用方法
在自然语言处理应用中,该数据集主要用于训练和评估机器翻译模型。研究人员可通过Hugging Face平台直接加载特定语言对的配置,如“iwslt2017-en-zh”,快速获取已分割的训练、验证和测试数据。使用过程中,需注意数据遵循CC-BY-NC-ND 4.0许可协议,限制了商业用途,并应参考原始论文以了解数据偏差与社会影响。典型工作流程包括:利用训练集进行模型参数优化,通过验证集调整超参数,最终在测试集上评估翻译质量,支持从基线模型到前沿神经网络的广泛实验。
背景与挑战
背景概述
在机器翻译领域,高质量平行语料的构建是推动技术革新的基石。IWSLT 2017数据集作为国际口语翻译研讨会(International Workshop on Spoken Language Translation)2017年评估活动的核心资源,由学术机构联合构建,旨在为多语言翻译研究提供标准化的评测基准。该数据集聚焦于从TED演讲等真实口语场景中提取的文本,涵盖了阿拉伯语、德语、英语、法语、意大利语、日语、韩语、荷兰语、罗马尼亚语及中文等多种语言对的互译任务。其创建不仅促进了统计机器翻译向神经机器翻译的范式转变,而且通过提供丰富的语境信息,为文档级和上下文感知的翻译模型发展奠定了数据基础,对提升翻译系统的流畅性与一致性产生了深远影响。
当前挑战
IWSLT 2017数据集所应对的核心挑战在于解决口语化文本的机器翻译难题,这类文本通常包含即兴表达、文化特定隐喻及复杂句式,对模型的语义捕捉与生成能力提出更高要求。在构建过程中,挑战主要体现在多语言对齐的复杂性上,尤其是对于语序差异显著或资源稀缺的语言对,如阿拉伯语或罗马尼亚语,需要依赖专家生成与众包结合的方式确保翻译质量。同时,从TED演讲中提取并保持对话连贯的文档结构,涉及大量人工标注与校验,以克服口语转录中的噪声干扰,确保语料在语境层面的完整性,这为数据集的可扩展性与泛化能力带来了持续考验。
常用场景
经典使用场景
在机器翻译研究领域,IWSLT 2017数据集作为国际口语翻译评测任务的核心资源,其经典使用场景聚焦于多语言神经机器翻译模型的训练与评估。该数据集源自TED演讲的转录文本,涵盖了英语、德语、中文、日语等多种语言对的平行语料,为研究者提供了丰富的口语化、领域广泛的翻译实例。通过利用这些高质量的双语句对,学者们能够构建并优化端到端的翻译系统,特别是在处理口语风格文本和低资源语言翻译方面展现出独特价值。
解决学术问题
该数据集有效解决了机器翻译领域中若干关键学术问题,包括低资源语言对的翻译性能提升、口语化文本的语境建模以及跨语言语义对齐的挑战。通过提供多语言、大规模且经过专家标注的平行语料,它促进了翻译模型在词汇覆盖、句法结构和语用层面的泛化能力研究。其意义在于为翻译质量评估提供了标准化基准,推动了注意力机制、Transformer架构等前沿技术在翻译任务中的应用与创新,对自然语言处理领域的理论发展产生了深远影响。
实际应用
在实际应用层面,IWSLT 2017数据集支撑了众多商业化翻译系统和辅助工具的研发,例如实时演讲翻译、跨语言视频字幕生成以及多语言内容本地化服务。基于该数据集训练的模型能够有效处理TED演讲等教育娱乐内容,实现高质量的口语翻译,促进全球知识传播与文化交换。这些应用不仅提升了跨语言沟通的效率,还为在线教育、国际会议和媒体行业提供了可靠的技术解决方案。
数据集最近研究
最新研究方向
在机器翻译领域,IWSLT 2017数据集作为多语言口语翻译的基准,持续推动着前沿技术的发展。当前研究聚焦于利用其丰富的文档与片段信息,探索上下文感知的神经机器翻译模型,以提升对话和演讲等连贯文本的翻译质量。随着大语言模型与多模态学习的兴起,该数据集亦被用于训练跨语言表示,促进低资源语言对的迁移学习。这些进展不仅深化了对语境依赖性的理解,也为实时语音翻译系统的优化提供了关键数据支撑,具有重要的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作