five

inseq/scat

收藏
Hugging Face2024-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inseq/scat
下载链接
链接失效反馈
官方服务:
资源简介:
SCAT(支持上下文歧义翻译语料库)是一个英语到法语的翻译数据集,专门用于解决多句子翻译中代词指代歧义的问题。该数据集包含人类标注的上下文信息,帮助解决翻译中的歧义。数据集分为训练集、验证集和测试集,并提供了经过过滤的版本(SCAT+),移除了嵌套或格式错误的标签。每个数据实例包含带有标签和不带标签的文本字段,以便直接用于机器翻译模型。

SCAT(支持上下文歧义翻译语料库)是一个英语到法语的翻译数据集,专门用于解决多句子翻译中代词指代歧义的问题。该数据集包含人类标注的上下文信息,帮助解决翻译中的歧义。数据集分为训练集、验证集和测试集,并提供了经过过滤的版本(SCAT+),移除了嵌套或格式错误的标签。每个数据实例包含带有标签和不带标签的文本字段,以便直接用于机器翻译模型。
提供机构:
inseq
原始信息汇总

数据集概述

数据集名称

  • SCAT (Supporting Context for Ambiguous Translations corpus)

数据集摘要

  • SCAT 是一个英语到法语的翻译数据集,包含人类注释的用于解决多句翻译中代词回指歧义的合理性。

语言

  • 源语言:英语 (en)
  • 目标语言:法语 (fr)

数据集结构

  • 数据实例格式:每个实例包含多个字段,如context_en, en, context_fr, fr等,用于存储上下文、源句和目标句。
  • 数据分割:数据集分为train, validation, test三个部分。

数据集创建

  • 创建方式:由20名自由职业的英语-法语翻译者通过Upwork平台进行注释。
  • 数据来源:从OpenSubtitles2018数据集中选取的14K个示例。

许可证信息

  • 许可证:未知

引用信息

  • 原始SCAT数据集: bibtex @inproceedings{yin-etal-2021-context, title = "Do Context-Aware Translation Models Pay the Right Attention?", author = "Yin, Kayo and Fernandes, Patrick and Pruthi, Danish and Chaudhary, Aditi and Martins, Andr{e} F. T. and Neubig, Graham", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.65", doi = "10.18653/v1/2021.acl-long.65", pages = "788--801", }

  • SCAT+ (当前版本): bibtex @inproceedings{sarti-etal-2023-quantifying, title = "Quantifying the Plausibility of Context Reliance in Neural Machine Translation", author = "Sarti, Gabriele and Chrupa{l}a, Grzegorz and Nissim, Malvina and Bisazza, Arianna", booktitle = "The Twelfth International Conference on Learning Representations (ICLR 2024)", month = may, year = "2024", address = "Vienna, Austria", publisher = "OpenReview", url = "https://openreview.net/forum?id=XTHfNGI3zT" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作