five

inseq/disc_eval_mt

收藏
Hugging Face2024-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inseq/disc_eval_mt
下载链接
链接失效反馈
官方服务:
资源简介:
DiscEvalMT数据集包含用于解决代词指代消解和词汇选择(消歧和连贯性)上下文感知翻译的英语到法语翻译。此版本的DiscEvalMT数据集进一步标注了数据集示例中的模糊跨度和支持上下文,以便与SCAT的高亮方案对齐,从而实现对上下文感知NMT模型的细粒度评估。数据集包含两个配置(anaphora和lexical-choice),每个配置包含200个测试示例。数据集由专家手动创建,并添加了上下文使用注释。数据集发布在CC-BY-SA 4.0许可证下。
提供机构:
inseq
原始信息汇总

数据集概述

数据集描述

数据集摘要

DiscEvalMT 数据集包含用于解决代词回指解析和词汇选择(消歧和衔接)上下文感知翻译中歧义的英法翻译。该版本的 DiscEvalMT 数据集进一步注释了数据集中示例的模糊跨度和支持上下文,以与 SCAT 的高亮方案对齐,从而实现上下文感知 NMT 模型中上下文使用情况的粒度评估。

支持的任务和排行榜

机器翻译

参考原始论文 Evaluating Discourse Phenomena in Neural Machine Translation 以获取使用 DiscEvalMT 评估话语级现象的更多细节。

语言

数据集包含手工制作的英法翻译示例,包含代词回指或词汇选择项。示例使用现有的 OpenSubtitles 2016 句子作为词汇和句法结构的参考。

数据集结构

数据实例

数据集包含两个配置(anaphoralexical-choice),每个配置仅包含 200 个测试示例。数据集示例格式如下:

json { "id": 0, "context_en": "The buildings will be finished next week.", "en": "Soon they will be full of new residents.", "context_fr": "Les bâtiments seront terminés la semaine prochaine.", "fr": "Ils seront bientôt pleins de nouveaux résidents.", "contrast_fr": "Elles seront bientôt pleines de nouveaux résidents.", "context_en_with_tags": "The <hon>buildings<hoff> will be finished next week.", "en_with_tags": "Soon <p>they</p> will be full of new residents.", "context_fr_with_tags": "Les <hon>bâtiments<hoff> seront terminés la semaine prochaine.", "fr_with_tags": "<p>Ils</p> seront bientôt pleins de nouveaux résidents.", "contrast_fr_with_tags": "<p>Elles</p> seront bientôt pleines de nouveaux résidents.", "type": "m.pl" }

在每个示例中,上下文相关的感兴趣单词及其翻译被 <p>...</p> 标签包围。这些标签保证在 en_with_tagsfr_with_tagscontrast_fr_with_tags 字段中找到。

任何被 <hon>...<hoff> 标签包围的跨度都由人工注释者识别为支持上下文,这些跨度仅在 context_en_with_tagscontext_fr_with_tags 字段中找到。

数据集创建

数据集由原始作者手动创建,上下文使用注释由 Quantifying the Plausibility of Context Reliance in Neural Machine Translation 的作者添加,用于合理性分析目的。

额外预处理

与原始 DiscEvalMT 语料库相比,该数据集进行了轻微调整。

额外信息

数据集策展人

DiscEvalMT 的原始作者是原始发布数据集的策展人。对于此 🤗 Datasets 版本的问题或更新,请联系 gabriele.sarti996@gmail.com

许可信息

数据集在原始 CC-BY-SA 4.0 许可下发布。

引用信息

如果您在工作中使用此语料库,请引用作者。

原始 DiscEval-MT

bibtex @inproceedings{bawden-etal-2018-evaluating, title = "Evaluating Discourse Phenomena in Neural Machine Translation", author = "Bawden, Rachel and Sennrich, Rico and Birch, Alexandra and Haddow, Barry", booktitle = {{Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)}}, month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/N18-1118", doi = "10.18653/v1/N18-1118", pages = "1304--1313" }

注释版本

bibtex @inproceedings{sarti-etal-2023-quantifying, title = "Quantifying the Plausibility of Context Reliance in Neural Machine Translation", author = "Sarti, Gabriele and Chrupa{l}a, Grzegorz and Nissim, Malvina and Bisazza, Arianna", booktitle = "The Twelfth International Conference on Learning Representations (ICLR 2024)", month = may, year = "2024", address = "Vienna, Austria", publisher = "OpenReview", url = "https://openreview.net/forum?id=XTHfNGI3zT" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作