wmt/wmt20_mlqe_task3
收藏数据集卡片 for WMT20 - MultiLingual Quality Estimation (MLQE) Task3
数据集描述
数据集摘要
该共享任务(WMT20的一部分)将建立在以往版本的基础上,进一步研究在运行时不依赖参考翻译自动估计神经机器翻译输出质量的方法。与往年一样,我们涵盖了不同层次的估计。今年引入的重要元素包括:一个新的任务,句子被标注为直接评估(DA)分数而不是基于后期编辑的标签;一个新的多语言句子级数据集,主要来自维基百科文章,可以检索源文章以获取文档级上下文;NMT模型的可用性,以探索系统内部信息用于任务。
任务3的目标是预测文档级质量分数以及细粒度标注。
每个文档都有一个产品标题和描述,并根据MQM框架进行翻译错误标注。每个错误标注包括:
- 词跨度:错误可能由一个或多个单词组成,不一定是连续的。
- 严重性:错误可以是轻微的(如果它不会导致意义的丢失,并且不会混淆或误导用户),主要的(如果它改变了意义)或关键的(如果它改变了意义并带有任何类型的含义,或者可能被视为冒犯性的)。
- 类型:指定错误类型的标签,如错误的词序、遗漏的单词、一致性等。它们可能提供额外信息,但系统不需要预测它们。
支持的任务和排行榜
提交将按照任务1的方式进行评估,即在真实和预测的MQM文档级分数之间计算皮尔逊相关性。此外,预测的标注将根据其与黄金标注的F1分数进行评估。官方评估脚本可用。
语言
数据集中有一个语言对:英语(en)- 法语(fr)。
数据集结构
数据实例
一个示例如下: json { "document_id": "B0000568SY", "source_segments": ["Razor Scooter Replacement Wheels Set with Bearings", "Scooter Wheels w/Bearings-Blue"], "source_tokenized": ["Razor Scooter Replacement Wheels Set with Bearings", "Scooter Wheels w / Bearings-Blue"], "mt_segments": ["Roues de rechange Razor Scooter sertie de roulements", "Roues de scooter w/roulements-bleu"], "mt_tokenized": ["Roues de rechange Razor Scooter sertie de roulements", "Roues de scooter w / roulements-bleu"], "annotations": { "segment_id": [[0], [1], [1], [0, 0], [0], [1], [1]], "annotation_start": [[42], [19], [9], [0, 32], [9], [17], [30]], "annotation_length": [[10], [10], [7], [5, 6], [8], [1], [4]], "severity": [0, 0, 0, 0, 0, 1, 0], "severity_weight": [1.0, 1.0, 1.0, 1.0, 1.0, 5.0, 1.0], "category": [3, 3, 3, 1, 3, 36, 3] }, "token_annotations": { "category": [3, 3, 3, 1, 3, 36, 3], "first_token": [[7], [5], [2], [0, 5], [2], [3], [5]], "last_token": [[7], [5], [2], [0, 5], [2], [3], [5]], "segment_id": [[0], [1], [1], [0, 0], [0], [1], [1]], "severity": [0, 0, 0, 0, 0, 1, 0], "token_after_gap": [[-1], [-1], [-1], [-1, -1], [-1], [-1], [-1]] }, "token_index": [[[0, 5], [6, 2], [9, 8], [18, 5], [24, 7], [32, 6], [39, 2], [42, 10]], [[0, 5], [6, 2], [9, 7], [17, 1], [18, 1], [19, 15]]], "total_words": 16 }
数据字段
document_id: 文档ID(文件夹名称)。source_segments: 原始源文本,每行一个句子(即列表中的每个元素)。source_tokenized:source_segments的标记化版本。mt_segments: 原始机器翻译文本,每行一个句子(即列表中的每个元素)。mt_tokenized:mt_segments的标记化版本。当此信息不可用时,默认值为[](在训练集中发生3次:B0001BW0PQ,B0001GS19U和B000A6SMJ0)。annotations: 文档的错误标注。列表中的每个项目对应一个错误标注,错误字段编码在一个字典中。在多跨度错误的情况下,多个起始位置和长度编码在列表中。请注意,这些位置指向mt.segments,而不是mt_tokenized。segment_id: 整数列表的列表。每个错误的ID。annotation_start: 整数列表的列表。每个错误的起始位置。annotation_length: 整数列表的列表。每个错误的长度。severity: 单热编码列表。每个错误的严重性类别。severity_weight: 浮点数列表。每个错误的严重性权重。category: 单热编码列表。每个错误的类别。参见_ANNOTATION_CATEGORIES_MAPPING中的45个类别。
token_annotations:annotations的标记化版本。每个包含一个或多个标记的错误跨度都有一个“第一个标记”和“最后一个标记”。再次,多跨度错误将其第一个和最后一个标记编码在列表中。当一个跨度跨越两个标记之间的间隙时,“第一个”和“最后一个”位置为-1(在原始数据中编码为-),而token_after_gap列指向间隙后的立即标记。如果间隙出现在句子的末尾,此值将等于标记的数量。segment_id: 整数列表的列表。每个错误的ID。first_token: 整数列表的列表。每个错误的起始位置。last_token: 整数列表的列表。每个错误的结束位置。token_after_gap: 整数列表的列表。每个错误后的间隙标记。severity: 单热编码列表。每个错误的严重性类别。category: 单热编码列表。每个错误的类别。参见_ANNOTATION_CATEGORIES_MAPPING中的45个类别。
token_index:mt_segments中标记到其起始和结束位置的映射。对于每个标记,起始和结束值编码在一个长度为2的列表中,所有标记代表列表中的一个项目。total_words: 文档中的总单词数
json _ANNOTATION_CATEGORIES_MAPPING = { 0: "Addition", 1: "Agreement", 2: "Ambiguous Translation", 3: "Capitalization", 4: "Character Encoding", 5: "Company Terminology", 6: "Date/Time", 7: "Diacritics", 8: "Duplication", 9: "False Friend", 10: "Grammatical Register", 11: "Hyphenation", 12: "Inconsistency", 13: "Lexical Register", 14: "Lexical Selection", 15: "Named Entity", 16: "Number", 17: "Omitted Auxiliary Verb", 18: "Omitted Conjunction", 19: "Omitted Determiner", 20: "Omitted Preposition", 21: "Omitted Pronoun", 22: "Orthography", 23: "Other POS Omitted", 24: "Over-translation", 25: "Overly Literal", 26: "POS", 27: "Punctuation", 28: "Shouldnt Have Been Translated", 29: "Shouldnt have been translated", 30: "Spelling", 31: "Tense/Mood/Aspect", 32: "Under-translation", 33: "Unidiomatic", 34: "Unintelligible", 35: "Unit Conversion", 36: "Untranslated", 37: "Whitespace", 38: "Word Order", 39: "Wrong Auxiliary Verb", 40: "Wrong Conjunction", 41: "Wrong Determiner", 42: "Wrong Language Variety", 43: "Wrong Preposition", 44: "Wrong Pronoun" }
数据分割
数据集包含1,448个文档用于训练,200个文档用于验证,180个文档用于(盲)测试(全部为英语-法语)。
数据集创建
策划理由
数据源自Amazon Product Reviews数据集。
源数据
[更多信息需要]
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
标注
[更多信息需要]
标注过程
[更多信息需要]
标注者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
未知
引用信息
不可用。
贡献
感谢@VictorSanh添加此数据集。




