RicardoRei/wmt-da-human-evaluation
收藏Hugging Face2023-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RicardoRei/wmt-da-human-evaluation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了之前WMT新闻翻译共享任务中的所有DA(直接评估)人工标注数据。数据被组织成8列:语言对(lp)、输入文本(src)、翻译(mt)、参考翻译(ref)、z分数(score)、直接评估(raw)、标注者数量(annotators)、输入文本的领域(domain,例如新闻)和收集年份(year)。数据集主要用于机器翻译评估,涵盖了41种语言对,并且大多数数据来自新闻领域。
该数据集包含了之前WMT新闻翻译共享任务中的所有DA(直接评估)人工标注数据。数据被组织成8列:语言对(lp)、输入文本(src)、翻译(mt)、参考翻译(ref)、z分数(score)、直接评估(raw)、标注者数量(annotators)、输入文本的领域(domain,例如新闻)和收集年份(year)。数据集主要用于机器翻译评估,涵盖了41种语言对,并且大多数数据来自新闻领域。
提供机构:
RicardoRei
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 大小: 1M<n<10M
- 语言: 包含bn, cs, de, en, et, fi, fr, gu, ha, hi, is, ja, kk, km, lt, lv, pl, ps, ru, ta, tr, uk, xh, zh, zu等多种语言
- 标签: mt-evaluation, WMT, 41-lang-pairs
数据集内容
- 来源: 包含所有WMT新闻翻译共享任务中的DA人类注释
- 结构: 数据分为8个列
- lp: 语言对
- src: 输入文本
- mt: 翻译文本
- ref: 参考翻译
- score: z分数
- raw: 直接评估
- annotators: 注释者数量
- domain: 输入文本的领域(例如新闻)
- year: 收集年份
使用方法
- Python示例: 使用
datasets库加载数据集,并可根据年份、语言对或领域进行数据分割
引用信息
- 使用此数据集时,请引用WMT过去几年的发现



