RicardoRei/wmt-da-human-evaluation

Name: RicardoRei/wmt-da-human-evaluation
Creator: RicardoRei
Published: 2023-02-17 10:41:18
License: 暂无描述

Hugging Face2023-02-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RicardoRei/wmt-da-human-evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了之前WMT新闻翻译共享任务中的所有DA（直接评估）人工标注数据。数据被组织成8列：语言对（lp）、输入文本（src）、翻译（mt）、参考翻译（ref）、z分数（score）、直接评估（raw）、标注者数量（annotators）、输入文本的领域（domain，例如新闻）和收集年份（year）。数据集主要用于机器翻译评估，涵盖了41种语言对，并且大多数数据来自新闻领域。

提供机构：

RicardoRei

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
大小: 1M<n<10M
语言: 包含bn, cs, de, en, et, fi, fr, gu, ha, hi, is, ja, kk, km, lt, lv, pl, ps, ru, ta, tr, uk, xh, zh, zu等多种语言
标签: mt-evaluation, WMT, 41-lang-pairs

数据集内容

来源: 包含所有WMT新闻翻译共享任务中的DA人类注释
结构: 数据分为8个列
- lp: 语言对
- src: 输入文本
- mt: 翻译文本
- ref: 参考翻译
- score: z分数
- raw: 直接评估
- annotators: 注释者数量
- domain: 输入文本的领域（例如新闻）
- year: 收集年份

使用方法

Python示例: 使用datasets库加载数据集，并可根据年份、语言对或领域进行数据分割

引用信息

使用此数据集时，请引用WMT过去几年的发现

5,000+

优质数据集

54 个

任务类型

进入经典数据集