five

RicardoRei/wmt-da-human-evaluation

收藏
Hugging Face2023-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RicardoRei/wmt-da-human-evaluation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了之前WMT新闻翻译共享任务中的所有DA(直接评估)人工标注数据。数据被组织成8列:语言对(lp)、输入文本(src)、翻译(mt)、参考翻译(ref)、z分数(score)、直接评估(raw)、标注者数量(annotators)、输入文本的领域(domain,例如新闻)和收集年份(year)。数据集主要用于机器翻译评估,涵盖了41种语言对,并且大多数数据来自新闻领域。

该数据集包含了之前WMT新闻翻译共享任务中的所有DA(直接评估)人工标注数据。数据被组织成8列:语言对(lp)、输入文本(src)、翻译(mt)、参考翻译(ref)、z分数(score)、直接评估(raw)、标注者数量(annotators)、输入文本的领域(domain,例如新闻)和收集年份(year)。数据集主要用于机器翻译评估,涵盖了41种语言对,并且大多数数据来自新闻领域。
提供机构:
RicardoRei
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 大小: 1M<n<10M
  • 语言: 包含bn, cs, de, en, et, fi, fr, gu, ha, hi, is, ja, kk, km, lt, lv, pl, ps, ru, ta, tr, uk, xh, zh, zu等多种语言
  • 标签: mt-evaluation, WMT, 41-lang-pairs

数据集内容

  • 来源: 包含所有WMT新闻翻译共享任务中的DA人类注释
  • 结构: 数据分为8个列
    • lp: 语言对
    • src: 输入文本
    • mt: 翻译文本
    • ref: 参考翻译
    • score: z分数
    • raw: 直接评估
    • annotators: 注释者数量
    • domain: 输入文本的领域(例如新闻)
    • year: 收集年份

使用方法

  • Python示例: 使用datasets库加载数据集,并可根据年份、语言对或领域进行数据分割

引用信息

  • 使用此数据集时,请引用WMT过去几年的发现
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作