five

anthonychen/mocha

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/anthonychen/mocha
下载链接
链接失效反馈
官方服务:
资源简介:
MOCHA数据集是一个用于训练和评估生成式阅读理解指标的基准数据集。它包含了来自6个不同问答数据集的40K人类评分,以及一组用于评估的最小对。MOCHA将阅读理解实例(包括段落、问题和参考答案)与候选答案和人类评分配对。通过MOCHA,研究人员训练了一个名为LERC的学习评估指标,以模仿人类评分。LERC在保留的注释上比基线指标高出10到36个绝对皮尔逊点,在最小对上的评估中达到了80%的准确率,比基线高出14到26个绝对百分点。MOCHA为开发准确和鲁棒的生成式阅读理解指标提供了一个具有挑战性的问题。
提供机构:
anthonychen
原始信息汇总

数据集概述

数据集基本信息

  • 名称: MOCHA
  • 标注创建者: 众包
  • 语言创建者: 发现
  • 语言: 英语
  • 许可证: CC BY-SA 4.0
  • 多语言性: 单语
  • 大小类别: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 问答
  • Papers with Code ID: mocha
  • 标签: generative-reading-comprehension-metric

数据集结构

特征

  • constituent_dataset: 字符串,原始QA数据集
  • id: 字符串
  • context: 字符串,文章内容
  • question: 字符串,相关问题
  • reference: 字符串,正确答案
  • candidate: 字符串,由source生成的答案
  • score: 浮点数,人类判断分数(测试集默认值为-1)
  • metadata: 结构体
    • scores: 整数序列,不同评判者的分数列表,平均后得到最终score(默认值为空列表)
    • source: 字符串,生成candidate的生成模型
  • candidate2: 字符串(用于最小对评估)
  • score2: 浮点数(用于最小对评估)

数据分割

  • 训练集: 31,069个实例
  • 验证集: 4,009个实例
  • 测试集: 6,321个实例
  • 最小对集: 200个实例

数据集创建

数据集摘要

MOCHA包含40K人类判断分数,来自6个多样化的问答数据集,以及一组用于评估的最小对。MOCHA将阅读理解实例(包括文章、问题和参考答案)与候选答案和人类判断分数配对。

数据集大小

  • 下载大小: 14,452,311字节
  • 数据集大小: 44,490,444字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作