anthonychen/mocha
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/anthonychen/mocha
下载链接
链接失效反馈官方服务:
资源简介:
MOCHA数据集是一个用于训练和评估生成式阅读理解指标的基准数据集。它包含了来自6个不同问答数据集的40K人类评分,以及一组用于评估的最小对。MOCHA将阅读理解实例(包括段落、问题和参考答案)与候选答案和人类评分配对。通过MOCHA,研究人员训练了一个名为LERC的学习评估指标,以模仿人类评分。LERC在保留的注释上比基线指标高出10到36个绝对皮尔逊点,在最小对上的评估中达到了80%的准确率,比基线高出14到26个绝对百分点。MOCHA为开发准确和鲁棒的生成式阅读理解指标提供了一个具有挑战性的问题。
提供机构:
anthonychen
原始信息汇总
数据集概述
数据集基本信息
- 名称: MOCHA
- 标注创建者: 众包
- 语言创建者: 发现
- 语言: 英语
- 许可证: CC BY-SA 4.0
- 多语言性: 单语
- 大小类别: 10K<n<100K
- 源数据集: 原始
- 任务类别: 问答
- Papers with Code ID: mocha
- 标签: generative-reading-comprehension-metric
数据集结构
特征
- constituent_dataset: 字符串,原始QA数据集
- id: 字符串
- context: 字符串,文章内容
- question: 字符串,相关问题
- reference: 字符串,正确答案
- candidate: 字符串,由
source生成的答案 - score: 浮点数,人类判断分数(测试集默认值为-1)
- metadata: 结构体
- scores: 整数序列,不同评判者的分数列表,平均后得到最终
score(默认值为空列表) - source: 字符串,生成
candidate的生成模型
- scores: 整数序列,不同评判者的分数列表,平均后得到最终
- candidate2: 字符串(用于最小对评估)
- score2: 浮点数(用于最小对评估)
数据分割
- 训练集: 31,069个实例
- 验证集: 4,009个实例
- 测试集: 6,321个实例
- 最小对集: 200个实例
数据集创建
数据集摘要
MOCHA包含40K人类判断分数,来自6个多样化的问答数据集,以及一组用于评估的最小对。MOCHA将阅读理解实例(包括文章、问题和参考答案)与候选答案和人类判断分数配对。
数据集大小
- 下载大小: 14,452,311字节
- 数据集大小: 44,490,444字节



