rbiswasfc/quality
收藏Hugging Face2024-06-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/rbiswasfc/quality
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从`tau/scrolls`数据集中通过特定脚本处理得到的,用于多选问答任务。数据集包含训练集和验证集,分别有2523和2086个样本。每个样本包含id、问题、上下文、选项列表和标签。问题来源于Project Gutenberg和Open American National Corpus等资源,问题设计旨在确保人类注释者必须阅读大部分文档才能正确回答问题。50%的问题被标记为困难问题,因为在速度验证设置中,大多数注释者选择了错误答案。
This dataset is derived from the `tau/scrolls` dataset through a specific script and is used for multiple-choice question answering tasks. The dataset contains training and validation sets with 2523 and 2086 samples, respectively. Each sample includes an id, a question, a context, a list of choices, and a label. The questions are sourced from resources such as Project Gutenberg and the Open American National Corpus, and are designed to ensure that human annotators must read most of the document to answer correctly. 50% of the questions are labeled as difficult because, in a speed validation setting, most annotators chose the wrong answer.
提供机构:
rbiswasfc
原始信息汇总
数据集概述
数据集信息
- 许可证: MIT
- 特征:
id: 字符串类型question: 字符串类型context: 字符串类型choices: 字符串序列label: 整数类型 (int64)
- 分割:
train: 2523个样本,63920351字节validation: 2086个样本,52064930字节
- 下载大小: 5955070字节
- 数据集大小: 115985281字节
配置
- 配置名称: default
- 数据文件:
train: data/train-*validation: data/validation-*
数据集来源
- 数据集来源于
tau/scrolls,通过特定脚本处理得到。 - 处理后的数据集包含以下字段用于评估:
question: 问题提示context: 上下文choices: 选项列表(共4个选项)label: 正确选项的索引
数据集描述
- 数据集包含多个选择题,题目和干扰项由经验丰富的作者编写,确保问题具有可回答性和明确性。
- 数据集中的问题经过速度验证,50%的问题被标记为“困难”,即大多数验证者在有限时间内选择了错误的答案。



