five

rbiswasfc/quality

收藏
Hugging Face2024-06-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/rbiswasfc/quality
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从`tau/scrolls`数据集中通过特定脚本处理得到的,用于多选问答任务。数据集包含训练集和验证集,分别有2523和2086个样本。每个样本包含id、问题、上下文、选项列表和标签。问题来源于Project Gutenberg和Open American National Corpus等资源,问题设计旨在确保人类注释者必须阅读大部分文档才能正确回答问题。50%的问题被标记为困难问题,因为在速度验证设置中,大多数注释者选择了错误答案。

This dataset is derived from the `tau/scrolls` dataset through a specific script and is used for multiple-choice question answering tasks. The dataset contains training and validation sets with 2523 and 2086 samples, respectively. Each sample includes an id, a question, a context, a list of choices, and a label. The questions are sourced from resources such as Project Gutenberg and the Open American National Corpus, and are designed to ensure that human annotators must read most of the document to answer correctly. 50% of the questions are labeled as difficult because, in a speed validation setting, most annotators chose the wrong answer.
提供机构:
rbiswasfc
原始信息汇总

数据集概述

数据集信息

  • 许可证: MIT
  • 特征:
    • id: 字符串类型
    • question: 字符串类型
    • context: 字符串类型
    • choices: 字符串序列
    • label: 整数类型 (int64)
  • 分割:
    • train: 2523个样本,63920351字节
    • validation: 2086个样本,52064930字节
  • 下载大小: 5955070字节
  • 数据集大小: 115985281字节

配置

  • 配置名称: default
  • 数据文件:
    • train: data/train-*
    • validation: data/validation-*

数据集来源

  • 数据集来源于 tau/scrolls,通过特定脚本处理得到。
  • 处理后的数据集包含以下字段用于评估:
    • question: 问题提示
    • context: 上下文
    • choices: 选项列表(共4个选项)
    • label: 正确选项的索引

数据集描述

  • 数据集包含多个选择题,题目和干扰项由经验丰富的作者编写,确保问题具有可回答性和明确性。
  • 数据集中的问题经过速度验证,50%的问题被标记为“困难”,即大多数验证者在有限时间内选择了错误的答案。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作