five

jtv199/Entity-deduction-arena-20-questions

收藏
Hugging Face2024-03-30 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/jtv199/Entity-deduction-arena-20-questions
下载链接
链接失效反馈
官方服务:
资源简介:
twentyquestions数据集提供了从Mechanical Turk上真实20 Questions游戏中收集的问题和答案。数据集分为训练集、开发集和测试集,并且每个文件都采用JSON Lines格式。文件中包含了游戏的主题、问题、答案、质量标签、评分、高质量标记、标签、是否为坏标记、真实投票数、多数标签、主题分割索引和问题分割索引等信息。此外,为了减少主题偏见,部分数据行是通过改变主题来翻转答案的。
提供机构:
jtv199
原始信息汇总

数据集概述

数据集名称

twentyquestions

数据集描述

该数据集包含了20 Questions游戏风格的问答,这些问答是从Mechanical Turk上真实的人与人之间的20 Questions游戏中收集的。

数据集文件

  • twentyquestions-train.jsonl
  • twentyquestions-dev.jsonl
  • twentyquestions-test.jsonl
  • twentyquestions-all.jsonl

数据集结构

每个文件采用JSON Lines格式,包含以下键:

  • subject: 游戏中的主题
  • question: 玩家提出的问题
  • answer: 游戏中另一玩家的回答,对于游戏外收集的问题则为null
  • quality_labels: 问题的质量标签列表
  • score: 评估问题高质量的众包工作者数量(满分3分)
  • high_quality: 问题质量的大多数投票结果
  • labels: 由3个不同的众包工作者分配的真实值
  • is_bad: 是否有众包工作者标记该陈述为不良
  • true_votes: 问题关于主题的真实性的投票数(满分3票)
  • majority: 真实或虚假的大多数标签
  • subject_split_index: 主题出现的最早分割索引(0为训练集,1为开发集,2为测试集)
  • question_split_index: 问题出现的最早分割索引(0为训练集,1为开发集,2为测试集)

数据集处理

部分行是通过改变现有行的主题,从而改变答案的真假来获得的,以减少数据中的主题偏见。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作