jtv199/Entity-deduction-arena-20-questions
收藏Hugging Face2024-03-30 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/jtv199/Entity-deduction-arena-20-questions
下载链接
链接失效反馈官方服务:
资源简介:
twentyquestions数据集提供了从Mechanical Turk上真实20 Questions游戏中收集的问题和答案。数据集分为训练集、开发集和测试集,并且每个文件都采用JSON Lines格式。文件中包含了游戏的主题、问题、答案、质量标签、评分、高质量标记、标签、是否为坏标记、真实投票数、多数标签、主题分割索引和问题分割索引等信息。此外,为了减少主题偏见,部分数据行是通过改变主题来翻转答案的。
提供机构:
jtv199
原始信息汇总
数据集概述
数据集名称
twentyquestions
数据集描述
该数据集包含了20 Questions游戏风格的问答,这些问答是从Mechanical Turk上真实的人与人之间的20 Questions游戏中收集的。
数据集文件
- twentyquestions-train.jsonl
- twentyquestions-dev.jsonl
- twentyquestions-test.jsonl
- twentyquestions-all.jsonl
数据集结构
每个文件采用JSON Lines格式,包含以下键:
- subject: 游戏中的主题
- question: 玩家提出的问题
- answer: 游戏中另一玩家的回答,对于游戏外收集的问题则为null
- quality_labels: 问题的质量标签列表
- score: 评估问题高质量的众包工作者数量(满分3分)
- high_quality: 问题质量的大多数投票结果
- labels: 由3个不同的众包工作者分配的真实值
- is_bad: 是否有众包工作者标记该陈述为不良
- true_votes: 问题关于主题的真实性的投票数(满分3票)
- majority: 真实或虚假的大多数标签
- subject_split_index: 主题出现的最早分割索引(0为训练集,1为开发集,2为测试集)
- question_split_index: 问题出现的最早分割索引(0为训练集,1为开发集,2为测试集)
数据集处理
部分行是通过改变现有行的主题,从而改变答案的真假来获得的,以减少数据中的主题偏见。



