community-datasets/proto_qa
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/proto_qa
下载链接
链接失效反馈官方服务:
资源简介:
ProtoQA数据集用于研究计算模型在原型情境下的推理能力。数据集基于Family Feud游戏的调查问题和答案集群,通过从Family Feud粉丝网站抓取数据以及通过众包平台收集数据构建。数据集包含多个配置,每个配置有不同的数据字段和分割。数据集的创建涉及从Family Feud粉丝网站抓取数据以及通过众包平台收集数据。数据集的使用需要注意潜在的偏见和敏感信息问题。
The ProtoQA dataset is for studying computational models trained to reason about prototypical situations. It is based on survey questions and answer clusters from the Family Feud game, built by scraping data from Family Feud fan sites and collecting data through a crowdsourcing platform. The dataset contains multiple configurations, each with different data fields and splits. The creation of the dataset involves scraping data from Family Feud fan sites and collecting data through a crowdsourcing platform. The use of the dataset requires attention to potential biases and sensitive information issues.
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: ProtoQA
- 语言: 英语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 问答
- 任务ID: 多项选择问答、开放领域问答
数据集结构
配置信息
-
配置名称: proto_qa
- 特征:
normalized-question: 字符串question: 字符串answer-clusters: 序列count: 整数clusterid: 字符串answers: 字符串序列
answerstrings: 字符串序列totalcount: 整数id: 字符串source: 字符串
- 分割:
train: 8782个实例,3943484字节validation: 980个实例,472121字节
- 下载大小: 7352932字节
- 数据集大小: 4415605字节
- 特征:
-
配置名称: proto_qa_cs
- 特征:
normalized-question: 字符串question: 字符串answers-cleaned: 序列count: 整数clusterid: 字符串answers: 字符串序列
answerstrings: 字符串序列totalcount: 整数id: 字符串source: 字符串
- 分割:
validation: 52个实例,84466字节
- 下载大小: 115704字节
- 数据集大小: 84466字节
- 特征:
-
配置名称: proto_qa_cs_assessments
- 特征:
question: 字符串assessments: 字符串序列
- 分割:
validation: 52个实例,12473字节
- 下载大小: 24755字节
- 数据集大小: 12473字节
- 特征:
数据集创建
数据收集与标准化
- 数据来源: 通过粉丝转录获取,网址包括 https://www.familyfeudinfo.com 和 http://familyfeudfriends.arjdesigns.com/;以及通过FigureEight(现为Appen)进行众包收集。
- 数据收集时间: 众包答案收集于2018年秋季至2019年春季;刮取的数据涵盖自1976年节目开始以来的问答对。
标注过程
- 数据预处理: 众包答案集中的明显拼写错误已得到纠正。
- 标注者: 原始问答对由1976年至今的美国英语使用者生成;众包评估受限于美国英语使用者,但未收集其他人口统计数据。
使用数据集的注意事项
社会影响
- 潜在敏感内容: 由于问题涉及原型/刻板印象活动,训练有素的模型可能会提供冒犯性答案。
偏见讨论
- 数据集偏见: 所有原始问题都是针对美国电视观众编写的,因此以特定视角描述原型情况。
其他已知限制
- 使用限制: 对于交互式“常识问答”用途,我们建议在使用此数据集之前进行更多偏见和刻板印象的研究。
附加信息
许可证信息
- 许可证: Creative Commons Attribution 4.0 International
引用信息
@InProceedings{ huggingface:dataset, title = {ProtoQA: A Question Answering Dataset for Prototypical Common-Sense Reasoning}, authors = {Michael Boratko, Xiang Lorraine Li, Tim O’Gorman, Rajarshi Das, Dan Le, Andrew McCallum}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {https://github.com/iesl/protoqa-data}, }



