GEM/FairytaleQA|童话故事数据集|问答系统数据集
收藏FairytaleQA 数据集概述
数据集描述
- 名称: FairytaleQA
- 语言: 英语
- 许可: 未知
- 任务类别: 其他
- 任务ID: 无
- 数据集大小: 未知
- 多语言性: 否
- 源数据集: 原始
- 注释创建者: 专家创建
- 数据集创建者: Ying Xu (University of California Irvine); Dakuo Wang (IBM Research); Mo Yu (IBM Research); 等
- 资金来源: Schmidt Futures
- 数据集主页: GEM Website
- 数据集存储库: Github
- 数据集论文: ArXiv
- 联系人: Ying Xu, Dakuo Wang
- 联系邮箱: ying.xu@uci.edu, dakuo.wang@ibm.com
- 是否包含排行榜: 是
- 排行榜链接: PapersWithCode
数据集概要
FairytaleQA 数据集是一个专注于幼儿园至八年级学生叙事理解能力的英语数据集。该数据集由教育专家基于证据理论框架生成,包含10,580个明确和隐含的问题,源自278个适合儿童的故事,涵盖七种类型的叙事元素或关系。数据集经过校正,支持问题生成和问题回答任务。
数据集结构
-
数据字段:
story_name
: 故事名称content
: 故事内容question
: 问题内容answer
: 答案内容gem_id
: GEM命名规则的IDtarget
: 用于训练的问题内容references
: 用于自动评估的问题内容列表local_or_sum
: 本地或摘要,指示QA是否与一个故事部分或多个部分相关attribute
: 通过教育专家注释者分类的QA,基于7个叙事元素的框架ex_or_im
: 明确或隐含,指示答案是否可以直接在故事内容中找到
-
数据分割:
- 训练: 8548个QA对
- 验证: 1025个QA对
- 测试: 1007个QA对
数据集用途
该数据集旨在帮助开发系统,以促进教育领域儿童叙事理解技能的评估和培训。数据集适合开发模型,自动生成满足持续供应新问题需求的问题和QA对,这可能促进大规模AI支持的交互平台的发展,用于阅读理解技能的学习和评估。
数据集在GEM中的包含理由
数据集区分了细粒度的阅读技能,如对不同叙事元素的理解,并包含由教育专家生成的高质量QA对,这些专家具有足够的培训和教育领域知识,以一致的方式创建有效的QA对。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T
该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。
github 收录
人民日报语料库
该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
REFIT Smart Home dataset
REFIT Smart Home数据集是一个公开可用的智能家居数据集。
github 收录