allenai/sciq|科学教育数据集|自然语言处理数据集

hugging_face2024-01-04 更新2024-03-04 收录

科学教育

自然语言处理

下载链接：

https://hf-mirror.com/datasets/allenai/sciq

下载链接

链接失效反馈

资源简介：

SciQ数据集包含13,679个由众包方式产生的科学考试问题，涵盖物理、化学和生物等多个科学领域。每个问题都是多选题形式，包含四个选项，其中一个是正确答案，并附有支持正确答案的证据段落。该数据集主要用于训练和评估机器学习模型在封闭领域问答任务上的性能。

提供机构：

allenai

原始信息汇总

数据集概述

基本信息

数据集名称: SciQ
语言: 英语 (en)
许可证: Creative Commons Attribution-NonCommercial 3.0 Unported License (cc-by-nc-3.0)
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 问答 (question-answering)
任务ID: 封闭领域问答 (closed-domain-qa)
论文代码ID: sciq
美观名称: SciQ

数据集结构

特征:
- question: 字符串类型
- distractor3: 字符串类型
- distractor1: 字符串类型
- distractor2: 字符串类型
- correct_answer: 字符串类型
- support: 字符串类型
数据分割:
- train: 11679个样本，6546183字节
- validation: 1000个样本，554120字节
- test: 1000个样本，563927字节

数据集创建

语言创建者: 众包
注释创建者: 无注释

使用考虑

许可证信息: 数据集根据Creative Commons Attribution-NonCommercial 3.0 Unported License授权。

引用信息

@inproceedings{SciQ, title={Crowdsourcing Multiple Choice Science Questions}, author={Johannes Welbl, Nelson F. Liu, Matt Gardner}, year={2017}, journal={arXiv:1707.06209v1} }

贡献者

AI搜集汇总

数据集介绍

构建方式

SciQ数据集通过搜集众包的科学试题构建而成，涵盖了物理、化学和生物学等多个科学领域。该数据集包含13,679个多项选择题，每个问题有四个选项，并伴有正确答案的支撑证据段落。数据集分为训练集、验证集和测试集，分别包含11679、1000和1000个问题实例。

使用方法

使用SciQ数据集时，用户需遵循相应的许可证规定。数据集可通过HuggingFace的dataset库进行下载和加载。加载后，用户可以根据需要访问问题、选项、正确答案以及答案的支撑证据等字段，进行封闭域问答等任务的训练和评估。

背景与挑战

背景概述

SciQ数据集，由Allen Institute for Artificial Intelligence（AI2）的研究团队于2017年创建，旨在为自然语言处理和机器学习领域提供一项挑战，即科学知识问答任务。该数据集汇集了13,679个众包的科学选择题，内容涉及物理、化学和生物学等多个学科领域，并提供了支持正确答案的额外证据段落。SciQ数据集以其独特的科学问题收集和格式化方式，对科学知识问答领域的研究产生了显著影响，为模型训练和评估提供了宝贵的资源。

当前挑战

SciQ数据集面临的挑战主要包括：1) 领域知识的深度和广度问题，需要模型具备较强的科学知识理解能力；2) 数据构建过程中的众包方式可能引入噪声和偏差，影响数据质量；3) 多选题形式要求模型不仅能理解问题，还要在多个干扰项中准确识别正确答案；4) 数据集的多样性和公平性问题，如何确保数据覆盖不同知识层次和背景的学习者。

常用场景

经典使用场景

在科学知识问答系统的构建与评估领域，SciQ数据集被广泛作为基准测试集使用，其包含的物理、化学和生物学等科学领域的问题，以多项选择题的形式呈现，为模型提供了丰富的训练和验证场景。

解决学术问题

SciQ数据集有效解决了科学知识问答研究中的数据缺乏问题，为研究者提供了一个大规模、 crowdsourced的科学问题库，从而推动了相关模型的性能提升和算法改进。

实际应用

在实际应用中，SciQ数据集可用于教育科技产品的开发，如在线学习平台中的智能辅导系统，以帮助学生通过互动式问答加深对科学概念的理解。

数据集最近研究

最新研究方向

在知识问答领域，SciQ数据集以其高质量的科普题目及解答，成为自然语言处理任务中闭域问答研究的重点。近期研究主要围绕提升模型对复杂科学概念的理解和准确回答能力，涉及多模型融合、上下文信息利用等策略。这些研究对于推动教育辅助技术的发展，提高在线学习效率具有显著意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果，涵盖了12个量子化学性质，如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录

LUNA16

LUNA16（肺结节分析）数据集是用于肺分割的数据集。它由 1,186 个肺结节组成，在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录