allenai/sciq|科学教育数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 数据集名称: SciQ
- 语言: 英语 (en)
- 许可证: Creative Commons Attribution-NonCommercial 3.0 Unported License (cc-by-nc-3.0)
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 问答 (question-answering)
- 任务ID: 封闭领域问答 (closed-domain-qa)
- 论文代码ID: sciq
- 美观名称: SciQ
数据集结构
-
特征:
question
: 字符串类型distractor3
: 字符串类型distractor1
: 字符串类型distractor2
: 字符串类型correct_answer
: 字符串类型support
: 字符串类型
-
数据分割:
train
: 11679个样本,6546183字节validation
: 1000个样本,554120字节test
: 1000个样本,563927字节
数据集创建
- 语言创建者: 众包
- 注释创建者: 无注释
使用考虑
- 许可证信息: 数据集根据Creative Commons Attribution-NonCommercial 3.0 Unported License授权。
引用信息
@inproceedings{SciQ, title={Crowdsourcing Multiple Choice Science Questions}, author={Johannes Welbl, Nelson F. Liu, Matt Gardner}, year={2017}, journal={arXiv:1707.06209v1} }
贡献者
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录