derek-thomas/ScienceQA|科学问答数据集|多模态推理数据集
收藏数据集概述
数据集名称: ScienceQA
数据集大小: 27263474 字节
下载大小: 0 字节
语言: 英语
多语言性: 单语
许可: CC-BY-SA-4.0
任务类别:
- 多项选择
- 问答
- 其他
- 视觉问答
- 文本分类
任务ID:
- 多项选择QA
- 封闭领域QA
- 开放领域QA
- 视觉问答
- 多类分类
标签:
- 多模态QA
- 科学
- 化学
- 生物学
- 物理学
- 地球科学
- 工程
- 地理
- 历史
- 世界历史
- 公民学
- 经济学
- 全球研究
- 语法
- 写作
- 词汇
- 自然科学
- 语言科学
- 社会科学
数据集结构
数据实例: 每个实例包含以下字段:
image
:上下文图像question
:与lecture
相关的提示choices
:与question
相关的多选项答案,其中1个正确answer
:对应正确答案的选项索引hint
:帮助回答question
的提示task
:任务描述grade
:K-12年级水平subject
:高级别科目topic
:自然科学、社会科学或语言科学category
:topic
的子类别skill
:任务要求的描述lecture
:question
生成相关的讲座solution
:解决question
的说明
数据分割:
train
:12726个实例,16416902字节validation
:4241个实例,5404896字节test
:4241个实例,5441676字节
数据集创建
来源数据: 数据集收集自小学和高中的科学课程。
注释过程: 问题来自IXL Learning的开放资源,由K-12教育领域的专家管理。数据集包括符合加州共同核心内容标准的问题。通过下载原始科学问题并根据启发式规则提取各个组件(如问题、提示、图像、选项、答案、讲座和解决方案)来构建ScienceQA。手动删除无效问题,如只有一个选项的问题、包含错误数据的问题和重复问题,以遵守公平使用和转换使用的法律。如果适用多个正确答案,则只保留一个正确答案。还对每个问题的答案选项进行洗牌,以确保选项不遵循任何特定模式。使用半自动脚本重新格式化讲座和解决方案,使文本中的特殊结构(如表格和列表)易于与简单文本段落区分。
注释者: 专家生成和发现。

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
Cifar-100
Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。
www.cs.toronto.edu 收录