ScienceQA|科学教育数据集|语言模型评估数据集
收藏ScienceQA 数据集概述
基本信息
- 数据集名称: ScienceQA
- 任务类型: 视觉问答(VQA)、科学推理(Scientific Reasoning)、开放领域(Open-Domain)、多模态(Multi-Modal)
- 相关论文: Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
- 项目页面: https://scienceqa.github.io
数据集特点
- 数据规模: 测试集包含4,241个完整样本和1,000个迷你样本
- 多模态特性: 包含文本(TXT)、图像(IMG)等多种模态数据
- 学科分类: 涵盖自然科学(NAT)、社会科学(SOC)、语言(LAN)等领域
- 教育分级: 包含G1-6和G7-12两个教育阶段的问题
评估指标
- 人类表现基准: 88.40%准确率
- 随机猜测基准: 39.83%准确率
- 主要评估维度:
- 学科分类准确率(NAT/SOC/LAN)
- 模态类型准确率(TXT/IMG/NO)
- 教育阶段准确率(G1-6/G7-12)
模型表现
- 当前最佳模型: Mutimodal-T-SciQ_Large (96.18%准确率)
- 代表性模型:
- MC-CoT_F-Large (94.88%)
- Honeybee (Vicuna-13B) (94.39%)
- LLaVA (GPT-4 judge) (92.53%)
数据集影响力
- 被引用情况:
- 被Google内部文档引用
- 被50+模型作为基准测试集
- 被HuggingFace、OpenDataLab等平台收录
- 下载量:
- 2023年3月: 377次(HuggingFace)
- 2023年4月: 1,421次(HuggingFace)
相关资源
- 交互式排行榜: https://scienceqa.github.io/leaderboard.html
- 数据集地址:

中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录