SolidGeo|数学教育数据集|机器学习数据集
收藏SolidGeo数据集概述
基本信息
- 许可证: CC-BY-4.0
- 任务类别: 问答、多选、视觉问答、文本分类
- 语言: 英文、中文
- 标签: 推理、数学、多模态问答、数学问答、几何问答、视觉问答、几何推理、几何图表、文档图像、空间理解、算术推理
- 数据集名称: SolidGeo
- 规模: 1K<n<10K
- 配置: 默认配置
- 数据文件:
- 训练集: data/train-*
- 训练集样本数: 3,113
- 训练集大小: 3,183,132字节
- 下载大小: 1,165,152字节
- 数据集大小: 3,183,132字节
- 数据文件:
数据集描述
SolidGeo是首个专门用于评估多模态大语言模型(MLLMs)在立体几何数学推理任务上性能的大规模基准数据集。数据集包含3,113个真实世界的K–12和竞赛级别问题,每个问题配有视觉上下文,并标注了3个难度级别和8个细粒度立体几何类别。数据集涵盖广泛的3D推理主题,如投影、展开、空间测量和空间向量,为评估立体几何提供了一个严格的测试平台。
数据集特征
- 问题: 字符串类型,问题文本
- 选项: 字符串序列,部分问题的选项
- 图像: 字符串序列,问题文本中使用的图像文件路径列表
- 答案: 字符串类型,问题的最终答案,以LaTeX格式提供
- 解决方案: 字符串序列,可选的问题解决步骤列表
- 答案类型: 字符串类型,答案格式:"single_step"、"multi_step"、"choice"
- 问题类型: 字符串序列,数学问题分类
- 复杂度级别: 字符串类型,难度级别:"Level 1"、"Level 2"、"Level 3"
- 来源: 字符串类型,问题的来源
- 问答ID: 整数类型,问题-答案对的唯一标识符
数据集示例
数据集包含多种立体几何问题的示例,如:
- 立体几何形式的测量
- 立体形状识别
- 空间度量关系
- 多视图投影
- 平面展开与配置
- 复合立体结构
- 3D坐标与向量推理
- 立体几何建模
数据格式
数据以JSON格式存储,包含问题、选项、图像、答案、解决方案、答案类型、问题类型、复杂度级别、来源和问答ID等字段。
引用
如需使用该数据集,请关注相关论文的发布。

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
olympics.csv
该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。
github 收录
GHCN
GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。
www.ncei.noaa.gov 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录