Open-MM-Recipe-Image

Hugging Face2025-06-19 更新2025-06-20 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/Open-MM-Recipe-Image

下载链接

链接失效反馈

官方服务：

资源简介：

README文件中详细描述了多个数据集的配置信息、特征和数据分片。数据集主要包含图像、问题和答案特征，具有不同的数据大小和示例数量。每个数据集都按照不同的配置名称命名和组织，每个配置名称下有特定的训练数据路径。

创建时间：

2025-06-18

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Open-MM-Recipe-Image
数据集地址：https://huggingface.co/datasets/lmms-lab/Open-MM-Recipe-Image

数据集配置

数据集包含多个配置，每个配置包含不同的数据子集和特征。

配置列表

AI2D_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：3,088 个样本，150.77 MB
- 下载大小：50.95 MB
AceReason-Math
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：49,585 个样本，14.05 MB
- 下载大小：8.55 MB
CLEVR-70k-Complex
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：70,000 个样本，10.43 GB
- 下载大小：6.91 GB
CLEVR-70k-Counting
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：70,000 个样本，10.44 GB
- 下载大小：10.43 GB
DeepMath-103K
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：103,022 个样本，22.74 MB
- 下载大小：14.95 MB
FigureQA_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：1,327,368 个样本，28.07 GB
- 下载大小：2.27 GB
GEOQA_R1V_Train_8K
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：8,031 个样本，59.06 MB
- 下载大小：57.65 MB
GuardReasoner-VLTrain
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：
  - Image: 13,264 个样本，2.03 GB
  - Text: 63,799 个样本，155.01 MB
  - TextImage: 46,030 个样本，1.18 GB
- 下载大小：5.64 GB
- 总数据集大小：3.37 GB
LIMO
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：817 个样本，275.29 KB
- 下载大小：171.08 KB
MMK12
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：15,616 个样本，1.31 GB
- 下载大小：1.31 GB
MMK12(10rows)
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：10 个样本，507.43 KB
- 下载大小：508.00 KB
MMMU_STEM_Analysis
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：3,852 个样本，394.86 MB
- 下载大小：269.86 MB
MMR1_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：5,782 个样本，413.40 MB
- 下载大小：158.37 MB
MM_Eureka_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：54,931 个样本，2.24 GB
- 下载大小：2.31 GB
MathVision_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：2,692 个样本，45.59 MB
- 下载大小：41.76 MB
MoDoMoDo
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：
  - geoqav_problems_dataset: 1,969 个样本，48.87 MB
  - scienceqa_problems_dataset: 6,218 个样本，407.32 MB
  - lisa_problems_dataset: 1,326 个样本，672.62 MB
  - sat_problems_dataset: 15,000 个样本，3.10 GB
  - sat_problems_dataset_mini: 64 个样本，36.77 MB
- 下载大小：4.05 GB
- 总数据集大小：4.26 GB
OpenCodeReasoning
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：
  - python: 1,398,166 个样本，4.03 GB
  - cpp: 1,174,475 个样本，2.98 GB
- 下载大小：3.39 GB
- 总数据集大小：7.01 GB
OpenMathReasoning
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：
  - cot: 3,201,061 个样本，731.48 MB
  - tir: 1,718,466 个样本，348.86 MB
  - genselect: 565,620 个样本，5.38 GB
  - additional_problems: 193,170 个样本，51.88 MB
- 下载大小：2.51 GB
- 总数据集大小：6.51 GB
OpenThink-Img-Chart-RL
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：14,501 个样本，720.36 MB
- 下载大小：394.71 MB
ScienceQA_train
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：5,075 个样本，93.45 MB
- 下载大小：83.71 MB
Skywork-OR1-RL-Data
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：
  - math: 105,055 个样本，30.65 MB
  - code: 14,057 个样本，1.47 GB
- 下载大小：826.16 MB
- 总数据集大小：1.50 GB
SophiaVL-R1-130k
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：
  - ocr: 15,886 个样本，82.20 MB
  - general: 14,987 个样本，2.97 GB
  - knowledge: 38,404 个样本，6.48 GB
  - math: 42,124 个样本，8.01 GB
  - chart: 21,528 个样本，916.32 MB
- 下载大小：14.05 GB
- 总数据集大小：18.46 GB
ThinkLite_VL_70k
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：69,996 个样本，5.75 GB
- 下载大小：5.73 GB
ThinkLite_VL_hard_11k
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：11,031 个样本，1.65 GB
- 下载大小：1.64 GB
UI-R1
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：136 个样本，206.42 MB
- 下载大小：165.92 MB
VLAA-Thinking
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：21,195 个样本，3.17 GB
- 下载大小：2.54 GB
VLM-R1
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：
  - refcoco_train: 120,624 个样本，21.38 GB
  - refcocop_train: 120,191 个样本，21.29 GB
  - refcocog_train: 80,512 个样本，13.53 GB
- 下载大小：13.36 GB
- 总数据集大小：56.21 GB
VerMulti
- 特征：image (sequence: image), problem (string), answer (string)
- 训练集：19,810 个样本，195.09 MB
- 下载大小：165.50 MB
VerMulti(10rows)
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：10 个样本，669.80 KB
- 下载大小：671.99 KB
ViRFT
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：6,000 个样本，3.26 GB
- 下载大小：3.25 GB
VisualSphinx
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：20,000 个样本，1.18 GB
- 下载大小：1.17 GB
deepscaler
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：40,309 个样本，10.81 MB
- 下载大小：6.92 MB
geometry3k
- 特征：images (sequence: image), problem (string), answer (string)
- 训练集：2,101 个样本，42.54 MB
- 下载大小：41.46 MB
natural_reasoning
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：1,145,824 个样本，523.70 MB
- 下载大小：338.20 MB
s1k-1.1
- 特征：problem (string), answer (string), images (sequence: image)
- 训练集：1,000 个样本，1.47 MB
- 下载大小：801.14 KB

搜集汇总

数据集介绍

构建方式

Open-MM-Recipe-Image数据集通过整合多模态学习资源，构建了一个涵盖数学推理、视觉问答和代码解析等领域的综合数据集。该数据集采用结构化设计，每个条目包含图像序列、问题描述和标准答案三个核心特征，通过自动化爬取和人工校验相结合的方式确保数据质量。数据来源涵盖AI2D、CLEVR、ScienceQA等知名基准数据集，并按照不同任务类型划分为28个独立子集，形成模块化的数据架构。

使用方法

使用该数据集时，建议通过HuggingFace数据集库进行加载，调用load_dataset('Open-MM-Recipe-Image')即可访问所有子集。针对不同研究需求，可通过config_name参数选择特定领域数据，如AI2D_train用于图表理解，OpenCodeReasoning专注编程问题求解。数据加载后自动转换为适合PyTorch/TensorFlow处理的格式，图像数据以PIL对象或NumPy数组形式呈现，文本字段保留原始编码便于进行多模态对齐研究。

背景与挑战

背景概述

Open-MM-Recipe-Image数据集是一个专注于多模态学习领域的数据集，旨在解决图像与文本结合的复杂推理问题。该数据集由多个子集构成，涵盖了数学推理、科学问答、几何问题等多个领域，展示了跨学科的研究价值。其创建背景源于对现有单模态数据集的局限性认识，研究人员希望通过整合视觉与语言信息，推动多模态推理模型的发展。数据集中的每个样本都包含图像、问题文本及对应答案，为模型训练提供了丰富的上下文信息。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。在领域问题方面，多模态推理任务要求模型同时理解视觉内容与文本语义，这对算法的跨模态对齐能力提出了极高要求。数据构建过程中，如何确保图像与文本问题的高质量匹配成为关键难题，需要专业领域知识进行严格标注。此外，不同子集间的数据分布差异也为模型的泛化性能带来了挑战。

常用场景

经典使用场景

在视觉推理和跨模态理解领域，Open-MM-Recipe-Image数据集通过整合图像与文本问题对，为研究者提供了丰富的多模态学习资源。其经典使用场景包括视觉问答系统开发，模型通过解析图像内容与关联文本问题，生成准确答案。该数据集特别适用于测试模型在复杂视觉场景下的推理能力，例如图表解析、几何问题求解等任务。

解决学术问题

该数据集有效解决了多模态学习中视觉与语言对齐的难题，为研究跨模态表示学习提供了标准基准。通过提供结构化的图像-问题-答案三元组，它支持研究者探索视觉推理中的注意力机制、知识迁移等核心问题。在认知计算领域，该数据集帮助验证了人类级视觉理解能力的可计算性假设，推动了神经符号集成方法的发展。

实际应用

在教育科技领域，该数据集支撑了智能解题系统的开发，能够自动解析数学几何题目中的图表信息。工业界利用其构建了文档智能处理系统，特别是对包含复杂图表的技术手册进行语义理解。医疗领域则借鉴其多模态处理框架，开发医学影像报告生成系统，显著提升了诊断效率。

数据集最近研究