Open-MM-Recipe-Image
收藏Hugging Face2025-06-19 更新2025-06-20 收录
下载链接:
https://huggingface.co/datasets/lmms-lab/Open-MM-Recipe-Image
下载链接
链接失效反馈官方服务:
资源简介:
README文件中详细描述了多个数据集的配置信息、特征和数据分片。数据集主要包含图像、问题和答案特征,具有不同的数据大小和示例数量。每个数据集都按照不同的配置名称命名和组织,每个配置名称下有特定的训练数据路径。
创建时间:
2025-06-18
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:Open-MM-Recipe-Image
- 数据集地址:https://huggingface.co/datasets/lmms-lab/Open-MM-Recipe-Image
数据集配置
数据集包含多个配置,每个配置包含不同的数据子集和特征。
配置列表
-
AI2D_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:3,088 个样本,150.77 MB
- 下载大小:50.95 MB
-
AceReason-Math
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:49,585 个样本,14.05 MB
- 下载大小:8.55 MB
-
CLEVR-70k-Complex
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:70,000 个样本,10.43 GB
- 下载大小:6.91 GB
-
CLEVR-70k-Counting
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:70,000 个样本,10.44 GB
- 下载大小:10.43 GB
-
DeepMath-103K
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:103,022 个样本,22.74 MB
- 下载大小:14.95 MB
-
FigureQA_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:1,327,368 个样本,28.07 GB
- 下载大小:2.27 GB
-
GEOQA_R1V_Train_8K
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:8,031 个样本,59.06 MB
- 下载大小:57.65 MB
-
GuardReasoner-VLTrain
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:
- Image: 13,264 个样本,2.03 GB
- Text: 63,799 个样本,155.01 MB
- TextImage: 46,030 个样本,1.18 GB
- 下载大小:5.64 GB
- 总数据集大小:3.37 GB
-
LIMO
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:817 个样本,275.29 KB
- 下载大小:171.08 KB
-
MMK12
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:15,616 个样本,1.31 GB
- 下载大小:1.31 GB
-
MMK12(10rows)
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:10 个样本,507.43 KB
- 下载大小:508.00 KB
-
MMMU_STEM_Analysis
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:3,852 个样本,394.86 MB
- 下载大小:269.86 MB
-
MMR1_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:5,782 个样本,413.40 MB
- 下载大小:158.37 MB
-
MM_Eureka_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:54,931 个样本,2.24 GB
- 下载大小:2.31 GB
-
MathVision_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:2,692 个样本,45.59 MB
- 下载大小:41.76 MB
-
MoDoMoDo
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:
- geoqav_problems_dataset: 1,969 个样本,48.87 MB
- scienceqa_problems_dataset: 6,218 个样本,407.32 MB
- lisa_problems_dataset: 1,326 个样本,672.62 MB
- sat_problems_dataset: 15,000 个样本,3.10 GB
- sat_problems_dataset_mini: 64 个样本,36.77 MB
- 下载大小:4.05 GB
- 总数据集大小:4.26 GB
-
OpenCodeReasoning
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:
- python: 1,398,166 个样本,4.03 GB
- cpp: 1,174,475 个样本,2.98 GB
- 下载大小:3.39 GB
- 总数据集大小:7.01 GB
-
OpenMathReasoning
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:
- cot: 3,201,061 个样本,731.48 MB
- tir: 1,718,466 个样本,348.86 MB
- genselect: 565,620 个样本,5.38 GB
- additional_problems: 193,170 个样本,51.88 MB
- 下载大小:2.51 GB
- 总数据集大小:6.51 GB
-
OpenThink-Img-Chart-RL
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:14,501 个样本,720.36 MB
- 下载大小:394.71 MB
-
ScienceQA_train
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:5,075 个样本,93.45 MB
- 下载大小:83.71 MB
-
Skywork-OR1-RL-Data
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:
- math: 105,055 个样本,30.65 MB
- code: 14,057 个样本,1.47 GB
- 下载大小:826.16 MB
- 总数据集大小:1.50 GB
-
SophiaVL-R1-130k
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:
- ocr: 15,886 个样本,82.20 MB
- general: 14,987 个样本,2.97 GB
- knowledge: 38,404 个样本,6.48 GB
- math: 42,124 个样本,8.01 GB
- chart: 21,528 个样本,916.32 MB
- 下载大小:14.05 GB
- 总数据集大小:18.46 GB
-
ThinkLite_VL_70k
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:69,996 个样本,5.75 GB
- 下载大小:5.73 GB
-
ThinkLite_VL_hard_11k
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:11,031 个样本,1.65 GB
- 下载大小:1.64 GB
-
UI-R1
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:136 个样本,206.42 MB
- 下载大小:165.92 MB
-
VLAA-Thinking
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:21,195 个样本,3.17 GB
- 下载大小:2.54 GB
-
VLM-R1
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:
- refcoco_train: 120,624 个样本,21.38 GB
- refcocop_train: 120,191 个样本,21.29 GB
- refcocog_train: 80,512 个样本,13.53 GB
- 下载大小:13.36 GB
- 总数据集大小:56.21 GB
-
VerMulti
- 特征:image (sequence: image), problem (string), answer (string)
- 训练集:19,810 个样本,195.09 MB
- 下载大小:165.50 MB
-
VerMulti(10rows)
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:10 个样本,669.80 KB
- 下载大小:671.99 KB
-
ViRFT
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:6,000 个样本,3.26 GB
- 下载大小:3.25 GB
-
VisualSphinx
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:20,000 个样本,1.18 GB
- 下载大小:1.17 GB
-
deepscaler
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:40,309 个样本,10.81 MB
- 下载大小:6.92 MB
-
geometry3k
- 特征:images (sequence: image), problem (string), answer (string)
- 训练集:2,101 个样本,42.54 MB
- 下载大小:41.46 MB
-
natural_reasoning
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:1,145,824 个样本,523.70 MB
- 下载大小:338.20 MB
-
s1k-1.1
- 特征:problem (string), answer (string), images (sequence: image)
- 训练集:1,000 个样本,1.47 MB
- 下载大小:801.14 KB
搜集汇总
数据集介绍

构建方式
Open-MM-Recipe-Image数据集通过整合多模态学习资源,构建了一个涵盖数学推理、视觉问答和代码解析等领域的综合数据集。该数据集采用结构化设计,每个条目包含图像序列、问题描述和标准答案三个核心特征,通过自动化爬取和人工校验相结合的方式确保数据质量。数据来源涵盖AI2D、CLEVR、ScienceQA等知名基准数据集,并按照不同任务类型划分为28个独立子集,形成模块化的数据架构。
使用方法
使用该数据集时,建议通过HuggingFace数据集库进行加载,调用load_dataset('Open-MM-Recipe-Image')即可访问所有子集。针对不同研究需求,可通过config_name参数选择特定领域数据,如AI2D_train用于图表理解,OpenCodeReasoning专注编程问题求解。数据加载后自动转换为适合PyTorch/TensorFlow处理的格式,图像数据以PIL对象或NumPy数组形式呈现,文本字段保留原始编码便于进行多模态对齐研究。
背景与挑战
背景概述
Open-MM-Recipe-Image数据集是一个专注于多模态学习领域的数据集,旨在解决图像与文本结合的复杂推理问题。该数据集由多个子集构成,涵盖了数学推理、科学问答、几何问题等多个领域,展示了跨学科的研究价值。其创建背景源于对现有单模态数据集的局限性认识,研究人员希望通过整合视觉与语言信息,推动多模态推理模型的发展。数据集中的每个样本都包含图像、问题文本及对应答案,为模型训练提供了丰富的上下文信息。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的复杂性与数据构建的技术难度。在领域问题方面,多模态推理任务要求模型同时理解视觉内容与文本语义,这对算法的跨模态对齐能力提出了极高要求。数据构建过程中,如何确保图像与文本问题的高质量匹配成为关键难题,需要专业领域知识进行严格标注。此外,不同子集间的数据分布差异也为模型的泛化性能带来了挑战。
常用场景
经典使用场景
在视觉推理和跨模态理解领域,Open-MM-Recipe-Image数据集通过整合图像与文本问题对,为研究者提供了丰富的多模态学习资源。其经典使用场景包括视觉问答系统开发,模型通过解析图像内容与关联文本问题,生成准确答案。该数据集特别适用于测试模型在复杂视觉场景下的推理能力,例如图表解析、几何问题求解等任务。
解决学术问题
该数据集有效解决了多模态学习中视觉与语言对齐的难题,为研究跨模态表示学习提供了标准基准。通过提供结构化的图像-问题-答案三元组,它支持研究者探索视觉推理中的注意力机制、知识迁移等核心问题。在认知计算领域,该数据集帮助验证了人类级视觉理解能力的可计算性假设,推动了神经符号集成方法的发展。
实际应用
在教育科技领域,该数据集支撑了智能解题系统的开发,能够自动解析数学几何题目中的图表信息。工业界利用其构建了文档智能处理系统,特别是对包含复杂图表的技术手册进行语义理解。医疗领域则借鉴其多模态处理框架,开发医学影像报告生成系统,显著提升了诊断效率。
数据集最近研究
最新研究方向
在视觉-语言多模态推理领域,Open-MM-Recipe-Image数据集正推动着跨模态理解技术的边界拓展。其独特的图文对结构为研究视觉问答(VQA)、图表解析以及数学推理等任务提供了丰富资源,尤其在复杂逻辑推理和知识迁移方面展现出独特价值。当前研究热点聚焦于多模态大模型的微调策略,通过对比学习增强图像与文本的语义对齐能力,同时探索符号推理与神经网络结合的混合架构。该数据集在推动教育智能化、自动解题系统等应用场景中具有显著潜力,其大规模标注数据也为少样本学习提供了重要基准。
以上内容由遇见数据集搜集并总结生成



