R1-Onevision-converted

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/Quinn777/R1-Onevision-converted

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多模态视觉-语言数据集集合，包含多个不同的视觉理解任务，例如几何推理、数学推理、视觉问答等，已转换为统一的Parquet格式。数据集包含22个子集，每个子集针对不同的任务类型，如图标问答、表格问答、科学问答等。

创建时间：

2025-11-03

原始信息汇总

R1-Onevision-converted 数据集概述

基本信息

数据集名称: R1-Onevision-converted
总大小: 2.98 GB
数据格式: Parquet
语言: 英语、中文
任务类别: 视觉问答、图像到文本、问答
标签: 多模态、视觉、VQA、OCR
规模分类: 1M<n<10M
子集数量: 22个

数据集子集

几何推理

Geometry3K(MathV360K): 3000个几何问题数据集
geo170k(qa): 170K几何问题问答
geomverse: 多样化几何问题
intergps: 交互式几何问题求解

数学推理

IconQA(MathV369K): 图标问答数据集

视觉问答

VizWiz(MathV360K): 视障人士提出的真实世界问题
visual7w(cauldron,llava_format): Visual7W视觉问答数据集

图表理解

ai2d(internvl): AI2图表数据集（InternVL格式）
ai2d: AI2图表数据集
chart2text: 图表描述生成
infographic(gpt4v): GPT-4V标注的信息图数据集
infographic_vqa: 信息图表问答

文档理解

doc_vqa: 文档视觉问答

条形图问答

dvqa(cauldron,llava_format): 条形图视觉问答

图标问答

iconqa(cauldron,llava_format): 图标识别与推理

科学问答

scienceqa(cauldron,llava_format): 多模态科学问题
scienceqa(nona_context): 无上下文的科学问题

屏幕理解

screen2words: UI/屏幕截图描述

视觉文本

vistext: 图表到文本的转换

抽象推理

raven: 抽象视觉推理数据集

表格问答

robut_WTQ: 鲁棒性表格问答数据集

空间关系推理

vsr(cauldron,llava_format): 空间关系推理

数据格式

image: 图像数据或图像路径
conversations: 对话格式的问答对
question: 问题文本
answer: 答案文本
其他任务特定字段

适用场景

多模态大语言模型训练
视觉问答系统开发
文档理解与OCR
图表与信息图解析
数学和几何推理
UI/UX理解

许可证

请参考原始数据集的许可证，使用本数据集时需遵守相应的使用条款。

注意事项

此数据集为转换格式版本，原始数据集权利归原作者所有。

搜集汇总

数据集介绍

构建方式

在视觉语言多模态研究领域，R1-Onevision-converted数据集通过系统整合22个异构子集构建而成，涵盖几何推理、图表理解、文档问答等多样化任务。构建过程中，原始数据被统一转换为Parquet格式，确保数据结构的规范性与高效存取。每个子集均经过精心筛选与标准化处理，保留了原始任务的语义完整性与视觉关联特征，为多模态模型训练提供了坚实的数据基础。

特点

该数据集以其广泛的任务覆盖和规模优势脱颖而出，囊括从抽象几何推理到真实场景视觉问答的多元内容。其多语言支持与百万级样本量构成了丰富的语义空间，而统一的数据格式则显著提升了跨任务研究的便捷性。特别值得注意的是，子集间既保持领域特异性又具备结构一致性，这种平衡使得数据集既能满足垂直领域的深度探索，又支持跨模态任务的对比研究。

使用方法

研究者可通过HuggingFace数据集库灵活调用该资源，支持整体加载或按子集粒度获取。对于大规模训练场景，流式加载机制能有效管理内存消耗，而模块化的数据文件结构允许研究者根据任务需求自由组合子集。数据字段设计兼顾通用性与扩展性，既包含标准化的问答对话格式，也保留各子集特有的语义标签，为不同阶段的模型实验提供适配接口。

背景与挑战

背景概述

多模态人工智能研究正逐步突破单一模态的技术壁垒，R1-Onevision-converted数据集作为集成型视觉语言基准应运而生。该数据集由研究团队通过系统整合22个异构子集构建而成，涵盖几何推理、图表解析、文档问答等多元任务场景，其数据规模达到百万级别，采用统一的Parquet格式实现多源数据的标准化管理。这种综合性资源为探索视觉与语言的交叉认知机制提供了实验基础，尤其推动了大语言模型在跨模态理解方面的能力边界拓展。

当前挑战

在视觉语言融合领域，模型需同时攻克图像语义解析与自然语言生成的协同难题，例如几何问题的空间关系推理、信息图表的抽象特征提取等特定任务。数据集构建过程中面临多重技术挑战：原始数据源具有异构的标注规范和任务定义，需设计通用转换框架保持语义一致性；部分子集如VizWiz源自真实视障场景，存在图像质量不均与问题表述模糊现象；跨领域知识的融合要求模型具备从数学符号到界面元素的泛化理解能力，这对多模态表征学习提出了更高要求。

常用场景

经典使用场景

在视觉语言多模态研究领域，R1-Onevision-converted数据集凭借其涵盖几何推理、图表解析及文档问答等22个子集的丰富结构，为模型跨任务泛化能力评估提供了标准基准。该数据集通过统一的Parquet格式整合了Geometry3K、VizWiz等经典任务，支持研究者系统验证模型在复杂视觉语义理解场景中的表现，尤其在处理几何图形推导与真实世界视觉障碍辅助问答方面展现出独特价值。

解决学术问题

该数据集有效应对了多模态学习中任务碎片化的核心挑战，通过标准化格式弥合了数学推理、空间关系建模等独立研究领域的鸿沟。其子集如Geo170k与Raven分别针对几何定理证明与抽象逻辑推理的算法瓶颈，为端到端视觉语言模型提供了可量化的评估框架，显著推进了认知启发的人工智能理论发展，并促进了跨模态语义对齐机制的深入研究。

衍生相关工作

基于该数据集衍生的研究已形成系列突破性成果，例如结合Geometry3K的神经符号推理框架、借鉴ScienceQA设计的课程学习策略，以及受Visual7W启发的层次化注意力机制。这些工作不仅完善了多模态预训练范式，更催生了如Cauldron、LLaVA等开源项目，构建起连接学术探索与工程实践的技术生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集