remyxai/vqasynth_spacellava
收藏Hugging Face2024-10-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/remyxai/vqasynth_spacellava
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
list:
- name: content
list:
- name: index
dtype: int64
- name: text
dtype: string
- name: type
dtype: string
- name: role
dtype: string
- name: images
list: image
splits:
- name: train
num_bytes: 2436536154.535
num_examples: 25235
- name: test
num_bytes: 272317950.4
num_examples: 2804
download_size: 2689790918
dataset_size: 2708854104.935
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
tags:
- remyx
- synthetic
license: apache-2.0
task_categories:
- visual-question-answering
pretty_name: OpenSpaces
size_categories:
- 10K<n<100K
---
# VQASynth_spacellava

Uses the [VQASynth](https://github.com/remyxai/VQASynth) pipeline to synthesize spatialVQA samples, mixed with general VQA samples used to fine-tune LLaVA-v1.5-13b.
### 数据集信息
#### 特征(features):
1. 字段名:`messages`,类型为列表,其结构包含:
- 字段名:`content`,类型为列表,其元素包含:
- 字段名:`index`,数据类型:`int64`(64位整数)
- 字段名:`text`,数据类型:字符串
- 字段名:`type`,数据类型:字符串
- 字段名:`role`,数据类型:字符串
2. 字段名:`images`,类型为图像列表
#### 数据划分(splits):
- 划分名称:`train`(训练集),数据字节数:2436536154.535,样本数量:25235
- 划分名称:`test`(测试集),数据字节数:272317950.4,样本数量:2804
下载总大小:2689790918 字节,数据集存储总大小:2708854104.935 字节
#### 配置项(configs):
- 配置名称:`default`(默认配置),对应数据文件路径:
- 训练集:`data/train-*`
- 测试集:`data/test-*`
数据集标签(tags):`remyx`、`synthetic`(合成数据集)
开源许可证(license):Apache-2.0
任务类别(task_categories):视觉问答(Visual Question Answering, VQA)
公开展示名称(pretty_name):OpenSpaces
样本量区间(size_categories):10000 < 样本量 < 100000
---
# VQASynth_spacellava

本数据集依托[VQASynth](https://github.com/remyxai/VQASynth)处理流水线生成空间视觉问答(spatialVQA)样本,并结合通用视觉问答样本,用于微调LLaVA-v1.5-13b模型。
提供机构:
remyxai
原始信息汇总
数据集概述
数据集特征
-
messages
- content
- index: 数据类型为 int64
- text: 数据类型为 string
- type: 数据类型为 string
- role: 数据类型为 string
- content
-
images: 列表类型为 image
数据集分割
-
train
- num_bytes: 2436536154.535
- num_examples: 25235
-
test
- num_bytes: 272317950.4
- num_examples: 2804
数据集大小
- download_size: 2689790918
- dataset_size: 2708854104.935
数据文件配置
- config_name: default
- train: 路径为 data/train-*
- test: 路径为 data/test-*
搜集汇总
数据集介绍

构建方式
在视觉问答领域,合成数据的生成正成为弥补真实数据稀缺性的关键途径。VQASynth_spacellava数据集依托VQASynth技术框架,通过自动化流程合成空间视觉问答样本,并融合了用于微调LLaVA-v1.5-13b模型的通用视觉问答数据。其构建过程涉及从多样化的视觉场景中提取结构化信息,并生成与之对应的自然语言问答对,最终形成包含超过2.5万训练样本和2800余测试样本的规模,数据总量约2.7GB,确保了内容的丰富性与技术的前沿性。
特点
该数据集的核心特征在于其合成性与混合性设计。合成部分专注于空间关系的视觉问答,通过算法模拟人类对物体位置、方向及交互的认知;而混合的通用视觉问答样本则增强了任务的多样性。数据集以多模态形式组织,每条记录包含图像序列与结构化的对话消息,消息中明确了角色与内容类型,支持复杂的交互式视觉理解研究。这种设计不仅提升了数据的可控性与可扩展性,也为模型训练提供了精准的监督信号。
使用方法
使用本数据集时,研究者可将其直接应用于视觉问答模型的训练与评估,尤其适合空间推理能力的提升。数据以标准分割提供训练集与测试集,用户可通过HuggingFace平台加载,并利用其结构化特征字段进行多模态输入处理。在实际应用中,建议结合预训练视觉语言模型进行微调,以充分发挥合成数据在增强模型泛化性能方面的潜力,同时注意遵循Apache 2.0许可协议,确保使用的合规性与开放性。
背景与挑战
背景概述
在视觉语言多模态人工智能领域,视觉问答任务旨在使模型能够理解图像内容并回答相关问题。VQASynth_spacellava数据集由remyxai团队构建,其核心研究问题聚焦于提升模型对空间关系的理解能力,通过合成数据增强模型的泛化性能。该数据集融合了合成空间VQA样本与通用VQA样本,专门用于微调LLaVA-v1.5-13b模型,推动了多模态推理技术的发展,为复杂视觉场景理解提供了重要数据支撑。
当前挑战
视觉问答领域长期面临模型对空间关系理解不足的挑战,例如准确描述物体相对位置或方向。VQASynth_spacellava数据集通过合成数据生成应对这一难题,但在构建过程中需确保合成样本的多样性与真实性,避免引入偏差或噪声。同时,平衡合成数据与真实数据的比例,以及维持数据标注的语义一致性,亦是该数据集构建中的关键挑战。
常用场景
经典使用场景
在视觉语言多模态研究领域,VQASynth_spacellava数据集为空间视觉问答任务提供了关键支持。该数据集通过合成方法生成丰富的空间关系描述样本,结合通用视觉问答数据,常用于训练和评估多模态大语言模型在理解图像中物体位置、方向及相对关系方面的能力。研究人员利用其构建的对话式交互格式,模拟真实场景下的空间推理过程,推动模型在复杂视觉语境中的精准应答。
实际应用
在实际应用层面,VQASynth_spacellava数据集支撑着智能辅助系统与交互式机器人的开发。基于该数据集训练的模型能够准确解析用户关于环境布局的询问,例如在智能家居中指导物品定位,或在工业巡检中回答设备空间配置问题。其合成数据机制降低了真实标注成本,使系统能快速适应多样化的场景需求,提升人机交互的自然性与实用性。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态模型的架构优化与评估体系构建。研究者以LLaVA-v1.5-13b等模型为基础,利用数据集进行指令微调,开发出专注于空间推理的变体模型。同时,基于其构建的基准测试推动了空间视觉问答任务的标准化,催生了针对方向感知、关系推理的专用评估指标,为后续研究提供了可复现的对比框架。
以上内容由遇见数据集搜集并总结生成



