SightationVQA

Hugging Face2025-03-13 更新2025-03-14 收录

下载链接：

https://huggingface.co/datasets/Sightation/SightationVQA

下载链接

链接失效反馈

官方服务：

资源简介：

SightationVQA是一个包含4.9千个图表图像和每个图像六个或更多视觉问答对的数据集，旨在为盲人和低视力用户提供详细的图表描述，用于训练和评估各种下游任务。

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

SightationVQA数据集的构建旨在满足盲人和低视力用户对图表描述的需求。该数据集通过邀请视力正常的个体评估而非直接生成由视觉语言模型（VLM）指导下的多轮推理产生的图表描述，进而收集专业教育者的反馈，这些教育者自身为盲人或低视力人士，且教授视觉障碍学生。数据集包含4.9千张图表图像，每张图像配以六个或更多视觉问答对，总计29,438对，涵盖了图表的主要结构和细节。

特点

SightationVQA数据集的特点在于，它紧密围绕盲人和低视力用户的需求构建，确保描述的准确性和适用性。该数据集的问答对经过专业教育者的评估，其质量以92.66%的问答对被评为“优秀”，超越了AI2D QA的表现。此外，数据集支持多种下游任务，如完成、偏好、检索、问答和推理训练，显示了其强大的微调潜力。

使用方法

用户可以通过HuggingFace平台下载SightationVQA数据集，该数据集遵循MIT许可。数据集以图像和对应的问答对形式组织，可直接用于视觉问答系统的训练和评估。用户可以根据需要，选择训练集进行模型的微调和性能评估。

背景与挑战

背景概述

SightationVQA数据集的产生，源于对盲人和低视力（BLV）用户在视觉描述方面的特殊需求。该数据集创建于近年来，由研究团队针对BLV用户的需求，探讨了视觉语言模型（VLM）在生成详细图表描述方面的应用。该数据集汇集了5000个图表和13.7万条样本，旨在通过多轮推理的潜在监督，提高视觉语言模型的描述准确性。SightationVQA的发布，为视觉障碍学习者的教育和辅助技术领域带来了新的资源和研究方向，对相关领域产生了重要影响。

当前挑战

SightationVQA数据集在构建过程中，面临了如何有效融合 sighted annotators 的评估与视觉语言模型的自动生成之间的挑战。此外，数据集在解决领域问题，如视觉问答和推理任务方面，尽管已经显示出优于其他数据集的质量，但仍然需要进一步的研究来提升描述的准确性和适应性，以更好地服务于BLV用户。构建过程中的挑战还包括数据集的多样性和规模的平衡，以及确保数据质量与专业教育者需求的匹配。

常用场景

经典使用场景

在视觉问答领域，SightationVQA数据集的经典使用场景在于为盲人和低视力用户提供详尽的图表描述，通过视觉问答对来涵盖图表的主要结构和细节信息。该数据集提供了大量带有六对或以上视觉问答对的图表图像，旨在辅助视觉语言模型进行微调和改进，以满足特定用户群体的需求。

实际应用

在实际应用中，SightationVQA 数据集不仅提高了视觉问答系统的性能，而且其高质量的问答对为教育、辅助技术以及无障碍设计等多个领域提供了宝贵的数据资源，有助于开发更加人性化的辅助工具和教学材料。

衍生相关工作

基于SightationVQA 数据集的研究，已经衍生出多项相关工作，包括但不限于对视觉问答模型的微调、评估指标的提升、以及针对盲人和低视力用户定制化描述生成策略的研究，这些工作进一步扩展了该数据集在学术研究和应用领域的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集