SIGHTATION

Name: SIGHTATION
Creator: 韩国科学技术院（KAIST AI）
Published: 2025-03-18 00:52:46
License: 暂无描述

arXiv2025-03-18 更新2025-03-19 收录

下载链接：

https://hf.co/Sightation

下载链接

链接失效反馈

官方服务：

资源简介：

SIGHTATION是一个为盲人和低视力（BLV）用户量身定制的教育领域视觉语言数据集。该数据集基于AI2D数据集构建，包含5000个科学图表和对应的描述，旨在通过BLV专业人士的验证，用于训练各种下游任务，如完成、偏好对齐、检索、问答和推理等。

SIGHTATION is an educational visual-language dataset tailored specifically for blind and low-vision (BLV) users. Built upon the AI2D dataset, it contains 5,000 scientific diagrams and their corresponding captions. Validated by BLV professionals, this dataset is designed to train various downstream tasks including completion, preference alignment, retrieval, question answering, and reasoning.

提供机构：

韩国科学技术院（KAIST AI）

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

SIGHTATION数据集的构建基于AI2D数据集，包含5000个科学图表和137,000个样本。数据集的生成过程采用了多步推理的潜在监督机制，首先通过视觉语言模型（VLM）生成问题-答案对作为引导，随后在第二次推理中生成图表描述。这一方法不仅减少了众包成本，还降低了标注者的疲劳和偏差。数据集经过盲人和低视力（BLV）专业教育者的验证，确保了其与BLV用户需求的契合度。

使用方法

SIGHTATION数据集可用于多种下游任务的训练和微调，包括视觉语言模型的指令微调、偏好对齐、检索和推理任务。数据集中的描述生成任务可以通过多步推理引导生成，确保生成的描述符合BLV用户的需求。此外，数据集还提供了偏好对齐任务，通过对比不同模型的生成结果，进一步优化模型的生成质量。检索任务则通过对比正负样本，提升模型的图像-文本匹配能力。推理任务则通过生成逻辑路径和问题-答案对，增强模型的推理能力。

背景与挑战

背景概述

SIGHTATION数据集由KAIST AI、成均馆大学和延世大学的研究团队于2025年创建，旨在为盲人和低视力（BLV）用户提供详细的图表描述。该数据集包含5000张图表和137,000个样本，涵盖了完成、偏好、检索、问答和推理等多种任务。SIGHTATION的独特之处在于其通过视觉语言模型（VLM）生成描述，并由视力正常的用户进行评估，而非直接生成描述。这种方法有效减少了生成描述的成本和偏见，并确保了描述的质量符合BLV用户的需求。该数据集在教育领域具有重要影响力，特别是在帮助BLV用户理解复杂的图表信息方面。

当前挑战

SIGHTATION数据集面临的主要挑战包括：1) 领域问题的挑战：如何生成符合BLV用户需求的图表描述，确保描述不仅准确，而且能够提供有用的信息。2) 构建过程中的挑战：如何通过多轮推理和潜在监督生成高质量的描述，同时避免视力正常用户生成描述时可能引入的偏见。此外，数据集的构建还面临如何有效利用有限的BLV用户反馈来指导模型生成更符合其需求的描述。这些挑战需要通过创新的模型设计和精细的评估机制来解决。

常用场景

经典使用场景

SIGHTATION数据集在视觉-语言模型（VLM）的训练与评估中具有广泛的应用场景，尤其是在为盲人和低视力（BLV）用户生成详细的图表描述时。该数据集通过多轮推理和潜在监督机制，生成了大量高质量的图表描述，涵盖了完成、偏好、检索、问答和推理等多种任务。其经典使用场景包括在教育和辅助技术领域，帮助BLV用户通过文本描述理解复杂的图表信息。

解决学术问题

SIGHTATION数据集解决了视觉-语言模型在生成BLV用户友好描述时的关键问题。传统方法依赖于视力正常的标注者生成描述，但这些描述往往存在偏见且不符合BLV用户的需求。SIGHTATION通过引入视力正常的用户评估模型生成的描述，并结合BLV专业教育者的反馈，显著减少了标注偏差，提升了描述的实用性和准确性。该数据集为BLV用户提供了更符合其需求的视觉信息描述，推动了视觉-语言模型在无障碍技术中的发展。

实际应用

SIGHTATION数据集的实际应用场景主要集中在教育和辅助技术领域。在教育中，该数据集可以帮助BLV学生通过详细的文本描述理解复杂的科学图表，提升他们的学习体验。在辅助技术中，SIGHTATION可以用于开发智能助手，帮助BLV用户通过语音或文本获取视觉信息。此外，该数据集还可用于训练和评估视觉-语言模型，提升其在生成无障碍描述方面的性能。

数据集最近研究