VideoA11y-40K

Name: VideoA11y-40K
Creator: 亚利桑那州立大学School of Computing and Augmented Intelligence
Published: 2025-02-28 03:44:31
License: 暂无描述

arXiv2025-02-28 更新2025-03-05 收录

下载链接：

https://people-robots.github.io/VideoA11y/

下载链接

链接失效反馈

官方服务：

资源简介：

VideoA11y-40K是一个由亚利桑那州立大学School of Computing and Augmented Intelligence创建的视频描述数据集，包含40000个针对视障人士定制的视频描述。该数据集旨在帮助训练能够生成高质量视频描述的模型，以服务视障人士的需求。

VideoA11y-40K is a video caption dataset developed by the School of Computing and Augmented Intelligence at Arizona State University, which includes 40,000 video captions tailored for visually impaired individuals. This dataset aims to facilitate the training of models capable of generating high-quality video captions to meet the needs of visually impaired users.

提供机构：

亚利桑那州立大学School of Computing and Augmented Intelligence

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

VideoA11y-40K数据集的构建采用了多模态大型语言模型（MLLM）和视频可访问性指南相结合的方法。首先，研究者从专业音频描述来源收集了42条音频描述指南，并基于这些指南设计了一个符合要求的提示。接着，使用局部最大值算法从视频中提取关键帧，并将这些关键帧、符合要求的提示、音频描述指南以及可选的人类标注输入到MLLM中，生成或修订视频描述。通过这种方法，研究者创建了包含40,000个视频描述的数据集，这些描述均针对低视力用户的需求进行了定制。

特点

VideoA11y-40K数据集的特点在于其规模庞大且全面，包含了针对低视力用户定制的40,000个视频描述。该数据集涵盖了15个类别，包括电影、音乐、体育、娱乐等，每个视频都经过精心描述，以提供详细且准确的信息。此外，数据集中的描述长度较长，平均为52.30个单词，这有助于提供更全面和清晰的描述。

使用方法

VideoA11y-40K数据集的使用方法主要包括以下几个方面：首先，研究者可以使用该数据集对MLLM进行微调，以生成更高质量的、针对低视力用户定制的视频描述。其次，该数据集可以作为评估视频描述模型性能的基准，通过使用标准NLP指标和自定义指标（如描述性、客观性、准确性和清晰度）来评估模型的性能。最后，该数据集可以用于开发新的视频描述模型，以进一步提高视频内容的可访问性。

背景与挑战

背景概述

视频描述对于视障和低视力用户访问视觉内容至关重要。然而，当前的人工智能模型在生成描述时往往因为训练数据集中人类注释的质量限制而无法满足视障和低视力用户的需求。为了填补这一空白，我们介绍了VideoA11y，这是一种利用多模态大型语言模型（MLLMs）和视频可访问性指南来生成专门针对视障和低视力个体的描述的方法。使用这种方法，我们已经策划了VideoA11y-40K，这是为视障和低视力用户描述的最大的、最全面的数据集，包含40,000个视频。在15个视频类别中进行了一系列严格的实验，涉及347名有视力参与者、40名视障和低视力参与者和7名专业描述者，结果表明VideoA11y描述在清晰度、准确性、客观性、描述性和用户满意度方面优于新手人类注释，并与训练有素的人类注释相当。我们在VideoA11y-40K上使用标准和自定义指标评估了模型，表明在VideoA11y数据集上微调的MLLMs能够生成高质量的、可访问的描述。代码和数据集可在https://people-robots.github.io/VideoA11y/上获得。

当前挑战

VideoA11y数据集和相关方法面临的挑战包括：1) 所解决的领域问题的挑战：生成能够满足视障和低视力用户需求的视频描述。2) 构建过程中所遇到的挑战：确保生成的描述符合可访问性指南，并且能够准确地描述视频内容，同时避免错误和误导信息。

常用场景

经典使用场景

VideoA11y-40K数据集主要用于训练和评估视频描述模型，以生成适合盲人和低视力用户的视频内容描述。该数据集包含40,000个视频，覆盖了15个类别，所有视频都专门为盲人和低视力用户进行了描述。该数据集的经典使用场景包括：1) 训练多模态大型语言模型（MLLMs）以生成高质量的视频描述；2) 评估视频描述模型在清晰度、准确性、客观性、描述性和用户满意度方面的性能；3) 开发新的视频描述方法和评估指标。

衍生相关工作

VideoA11y-40K数据集衍生了许多相关的工作，例如：1) 使用MLLMs和视频无障碍指南来生成视频描述的方法；2) 基于VideoA11y-40K数据集的视频描述模型评估指标；3) 针对盲人和低视力用户的视频描述生成工具。这些相关工作进一步推动了视频无障碍领域的研究和发展，有助于提高视频内容对盲人和低视力用户的可访问性。

数据集最近研究