QuerYD

Name: QuerYD
Creator: 视觉几何组，牛津大学，英国
Published: 2021-02-17 21:38:19
License: 暂无描述

arXiv2021-02-17 更新2024-06-21 收录

下载链接：

http://www.robots.ox.ac.uk/~vgg/data/queryd

下载链接

链接失效反馈

官方服务：

资源简介：

QuerYD数据集是由牛津大学视觉几何组创建的，旨在支持视频与自然语言关系的研究。该数据集包含207小时视频和74小时音频描述，总计31,441条描述。数据来源于YouDescribe社区，该社区为YouTube视频添加音频描述以帮助视觉障碍人士。QuerYD数据集的特点包括多模态（视频和音频描述）、大规模（超过200小时视频）、高质量（由志愿者提供详细描述）和可扩展性（持续更新）。此数据集主要用于视频检索和事件定位，有助于推动视频理解技术的发展。

The QuerYD dataset was created by the Visual Geometry Group at the University of Oxford, with the goal of supporting research into the relationship between videos and natural language. It contains 207 hours of video and 74 hours of audio descriptions, totaling 31,441 entries in all. The dataset is sourced from the YouDescribe community, a platform that adds audio descriptions to YouTube videos to assist visually impaired individuals. Key characteristics of the QuerYD dataset include multimodality (combining video and audio descriptions), large scale (featuring over 200 hours of video content), high quality (detailed descriptions provided by volunteers), and scalability (with continuous ongoing updates). This dataset is primarily utilized for video retrieval and event localization tasks, contributing to the advancement of video understanding technologies.

提供机构：

视觉几何组，牛津大学，英国

创建时间：

2020-11-23

搜集汇总

数据集介绍

构建方式

QuerYD数据集的构建来源于YouDescribe社区，该社区为视障人士提供了带有语音描述的YouTube视频。每个视频均包含原始音频轨道和高质量语音描述的独立音频轨道，这些语音描述与视频内容精确对齐。该数据集的构建不仅依赖志愿者提供的高质量描述，还包括其他用户对描述的评分，以确保质量。此外，为了处理缺少转录的情况，还使用了Google语音识别API进行转录。

特点

QuerYD数据集的特点包括多模态、大规模、高质量和可扩展性。首先，它提供了视频的原始音频和描述视频内容的语音叙述两种音频轨道，形成了互补的多模态数据。其次，数据集包含超过200小时的视频和74小时的音频描述，具有高密度的描述。再次，由于描述是由旨在为视障人士提供高质量视频描述的志愿者创建，因此质量较高。最后，数据集基于不断增长的音频描述集合，定期更新，以保持数据的时效性。

使用方法

QuerYD数据集可用于视频检索和事件定位任务。在视频检索任务中，可以使用现有的最先进模型进行基准测试，如E2EWS、MoEE和CE模型。在事件定位任务中，可以评估模型对给定自然语言文本描述检索特定视频时间段的性能。数据集的使用不仅限于这些任务，还可以用于视频理解的研究，如视频字幕、视频事件识别等。

背景与挑战

背景概述

视频数据集QuerYD的创建是为了推动视频检索和事件定位的研究。该数据集由牛津大学的视觉几何组开发，并基于YouDescribe项目，这是一个帮助视障人士的志愿者项目，为现有的YouTube视频添加语音描述。QuerYD的独特之处在于每个视频都包含两个音频轨道：原始音频和高质量的语音内容描述。这些描述由志愿者创建，旨在向视障人士传达视频内容，因此具有高度的相关性和详细性。该数据集包含超过200小时的视频和74小时的音频描述，为视频理解研究提供了丰富的训练数据。此外，QuerYD数据集的规模和多样性使其成为视频检索和事件定位任务的重要资源，并为相关领域的研究提供了新的方向。

当前挑战

尽管QuerYD数据集在视频检索和事件定位方面提供了大量高质量的文本和音频描述，但仍然存在一些挑战。首先，如何有效地利用这些描述进行视频内容的理解和分析仍然是一个开放性问题。其次，由于音频描述的多样性和复杂性，如何准确地将描述与视频内容对齐也是一个挑战。此外，如何有效地利用QuerYD数据集进行跨模态学习和多任务学习也是当前研究的热点问题。最后，如何将QuerYD数据集应用于实际场景，例如视频搜索和推荐系统，也是需要进一步探索的方向。

常用场景

经典使用场景

QuerYD数据集在视频检索和事件定位领域具有广泛应用。该数据集的独特之处在于，每个视频都包含两个音频轨道：原始音频和高质量的视觉内容口头描述。这使得QuerYD成为训练和评估强大视频检索和事件定位模型的重要资源。

实际应用

QuerYD数据集在实际应用中具有广泛的前景。它可以帮助开发更精确的视频检索系统，从而提高视频内容发现和推荐的效果。此外，QuerYD还可以用于构建辅助视觉受损人士的视频理解工具，如语音描述生成和视频内容导航。此外，该数据集还可以用于开发智能监控系统，通过自然语言描述来定位和识别视频中的特定事件。

衍生相关工作

QuerYD数据集的发布促进了视频理解和自然语言处理领域的研究进展。基于QuerYD，研究者们开发了多种模型和算法，用于视频检索、事件定位和视频描述任务。例如，CE模型在QuerYD数据集上取得了优异的性能，展示了其在视频检索任务中的潜力。此外，QuerYD还启发了其他数据集的构建，如VATEX和YouCook2，这些数据集进一步推动了视频理解和自然语言处理领域的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集