UTD-descriptions, UTD-splits

Name: UTD-descriptions, UTD-splits
Creator: 法兰克福大学, 图宾根大学, 马普Informatics研究所, 牛津大学, MIT-IBM Watson AI实验室
Published: 2025-03-24 21:00:25
License: 暂无描述

arXiv2025-03-24 更新2025-03-26 收录

下载链接：

https://utd-project.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

UTD-descriptions是一个包含丰富结构化描述的数据库，包括每个数据集中的对象、活动和动词类别。UTD-splits是基于现有视频分类和检索数据集的无偏子集，旨在通过排除对象偏置样本，提供更稳健的视频理解能力评估。该数据集由文本描述生成，旨在分析和减轻现有视频基准中的表示偏置，如对象偏置和单帧偏置。

UTD-descriptions is a database with rich structured descriptions, covering object, activity and verb categories for each dataset contained within it. UTD-splits is an unbiased subset built upon existing video classification and retrieval datasets, designed to provide more robust evaluations of video understanding capabilities by excluding object-biased samples. This dataset suite is generated from textual descriptions, aiming to analyze and mitigate representation biases present in current video benchmarks, such as object bias and single-frame bias.

提供机构：

法兰克福大学, 图宾根大学, 马普Informatics研究所, 牛津大学, MIT-IBM Watson AI实验室

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

UTD-descriptions和UTD-splits数据集的构建基于对现有视频分类和检索数据集的系统性分析，旨在减少对象表示偏差。首先，利用视觉语言模型（VLM）生成视频帧的详细文本描述，随后通过大型语言模型（LLM）提取特定概念（如对象、活动和动词）。这些描述用于评估三个维度的表示偏差：概念偏差、时间偏差以及常识与数据集偏差。最终，通过排除具有高对象偏差的测试样本，构建了去偏的测试分割（UTD-splits），并发布了包含结构化描述的UTD-descriptions数据集。

特点

UTD数据集的核心特点在于其通过文本描述实现的多维度偏差分析能力。它不仅提供了丰富的帧级文本描述（包括对象、活动和动词等概念），还通过去偏的测试分割（UTD-splits）为视频理解模型的鲁棒性评估提供了新基准。此外，该数据集覆盖了12个主流视频分类和检索数据集，支持对模型偏差的细粒度分析，如对象偏差的敏感性及其对时间信息的依赖程度。

使用方法

UTD数据集的使用分为三个主要场景：首先，UTD-descriptions可用于分析视频数据集的表示偏差或作为多模态任务的辅助标注；其次，UTD-splits可作为评估视频模型去偏能力的基准，通过对比模型在原始分割和去偏分割上的性能差异；最后，研究者可利用该数据集开发新的去偏方法或增强现有模型的时序理解能力。使用时需注意，文本描述需与原始视频数据配合使用，且评估应遵循数据集的标准化协议以确保结果可比性。

背景与挑战

背景概述

UTD-descriptions和UTD-splits数据集由Nina Shvetsova等研究人员于2025年提出，旨在解决现有视频分类和检索数据集中存在的表示偏差问题。该数据集基于12个流行的视频分类和检索数据集构建，通过视觉语言模型（VLM）和大型语言模型（LLM）生成视频帧的文本描述，并从中提取对象、活动和动词等概念信息。UTD方法通过分析概念偏差、时间偏差和常识与数据集偏差三个维度，系统地评估和缓解数据集中的表示偏差。该数据集的发布为视频理解模型的鲁棒性评估提供了新的基准，推动了视频理解领域的发展。

当前挑战

UTD-descriptions和UTD-splits数据集面临的挑战主要包括：1) 领域问题挑战：现有视频分类和检索数据集存在对象偏差和单帧偏差，即仅通过识别对象或单帧信息即可正确预测标签，这限制了模型对视频时序信息和动作识别的能力。2) 构建过程挑战：生成视频帧的文本描述依赖于VLM和LLM，这些模型可能存在幻觉或社会偏见，导致描述不准确；此外，从文本描述中提取特定概念（如对象或活动）时可能存在信息泄露问题。3) 评估挑战：如何确保生成的文本描述和提取的概念信息能够准确反映视频内容，从而可靠地识别和去除偏差样本。

常用场景

经典使用场景

UTD-descriptions和UTD-splits数据集在视频理解领域被广泛应用于评估和减轻视频分类与检索任务中的表示偏差。通过生成视频帧的文本描述并分析对象、活动和动词等概念，该数据集能够识别和消除视频基准中的对象偏差和单帧偏差。其经典使用场景包括在视频动作识别和文本到视频检索任务中，通过去偏测试集来更准确地评估模型的视频理解能力。

解决学术问题

该数据集解决了视频理解研究中常见的表示偏差问题，包括对象偏差、时间偏差和常识偏差。通过自动生成视频帧的文本描述并利用视觉语言模型（VLM）和大型语言模型（LLM）进行分析，UTD方法能够识别和消除这些偏差，从而提供更鲁棒的评估基准。其意义在于推动了视频理解模型的公平性和泛化能力研究，避免了模型仅依赖对象识别或单帧信息进行预测的局限性。

衍生相关工作

UTD数据集衍生了一系列相关研究，包括基于文本描述的视频理解模型、去偏视频基准的构建方法以及多模态视频语言模型的评估框架。例如，VideoMAE、VideoMamba和InternVid等先进视频模型均在UTD-splits上进行了性能评估，以分析其对对象偏差的鲁棒性。此外，该数据集还促进了视觉语言模型在视频描述生成和偏差分析中的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集