TVR-Ranking

Name: TVR-Ranking
Creator: 南洋理工大学
Published: 2024-07-09 14:57:30
License: 暂无描述

arXiv2024-07-09 更新2024-07-11 收录

下载链接：

https://github.com/Ranking-VMR/TVR-Ranking

下载链接

链接失效反馈

官方服务：

资源简介：

TVR-Ranking数据集由南洋理工大学的研究团队开发，基于TVR数据集的视频片段和时刻注释，包含94,442个查询-时刻对。数据集通过人工注释相关性级别，支持排名视频时刻检索任务。数据集的创建过程中，研究者通过ChatGPT生成的提示词替换原始时刻描述中的角色名称，以生成不精确的查询。该数据集主要应用于视频时刻检索领域，旨在通过不精确的查询从视频集合中检索并排名相关时刻，解决实际搜索场景中的问题。

The TVR-Ranking dataset was developed by the research team from Nanyang Technological University. Built upon the video clips and temporal annotations of the original TVR dataset, it contains 94,442 query-moment pairs. The dataset supports the ranked video moment retrieval task with manually annotated relevance levels. During its construction, researchers replaced character names in the original moment descriptions with prompts generated by ChatGPT to generate imprecise queries. This dataset is primarily utilized in the field of video moment retrieval, aiming to retrieve and rank relevant moments from video collections via imprecise queries, thereby solving practical problems in real-world search scenarios.

提供机构：

南洋理工大学

创建时间：

2024-07-09

原始信息汇总

Video Moment Retrieval in Practical Setting: A Dataset of Ranked Moments for Imprecise Queries

数据集概述

该数据集是为论文《Video Moment Retrieval in Practical Settings: A Dataset of Ranked Moments for Imprecise Queries》创建的基准数据集。

数据集结构

数据集包含以下文件：

val.json
test.json
train_top01.json
train_top20.json
train_top40.json
video_corpus.json

特征文件

数据集包括以下特征文件：

查询BERT特征
视频和字幕特征

实验结果

基线模型性能

Model	Train Set Top N	IoU=0.3	IoU=0.5	IoU=0.7
XML	1	0.1010	0.0737	0.0258
	20	0.2331	0.1700	0.0627
	40	0.2114	0.1530	0.0583
CONQUER	1	0.0952	0.0808	0.0526
	20	0.2130	0.1976	0.1527
	40	0.2183	0.2022	0.1524
ReLoCLNet	1	0.1504	0.1303	0.0866
	20	0.3815	0.3462	0.2381
	40	0.4418	0.4060	0.2787

ReLoCLNet性能

Model	Train Set Top N	IoU=0.3	IoU=0.5	IoU=0.7
NDCG@10
ReLoCLNet	1	0.1575	0.1358	0.0908
	20	0.3751	0.3407	0.2316
	40	0.4339	0.3984	0.2693
NDCG@20
ReLoCLNet	1	0.1504	0.1303	0.0866
	20	0.3815	0.3462	0.2381
	40	0.4418	0.4060	0.2787
NDCG@40
ReLoCLNet	1	0.1533	0.1321	0.0878
	20	0.4039	0.3656	0.2542
	40	0.4725	0.4337	0.3015

引用

如果该数据集对您的研究有帮助，请引用我们的工作：

@misc{liang2024tvrrankingdatasetrankedvideo, title={TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries}, author={Renjie Liang and Li Li and Chongzhi Zhang and Jing Wang and Xizhou Zhu and Aixin Sun}, year={2024}, eprint={2407.06597}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2407.06597}, }

搜集汇总

数据集介绍

构建方式

TVR-Ranking数据集基于TVR数据集构建，利用了原始视频片段和现有的时刻标注。该数据集的核心贡献在于手动标注了94,442个查询-时刻对的关联度。首先，通过ChatGPT将原始时刻描述中的角色名称替换为代词，生成不精确的查询。随后，23名标注者花费1,200小时对3,281个查询进行了关联度标注，每个查询对应20或40个候选时刻，关联度分为5个等级，从0（不相关）到4（完美匹配）。最终，94,442个关联度得分通过共识达成。

特点

TVR-Ranking数据集的主要特点在于其模拟了用户在不完全了解视频内容的情况下进行查询的实际场景。与现有数据集不同，该数据集允许查询描述不精确，并要求模型返回按相关性排序的时刻列表。此外，数据集通过引入NDCG@K, IoU ≥ µ评估指标，结合了排序任务和时刻定位任务的评估方法，确保了模型在排序和定位上的双重性能。

使用方法

TVR-Ranking数据集可用于训练和评估视频时刻检索模型，特别是针对不精确查询的排序任务。用户可以通过查询自然语言描述，检索出与查询相关性最高的视频时刻列表。数据集提供了伪训练集、验证集和测试集，用户可以根据需要选择不同的N值（如N=1, 20, 40）进行模型训练。评估时，建议使用NDCG@K, IoU ≥ µ指标，该指标结合了NDCG和IoU，能够有效评估模型在时刻定位和排序上的表现。

背景与挑战

背景概述

TVR-Ranking数据集由南洋理工大学和商汤科技的研究团队于2024年提出，旨在解决视频片段检索中的排名问题。该数据集基于TVR数据集，通过自然语言查询从视频集合中检索出与查询语义匹配的多个视频片段，并对其进行相关性排序。TVR-Ranking的核心贡献在于手动标注了94,442个查询-视频片段对的相关性等级，并提出了新的评估指标NDCG@K, IoU ≥ µ，以适应这一任务的特殊需求。该数据集的创建填补了现有视频检索任务中对不精确查询进行排名检索的空白，推动了多模态搜索领域的研究。

当前挑战

TVR-Ranking数据集面临的主要挑战包括：1) 处理不精确查询的复杂性，用户可能无法提供精确的描述，导致检索结果需要涵盖多个可能的匹配片段；2) 构建过程中，如何从原始TVR数据集中生成不精确查询并确保其语义一致性，是一个技术难点；3) 标注过程中，如何高效且准确地对大量候选片段进行相关性评分，确保标注结果的可靠性和一致性。此外，现有模型在处理VCMR任务时表现良好，但在RVMR任务中可能缺乏对片段排序的能力，这为模型的适应性和新模型的设计提出了新的挑战。

常用场景

经典使用场景

TVR-Ranking数据集的经典使用场景主要集中在视频片段的排序检索任务中。该数据集通过自然语言查询，从视频集合中检索出与查询语义匹配的多个视频片段，并根据相关性进行排序。这一任务特别适用于用户查询不精确或模糊的场景，例如用户在视频编辑、教育教程或安全监控中寻找特定场景时，可能无法提供精确的描述。通过该数据集，研究人员可以开发和评估模型在处理模糊查询时的表现，尤其是在多模态搜索和视频片段排序方面的能力。

衍生相关工作

TVR-Ranking数据集的发布催生了一系列相关研究工作，特别是在多模态视频检索和排序领域。研究人员基于该数据集开发了多种模型，如XML、CONQUER和ReLoCLNet，这些模型在处理模糊查询和多片段排序任务中表现出色。此外，该数据集还启发了对现有视频检索任务的重新思考，推动了新的评估指标和方法的提出，如NDCG@K和IoU ≥ µ，进一步促进了视频检索领域的技术进步。

数据集最近研究