TSV360

Name: TSV360
Creator: 塞萨洛尼基希腊CERTH ITI
Published: 2025-09-30 21:11:16
License: 暂无描述

arXiv2025-09-30 更新2025-11-20 收录

下载链接：

https://github.com/IDT-ITI/TSalV360

下载链接

链接失效反馈

官方服务：

资源简介：

TSV360数据集由来自160个具有多样化视觉内容的360度视频的约16,000个ERP帧、文本描述和地面实况突出图组成。该数据集旨在支持基于文本的360度视频突出检测方法的训练和客观评估。数据集的内容包括约16,000个ERP帧、文本描述和地面实况突出图。数据集的创建过程涉及到从160个具有多样化视觉内容的360度视频中提取ERP帧、文本描述和地面实况突出图。数据集的应用领域是文本驱动的360度视频突出检测，旨在解决如何根据用户的需求进行定制化突出检测的问题。

The TSV360 dataset consists of approximately 16,000 ERP frames, textual descriptions, and ground-truth saliency maps extracted from 160 360-degree videos with diverse visual content. This dataset is intended to support the training and objective evaluation of text-based 360-degree video saliency detection methods. The process of constructing the TSV360 dataset involves extracting the aforementioned data elements from the 160 360-degree videos with diverse visual content. Its application domain is text-driven 360-degree video saliency detection, which aims to address the challenge of performing customized saliency detection based on user requirements.

提供机构：

塞萨洛尼基希腊CERTH ITI

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在沉浸式媒体技术蓬勃发展的背景下，TSV360数据集的构建采用了系统化的多模态数据整合方法。该数据集从VR-EyeTracking和Sports-360等权威数据源中精选了160段360度视频，通过标准化处理将原始注视点数据转化为统一格式的显著性地图。采用HDBSCAN聚类算法结合Haversine距离度量，有效识别球形空间中的显著区域，并利用改进的二维视频生成技术构建时空子体积。文本描述方面，通过LLaVA-Next-7B视觉语言模型进行密集标注，并辅以人工筛选和语义增强，最终形成约16,000组ERP帧-文本描述-显著性地图的三元组数据。

使用方法

在实践应用层面，TSV360为文本驱动的360度视频显著性检测研究提供了标准化评估框架。研究者可将ERP帧序列与对应文本描述作为模型输入，通过端到端训练学习视觉内容与语言指令的深层关联。数据集支持五折交叉验证方案，采用相关性系数、相似性度量和KL散度等指标进行量化评估。具体实施时，建议将视频降采样至16fps，使用8帧序列作为输入单元，并配合球面位置编码处理几何变形。该数据集还能有效支撑视口时空交叉注意力等先进机制的验证，推动沉浸式媒体分析技术向语义理解层面深化发展。

背景与挑战

背景概述

随着沉浸式媒体技术的快速发展，360度视频因其全景视野特性成为虚拟现实领域的重要载体。TSV360数据集由Ioannis Kontostathis等研究人员于2025年提出，旨在解决文本驱动的显著性检测在360度视频中的应用难题。该数据集包含来自VR-EyeTracking和Sports-360的160个视频，构建了约1.6万个三元组数据，每个单元由等距柱状投影帧、文本描述和真实显著性标注图构成。其核心研究在于突破传统视觉显著性检测的局限，通过文本引导实现定制化注意力建模，为虚拟现实导航、视频摘要等应用提供了关键数据支撑。

当前挑战

在文本驱动显著性检测领域，现有方法仅适用于静态图像，缺乏对360度视频球形几何结构的适应性。TSV360构建过程中面临多重挑战：首先需将原始眼动数据转化为事件化显著性标注，通过改进聚类算法与球面距离计算解决时空连续性保持问题；其次利用视觉语言模型生成文本描述时，需通过人工筛选消除49%语义重复视频并修正65%模糊描述，以保障文本-视觉模态的对齐质量；最后针对事件分布不均问题，采用时序窗口滑动与文本复述增强策略，平衡多样化事件的训练样本覆盖。

常用场景

经典使用场景

在沉浸式媒体研究领域，TSV360数据集主要应用于文本驱动的360度视频显著性检测任务。该数据集通过提供16000组等距柱状投影帧、文本描述和真实显著性标注的三元组，为基于文本提示的视觉注意力建模提供了标准化评估基准。研究人员利用该数据集训练和验证多模态显著性检测模型，探索文本描述如何引导模型在360度全景视频中定位特定物体或事件。

解决学术问题

TSV360数据集有效解决了传统视觉显著性检测方法在360度视频中无法实现用户定制化需求的核心问题。通过引入文本描述作为条件输入，该数据集推动了多模态融合技术在球形视觉分析中的应用，突破了传统方法仅能检测所有显著区域而无法聚焦特定目标的局限。其构建方法为跨模态注意力机制在球形几何空间中的建模提供了重要理论基础。

实际应用

该数据集支撑的技术在虚拟现实内容制作、智能视频编辑等领域具有广泛应用前景。基于文本驱动的显著性检测可实现个性化VR导航系统，允许用户通过自然语言指令控制视点切换。在视频摘要生成中，系统能根据文本描述自动提取相关片段，显著提升360度视频的编辑效率与观看体验，为沉浸式媒体产业提供关键技术支撑。

数据集最近研究