volumetric video viewing behavior dataset

Name: volumetric video viewing behavior dataset
Creator: 未来网络智能研究所，香港中文大学（深圳）
Published: 2023-08-16 22:12:43
License: 暂无描述

arXiv2023-08-16 更新2024-06-21 收录

下载链接：

https://cuhksz-inml.github.io/user-behavior-in-vvwatching/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由香港中文大学（深圳）未来网络智能研究所发布，是首个大规模的体积视频观看行为数据集，包含50名用户的详细交互数据，涵盖多种场景和条件。数据集内容包括用户的视口、凝视和运动特征，旨在通过深入分析用户行为，优化体积视频的流媒体传输。创建过程中，研究人员从现有的公开体积视频数据集中选取视频，通过Meta Quest Pro头戴设备收集用户数据。该数据集的应用领域包括体积视频流优化、用户行为预测等，旨在解决体积视频传输中的带宽限制问题。

This dataset is released by the Research Institute of Future Network Intelligence, The Chinese University of Hong Kong, Shenzhen. It is the first large-scale dataset for volumetric video viewing behavior, containing detailed interaction data from 50 users across diverse scenarios and conditions. The dataset covers users' viewport, gaze and motion characteristics, aiming to optimize the streaming transmission of volumetric video through in-depth analysis of user behavior. During its creation, researchers selected videos from existing public volumetric video datasets and collected user data using Meta Quest Pro head-mounted displays. Its application scenarios include volumetric video streaming optimization, user behavior prediction and others, aiming to address the bandwidth limitation issues in volumetric video transmission.

提供机构：

未来网络智能研究所，香港中文大学（深圳）

创建时间：

2023-08-15

搜集汇总

数据集介绍

构建方式

本数据集的构建采用了50名志愿者参与，使用Meta Quest Pro VR头盔进行数据收集。志愿者在Unity平台上观看来自FSVVD数据集的26个点云形式的体积视频，涵盖了教育、锻炼、日常生活和娱乐等多种场景。VR头盔内置的加速度计用于收集用户的六自由度视口信息，包括位置和旋转。同时，利用头盔内置的眼动追踪器以144Hz的采样率收集用户的双眼 gaze 数据，包括3个旋转角度和置信度。数据集包含8个维度，包括每个眼睛的位置对应的角度和置信度。视频内容的选择考虑了演员数量和动作水平，以分析视频内容对用户行为的影响。

特点

该数据集具有大规模、多维度和多样化条件的特点。它包含50名用户的视口、gaze 和运动特征，涵盖了静态和动态场景，以及单人或多用户活动。数据集提供了丰富的用户互动特征，为理解用户在观看体积视频时的行为提供了宝贵资源。此外，该数据集还支持视口自适应3D体积视频流传输，通过融合运动和gaze 特征，实现了高精度和鲁棒的视口预测。

使用方法

数据集的使用方法主要包括以下几个方面：首先，用户可以通过可视化工具观察和分析用户的头部运动轨迹和gaze 方向。其次，研究人员可以利用数据集进行用户行为的深入分析，揭示视口、gaze 和运动轨迹之间的潜在相关性，并进一步预测未来的观看活动。此外，数据集还可以用于设计基于Transformer 的视口预测模型，该模型融合了运动和gaze 特征，能够在各种条件下实现高精度预测。最后，数据集还可以应用于用户识别、个性化内容交付和医疗保健等领域。

背景与挑战

背景概述

近年来，体三维视频作为一种新兴的、引人入胜的视频范式逐渐兴起，它通过六自由度（DoF）提供了沉浸式和交互式的3D观看体验。与传统的2D或全景视频不同，体三维视频需要密集的点云、体素、网格或巨大的神经模型来描绘体三维场景，这导致视频传输的带宽负担极高。用户行为分析，特别是视场和注视分析，在优先传输用户视场内的内容并降低视场外内容的清晰度以最大化用户QoE方面发挥着重要作用。尽管理解用户行为至关重要，但据我们所知，目前还没有可用的3D体三维视频观看数据集，其中包含细粒度的用户交互特征，更不用说进一步的分析和行为预测。本文首次发布了一个大规模、多维度、条件多样的体三维视频观看行为数据集。我们对观看体三维视频时的用户行为进行了深入研究。关于用户视场、注视和运动偏好与不同视频和用户相关的有趣发现被揭示出来。最后，我们设计了一个基于transformer的视场预测模型，该模型融合了注视和运动特征，能够在各种条件下实现高精度。我们的预测模型有望进一步推动体三维视频流优化。

当前挑战

体三维视频的出现为视频内容消费方式带来了革命性的变化，提供了前所未有的沉浸式和交互式体验。然而，由于体三维视频表示的极端复杂性，其大小通常是相同条件下2D表示的100倍，因此通过当前网络基础设施传输体三维视频成为关键挑战。用户行为分析，特别是视场和注视分析，发挥着重要作用，因为我们可以优先传输视场内的内容并降低或忽略视场外的内容，以最大化有限网络传输能力下的用户体验。此外，尽管理解用户行为至关重要，但据我们所知，目前还没有可用的3D体三维视频观看数据集，其中包含细粒度的用户交互特征，更不用说进一步的分析和行为预测。

常用场景

经典使用场景

在理解用户在观看体视频时的行为方面，该数据集提供了宝贵的资源。它被广泛用于分析用户在观看体视频时的视场、注视和运动偏好，以及这些偏好如何随着不同的视频和用户而变化。此外，该数据集还被用于设计基于Transformer的视场预测模型，该模型融合了注视和运动特征，能够在各种条件下实现高精度。这些研究成果为体视频流优化提供了重要的理论和技术支持。

实际应用

该数据集在实际应用中具有广泛的前景。例如，它可以用于设计基于视场的体视频流系统，通过降低视场外视频内容的比特率来节省网络带宽。此外，该数据集还可以用于用户识别、个性化内容交付和医疗保健等领域。例如，通过分析用户在观看体视频时的行为和运动模式，可以建立用户画像，从而为用户推荐更符合其兴趣的内容。

衍生相关工作

基于该数据集的研究成果，衍生出了许多相关的经典工作。例如，基于该数据集的视场预测模型在准确性和鲁棒性方面取得了显著成果，为体视频流优化提供了重要的技术支持。此外，该数据集还被用于设计基于视场自适应的体视频流系统，进一步提高了用户观看体视频的体验。这些研究成果为体视频领域的发展做出了重要的贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集