Pseudo Dataset for Out-of-Domain Multi-Camera View Recommendation

github2024-10-21 更新2024-10-22 收录

下载链接：

https://github.com/eric11220/Pseudo-Dataset-for-OOD-Multi-Camera-Editing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于生成伪标签的多摄像头视图推荐数据集，旨在解决训练域外多摄像头视图推荐模型的泛化性问题。通过将常规视频转换为伪标签的多摄像头视图推荐数据集，模型在目标域中的准确性提高了68%。

This dataset is a pseudo-labeled multi-camera view recommendation dataset, designed to address the generalization issue of training out-of-domain multi-camera view recommendation models. By converting conventional videos into this pseudo-labeled multi-camera view recommendation dataset, the model's accuracy in the target domain is improved by 68%.

创建时间：

2024-10-19

原始信息汇总

伪数据集生成用于域外多摄像头视图推荐

摘要

多摄像头系统在电影、电视节目和其他媒体中不可或缺。在每个时间戳选择合适的摄像头对制作质量和观众偏好有决定性影响。基于学习的视图推荐框架可以帮助专业人士进行决策。然而，它们在训练域之外往往表现不佳。标记的多摄像头视图推荐数据集的稀缺性加剧了这一问题。基于许多视频是从原始多摄像头视频编辑而来的见解，我们提出将常规视频转换为伪标记的多摄像头视图推荐数据集。有希望的是，通过在源自目标域视频的伪标记数据集上训练模型，我们在目标域中实现了模型准确性68%的相对改进，并缩小了域内和从未见过的域之间的准确性差距。

贡献

识别了多摄像头视图推荐模型的域泛化性差。
提出使用常规视频生成伪标记的多摄像头编辑数据集，以缓解任意域上标记数据的缺乏。
通过提出的伪标记多摄像头编辑数据集，我们在目标域中实现了模型分类准确性68%的相对改进。

伪数据集生成

生成步骤

对所有视频运行镜头边界检测，并将结果写入output/shot_bouundaries。
创建一个包含每个视频镜头的开始和结束帧的JSON文件output/shots.json。
生成伪数据集的JSON文件output/pseudo_data.json，并将每个视频的帧存储在output/frames中。

数据格式

pseudo_data.json的格式如下： json { "data": [ { "video_id": "gs-o7elkwe8.mp4", "sampleInterval": 5, "startFrame": 504, "outputList": [504, 509, 514, 519, 524, 529, 534, 539, 544, 549, 554, 559, 564, 569, 574], "outputCam": [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], "candidates": [4454, 0, 3897, 1301, 580, 4220], "selectCAM": 5, "CAMList": [1, 2, 3, 4, 5, 6] }, ... ], "meta": [ "gs-o7elkwe8.mp4": { "frame2cam": { "0": 2, "5": 2, ... "4454": 1 }, "segments": [ [0, 579], [580, 1084], ... [4454, 4457] ] }, ... ] }

引用

如果您发现此论文/代码对您的研究有帮助，请考虑引用我们：

@inproceedings{lee2024_multicam_recom, author={Lee, Kuan-Ying and Zhou, Qian and Nahrstedt, Klara}, title={Pseudo Dataset Generation for Out-of-domain Multi-Camera View Recommendation}, booktitle={IEEE Visual Communications and Image Processing (VCIP)}, year={2024}, }

搜集汇总

数据集介绍

构建方式

在多摄像头视图推荐领域，由于缺乏跨域的标注数据，模型的泛化能力受到限制。为此，我们提出了一种创新的数据集构建方法，通过将常规视频转换为伪标注的多摄像头视图推荐数据集。具体而言，该方法首先对输入视频进行镜头边界检测，识别出每个镜头的起始和结束帧，并生成相应的JSON文件。随后，系统根据这些镜头信息，为每个视频帧分配伪摄像机标签，并生成包含伪数据实例的JSON文件。这一过程不仅填补了跨域数据的空白，还显著提升了模型在目标域的分类准确性。

使用方法

使用该数据集时，用户首先需要安装所需的Python包，并通过运行generate.sh脚本指定视频路径。系统将自动执行镜头边界检测，生成包含镜头信息的JSON文件，并为每个视频帧分配伪摄像机标签。生成的伪数据集以JSON格式存储，用户可以直接加载这些数据进行模型训练。此外，数据集还提供了详细的元数据信息，用户可以根据需要进一步处理和分析。通过这种方式，用户可以充分利用该数据集，提升多摄像头视图推荐模型在目标域的性能。

背景与挑战

背景概述

在电影、电视节目及其他媒体制作中，多摄像机系统不可或缺。选择合适的摄像机视角在每个时间戳上对制作质量和观众偏好具有决定性影响。基于学习的视角推荐框架能够辅助专业人士进行决策。然而，这些模型在训练域之外的表现往往不尽如人意。由于缺乏标注的多摄像机视角推荐数据集，这一问题更加突出。该数据集由Lee, Kuan-Ying、Zhou, Qian和Nahrstedt, Klara于2024年提出，旨在通过将常规视频转换为伪标注的多摄像机视角推荐数据集，以解决域外泛化问题。通过在目标域的伪标注数据集上训练模型，实现了在目标域内模型准确性68%的相对提升，并缩小了域内与未见域之间的准确性差距。

当前挑战

该数据集面临的挑战主要集中在模型的域外泛化能力和数据标注的稀缺性。首先，多摄像机视角推荐模型在训练域外的表现不佳，限制了其在实际应用中的广泛使用。其次，由于缺乏针对任意域的标注数据，模型的训练和验证过程受到严重制约。为应对这些挑战，研究团队提出通过生成伪标注的多摄像机编辑数据集，以缓解标注数据的不足，并通过在目标域的伪标注数据集上训练模型，显著提升了模型在目标域内的分类准确性。

常用场景

经典使用场景

在电影、电视节目等多摄像头系统中，选择合适的摄像头视角对于提升制作质量和观众体验至关重要。该数据集通过生成伪标签的多摄像头编辑数据，为学习型视角推荐框架提供了训练基础。通过训练模型在目标域的伪标签数据上，显著提高了模型在目标域的准确性，从而在实际应用中能够更有效地辅助专业人员进行决策。

解决学术问题

该数据集解决了多摄像头视角推荐模型在域外泛化能力差的问题。由于缺乏针对任意域的标注数据，现有模型在未见过的域中表现不佳。通过生成伪标签的多摄像头编辑数据，该数据集有效缓解了这一问题，显著提升了模型在目标域的分类准确性，为跨域视角推荐提供了新的研究方向。

实际应用

在实际应用中，该数据集可广泛应用于电影、电视节目制作等领域，帮助导演和摄影师在拍摄过程中选择最佳的摄像头视角。通过训练模型在伪标签数据上，系统能够在实时拍摄中提供准确的视角推荐，从而提高制作效率和作品质量。此外，该数据集还可用于视频编辑软件，为用户提供智能化的视角选择建议。

数据集最近研究