VC NBA 2022
收藏arXiv2024-02-28 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2401.13888v2
下载链接
链接失效反馈官方服务:
资源简介:
VC NBA 2022是一个专为篮球视频字幕生成设计的多模态数据集,由北京工业大学信息技术学院创建。该数据集包含9种精细化的投篮事件和286名球员的详细信息(如图像和姓名),旨在通过多模态篮球游戏知识图谱(KG NBA 2022)提供视频之外的额外知识。数据集的构建过程涉及从专业篮球平台收集的25场完整NBA比赛数据,包括事件描述、球员和队伍信息及视频。此数据集主要应用于篮球直播文本广播,解决生成包含特定实体名和精细化动作的文本描述问题。
VC NBA 2022 is a multimodal dataset specifically designed for basketball video caption generation, created by the School of Information Technology, Beijing University of Technology. This dataset includes 9 categories of refined shooting events and detailed profiles of 286 players (e.g., their images and names), aiming to provide supplementary knowledge beyond the original video content via the multimodal basketball game knowledge graph KG NBA 2022. The construction of this dataset collected 25 complete NBA game datasets from professional basketball platforms, covering event descriptions, player and team information, as well as video footage. This dataset is primarily utilized for basketball live text broadcasting, to solve the problem of generating text descriptions that contain specific entity names and refined actions.
提供机构:
北京工业大学信息技术学院
创建时间:
2024-01-25
搜集汇总
数据集介绍

构建方式
VC NBA 2022 数据集的构建,首先从 2022-2023 赛季的 50 场 NBA 全场比赛中收集了 play-by-play 数据,包括事件描述、事件对应的计分板时间、得分记录、球员信息和球队信息。然后,通过 OCR 技术识别每帧计分板上的时间,并将其与文本描述相关联。最后,从 KG NBA 2022 知识图中提取相关数据,构建了 VC NBA 2022 数据集。该数据集包含 9 种篮球投篮事件和 286 位球员的知识(即图像和名称),数据样本如图 3 所示。
特点
VC NBA 2022 数据集的特点在于其多模态性和细粒度性。该数据集不仅包含视频和文本描述,还包含球员的图像和名称,为视频字幕生成提供了更丰富的上下文信息。此外,数据集中的文本描述具有更高的句子密度和动词比例,能够更详细地描述篮球比赛中的动作和事件。
使用方法
VC NBA 2022 数据集可用于训练和评估知识引导的实体感知视频字幕生成模型。研究人员可以使用该数据集来训练模型,使其能够理解视频内容,并生成包含特定实体名称和细粒度动作的文本描述。此外,该数据集还可以用于研究视频字幕生成模型在篮球比赛场景下的性能和泛化能力。
背景与挑战
背景概述
视频字幕生成是计算机视觉领域的重要任务,要求模型根据给定视频输出相应的文本描述。近年来,视频字幕生成技术取得了快速发展,但仍存在一些挑战。例如,模型难以自动生成包含特定实体名称和细粒度动作的文本描述。这对于篮球直播文本广播等应用场景具有重要意义。为了解决这一问题,本文提出了一种基于多模态知识图谱的视频字幕生成基准,并构建了名为VC NBA 2022的多模态篮球比赛视频字幕生成数据集。该数据集包含9种细粒度投篮事件和286名球员的知识(即图像和名称)。基于此数据集,本文还提出了一种基于候选球员列表的编码器-解码器形式的实体感知视频字幕生成网络(KEANet),用于篮球直播文本广播。KEANet有效地利用了额外的知识,并在多个体育基准数据集上取得了优于现有视频字幕生成模型的表现。
当前挑战
本文提出的数据集和相关模型面临着一些挑战。首先,如何有效地利用多模态知识图谱中的知识来生成包含特定实体名称和细粒度动作的文本描述是一个挑战。其次,如何设计实体感知模块,以突出关键球员并建模球员之间的关系,也是一个挑战。此外,模型在生成文本描述时可能会出现实体名称错误、动作混淆和距离感知不足等问题。为了解决这些挑战,需要进一步改进模型的特征提取能力、实体感知模块和空间感知能力。
常用场景
经典使用场景
VC NBA 2022数据集主要用于视频字幕生成任务,特别是在篮球比赛直播文本广播方面。该数据集提供了丰富的球员信息和细粒度动作数据,使得模型能够生成包含特定实体名称和精细动作的视频描述。例如,模型可以根据视频内容生成描述,如“布兰登·英格拉姆错过了2分跳投,贾斯汀·温斯洛获得了防守篮板”,从而提高了直播文本广播的准确性和信息量。
解决学术问题
VC NBA 2022数据集解决了现有视频字幕生成模型无法自动生成包含特定实体名称和细粒度动作文本描述的问题。现有的模型和方法往往只能生成简单、宏观的句子描述,无法满足实际应用的需求。VC NBA 2022数据集通过引入多模态篮球游戏知识图谱,提供了视频内容之外的额外知识,使得模型能够生成包含特定实体名称和精细动作的文本描述,从而提高了模型的性能和泛化能力。
衍生相关工作
VC NBA 2022数据集的提出,促进了视频字幕生成领域的发展,为后续研究提供了新的思路和方向。例如,后续研究可以基于VC NBA 2022数据集,进一步研究如何利用知识图谱提高视频字幕生成的准确性和信息量,或者如何将VC NBA 2022数据集应用于其他领域,例如足球比赛直播文本广播、智能视频分析等。
以上内容由遇见数据集搜集并总结生成



