GOAL

Name: GOAL
Creator: 清华大学计算机科学与技术系
Published: 2023-10-05 14:55:13
License: 暂无描述

arXiv2023-10-05 更新2024-06-21 收录

下载链接：

https://github.com/THU-KEG/goal

下载链接

链接失效反馈

官方服务：

资源简介：

GOAL数据集由清华大学计算机科学与技术系创建，包含超过8.9k个足球视频片段，旨在支持实时足球评论生成。数据集中的每个视频都与来自专业体育平台和Wikidata的丰富知识相关联。创建过程中，通过一系列人工标注任务，如校对、实体识别和文本分类，完成了知识、视频和文本的精细对齐。该数据集的应用领域主要集中在自动体育叙述，旨在解决如何基于背景知识生成生动、细粒度的视频描述问题。

The GOAL dataset was created by the Department of Computer Science and Technology, Tsinghua University. It contains over 8.9 thousand football video clips, and is designed to support real-time football commentary generation. Each video in the dataset is associated with rich knowledge sourced from professional sports platforms and Wikidata. During its development, fine-grained alignment among knowledge, videos and texts was accomplished via a series of manual annotation tasks, including proofreading, entity recognition and text classification. The core application areas of this dataset focus on automated sports narration, aiming to address the challenge of generating vivid, fine-grained video descriptions based on background knowledge.

提供机构：

清华大学计算机科学与技术系

创建时间：

2023-03-26

搜集汇总

数据集介绍

构建方式

GOAL数据集的构建方式涉及多个步骤。首先，从SoccerNet-v2开源数据集中收集了80场完整的英式足球比赛视频，并使用Azure ASR工具包将语音转换为原始文本。接着，筛选出叙述密集且分辨率较高的20场比赛作为标注候选。然后，由一支由10名英语母语者（同时也是资深足球迷）组成的团队进行了一系列人工标注任务，包括评论文本校对、视频文本对齐和文本知识标注。此外，数据集还从专业体育平台和Wikidata中获取了丰富的知识信息，并通过BLINK工具将其与视频和文本进行链接。最后，通过视频分割和特征建模等预处理操作，使数据集更适合视频描述任务。

使用方法

使用GOAL数据集进行知识化视频描述任务的方法如下：1）将数据集划分为训练集、验证集和测试集；2）选择合适的视频描述模型，例如HMN、SwinBERT或ALPRO等；3）根据模型架构，构建知识特征或设计知识提示，以增强模型的知识感知能力；4）使用BLEU、METEOR、Rouge-L和CIDEr等指标评估模型的性能；5）分析模型错误，并根据结果改进模型结构和训练策略。

背景与挑战

背景概述

在计算机视觉和自然语言处理领域，视频字幕生成任务旨在用自然语言描述视频内容。近年来，尽管视频字幕模型取得了显著进展，但如何基于背景知识生成生动、细粒度的视频描述，即结合领域特定场景的长篇、信息丰富的评论和适当的推理，仍然是一个未解决的问题。GOAL数据集的创建正是为了应对这一挑战。GOAL是一个包含超过8.9k个足球视频片段、22k个句子和42k个知识三元组的数据集，旨在提出一个具有挑战性的新任务设置，即基于知识的视频字幕生成(Knowledge-grounded Video Captioning, KGVC)。该数据集由清华大学计算机科学与技术系的研究人员创建，并由腾讯平台和内容组提供支持。GOAL数据集的核心研究问题是，如何在实时足球评论生成中，结合视频内容与相关背景知识，生成更具信息量和细节性的视频描述。GOAL数据集的提出，为视频字幕生成任务的研究和应用开辟了新的方向，并为相关领域的研究人员提供了宝贵的资源和工具。

当前挑战

GOAL数据集的挑战主要体现在以下几个方面：1)视频理解：除了识别视频中的可见物体和动作外，还需要能够将物体链接到细粒度的实体，并将多个动作结合起来进行推理。2)视频-文本桥接：除了将视频和文本元素关联起来，还需要关联背后的知识，这成为了一个关键问题。3)文本生成：模型需要调用背景知识来生成生动描述和评论，而不仅仅是简单地介绍粗粒度的信息。4)数据集构建：GOAL数据集的构建过程中，研究人员面临着如何收集高质量的足球视频和评论、如何进行视频-文本-知识对齐、如何进行知识扩展和特征建模等挑战。5)模型评估：由于每个视频只有一个版本的评论字幕，这给模型的评估带来了限制。6)知识类型：虽然GOAL数据集收集了大部分可以链接到视频或文本的相关知识，但仍忽略了其他类型的知识，如足球评论员风格。7)数据规模：GOAL数据集的规模相对较小，需要进一步丰富和扩展。

常用场景

经典使用场景

GOAL数据集旨在为实时足球评论生成提供一个具有挑战性的知识基础视频字幕基准。该数据集包含超过8.9k个足球视频片段、22k个句子和42k个知识三元组，涵盖了丰富的背景知识，如球员信息、球队特征、比赛新闻等。通过将视频内容与知识库相结合，GOAL数据集为研究人员提供了一个更为复杂和实际的应用场景，用于开发能够理解和生成基于知识的视频描述模型。

解决学术问题

GOAL数据集解决了视频字幕领域中一个长期存在的问题，即如何基于背景知识生成生动、细粒度的视频描述。现有的视频字幕基准在现实世界应用中仍存在一定差距，而GOAL数据集通过引入知识三元组，要求模型在视频理解、视频-文本连接和文本生成方面具备更高的能力。此外，GOAL数据集还要求模型能够调用背景知识，如赛季首粒进球等，以生成更加生动和详细的描述。GOAL数据集的提出为视频字幕研究开辟了新的方向，并促进了知识增强视频字幕模型的发展。

实际应用

GOAL数据集在实际应用中具有广泛的前景。例如，在自动体育叙述方面，GOAL数据集可以帮助构建自动生成实时足球评论的系统。这些系统可以应用于体育赛事直播、视频回放、体育新闻制作等场景。通过结合视频内容、知识库和先进的自然语言处理技术，GOAL数据集可以支持开发更加智能和人性化的体育叙述模型，为观众提供更加丰富和深入的赛事信息。

数据集最近研究