VISTA

Name: VISTA
Creator: Saarland University, University of Cambridge, University of Edinburgh
Published: 2025-02-12 18:36:55
License: 暂无描述

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.08279v1

下载链接

链接失效反馈

官方服务：

资源简介：

VISTA数据集是由Saarland University、University of Cambridge和University of Edinburgh共同创建的一个英语多模态数据集，专为科学领域的视频到文本摘要任务设计。该数据集包含来自计算语言学和机器学习领域领先会议的18599对视频和相应论文摘要的配对，涵盖了从2020年到2024年的内容。数据集的平均视频长度为6.76分钟，摘要平均包含192.62个token，体现了其语料库的多样性和复杂性。该数据集的创建旨在解决科学视频摘要领域的挑战，并为视频到文本摘要任务提供基准。

The VISTA dataset is an English multimodal dataset jointly created by Saarland University, University of Cambridge and University of Edinburgh, specifically tailored for video-to-text summarization tasks in the scientific domain. This dataset includes 18,599 pairs of videos and their corresponding paper abstracts sourced from top conferences in computational linguistics and machine learning, covering content from 2020 to 2024. The average duration of videos in the dataset is 6.76 minutes, and the average number of tokens per abstract is 192.62, reflecting the diversity and complexity of this corpus. The dataset was developed to address the challenges in the field of scientific video summarization and provide a benchmark for video-to-text summarization tasks.

提供机构：

Saarland University, University of Cambridge, University of Edinburgh

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

VISTA数据集的构建方式是通过从计算语言学和机器学习领域的主要会议中收集18,599对录制的AI会议演讲和相应的论文摘要。这些数据来源于ACL Anthology（包括ACL、EMNLP、NAACL、EACL、Findings of *ACL）、ICML和NeurIPS等会议，涵盖了2020年至2024年的内容。所有材料（论文摘要和视频录制）均由相应的论文作者提供，确保了叙述的一致性。由于这些元数据存储在其各自网站上的XML/JSON文件中，因此无需进行进一步的预处理（例如，从PDF中提取摘要）。我们收集了论文标题、作者列表、论文摘要、论文链接和演示视频，以符合平台条款进行学术研究（或获得书面确认）。为了保持视频到文本的一对一对应，我们排除了可能涵盖多份论文的样本（例如，教程、特邀演讲）以及时长少于一分钟或超过30分钟的视频。

特点

VISTA数据集的特点在于它专门为科学领域的视频到文本摘要任务而设计。它包含了大量的会议演讲视频和对应的论文摘要，这些摘要通常遵循一个相对明确的格式。数据集的平均视频长度为6.8分钟，比VideoXum（2.1分钟）和BLiSS（5.0分钟）更长。摘要的平均长度为192.6个token，比YouCook2（67.8个token）和VideoXum（49.9个token）更长。数据集的多样性指标表明，它具有广泛的词汇多样性和语法复杂性。

使用方法

使用VISTA数据集的方法包括训练和评估视频到文本摘要模型。数据集被分为训练集（80%）、验证集（10%）和测试集（10%），以确保平衡的领域覆盖。模型可以使用不同的设置进行评估，包括零样本学习、QLoRA微调和全参数微调。评估指标包括ROUGE、SacreBLEU、METEOR、BERTScore、CIDEr-D、VideoScore和FactVC，用于衡量摘要的信息性、对齐性和事实一致性。此外，数据集还支持基于计划的方法，该方法通过预定义的计划组件来改进摘要的质量和事实一致性。

背景与挑战

背景概述

在多媒体学习的挑战中，将录制的视频转化为简明而准确的文本摘要日益受到关注。VISTA数据集，由Dongqi Liu等研究人员于2025年创建，旨在专门解决科学领域的视频到文本摘要问题。该数据集包含来自计算语言学和机器学习领域主要会议的18,599个录制AI会议演讲及其对应的论文摘要。研究人员通过基准测试了最先进的模型，并应用了一个基于计划的框架来更好地捕捉摘要的结构化特性。人类和自动评估均表明，明确的计划可以提升摘要的质量和事实一致性。尽管如此，模型与人类表现之间仍存在显著差距，突出了科学视频摘要的挑战性。

当前挑战

VISTA数据集面临的主要挑战包括：1)解决科学视频摘要的领域问题，即如何准确捕捉科学演讲中的技术术语和视觉元素；2)构建过程中遇到的挑战，如如何确保视频与文本之间的对齐，以及如何设计有效的评估指标来衡量摘要的质量。此外，模型在处理复杂科学内容时易出现幻觉和事实错误，这也是一个亟待解决的挑战。

常用场景

经典使用场景

VISTA数据集主要被用于视频到文本的摘要任务，特别是在科学领域的视频摘要。该数据集包含了18599个与论文摘要对应的AI会议视频记录，为研究视频到文本的摘要任务提供了丰富的数据资源。通过使用VISTA数据集，研究人员可以训练和评估各种视频摘要模型，并研究如何提高摘要的准确性和一致性。

解决学术问题

VISTA数据集解决了科学视频摘要任务中的学术研究问题，特别是处理技术术语和科学视觉元素（如图表）的能力。通过引入计划式框架，VISTA数据集能够更好地捕捉摘要的结构化特性，从而提高了摘要质量和事实一致性。然而，模型与人类表现之间仍存在差距，这突出了科学视频摘要的挑战性。

衍生相关工作

VISTA数据集衍生了相关的经典工作，包括计划式摘要方法、视频到文本摘要模型和科学文本摘要模型等。计划式摘要方法通过引入中间规划组件来捕捉摘要的潜在结构，从而提高了摘要质量和事实准确性。视频到文本摘要模型和科学文本摘要模型则利用VISTA数据集进行训练和评估，为科学视频摘要任务提供了有效的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集