Neptune

Name: Neptune
Creator: Google
Published: 2024-12-04 15:58:04
License: 暂无描述

github2024-12-04 更新2024-12-05 收录

下载链接：

https://github.com/google-deepmind/neptune

下载链接

链接失效反馈

官方服务：

资源简介：

Neptune数据集由Google Research团队创建，旨在推动长视频理解技术的发展。该数据集专注于长视频（最长可达15分钟）的多模态推理能力，通过自动化流程生成包含问题、答案和干扰项的QAD标注。Neptune覆盖了广泛的长视频推理类型，提供了3,268个QAD标注，涉及2,405个视频，总时长超过100小时。数据来源于YouTube，通过精心设计的提示和大型语言模型（LLMs）自动生成，后经人工审核以确保质量。Neptune数据集不仅为视频问答（VideoQA）提供了新的挑战，也为评估多模态模型在长视频领域的性能提供了基准。

The Neptune dataset was created by the Google Research team to advance the development of long-form video understanding technologies. This dataset focuses on multimodal reasoning capabilities for long-form videos (up to 15 minutes in length), and generates QAD annotations containing questions, answers, and distractors through an automated pipeline. The Neptune dataset covers a wide range of long-form video reasoning types, offering 3,268 QAD annotations across 2,405 videos with a total duration of over 100 hours. The data is sourced from YouTube, automatically generated via carefully designed prompts and Large Language Models (LLMs), and then manually reviewed to ensure quality. The Neptune dataset not only presents new challenges for video question answering (VideoQA), but also provides a benchmark for evaluating the performance of multimodal models in the long-form video domain.

提供机构：

Google

创建时间：

2024-12-04

原始信息汇总

Neptune 数据集概述

数据集简介

名称: Neptune
类型: 长视频问答数据集
目标: 测试视频-语言模型在长视频推理能力上的表现
问题类型: 包括视频总结、时间顺序、状态变化、创作者意图等

数据集特点

视频长度: 最长可达15分钟
问题数量: 超过3,200个问题
视频数量: 超过2,400个视频
视频时长分布: 超过12%的视频时长超过5分钟，超过25%的视频时长超过3分钟

数据集结构

文件格式: JSON
字段:
- key: 问题唯一标识符
- video_id: YouTube视频URL
- question: 自由形式的问题
- answer: 自由形式的答案
- answer_choice_{i}: 多选题的干扰选项，i在范围(0,4)内
- answer_id: 正确答案的ID
- question type: 问题类型

数据集下载

Neptune-Full: 下载链接
Neptune-MMH: 下载链接
Neptune-MMA: 下载链接

评估与指标

多选题评估: 从5个选项中选择答案，使用准确率作为指标
开放式问题评估: 使用Gemma Equivalence Metric (GEM) 进行评估

引用

latex @article{neptune24, title={Neptune: The Long Orbit to Benchmarking Long Video Understanding}, author={Arsha Nagrani and Mingda Zhang and Ramin Mehran and Rachel Hornung and Nitesh Bharadwaj Gundavarapu and Nilpa Jha and Austin Myers and Xingyi Zhou and Boqing Gong and Cordelia Schmid and Mikhail Sirotenko and Yukun Zhu and Tobias Weyand}, year={2024}, }

许可

软件: Apache License 2.0
其他材料: Creative Commons Attribution 4.0 International License (CC-BY)

搜集汇总

数据集介绍

构建方式

Neptune数据集的构建采用了一种半自动化的流程，该流程涉及对大型语言模型（LLMs）和视频语言模型（VLMs）的精心提示，其中包括Gemini模型。通过这种方式，数据集能够生成具有挑战性的问答对，并附带干扰选项，以测试视频语言模型在长视频理解中的广泛推理能力。具体构建细节在相关论文中有详细阐述。

特点

Neptune数据集的显著特点在于其针对长视频（最长可达15分钟）的复杂问答设计，涵盖了多种问题类型，如视频摘要、时间顺序、状态变化和创作者意图等。此外，数据集提供了两种评估模式：多选题和开放式问答，后者采用了一种基于Gemma的等价度量（GEM）。

使用方法

使用Neptune数据集时，用户可以通过提供的JSON文件下载包含YouTube视频ID和注释的数据。这些文件包含了每个问题的唯一标识符、视频URL、自由形式的问题和答案，以及多选题的干扰选项和正确答案的ID。数据集支持多选题和开放式问答两种评估方式，用户可根据需求选择合适的评估方法。

背景与挑战

背景概述

Neptune数据集是由DeepMind Technologies Limited于2024年创建的，专注于长视频（最长可达15分钟）的问答与干扰项（QAD）集。该数据集旨在测试视频-语言模型在多种长视频推理能力上的表现，如视频摘要、时间顺序、状态变化和创作者意图等。通过提供多种问题类型标签，Neptune为视频理解领域的研究提供了丰富的资源，推动了视频-语言模型在复杂场景下的应用与发展。

当前挑战

Neptune数据集在构建过程中面临多项挑战。首先，长视频的复杂性要求模型具备强大的推理能力，以应对视频摘要、时间顺序等多样化的任务。其次，数据集的半自动化生成过程依赖于大型语言模型（LLMs）和视频-语言模型（VLMs），如Gemini，这增加了模型训练和数据标注的难度。此外，为了评估模型的表现，Neptune引入了Gemma Equivalence Metric (GEM)，这是一种基于Gemma模型的开放式问题评估方法，其开发和应用也带来了技术上的挑战。

常用场景

经典使用场景

在视频语言模型的研究领域，Neptune数据集以其独特的长视频问答机制而著称。该数据集通过提供长达15分钟的复杂视频内容，结合多种问题类型如视频总结、时间顺序、状态变化和创作者意图等，为模型提供了广泛的推理能力测试平台。其多选和开放式问答两种评估模式，使得研究人员能够全面评估模型在长视频理解中的表现。

衍生相关工作

基于Neptune数据集，研究者们开发了多种创新模型和方法。例如，Gemma Equivalence Metric (GEM) 的提出，为开放式问答的评估提供了新的标准。此外，该数据集还激发了关于长视频内容理解和多模态数据处理的深入研究，推动了视频语言模型在多个应用场景中的实际应用和发展。

数据集最近研究