ViCaS|视频理解数据集|视频分割数据集

github2024-12-17 更新2024-12-18 收录

视频理解

视频分割

下载链接：

https://github.com/Ali2500/ViCaS

下载链接

链接失效反馈

资源简介：

ViCaS是一个用于结合整体和像素级视频理解的数据集，使用带有基础分割的标题。该数据集包含7,331个视频，提供了注释（标题和分割掩码），并详细说明了数据集的下载方式、预处理步骤和注释格式。

创建时间：

2024-12-12

原始信息汇总

ViCaS: 结合整体和像素级视频理解的带标注分割的标题数据集

数据集概述

名称: ViCaS
版本: v0.1
视频数量: 7,331
发布日期: 2024年12月12日

数据集内容

视频: 包含7,331个视频，来自Oops数据集。
标注: 提供视频的标题和分割掩码。
文件结构:

$VICAS_DIR ├── videos
│ ├── <video #1.mp4> │ ├── <video #2.mp4> │ ├── ... ├── video_frames │ ├── <video #1> │ │ └── 00000.jpg │ │ └── 00001.jpg │ │ └── ... │ ├── <video #2> │ │ └── 00000.jpg │ │ └── 00001.jpg │ ├── ... ├── annotations
│ ├── v0.1 │ │ └── <video #1.json> │ │ └── <video #2.json> │ │ └── ... ├── splits │ ├── v0.1 │ │ └── train.json │ │ └── val.json │ │ └── test.json

数据集下载

标注: 托管在HuggingFace上，地址为HuggingFace。
视频: 需要从Oops数据集下载，地址为Oops。

数据预处理

视频解码: 使用vicas/preprocess/gather_videos.py脚本将视频文件整理到指定目录，并使用vicas/preprocess/videos_to_frames.sh脚本将视频解码为图像帧。

标注格式

API: 提供vicas/dataset.py中的API来解析数据集和JSON标注。
标题: 如果仅对标题感兴趣，可以使用caption_parsed_en_gpt字段。

基准评估

评估脚本: 提供评估脚本vicas/evaluation/run.sh和vicas/evaluation/main.py，支持视频标题和LG-VIS任务的评估。
模型要求: 评估视频标题需要Llama3-70B模型。

引用

@article{athar2024vicas, author = {Ali Athar, Xueqing Deng, Liang-Chieh Chen}, title = {ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation}, journal = {Arxiv}, year = {2024} }

AI搜集汇总

数据集介绍

构建方式

ViCaS数据集通过结合整体视频理解和像素级视频理解，构建了一个包含7,331个视频的多模态数据集。该数据集的构建过程包括从Oops数据集中获取视频，并为其生成相应的标注，包括视频描述和基于分割的掩码。这些标注通过JSON格式存储，便于解析和使用。此外，数据集还提供了预处理脚本，用于将视频解码为图像帧，以便进行进一步的分析和处理。

特点

ViCaS数据集的主要特点在于其多模态特性，结合了视频的整体理解和像素级的细节理解。数据集不仅提供了视频的描述性标注，还提供了基于分割的掩码，使得研究者可以在视频理解和图像分割两个任务上进行深入研究。此外，数据集的标注格式简洁明了，易于解析和使用，适合多种机器学习和深度学习任务。

使用方法

使用ViCaS数据集时，用户首先需要下载并安装必要的软件包和依赖项。接着，用户可以通过提供的预处理脚本将视频解码为图像帧，并使用数据集的API进行标注的解析。数据集提供了详细的示例和Jupyter笔记本，帮助用户快速上手。对于特定的任务，如视频描述或分割任务，用户可以选择性地使用相应的标注进行模型训练和评估。

背景与挑战

背景概述

ViCaS数据集由Ali Athar、Xueqing Deng和Liang-Chieh Chen于2024年创建，旨在推动视频理解领域的研究，特别是结合整体与像素级理解的挑战。该数据集包含了7,331个视频，并提供了详细的标注，包括视频描述和基于分割的标注。ViCaS的推出不仅为视频理解提供了新的研究方向，还通过结合自然语言处理与计算机视觉技术，推动了多模态学习的进展。

当前挑战

ViCaS数据集面临的挑战主要集中在两个方面：一是如何有效地结合整体视频理解和像素级分割，以实现更精确的视频内容描述；二是数据集构建过程中，由于涉及大量视频和复杂的标注工作，如何确保标注的准确性和一致性成为一大难题。此外，数据集的版权问题也限制了部分视频的公开，增加了数据获取的复杂性。

常用场景

经典使用场景

ViCaS数据集的经典使用场景主要集中在视频理解和语义分割的结合领域。通过提供带有标注的视频片段及其对应的文本描述和像素级分割掩码，该数据集支持研究人员开发和评估能够同时处理整体视频内容和细节像素信息的模型。这种结合使得模型能够在视频理解任务中实现更精确的语义解析和场景描述，尤其适用于视频字幕生成和视频内容分析等任务。

实际应用

在实际应用中，ViCaS数据集可广泛应用于视频内容分析、视频字幕生成、视频检索和视频编辑等领域。例如，在视频字幕生成中，结合整体视频内容和像素级细节的模型能够生成更准确、更详细的字幕描述；在视频检索中，利用像素级分割信息可以提高检索的精确度。此外，该数据集还可用于开发智能视频编辑工具，帮助用户更精确地选择和编辑视频片段。

衍生相关工作

ViCaS数据集的推出激发了大量相关研究工作。例如，基于该数据集的视频字幕生成模型研究，探索如何利用整体视频内容和像素级分割信息生成更精确的字幕；此外，还有研究者利用ViCaS数据集开发新的视频理解算法，旨在提升视频内容分析的精度和效率。这些衍生工作不仅推动了视频理解领域的发展，也为实际应用提供了新的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Global Volcano Database

全球火山数据库包含有关全球火山的信息，包括火山的位置、类型、历史喷发记录、海拔高度等详细数据。该数据集旨在为地质学家、环境科学家和应急管理机构提供有关火山活动的全面信息。

volcano.si.edu 收录