ViCaS
收藏ViCaS: 结合整体和像素级视频理解的带标注分割的标题数据集
数据集概述
- 名称: ViCaS
- 版本: v0.1
- 视频数量: 7,331
- 发布日期: 2024年12月12日
数据集内容
-
视频: 包含7,331个视频,来自Oops数据集。
-
标注: 提供视频的标题和分割掩码。
-
文件结构:
$VICAS_DIR ├── videos
│ ├── <video #1.mp4> │ ├── <video #2.mp4> │ ├── ... ├── video_frames │ ├── <video #1> │ │ └── 00000.jpg │ │ └── 00001.jpg │ │ └── ... │ ├── <video #2> │ │ └── 00000.jpg │ │ └── 00001.jpg │ ├── ... ├── annotations
│ ├── v0.1 │ │ └── <video #1.json> │ │ └── <video #2.json> │ │ └── ... ├── splits │ ├── v0.1 │ │ └── train.json │ │ └── val.json │ │ └── test.json
数据集下载
- 标注: 托管在HuggingFace上,地址为HuggingFace。
- 视频: 需要从Oops数据集下载,地址为Oops。
数据预处理
- 视频解码: 使用
vicas/preprocess/gather_videos.py脚本将视频文件整理到指定目录,并使用vicas/preprocess/videos_to_frames.sh脚本将视频解码为图像帧。
标注格式
- API: 提供
vicas/dataset.py中的API来解析数据集和JSON标注。 - 标题: 如果仅对标题感兴趣,可以使用
caption_parsed_en_gpt字段。
基准评估
- 评估脚本: 提供评估脚本
vicas/evaluation/run.sh和vicas/evaluation/main.py,支持视频标题和LG-VIS任务的评估。 - 模型要求: 评估视频标题需要Llama3-70B模型。
引用
@article{athar2024vicas, author = {Ali Athar, Xueqing Deng, Liang-Chieh Chen}, title = {ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation}, journal = {Arxiv}, year = {2024} }




