ViCaS|视频理解数据集|视频分割数据集
收藏ViCaS: 结合整体和像素级视频理解的带标注分割的标题数据集
数据集概述
- 名称: ViCaS
- 版本: v0.1
- 视频数量: 7,331
- 发布日期: 2024年12月12日
数据集内容
-
视频: 包含7,331个视频,来自Oops数据集。
-
标注: 提供视频的标题和分割掩码。
-
文件结构:
$VICAS_DIR ├── videos
│ ├── <video #1.mp4> │ ├── <video #2.mp4> │ ├── ... ├── video_frames │ ├── <video #1> │ │ └── 00000.jpg │ │ └── 00001.jpg │ │ └── ... │ ├── <video #2> │ │ └── 00000.jpg │ │ └── 00001.jpg │ ├── ... ├── annotations
│ ├── v0.1 │ │ └── <video #1.json> │ │ └── <video #2.json> │ │ └── ... ├── splits │ ├── v0.1 │ │ └── train.json │ │ └── val.json │ │ └── test.json
数据集下载
- 标注: 托管在HuggingFace上,地址为HuggingFace。
- 视频: 需要从Oops数据集下载,地址为Oops。
数据预处理
- 视频解码: 使用
vicas/preprocess/gather_videos.py
脚本将视频文件整理到指定目录,并使用vicas/preprocess/videos_to_frames.sh
脚本将视频解码为图像帧。
标注格式
- API: 提供
vicas/dataset.py
中的API来解析数据集和JSON标注。 - 标题: 如果仅对标题感兴趣,可以使用
caption_parsed_en_gpt
字段。
基准评估
- 评估脚本: 提供评估脚本
vicas/evaluation/run.sh
和vicas/evaluation/main.py
,支持视频标题和LG-VIS任务的评估。 - 模型要求: 评估视频标题需要Llama3-70B模型。
引用
@article{athar2024vicas, author = {Ali Athar, Xueqing Deng, Liang-Chieh Chen}, title = {ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation}, journal = {Arxiv}, year = {2024} }

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Global Volcano Database
全球火山数据库包含有关全球火山的信息,包括火山的位置、类型、历史喷发记录、海拔高度等详细数据。该数据集旨在为地质学家、环境科学家和应急管理机构提供有关火山活动的全面信息。
volcano.si.edu 收录