orrzohar/Video-STaR

Name: orrzohar/Video-STaR
Creator: orrzohar
Published: 2024-07-09 04:01:57
License: 暂无描述

Hugging Face2024-07-09 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/orrzohar/Video-STaR

下载链接

链接失效反馈

官方服务：

资源简介：

VSTaR-1M是一个包含100万条指令调优数据的数据集，旨在增强大型视频语言模型（LVLMs）中的视频语言对齐。该数据集来源于Kinetics700、STAR-benchmark和FineDiving三个不同的数据集。Kinetics700的指令调优QA对有助于增加多样性和更细粒度的活动识别；STAR-benchmark的指令调优QA对适用于时间推理；FineDiving的指令调优QA对则展示了如何使LVLMs适应新任务（如奥运会跳水裁判）。

The VSTaR-1M dataset is a 1M instruction tuning dataset created using Video-STaR, including source datasets from Kinetics700, STAR-benchmark, and FineDiving. It aims to enhance video-language alignment in Large Video-Language Models (LVLMs), suitable for diverse tasks such as fine-grained activity recognition and temporal reasoning.

提供机构：

orrzohar

原始信息汇总

VSTaR-1M 数据集概述

数据集类型

VSTaR-1M 是一个包含100万条指令调优数据的数据集，由 Video-STaR 创建，使用了以下源数据集：

数据集目标

增强大型视频-语言模型（LVLMs）中的视频-语言对齐。

数据文件配置

Kinetics700:
- 文件名: kinetics700_tune_.json
- 用途: 用于增加多样性和细粒度活动识别的指令调优QA对。
STAR-benchmark:
- 文件名: starb_tune_.json
- 用途: 用于时间推理的指令调优QA对。
FineDiving:
- 文件名: finediving_tune_.json
- 用途: 用于适应新任务（如奥运会跳水裁判）的指令调优QA对。

引用

BibTeX @inproceedings{zohar2024videostar, title = {Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision}, author = {Zohar, Orr and Wang, Xiaohan and Bitton, Yonatan and Szpektor, Idan and Yeung-levy, Serena}, year = {2024}, booktitle = {arXiv preprint arXiv:2407.06189}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集