orrzohar/Video-STaR
收藏Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/orrzohar/Video-STaR
下载链接
链接失效反馈官方服务:
资源简介:
VSTaR-1M是一个包含100万条指令调优数据的数据集,旨在增强大型视频语言模型(LVLMs)中的视频语言对齐。该数据集来源于Kinetics700、STAR-benchmark和FineDiving三个不同的数据集。Kinetics700的指令调优QA对有助于增加多样性和更细粒度的活动识别;STAR-benchmark的指令调优QA对适用于时间推理;FineDiving的指令调优QA对则展示了如何使LVLMs适应新任务(如奥运会跳水裁判)。
The VSTaR-1M dataset is a 1M instruction tuning dataset created using Video-STaR, including source datasets from Kinetics700, STAR-benchmark, and FineDiving. It aims to enhance video-language alignment in Large Video-Language Models (LVLMs), suitable for diverse tasks such as fine-grained activity recognition and temporal reasoning.
提供机构:
orrzohar
原始信息汇总
VSTaR-1M 数据集概述
数据集类型
- VSTaR-1M 是一个包含100万条指令调优数据的数据集,由 Video-STaR 创建,使用了以下源数据集:
数据集目标
- 增强大型视频-语言模型(LVLMs)中的视频-语言对齐。
数据文件配置
- Kinetics700:
- 文件名:
kinetics700_tune_.json - 用途: 用于增加多样性和细粒度活动识别的指令调优QA对。
- 文件名:
- STAR-benchmark:
- 文件名:
starb_tune_.json - 用途: 用于时间推理的指令调优QA对。
- 文件名:
- FineDiving:
- 文件名:
finediving_tune_.json - 用途: 用于适应新任务(如奥运会跳水裁判)的指令调优QA对。
- 文件名:
引用
BibTeX @inproceedings{zohar2024videostar, title = {Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision}, author = {Zohar, Orr and Wang, Xiaohan and Bitton, Yonatan and Szpektor, Idan and Yeung-levy, Serena}, year = {2024}, booktitle = {arXiv preprint arXiv:2407.06189}, }



