five

orrzohar/Video-STaR

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/orrzohar/Video-STaR
下载链接
链接失效反馈
官方服务:
资源简介:
VSTaR-1M是一个包含100万条指令调优数据的数据集,旨在增强大型视频语言模型(LVLMs)中的视频语言对齐。该数据集来源于Kinetics700、STAR-benchmark和FineDiving三个不同的数据集。Kinetics700的指令调优QA对有助于增加多样性和更细粒度的活动识别;STAR-benchmark的指令调优QA对适用于时间推理;FineDiving的指令调优QA对则展示了如何使LVLMs适应新任务(如奥运会跳水裁判)。

The VSTaR-1M dataset is a 1M instruction tuning dataset created using Video-STaR, including source datasets from Kinetics700, STAR-benchmark, and FineDiving. It aims to enhance video-language alignment in Large Video-Language Models (LVLMs), suitable for diverse tasks such as fine-grained activity recognition and temporal reasoning.
提供机构:
orrzohar
原始信息汇总

VSTaR-1M 数据集概述

数据集类型

数据集目标

  • 增强大型视频-语言模型(LVLMs)中的视频-语言对齐。

数据文件配置

  • Kinetics700:
    • 文件名: kinetics700_tune_.json
    • 用途: 用于增加多样性和细粒度活动识别的指令调优QA对。
  • STAR-benchmark:
    • 文件名: starb_tune_.json
    • 用途: 用于时间推理的指令调优QA对。
  • FineDiving:
    • 文件名: finediving_tune_.json
    • 用途: 用于适应新任务(如奥运会跳水裁判)的指令调优QA对。

引用

BibTeX @inproceedings{zohar2024videostar, title = {Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision}, author = {Zohar, Orr and Wang, Xiaohan and Bitton, Yonatan and Szpektor, Idan and Yeung-levy, Serena}, year = {2024}, booktitle = {arXiv preprint arXiv:2407.06189}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作