TPO dataset for LongVA

github2025-01-24 更新2025-02-10 收录

下载链接：

https://github.com/ruili33/TPO

下载链接

链接失效反馈

官方服务：

资源简介：

TPO数据集用于LongVA模型，包含10k条数据，用于训练视频大型多模态模型（video-LMMs），以增强视频理解能力。

The TPO dataset is utilized for the LongVA model, comprising 10k data entries, which are employed to train video large-scale multimodal models (video-LMMs) to enhance video comprehension capabilities.

创建时间：

2025-01-14

原始信息汇总

Temporal Preference Optimization (TPO) 数据集概述

数据集基本信息

名称: Temporal Preference Optimization (TPO) for Long-Form Video Understanding
用途: 用于长视频理解的自训练时序偏好优化
数据集地址: Huggingface Dataset

数据集内容

数据生成方法:
- 局部TPO: 生成针对短视频段的查询，对比响应保留或排除目标片段。
- 综合TPO: 生成针对更广泛理解的查询，使用完整视频与稀疏降采样视频进行对比响应。
数据用途: 作为偏好数据集训练视频大型多模态模型（video-LMMs），引导模型优先选择偏好响应以提升视频理解能力。

模型权重

LongVA-7B-TPO: 下载地址
LLaVA-Video-7B-TPO: 下载地址

安装与使用

LongVA-TPO安装: bash git clone https://github.com/ruili33/TPO cd TPO conda create -n TPOLongVA python=3.10 conda activate TPOLongVA pip install torch==2.1.2 torchvision --index-url https://download.pytorch.org/whl/cu118 pip install -e "longva/.[train]" pip install packaging && pip install ninja && pip install flash-attn==2.5.0 --no-build-isolation --no-cache-dir pip install -r requirements_longva.txt
LLaVA-Video-TPO安装: bash conda create -n TPOllava python=3.10 -y conda activate TPOllava pip install --upgrade pip pip install -e "LLaVA/.[train]" pip install flash-attn==2.5.0 --no-build-isolation --no-cache-dir

推理与评估

推理:
- LongVA-TPO: 参考 longva/inference_longva.py
- LLaVA-Video-TPO: 参考 LLaVA/inference_llava.py
评估:
- 使用 lmms-eval 进行评估
- LongVA-TPO: 参考 longva/eval.sh
- LLaVA-Video-TPO: 参考 LLaVA/eval.sh

待发布内容

时序偏好数据整理流程（预计3月发布）
训练代码（预计3月发布）

搜集汇总

数据集介绍

构建方式

TPO数据集针对长视频理解任务，采用了一种自训练的时序偏好优化方法。该数据集通过在两个细粒度级别上建模时序偏好——局部化TPO与全面TPO，生成查询和对比响应对，进而经过后过滤处理形成偏好数据集，用于训练视频大型多模态模型（video-LMMs），以指导模型优先处理偏好响应，提升视频理解能力。

使用方法

使用TPO数据集，首先需要在Linux环境下安装相应的依赖和模型权重。之后，可以通过运行提供的推断演示脚本进行模型推断，或使用评价脚本进行性能评估。此外，数据集还提供了Web演示，方便用户直观地体验模型的效果。

背景与挑战

背景概述

TPO数据集，全称为Temporal Preference Optimization for Long-Form Video Understanding，是一项针对长视频理解的时序偏好优化综合管道研究，旨在提升视频大型多模态模型（video-LMMs）的视频理解能力。该数据集由Rui Li、Xiaohan Wang、Yuhui Zhang、Zeyu Wang和Serena Yeung-Levy等研究人员于2025年提出，并基于原有的LongVA和LLaVA-Video模型。TPO数据集通过构建时序偏好的数据集，引导模型优先处理偏好的响应，从而提高视频理解的质量。该数据集的创建，为长视频内容理解领域提供了新的研究工具，对相关领域的发展产生了重要影响。

当前挑战

TPO数据集面临的挑战主要包括：如何在长视频内容中有效地建模时序偏好，以及如何通过自我训练的方式优化视频理解模型。具体而言， localized TPO 和 comprehensive TPO 两种粒度级别的偏好建模需要精确的设计和对比实验，以保证模型能够从对比响应中学习到有效的偏好信息。此外，构建过程中，数据集的标注和质量控制也是一个挑战，需要确保数据的一致性和可靠性。在模型训练方面，如何高效地利用偏好数据集来指导模型学习，以及如何评估模型在视频理解任务上的性能，都是当前研究的重点问题。

常用场景

经典使用场景

在视频理解领域，TPO数据集之经典使用场景在于为长视频内容构建自我训练的时序偏好优化流程，该流程涉及对视频大型多模态模型（video-LMMs）的增强，特别是在处理时序偏好时，分别在局部化偏好与综合偏好两个粒度级别上进行优化。通过精心设计的查询与对比响应，该数据集助力模型学习优先响应，进而提升视频理解能力。

解决学术问题

该数据集解决了长视频内容理解中存在的时序信息处理难题，通过建模时序偏好，有效地指导模型区分并优先处理关键视频片段。这对于提升视频模型的准确性和效率具有显著意义，为学术研究提供了新的视角和方法。

实际应用

在实际应用中，TPO数据集可被用于优化视频内容分析，例如视频推荐系统、视频内容审核以及视频搜索算法，其通过增强模型对视频时序结构的理解，提高了这些系统的性能和用户体验。

数据集最近研究