LongVT-Source

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/longvideotool/LongVT-Source

下载链接

链接失效反馈

官方服务：

资源简介：

LongVT-Source数据集是一个端到端的代理框架，通过交织的多模态工具链思想实现对长视频的思考。该数据集提供了[LongVT-Parquet](https://huggingface.co/datasets/longvideotool/LongVT-Parquet)训练注释中引用的原始媒体文件。

The LongVT-Source dataset is an end-to-end agent framework that enables reasoning over long videos through the paradigm of interleaved multimodal toolchains. This dataset provides the original media files cited in the training annotations of [LongVT-Parquet](https://huggingface.co/datasets/longvideotool/LongVT-Parquet).

创建时间：

2025-11-25

原始信息汇总

LongVT-Source 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别: 视频文本到文本、视觉问答
语言: 英语
标签: 视频、长视频、推理、工具调用、多模态
规模分类: 10万到100万之间

数据集描述

LongVT-Source 是 LongVT 项目的源视频和图像文件存储库，提供训练注释中引用的原始媒体文件。

数据集结构

源文件按数据集类型组织，存储为 zip 压缩包：

训练数据

来源	描述	文件数量
longvideoreason	长视频推理数据	66个zip文件
videor1	Video-R1 COT数据	13个zip文件
longvideoreflection	长视频反思数据	27个zip文件
selftrace	自蒸馏iMCoTT轨迹	6个zip文件
tvg	时序视频定位数据	2个zip文件
geminicot	Gemini蒸馏COT数据	2个zip文件
llavacot	LLaVA COT数据	1个zip文件
openvlthinker	OpenVLThinker数据	1个zip文件
wemath	WeMath数据	1个zip文件
selfqa	自策划RL问答数据	1个zip文件
rl_val	RL验证数据	1个zip文件

评估数据

来源	描述	文件数量
videosiaheval	VideoSIAH-Eval基准测试视频	12个zip文件

引用信息

bibtex @misc{yang2025longvtincentivizingthinkinglong, title={LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling}, author={Zuhao Yang and Sudong Wang and Kaichen Zhang and Keming Wu and Sicong Leng and Yifan Zhang and Bo Li and Chengwei Qin and Shijian Lu and Xingxuan Li and Lidong Bing}, year={2025}, eprint={2511.20785}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.20785}, }

搜集汇总

数据集介绍

构建方式

在长视频理解研究领域，LongVT-Source数据集通过系统整合多源视频素材构建而成。其构建过程涵盖了长视频推理、视频反思、自蒸馏轨迹等十余种数据类型，每种数据均以独立压缩包形式存储，共计包含超过120个媒体文件包。这种模块化架构既保持了原始视频数据的完整性，又通过标准化压缩格式确保了数据分发的效率，为后续标注工作提供了坚实的多媒体基础。

使用方法

针对实际研究应用场景，数据集采用分层调用机制实现高效访问。研究者可通过官方提供的命令行工具批量下载全部源文件，亦可按需获取特定子集压缩包。解压后的媒体文件路径与LongVT-Parquet标注集保持严格对应关系，这种设计使得原始视频与结构化注释能够无缝衔接。值得注意的是，使用过程需遵循Apache 2.0许可协议，并建议结合项目论文与代码库以充分发挥数据价值。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，长视频理解成为计算机视觉与自然语言处理交叉领域的核心研究方向。LongVT数据集由EvolvingLMMs-Lab团队于2025年发布，其核心研究目标在于通过工具调用机制实现长视频的深度推理与交互。该框架采用多模态工具思维链架构，有效解决了传统模型在处理长时序视频时存在的认知局限问题，为视频问答、时序定位等任务提供了重要的数据支撑，显著推动了具身智能与视频理解领域的发展进程。

当前挑战

长视频理解领域面临的核心挑战在于时序信息的长期依赖建模与多粒度语义抽取，传统方法难以有效捕捉跨帧的复杂逻辑关系。在数据构建过程中，团队需应对多源异构数据的对齐难题，包括从视频推理、反思轨迹到时序标注等十余种数据类型的标准化整合。同时，大规模视频文件的存储优化与分布式处理架构也构成了重要的工程技术挑战，需确保数TB级媒体数据与标注信息的高效协同管理。

常用场景

经典使用场景

在长视频理解领域，LongVT-Source数据集作为原始多媒体资源库，为多模态推理任务提供了关键支撑。其核心应用场景聚焦于训练端到端智能体框架，通过交织式工具思维链实现长视频内容解析。该数据集支撑模型对时序视频片段进行深度语义分析，涵盖从视觉问答到工具调用的完整推理流程，为构建具备长视频认知能力的人工智能系统奠定数据基础。

解决学术问题

该数据集有效应对了多模态人工智能领域的长视频理解难题，突破了传统模型在长时序依赖建模方面的瓶颈。通过提供大规模长视频原始数据及其标注关联，解决了视频语义连贯性分析、时序事件推理等核心学术问题。其价值在于建立了视频内容与高阶认知任务间的桥梁，推动了视觉语言模型在复杂场景下的推理能力发展，为多模态大模型的理论研究提供了重要实验基础。

实际应用

在现实应用层面，LongVT-Source支撑的智能体框架可广泛应用于视频内容分析、智能教学辅助、安防监控解析等场景。基于该数据集训练的模型能够理解长达数小时的视频内容，实现精准的事件定位与语义推理，为视频摘要生成、智能问答系统提供技术支撑。其在医疗影像分析、工业检测等专业领域的延伸应用，展现了多模态人工智能技术的实际落地价值。

数据集最近研究