LongVT-Source
收藏Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/longvideotool/LongVT-Source
下载链接
链接失效反馈官方服务:
资源简介:
LongVT-Source数据集是一个端到端的代理框架,通过交织的多模态工具链思想实现对长视频的思考。该数据集提供了[LongVT-Parquet](https://huggingface.co/datasets/longvideotool/LongVT-Parquet)训练注释中引用的原始媒体文件。
The LongVT-Source dataset is an end-to-end agent framework that enables reasoning over long videos through the paradigm of interleaved multimodal toolchains. This dataset provides the original media files cited in the training annotations of [LongVT-Parquet](https://huggingface.co/datasets/longvideotool/LongVT-Parquet).
创建时间:
2025-11-25
原始信息汇总
LongVT-Source 数据集概述
数据集基本信息
- 许可证: Apache 2.0
- 任务类别: 视频文本到文本、视觉问答
- 语言: 英语
- 标签: 视频、长视频、推理、工具调用、多模态
- 规模分类: 10万到100万之间
数据集描述
LongVT-Source 是 LongVT 项目的源视频和图像文件存储库,提供训练注释中引用的原始媒体文件。
数据集结构
源文件按数据集类型组织,存储为 zip 压缩包:
训练数据
| 来源 | 描述 | 文件数量 |
|---|---|---|
| longvideoreason | 长视频推理数据 | 66个zip文件 |
| videor1 | Video-R1 COT数据 | 13个zip文件 |
| longvideoreflection | 长视频反思数据 | 27个zip文件 |
| selftrace | 自蒸馏iMCoTT轨迹 | 6个zip文件 |
| tvg | 时序视频定位数据 | 2个zip文件 |
| geminicot | Gemini蒸馏COT数据 | 2个zip文件 |
| llavacot | LLaVA COT数据 | 1个zip文件 |
| openvlthinker | OpenVLThinker数据 | 1个zip文件 |
| wemath | WeMath数据 | 1个zip文件 |
| selfqa | 自策划RL问答数据 | 1个zip文件 |
| rl_val | RL验证数据 | 1个zip文件 |
评估数据
| 来源 | 描述 | 文件数量 |
|---|---|---|
| videosiaheval | VideoSIAH-Eval基准测试视频 | 12个zip文件 |
相关资源
- 论文: https://arxiv.org/abs/2511.20785
- 项目页面: https://evolvinglmms-lab.github.io/LongVT/
- 代码: https://github.com/EvolvingLMMs-Lab/LongVT
- 注释: https://huggingface.co/datasets/longvideotool/LongVT-Parquet
- 模型: https://huggingface.co/collections/lmms-lab/longvt
引用信息
bibtex @misc{yang2025longvtincentivizingthinkinglong, title={LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling}, author={Zuhao Yang and Sudong Wang and Kaichen Zhang and Keming Wu and Sicong Leng and Yifan Zhang and Bo Li and Chengwei Qin and Shijian Lu and Xingxuan Li and Lidong Bing}, year={2025}, eprint={2511.20785}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.20785}, }
搜集汇总
数据集介绍

构建方式
在长视频理解研究领域,LongVT-Source数据集通过系统整合多源视频素材构建而成。其构建过程涵盖了长视频推理、视频反思、自蒸馏轨迹等十余种数据类型,每种数据均以独立压缩包形式存储,共计包含超过120个媒体文件包。这种模块化架构既保持了原始视频数据的完整性,又通过标准化压缩格式确保了数据分发的效率,为后续标注工作提供了坚实的多媒体基础。
使用方法
针对实际研究应用场景,数据集采用分层调用机制实现高效访问。研究者可通过官方提供的命令行工具批量下载全部源文件,亦可按需获取特定子集压缩包。解压后的媒体文件路径与LongVT-Parquet标注集保持严格对应关系,这种设计使得原始视频与结构化注释能够无缝衔接。值得注意的是,使用过程需遵循Apache 2.0许可协议,并建议结合项目论文与代码库以充分发挥数据价值。
背景与挑战
背景概述
随着多模态人工智能技术的飞速发展,长视频理解成为计算机视觉与自然语言处理交叉领域的核心研究方向。LongVT数据集由EvolvingLMMs-Lab团队于2025年发布,其核心研究目标在于通过工具调用机制实现长视频的深度推理与交互。该框架采用多模态工具思维链架构,有效解决了传统模型在处理长时序视频时存在的认知局限问题,为视频问答、时序定位等任务提供了重要的数据支撑,显著推动了具身智能与视频理解领域的发展进程。
当前挑战
长视频理解领域面临的核心挑战在于时序信息的长期依赖建模与多粒度语义抽取,传统方法难以有效捕捉跨帧的复杂逻辑关系。在数据构建过程中,团队需应对多源异构数据的对齐难题,包括从视频推理、反思轨迹到时序标注等十余种数据类型的标准化整合。同时,大规模视频文件的存储优化与分布式处理架构也构成了重要的工程技术挑战,需确保数TB级媒体数据与标注信息的高效协同管理。
常用场景
经典使用场景
在长视频理解领域,LongVT-Source数据集作为原始多媒体资源库,为多模态推理任务提供了关键支撑。其核心应用场景聚焦于训练端到端智能体框架,通过交织式工具思维链实现长视频内容解析。该数据集支撑模型对时序视频片段进行深度语义分析,涵盖从视觉问答到工具调用的完整推理流程,为构建具备长视频认知能力的人工智能系统奠定数据基础。
解决学术问题
该数据集有效应对了多模态人工智能领域的长视频理解难题,突破了传统模型在长时序依赖建模方面的瓶颈。通过提供大规模长视频原始数据及其标注关联,解决了视频语义连贯性分析、时序事件推理等核心学术问题。其价值在于建立了视频内容与高阶认知任务间的桥梁,推动了视觉语言模型在复杂场景下的推理能力发展,为多模态大模型的理论研究提供了重要实验基础。
实际应用
在现实应用层面,LongVT-Source支撑的智能体框架可广泛应用于视频内容分析、智能教学辅助、安防监控解析等场景。基于该数据集训练的模型能够理解长达数小时的视频内容,实现精准的事件定位与语义推理,为视频摘要生成、智能问答系统提供技术支撑。其在医疗影像分析、工业检测等专业领域的延伸应用,展现了多模态人工智能技术的实际落地价值。
数据集最近研究
最新研究方向
在长视频多模态理解领域,LongVT-Source数据集正推动着基于工具调用的推理范式革新。该数据集通过交织式多模态工具思维链架构,支持模型对长视频内容进行深度时序分析与语义推理。当前研究聚焦于将工具调用机制原生集成到视频理解流程中,使模型能够动态选择并组合视觉工具来完成复杂任务。这一方向与大规模多模态模型的发展趋势相契合,特别是在视频问答和时序定位等任务上展现出突破性潜力。通过提供涵盖推理、反思、自蒸馏等多样化的长视频源数据,该数据集为构建具备长程上下文理解能力的智能体奠定了坚实基础,显著推进了具身智能在动态视觉场景中的应用边界。
以上内容由遇见数据集搜集并总结生成



