ParaVT-Source

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ParaVT/ParaVT-Source

下载链接

链接失效反馈

官方服务：

资源简介：

ParaVT-Source 是 ParaVT 多智能体长视频理解框架的训练语料原始媒体文件数据集。它包含与 ParaVT-Parquet 注释文件对应的原始视频和图像文件，按数据来源分组打包为多个 zip 存档。数据集主要包含三个部分：longvt_source/ 目录下包含来自 LongVT 共享训练剪辑的多个子集（如 videor1_*、longvideoreason_*、geminicot_*、tvg_*、selftrace_*），以及用于多模态交错行的辅助图像文件；museg/ 目录下包含 Charades-STA 视频剪辑和 MuSeG 的 et_instruct_164k 视频剪辑；selfqa/ 目录下包含基于 HACS 和 Ego4D 的自建开放式问答视频剪辑。所有文件均按 sentinel 路径存储，解压后可形成统一目录树，便于与 ParaVT-Parquet 注释重新链接。该数据集适用于视频文本到文本、视觉问答等任务，特别支持长视频理解、推理和工具调用。

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

ParaVT-Source数据集专为长视频理解与多智能体推理任务而设计，其构建依托于PARA-GRPO后训练框架。原始视频文件依据哨兵桶（sentinel bucket）进行分组，并封装为按源分发的压缩归档包，每个归档包的大小被严格控制在10 GB以下以确保云端分发效率。归档内容涵盖LongVT共享训练片段、多模态交错的辅助图像文件、MuSeG与Charades-STA剪辑片段，以及自选开放域问答视频片段，共同构成统一的资源树。用户可通过自动化脚本将归档解压至同一根目录，并利用materialize模块重新链接绝对路径，完成数据集的完整装配。

特点

该数据集的核心特色在于其高度的模块化与可扩展性。视频与图像文件依据来源和任务类型（如推理、工具调用、视觉问答）进行精细化分类，便于按需抽取子集。同时，数据集采用哨兵路径命名机制，保证了多个归档包解压后不会发生文件覆盖，维护了目录结构的完整性。此外，ParaVT-Source紧密耦合于ParaVT-Parquet注释数据，两者协同可实现零冗余的高效训练流程，尤其适合需要并行工具交互与复杂时空推理的长视频场景。

使用方法

使用ParaVT-Source需首先通过HuggingFace CLI下载全部归档包至本地目录，随后利用unzip命令将每个压缩文件解压至同一根目录，形成统一的视频与图像资源树。接着，调用paravt.data.materialize模块将ParaVT-Parquet中的相对路径引用重写为绝对路径，生成可直接用于模型训练的物化Parquet文件。用户亦可借助--include参数仅下载特定任务子集（如Charades定位数据），系统会自动处理缺失文件并输出有效结果，极大提升了数据使用的灵活性与效率。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在长视频理解领域的快速发展，模型对复杂、长时间跨度的视频内容进行推理与工具调用的能力成为了亟待突破的研究前沿。在此背景下，由杨祖豪、张凯臣、王苏东等研究者于2026年提出的ParaVT数据集应运而生，其核心研究问题聚焦于如何通过强化学习范式——特别是所提出的PARA-GRPO框架——来驯服长视频理解中工具先验的悖论，从而提升模型在并行工具使用场景下的代理推理能力。该数据集包含超过10万条视频-文本对，覆盖了LongVT、Charades-STA、HACS、Ego4D等多个高质量视频子集，并配套了详细的标注与原始视频文件，为长视频的监督微调与强化学习提供了统一、可复现的基准。ParaVT的发布迅速引起了学术界与工业界的广泛关注，其开源的数据、代码与模型为后续研究奠定了坚实基础，推动了多模态代理系统向更复杂、更接近真实应用场景的演进。

当前挑战

ParaVT数据集所面临的挑战主要源于长视频理解与工具调用领域固有的复杂性与构建过程中的工程约束。在领域问题层面，现有模型往往难以从长达数分钟甚至更久的视频中精准提取关键事件、理解时序逻辑并同时调用多个外部工具（如检索、推理引擎）进行协同推理，这种“工具先验悖论”——即模型在缺乏明确工具使用策略时过度依赖或错误调用工具——严重制约了代理系统的鲁棒性与效率。在数据集构建过程中，研究者需平衡海量原始视频（如LongVT子集）的存储与传输效率，采用分桶压缩与不超过10GB的分片策略，以适配HuggingFace LFS与CDN服务。此外，跨平台、多来源的异构标注（如Charades-STA的时序定位标注与Ego4D的问答对）需要统一为可被强化学习框架直接消费的格式，同时确保文件名不冲突与绝对路径重映射的可靠性，这对数据质量与工程自动化提出了严苛要求。

常用场景

经典使用场景

ParaVT-Source作为ParaVT训练语料库的原始视频媒体归档，其最经典的使用场景是为多智能体强化学习框架提供长视频理解训练数据。该数据集囊括来自LongVT、MuSeG、Charades-STA等多个来源的视频片段及辅助图像，并配以精细化的标注，使得研究者能够基于其构建和训练具备并行工具调用能力的视频理解模型。通过将原始视频文件与结构化标注解耦，ParaVT-Source为长视频推理、工具使用和跨模态对齐等任务提供了高质量的基础支撑，是开展视频基础模型研究与评估不可或缺的数据基石。

实际应用

在实际应用中，ParaVT-Source训练出的模型能够赋能诸多高价值场景，例如智能视频监控中的实时事件分析、短视频平台的自动内容摘要与推荐、以及辅助视障人士的视频内容理解服务。具体而言，模型可以同时调用多个外部工具（如目标检测器、场景分类器、时间定位模块）并行处理一段长视频，在无需人工干预的情况下完成从原始视频到结构化报告的端到端生成，大幅提升视频分析系统的效率与准确性，为工业级视频理解产品提供了可行性技术路线。

衍生相关工作

围绕ParaVT-Source数据集，已衍生出多个具有影响力的经典工作。首先是其母体框架ParaVT，提出了基于PARA-GRPO强化学习算法的多智能体视频理解范式；其次，该数据集与LongVT-Source紧密关联，共同构成了大规模视频工具训练语料库；此外，基于该数据集的Charades-STA和Ego4D衍生子集，催生了一系列关于视频时序定位和第一人称视频理解的研究成果。这些工作彼此交织，不仅验证了长视频并行工具调用范式的有效性，也为后续视频基础模型的设计提供了重要的数据与算法参考，持续推动着多模态智能体领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集