ParaVT-Parquet

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/ParaVT/ParaVT-Parquet

下载链接

链接失效反馈

官方服务：

资源简介：

ParaVT-Parquet数据集是ParaVT项目的训练标注集合，ParaVT是一个采用PARSEABILITY-ANCHORED AND RATIO-GATED GRPO（PARA-GRPO）方法进行后训练的多智能体框架，专注于长视频理解。该数据集用于训练ParaVT/ParaVT-8B模型及其冷启动初始化模型，包含两个主要配置：1）监督微调（SFT）配置，总计约97,000行数据，汇集了来自七个不同来源的数据，支持多种任务，如Charades-STA的时间定位、Gemini蒸馏的工具调用链、长视频推理、MuSeG并行工具调用、自蒸馏的交错多模态工具思维链、时序视频定位以及Video-R1子集；2）强化学习（RL）配置，包含4,406行数据，混合了来自四个数据源（如videor1_mcq、hacs开放式问答、charades_tvg、ego4d_naq开放式问答）的样本，并设计了多种奖励形式（如多项选择题精确匹配、开放式问答F1分数、时序交并比），格式与AReaL训练栈兼容。数据集以Parquet文件格式提供，属于多模态数据集，涉及视频和文本，任务类别包括视频文本到文本和视觉问答。为保护隐私，数据文件中的媒体文件绝对路径已被替换为基于虚拟根目录的相对哨兵路径，需使用配套工具还原后才能正常使用，源媒体文件存储于独立的ParaVT/ParaVT-Source仓库。

The ParaVT-Parquet dataset is a training annotation collection for the ParaVT project, which is a multi-agent framework focusing on long video understanding using the PARSEABILITY-ANCHORED AND RATIO-GATED GRPO (PARA-GRPO) method for post-training. It serves as the precise corpus for training the ParaVT/ParaVT-8B models and their cold-start initialization models. The dataset includes two main configurations: 1) Supervised Fine-tuning (SFT) configuration, with approximately 97,000 rows of data aggregated from seven different sources for various tasks, including temporal localization in Charades-STA, tool call chains from Gemini distillation, long video reasoning, parallel tool calls from MuSeG, interleaved multimodal tool chains of thought from self-distillation, temporal video grounding, and the Video-R1 subset; 2) Reinforcement Learning (RL) configuration, containing 4,406 rows of data mixed from four data sources (videor1_mcq, hacs open-ended QA, charades_tvg, ego4d_naq open-ended QA), with various reward designs (e.g., multiple-choice exact match, open-ended QA F1 score, temporal IoU), and its format is compatible with the AReaL training stack. The dataset is provided in Parquet format, is multimodal involving video and text, and covers task categories such as video text-to-text and visual question answering. For privacy protection, absolute paths to media files in the data files have been replaced with relative sentinel paths based on a specific virtual root directory, requiring restoration with accompanying tools for normal use, and the source media files are stored in a separate ParaVT/ParaVT-Source repository.

创建时间：

2026-05-18

原始信息汇总

ParaVT-Parquet 数据集概述

基本信息

许可证: Apache-2.0
任务类型: 视频-文本到文本、视觉问答
语言: 英语
数据规模: 100K < 样本数 < 1M
标签: 视频、长视频、推理、工具调用、多模态、思维链、智能体强化学习

数据集描述

ParaVT-Parquet 是 ParaVT 项目的训练注释数据集，用于长视频理解的多智能体智能体框架，通过 PARA-GRPO 方法进行后训练。该数据集是训练 ParaVT/ParaVT-8B 及其冷启动初始化模型 mwxely/ParaVT-8B-SFT 所使用的精确训练语料。

数据集结构

`sft` 配置（冷启动训练，共 97,000 行）

子集	行数	来源
`charades`	12,408	Charades-STA 时间定位
`geminicot`	4,881	Gemini 蒸馏的工具调用链
`longvideoreason`	5,238	长视频推理
`museg`	2,499	MuSeG 并行工具调用
`selftrace`	15,349	自蒸馏的交错多模态工具链思维
`tvg`	6,393	时间视频定位
`videor1`	50,000	Video-R1 子集

`rl` 配置（强化学习，共 4,406 行）

项目	说明
数据来源混合	`videor1_mcq`（1,600）+ `hacs` 开放式问答（1,439）+ `charades_tvg`（1,200）+ `ego4d_naq` 开放式问答（167）
奖励形式	多选题精确匹配、开放式 F1 分数、时间 IoU
数据格式	`prompt` / `videos` / `reward_model` / `extra_info`（兼容 `AReaL` 训练框架）

文件路径处理

出于隐私考虑，Parquet 文件中的绝对媒体路径已被替换为相对"哨兵"路径，映射到四个虚拟根目录：

哨兵前缀	映射路径（`ParaVT-Source/<sentinel>/` 下）
`longvt_source/`	每个来源的长视频训练视频存档（`videor1_`、`longvideoreason_`、`geminicot_`、`tvg_`、`selftrace_*`）
`museg/charades/`	用于时间定位训练的 Charades-STA 片段
`museg/et_instruct_164k/`	MuSeG `et_instruct_164k` 片段
`selfqa/`	自行策划的开放式问答片段（混合 HACS 和 Ego4D 衍生）

可通过 paravt.data.materialize 将哨兵路径还原为绝对路径。

致谢

SFT 语料复用了 LongVT 训练数据的子集（来源：longvideotool/LongVT-Parquet）
MuSeG、Charades-STA、HACS 和 Ego4D 的源片段归属于其各自的原始出版物

搜集汇总

数据集介绍

构建方式

ParaVT-Parquet数据集专为长视频理解中的多智能体工具调用而构建，其构建过程融合了冷启动监督微调（SFT）与强化学习（RL）两大范式。SFT部分汇集了来自Charades-STA、MuSeG、Video-R1等多个来源的97K条注释数据，涵盖了时间定位、工具调用链、长视频推理及多模态链式思考等丰富任务。RL部分则精选了4406条样本，融合多项选择、开放问答与时间IoU奖励机制，并采用PARA-GRPO算法对模型进行后训练。原始视频与图像文件单独存放于ParaVT-Source仓库，并通过哨兵路径与注释数据关联，最终经materialize脚本将相对路径解析为绝对URI，形成可直接用于训练的Parquet格式文件。

特点

该数据集的核心特色在于其高度结构化的多任务设计，能够同时支持时间视频定位、工具调用推理与长视频问答等多种复杂多模态任务。SFT配置下包含七个独立的子集，每个子集对应不同的源数据与任务类型，如geminicot提供Gemini蒸馏的工具调用链，selftrace则包含自蒸馏的链式思考轨迹。RL配置则通过多样化的奖励形状（精确匹配、F1分数、时间IoU）实现细粒度的强化学习训练。此外，数据集采用哨兵路径机制保护隐私，并通过统一的materialize流程将视频路径还原，兼顾了数据安全性与使用便捷性。

使用方法

使用ParaVT-Parquet数据集时，首先需通过huggingface-cli下载Parquet注释文件与ParaVT-Source中的原始视频压缩包。将压缩包解压至同一根目录后，调用paravt.data.materialize脚本将哨兵路径批量转换为绝对文件URI，生成可直接用于训练的文件。用户可通过datasets库的load_dataset函数加载特定配置与子集，例如sft配置下的videor1子集或rl配置的train子集。材料化后的Parquet文件兼容lmms-engine与AReaL训练框架，用户可直接参考ParaVT项目提供的SFT与RL配方进行模型训练与评估。

背景与挑战

背景概述

ParaVT-Parquet数据集诞生于2026年，由Zuhao Yang、Kaichen Zhang等来自多个机构的研究者共同创建，旨在解决长视频理解中多智能体协同与工具调用的前沿难题。该数据集作为ParaVT项目训练语料库的核心，包含97K行的冷启动监督微调（SFT）语料与4406行的多样化强化学习（RL）语料，为PARA-GRPO算法提供训练支持。通过整合Charades-STA时间定位、Gemini蒸馏工具链、长视频推理、视频自追踪等七类高质量子集，该数据集有效支撑了多模态链式工具思考与大模型智能体强化学习的融合研究，在视频理解、多模态推理等领域具有显著影响力。

当前挑战

该数据集主要面临三大挑战：首先，长视频中并行工具调用的“工具先验悖论”——模型需在动态视频流中同时调用多个工具，且避免工具间的语义冲突与效率损耗，这是传统单工具范式无法解决的领域瓶颈。其次，构建过程中需融合格式迥异的来源数据，例如将Charades-STA片段与MuSeG并行工具调用、Gemini蒸馏序列等异构数据进行统一结构化，并确保时序对齐与标注一致性。此外，SFT语料中多达7个来源的混合处理与RL语料多样化奖励形状的设计，要求兼顾数据规模的可控性与奖励模型的泛化性，这对数据清洗与配对策略提出了较高要求。

常用场景

经典使用场景

ParaVT-Parquet数据集专为长视频理解中的多智能体协同推理而设计，其经典使用场景聚焦于冷启动监督微调（SFT）与强化学习（RL）训练。该数据集整合了来自Charades-STA、Video-R1、LongVT等多个来源的97K条SFT样本，涵盖时序定位、多步推理、工具调用链等任务，为大型视觉语言模型提供结构化训练语料。同时，其包含的4.4K条RL样本通过PARA-GRPO算法优化模型在多样化视频场景下的并行工具使用能力，尤其适用于需要处理数十分钟长视频、复杂时空推理和动作定位的学术与工业场景。

解决学术问题

该数据集解决了长视频理解领域长期存在的三个核心学术问题：一是模型在长时间跨度下对复杂事件进行时序定位与因果推理的困难，通过其丰富的时序标注（如TVG、Charades子集）有效弥补了现有数据集在时态关系建模上的不足；二是多模态工具调用中的规划与执行脱节现象，借助MuSeG和GeminiCoT子集提供的并行工具链标注，推动了工具使用与自然语言推理的深度融合；三是监督学习与强化学习在视频任务中的协同不足，其SFT+RL两阶段设计为研究冷启动策略与奖励塑形提供了标准化基准，显著提升了模型在开放问答、时序匹配等任务上的泛化性能。

衍生相关工作

该数据集衍生了多项具有影响力的研究工作。其中，基于ParaVT-Parquet训练的ParaVT-8B模型作为核心基线，推动了长视频智能体框架从单一模型向多智能体并行架构的演进；其提出的PARA-GRPO强化学习算法已应用于后续的Video-R1系列工作，验证了在视频问答中引入解析度感知奖励的有效性。此外，MuSeG和Selftrace子集的清洗与标注方法被借鉴到Video-Tool-Calling等领域，为机器人在复杂环境中的工具选择与执行链学习提供了数据范本。该数据集还催生了如LongVT等上游数据整合项目，并启发了研究者探索更高效的视频预训练数据压缩与推理加速策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集