VANS-Data-100K

Name: VANS-Data-100K
Creator: 香港城市大学, 快手科技Kling团队
Published: 2025-11-21 02:59:44
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://github.com/KlingTeam/VANS

下载链接

链接失效反馈

官方服务：

资源简介：

VANS-Data-100K是由香港城市大学与快手科技联合构建的专用视频数据集，旨在支持视频下一事件预测任务的研究。该数据集包含10万条高质量样本，其中3万为流程性任务数据，7万为预测性场景数据，每条样本由输入视频、问题及多模态答案构成。数据集通过四阶段流程精心构建：从COIN、YouCook2等来源采集原始视频，经镜头分割、片段筛选后，利用大语言模型生成多样化问答对与推理链。该数据集主要应用于视频事件推理与生成领域，致力于解决从文本描述到动态视频演示的跨模态对齐难题。

VANS-Data-100K is a specialized video dataset jointly constructed by City University of Hong Kong and Kuaishou Technology, aiming to support research on video next-event prediction tasks. This dataset contains 100,000 high-quality samples, among which 30,000 are procedural task data and 70,000 are predictive scenario data. Each sample consists of an input video, a question, and multimodal answers. The dataset is meticulously constructed via a four-stage pipeline: raw videos are collected from sources such as COIN and YouCook2, followed by shot segmentation and clip filtering, then diverse question-answer pairs and reasoning chains are generated using Large Language Models (LLMs). This dataset is primarily applied in the field of video event reasoning and generation, aiming to address the cross-modal alignment challenges between text descriptions and dynamic video demonstrations.

提供机构：

香港城市大学, 快手科技Kling团队

创建时间：

2025-11-21

原始信息汇总

VANS 数据集概述

数据集基本信息

项目名称：Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
项目地址：https://github.com/KlingTeam/VANS
模型地址：https://huggingface.co/KlingTeam/VANS
论文地址：https://arxiv.org/abs/2511.16669
项目网站：https://video-as-answer.github.io/

研究背景

核心任务：视频下一事件预测（Video-Next-Event Prediction, VNEP）
研究目标：将基于文本的下一事件预测扩展到动态视频响应
方法创新：从"讲述"转向"展示"，为程序性学习和创意探索提供更直观和定制化的答案

技术方法

VANS架构

双路径处理：
- VLM路径：执行基于指令的推理，生成文本描述
- VDM路径：基于语义描述和视觉上下文合成视频

Joint-GRPO方法

两阶段强化学习：
- 阶段1：可视化友好的VLM调优 - 优化描述以实现视觉合理性
- 阶段2：上下文忠实的VDM适配 - 确保语义对齐和视觉连贯性

应用场景

程序性教学

烘焙烹饪指导
手工制作教学
创意活动指导

多未来预测

基于不同问题的多样化未来预测
现实场景与夸张电影场景的对比
情感反应的多样性展示

模型组件

基础模型：
- Qwen2.5-VL-3B（视觉语言模型）
- Wan2.1-T2V-1.3B（视频扩散模型）
完整模型：VANS模型

发布计划

[ ] 发布VANS-Data-100K数据集
[ ] 发布VANS模型
[ ] 发布训练代码
[x] 发布推理代码
[x] 发布论文

引用信息

bibtex @misc{cheng2025videoasanswerpredictgeneratevideo, title={Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO}, author={Junhao Cheng and Liang Hou and Xin Tao and Jing Liao}, year={2025}, eprint={2511.16669}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.16669}, }

搜集汇总

数据集介绍

构建方式

在视频事件预测研究领域，VANS-Data-100K数据集通过严谨的四阶段流程构建而成。原始视频素材从COIN、YouCook2等高质量教学视频库及ActivityNet等通用场景数据集中精选，确保覆盖多样化的程序性任务与预测性场景。通过基于时间戳的片段分割与镜头边界检测技术，将原始视频分解为具有完整动作单元的连贯片段，并采用先进的多模态模型进行自动化质量筛选，最终生成包含输入视频、问题及多模态答案的高质量三元组数据。

使用方法

该数据集专为视频下一事件预测任务设计，使用时将输入视频与问题共同作为模型输入，要求模型输出包含推理过程的文本描述及对应的视频答案。在训练阶段，数据集支持监督微调与强化学习两阶段优化：首先利用完整三元组进行基础能力训练，随后通过联合奖励机制协调视觉语言模型与视频扩散模型的协同优化。评估时需综合考察文本预测的语义准确度与生成视频的视觉保真度，采用ROUGE-L、CLIP相似度等多维度指标进行量化分析。

背景与挑战

背景概述

VANS-Data-100K数据集由香港城市大学与快手技术Kling团队于2025年联合构建，旨在支持视频下一事件预测任务的研究。该数据集聚焦于将视频作为动态答案模态，突破传统文本描述的限制，推动多模态推理与生成技术的发展。其核心研究问题在于如何基于输入视频与问题，生成语义一致且视觉连贯的下一事件视频，为教育、创意探索等领域提供直观的交互体验。

当前挑战

视频下一事件预测任务面临双重挑战：在领域层面，模型需融合多模态理解、指令条件推理与视频生成能力，确保事件逻辑与视觉动态的精确对齐；在构建层面，数据集需克服原始视频质量不均、时序分割复杂性以及问答对生成中的逻辑一致性维护难题，同时避免信息泄露与语义歧义。

常用场景

经典使用场景

在视频理解与生成领域，VANS-Data-100K数据集被广泛应用于视频下一事件预测任务。该数据集通过整合程序性任务与预测性场景，为模型提供了从输入视频中推理逻辑后续事件并生成对应视频响应的能力。其典型应用包括教学视频的步骤补全、叙事视频的情节延续，以及动态场景的因果推理，为多模态推理研究奠定了数据基础。

解决学术问题

该数据集主要解决了传统下一事件预测任务中文本描述与动态视觉信息脱节的问题。通过提供视频形式的答案，它推动了从‘描述事件’到‘展示事件’的范式转变，显著提升了模型对时空逻辑、动作连贯性及语义一致性的建模能力。其意义在于突破了多模态对齐的技术瓶颈，为具身智能、交互式教学等前沿方向提供了关键支撑。

实际应用

在实际场景中，VANS-Data-100K支持智能教学系统生成个性化操作演示，例如烹饪步骤指导或手工制作流程。在创意产业中，它可用于影视预演、动态故事板生成，辅助内容创作者快速可视化剧情发展。此外，在工业培训与医疗模拟等领域，该数据集驱动的模型能够提供实时动作反馈与风险预警，增强人机协作的直观性。

数据集最近研究