bkal01/vrlm-longvideobench-sft

Name: bkal01/vrlm-longvideobench-sft
Creator: bkal01
Published: 2026-05-01 05:33:20
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/bkal01/vrlm-longvideobench-sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从多模态递归语言模型（RLM）在LongVideoBench上的轨迹中提取的每轮监督微调样本。扩展的标准RLM能够解析帧/字幕，从而处理任意长度的视频数据而不超出上下文窗口。数据集包含103个正确轨迹，转换为719个SFT样本。每个样本包含完整的RLM历史记录、下一个根模型动作、聊天式消息对以及元数据。数据集用于微调模型以执行RLM风格的迭代视频推理：通过代码检查视频/字幕上下文，调用辅助视觉模型，观察执行结果，并最终提交结构化最终答案。

This dataset contains per-turn supervised fine-tuning samples distilled from multimodal Recursive Language Model trajectories on LongVideoBench. The standard RLM was extended with the ability to parse through frames/subtitles, allowing it to process arbitrary lengths of video data without exceeding the context window. The dataset includes 103 correct trajectories converted into 719 SFT samples. Each sample contains the full RLM history up to the current turn, the next root model action, a chat-style equivalent of the same pair, and metadata. The dataset is intended for fine-tuning models to perform RLM-style iterative video reasoning: inspect video/subtitle context through code, call helper vision models, observe execution results, and eventually submit a structured final answer.

提供机构：

bkal01

搜集汇总

数据集介绍

构建方式

该数据集源自对多模态递归语言模型（RLM）在LongVideoBench评估中产生的正确轨迹进行蒸馏。原始RLM通过增强帧与字幕解析能力，突破上下文窗口限制，实现对任意长度视频数据的处理。从103条正确的推理轨迹中提取了719条逐轮监督微调样本，其中每条轨迹包含多轮交互数据，输入由系统提示、用户查询及先前所有RLM迭代历史构成，输出则为单次迭代的生成结果。

特点

数据集包含719个逐轮SFT样本，涵盖615个REPL动作目标与104个FINAL答案目标。所有源轨迹均经过基准正确性验证，且执行代码零标准错误输出，上下文长度控制在10万字符以内。每个样本以完整RLM历史作为输入，输出为结构化动作——或是Python代码块的REPL指令，或是FINAL({...})格式的最终答案，清晰呈现了视频推理的迭代决策过程。

使用方法

适用于微调模型以执行RLM风格的迭代视频推理任务。用户可通过HuggingFace Datasets库加载数据，例如使用load_dataset('bkal01/vrlm-longvideobench-sft', split='train')获取训练集。每个样本的input字段包含完整的RLM历史，output字段对应模型应生成的下一个动作。推荐用于训练模型逐步解析视频帧、调用视觉模型、观察执行结果并最终提交结构化答案的推理能力。

背景与挑战

背景概述

随着多模态大语言模型在视频理解领域的快速发展，长视频理解因其上下文窗口限制和复杂的时间推理需求，成为极具挑战性的研究方向。该数据集由Adaption Labs的bkal01等人于近期创建，旨在通过递归语言模型（RLM）框架解决长视频问答任务。其核心研究问题在于如何在不扩展上下文窗口的前提下，使模型能够迭代地解析视频帧和字幕，从而处理任意长度的视频数据。借助从LongVideoBench评估中提取的103条正确RLM轨迹，该数据集为多模态模型提供了719个监督微调样本，推动了视频递归推理方法的实际应用，对提升视频问答系统的能力具有重要意义。

当前挑战

该数据集所解决的领域挑战在于，传统视频理解模型受限于固定上下文长度，无法有效处理包含大量帧和字幕的长视频序列，导致关键信息丢失与推理不准确。构建过程中，挑战在于从长视频中提取正确的RLM轨迹：需确保模型每一步的代码执行无错误，且最终答案在基准测试中正确，同时将单条轨迹拆分为多个微调样本时，需保持历史状态与当前动作的自洽性。此外，生成719个高质量SFT样本需应对数据筛选与过滤的复杂性，以避免噪声引入和过拟合风险。

常用场景

经典使用场景

在视频理解与问答研究领域，长视频的处理一直是核心挑战，尤其当视频时长超出模型上下文窗口时，传统的静态帧采样方法往往难以捕捉细腻的时序依赖关系。该数据集专为训练具备递归推理能力的多模态语言模型而设计，经典使用场景是作为监督微调（SFT）样本，引导模型学会通过迭代调用Python代码来解析视频帧与字幕信息，逐步缩小搜索范围并最终给出结构化答案。每一个训练样本都完整保留了递归语言模型（RLM）从初始系统提示到最终输出的多轮交互历史，使模型能够掌握如何在长视频中自主决策哪些片段需要深入分析，从而突破固定上下文长度的限制。

解决学术问题

学术界在长视频问答任务中面临的关键难题在于如何在不截断或过度压缩视频信息的前提下，使模型能完成准确且可解释的推理。该数据集通过收录103条经基准验证的正确RLM轨迹并拆解为719条微调样本，直接回应了‘如何训练模型进行长视频多步推理’这一未尽之问。其核心贡献在于证明了无需扩大上下文窗口，仅靠递归调用——即利用代码操作环境分段获取图像和文字描述——即可让模型处理任意时长的视频资料。这种范式为视频语言模型的研究提供了新的优化方向，推动了可扩展、可验证的长视频理解能力的发展，对评估模型的规划与工具使用能力具有重要的学术参照价值。

衍生相关工作

该数据集作为递归语言模型应用于长视频推理的开创性资源，已经催生了一系列后续研究，包括将其样本用于训练更高效的工具调用调度器、探索不同基础模型（如视频LLaMA或InternVideo2）在RLM框架下的表现差异，以及基于其轨迹结构研发新的奖励模型用于强化学习对齐。此外，该数据集所采用的‘轨迹蒸馏’方法也被借鉴到其他多模态长文本任务（如文档问答）中，推动了递归动作序列作为通用SFT形式的发展。开源社区基于该数据集的对话格式和元数据设计，相继推出了扩展版本，加入了负例轨迹与噪声标注，用于训练模型进行自我纠错与置信度校准，进一步丰富了长视频推理的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集