five

ThinkStream dataset

收藏
github2026-04-09 更新2026-03-27 收录
下载链接:
https://github.com/CASIA-IVA-Lab/ThinkStream
下载链接
链接失效反馈
官方服务:
资源简介:
实时理解连续视频流对于在动态环境中运行的交互式助手和多模态代理至关重要。然而,大多数现有的视频推理方法遵循批处理范式,推迟推理直到观察到完整的视频上下文,导致高延迟和不断增长的计算成本,这与流式场景不兼容。为了解决这个问题,我们引入了**ThinkStream**,一个基于Watch-Think-Speak范式的流式视频推理框架,使模型能够随着新视频观察的到来逐步更新其理解。

Real-time understanding of continuous video streams is critical for interactive assistants and multimodal agents operating in dynamic environments. However, most existing video inference methods follow the batch processing paradigm, deferring inference until the full video context is observed, resulting in high latency and escalating computational costs, which are incompatible with streaming scenarios. To address this issue, we introduce **ThinkStream**, a streaming video inference framework based on the Watch-Think-Speak paradigm, which enables the model to incrementally update its understanding as new video observations arrive.
创建时间:
2026-03-13
原始信息汇总

ThinkStream 数据集概述

数据集基本信息

  • 数据集名称: ThinkStream
  • 发布方: CASIA-IVA-Lab
  • 官方存储库: https://github.com/CASIA-IVA-Lab/ThinkStream
  • 数据集地址: https://huggingface.co/datasets/CASIA-IVA-Lab/ThinkStream
  • 关联论文: Thinking in Streaming Video (arXiv:2603.12938v1)

数据集背景与目的

该数据集为支持“流式视频推理”研究而构建。旨在解决现有视频理解方法通常采用的批处理范式所导致的高延迟和不断增长的计算成本问题,这些方法与流式场景不兼容。数据集用于训练和评估能够在新的视频观测到达时增量更新其理解的模型。

核心关联框架

数据集与ThinkStream框架紧密关联,该框架基于Watch-Think-Speak范式,并包含以下关键技术:

  • Streaming RLVR (Reinforcement Learning with Verifiable Rewards): 用于优化推理更新和响应时序。
  • Reasoning-Compressed Streaming Memory (RCSM): 用紧凑的中间推理痕迹替换过时的视觉标记,以保持基本上下文并大幅降低推理成本。
  • 高效的流式推理后端: 支持动态KV缓存处理,集成FlashAttention和FlashInfer以实现高速推理。

数据集内容与用途

  • 主要用途: 用于训练和评估流式视频理解模型。
  • 训练数据构成: 包含LLaVA-Video 178K,以及来自Tarsier2的Charades、Kinetics-700、ActivityNet子集。
  • 评估基准: 用于在OVO-Bench和StreamingBench等流式视频基准上进行模型性能测试。

使用方式

  1. 数据准备:
    • 从Hugging Face下载ThinkStream数据集。
    • 准备视频源数据。
    • 数据集路径配置位于 thinkstream/data/__init__.py
  2. 训练:
    • 运行监督微调脚本: ./scripts/sft.sh
    • 运行强化学习训练脚本: ./scripts/rl.sh
  3. 评估:
    • 准备OVO-Bench和StreamingBench官方数据集。
    • 运行格式转换脚本 (thinkstream/eval/ 目录下)。
    • 运行评估脚本: bash ./scripts/eval/eval.sh
  4. 推理演示:
    • 修改 scripts/demo.py 中的模型路径、视频路径及查询内容。
    • 运行: python scripts/demo.py

性能表现

基于该数据集训练的ThinkStream框架在多个基准测试中表现出色:

  • OVO-Bench: 平均得分显著超越其基础模型和其他开源在线模型。
  • StreamingBench Real-Time: 性能与专有模型具有高度竞争力,并远超其他开源在线MLLM。
  • 效率: 框架成功将延迟控制在处理视频长度增加时,始终低于所需的实时阈值。
搜集汇总
数据集介绍
main_image_url
构建方式
在流媒体视频理解领域,传统批处理范式因延迟高且计算成本随视频长度增长而受限。ThinkStream数据集为应对这一挑战而构建,其核心基于Watch-Think-Speak增量推理范式,通过强化学习与可验证奖励机制优化推理更新与响应时机。数据整合了LLaVA-Video 178K及来自Tarsier2的Charades、Kinetics-700与ActivityNet子集,形成多源视频流样本,并采用推理压缩流内存技术以紧凑中间推理痕迹替代过时视觉标记,在保持上下文连贯性的同时显著降低推理开销。
特点
该数据集突出体现了流媒体视频推理的前沿特性,其设计紧密贴合真实场景中的连续观测需求。数据集支持不规则注意力掩码,确保了训练与推理阶段的一致性,通过FlexAttention实现灵活掩码处理。高效流推理后端集成CUDA图记录与回放机制,结合FlashAttention与FlashInfer加速核心计算与令牌采样,从而在多项流视频基准测试中实现低延迟与内存占用的优异性能。数据样本涵盖多样动态环境,为模型提供丰富的时空上下文信息。
使用方法
使用该数据集需首先安装依赖环境并下载数据集及对应视频源。训练阶段可通过运行监督微调与强化学习脚本启动,数据集路径配置于代码库的指定模块中。评估前需转换OVO-Bench与StreamingBench的官方标注格式,随后执行评估脚本并替换检查点路径。推理测试通过修改演示脚本中的模型标识与视频路径,并自定义查询内容与时间戳,即可运行以获取流式输出结果。整体流程遵循模块化设计,便于扩展与后续研究。
背景与挑战
背景概述
随着交互式助手和多模态智能体在动态环境中的广泛应用,实时理解连续视频流成为关键需求。然而,传统视频推理方法多采用批量处理范式,需等待完整视频上下文才能进行分析,导致高延迟与计算成本攀升,难以适应流式场景。为应对这一挑战,中国科学院自动化研究所模式识别国家重点实验室的研究团队于2026年推出了ThinkStream数据集,其核心研究问题聚焦于流式视频的增量推理与交互,旨在通过创新的Watch-Think-Speak范式,推动模型在观测数据持续到达时动态更新认知能力,从而为实时视频分析领域奠定新的基准。
当前挑战
在流式视频理解领域,核心挑战在于如何实现低延迟、高效率的增量推理,以克服传统批量方法导致的响应滞后与资源消耗问题。具体而言,模型需在视频帧持续输入过程中,动态维持并压缩历史上下文,避免内存与计算开销随序列长度线性增长。数据构建过程中,团队面临多源异构视频数据的时序对齐与标注一致性难题,需确保来自LLaVA-Video、Charades等数据集的片段在流式场景下具有连贯的语义与时间边界。此外,设计支持不规则注意力掩码的训练推理框架,并实现严格的一致性保障,亦是工程实现中的关键挑战。
常用场景
经典使用场景
在流媒体视频理解领域,ThinkStream数据集为实时视频流分析提供了关键支持。其经典使用场景聚焦于训练和评估能够以增量方式处理连续视频帧的模型,例如在自动驾驶或智能监控系统中,模型需要即时解析动态视觉信息,而非等待完整视频输入。通过模拟真实世界的流式数据,该数据集使研究者能够验证模型在低延迟约束下的推理能力,从而推动在线视频理解技术的发展。
实际应用
在实际应用层面,ThinkStream数据集可广泛应用于需要实时视频分析的领域。例如,在智能助理和交互式机器人中,系统能够即时理解环境变化并做出响应;在视频直播内容审核或实时事件检测中,模型可连续处理流式视频,及时识别异常行为或关键信息。这些应用依赖于数据集提供的流式视频样本,确保了模型在动态环境中的稳健性和实用性,为产业部署奠定了数据基础。
衍生相关工作
围绕ThinkStream数据集,已衍生出一系列经典研究工作。例如,基于其流式推理框架,研究者开发了高效的推理引擎,整合了FlashAttention和FlashInfer等技术以加速计算;同时,该数据集促进了流式视频基准如OVO-Bench和StreamingBench的评估方法演进,推动了在线多模态大语言模型的性能优化。这些工作不仅扩展了流式视频理解的理论边界,还为后续研究提供了可复现的代码库和训练范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作