five

StreamingCoT

收藏
arXiv2025-10-29 更新2025-11-04 收录
下载链接:
https://github.com/Fleeting-hyh/StreamingCoT
下载链接
链接失效反馈
官方服务:
资源简介:
StreamingCoT是一个针对流式视频问答和多模态思维链推理的大规模数据集。该数据集通过严格的分层流程构建,整合了时间分割、动态问答生成和多模态证据定位。数据集的构建包括多阶段验证,确保时空一致性和推理完整性。数据集通过YouTube官方API收集了10,288个短视频,并通过多模态过滤机制筛选出5,745个高质量视频。此外,数据集还采用了分层视频密集字幕框架,通过自适应时间分割和上下文感知叙述生成,解决了视频问答中答案的动态演变问题。
提供机构:
中国科学院自动化研究所,快手科技
创建时间:
2025-10-29
搜集汇总
数据集介绍
main_image_url
构建方式
在流媒体视频理解领域,StreamingCoT数据集通过分层标注架构实现动态语义建模。其构建流程首先采用地理平衡采样策略收集视频数据,并经过社交验证、音频内容处理与视觉质量评估三重过滤机制确保数据质量。随后通过动态语义融合算法将每秒生成的密集描述聚类为语义单元,形成层次化时间叙事结构。动态问答对生成环节结合六类时序演化问题模板,并设计基于时间依赖关系的干扰项,最终通过多阶段人工验证保证时序一致性与语义准确性。
特点
该数据集的核心特征体现在时空动态性与可解释推理机制的深度融合。其包含34,470组动态问答对,覆盖累计计数、周期性模式识别等六类时序演化问题类型,每个问题均配备经过人工验证的时序干扰项。独特的多模态思维链标注体系将推理过程解构为关键对象状态转移路径,通过关键帧语义对齐与空间边界框定位实现推理步骤的时空锚定。5,000个高质量短视频平均分割为12个语义段,形成206,820个带空间坐标的关键对象轨迹,为复杂时序推理提供结构化证据链。
使用方法
针对流媒体视频问答与多模态推理研究,该数据集支持端到端模型训练与分阶段验证。研究者可利用动态问答对评估模型在时序演化场景下的答案预测能力,通过干扰项分析揭示时间感知缺陷。多模态思维链数据可用于可解释性研究,通过对比模型生成推理路径与标注的时空证据链,评估逻辑连贯性与跨模态对齐质量。验证阶段建议采用分段渐进式评估策略,重点考察模型在语义段边界处的假设更新能力与时空一致性保持水平。
背景与挑战
背景概述
随着5G网络与边缘计算的迅猛发展,流媒体视频已成为信息传播的核心载体,推动自动驾驶与智能监控等领域对时空推理能力的前沿需求。由中国科学院自动化研究所与快手技术团队于2025年联合构建的StreamingCoT数据集,首次针对流媒体视频问答任务中答案动态演化的核心问题,通过分层时序标注架构与多模态思维链推理机制,填补了传统静态标注方法在连续性事件建模中的理论空白。该数据集通过动态语义融合算法生成秒级密集描述,并构建时序依赖的问答对,为复杂时空推理与可解释人工智能研究奠定了实证基础。
当前挑战
流媒体视频理解面临两大核心挑战:其一,传统视频问答数据集采用全局静态标注机制,无法捕捉答案随事件推进的动态演化特性,例如物体状态渐变或周期性模式识别中的时序依赖关系;其二,多模态推理过程缺乏显式逻辑链标注,导致模型依赖表观统计关联而非深层因果推理。在构建过程中,需克服动态语义分段中冗余信息过滤、关键对象时空对齐、以及人类验证环节保证推理链时序一致性等工程难题,确保每段思维链均满足视觉证据与逻辑推导的严格耦合。
常用场景
经典使用场景
在流媒体视频理解领域,StreamingCoT数据集通过动态层次化标注机制,为视频问答任务提供了时间演化的语义单元构建框架。该数据集支持模型对连续视频流中对象状态转换、周期性模式识别等时序依赖任务进行端到端训练,尤其适用于需要追踪动态答案变化的场景,如自动驾驶中的行为预测或智能监控中的事件演进分析。
解决学术问题
该数据集突破了传统视频问答数据集中静态标注的局限性,解决了时序动态建模与多模态推理链缺失两大核心问题。通过引入基于相似性融合的语义分段技术,实现了对答案时空演化规律的精确捕捉;同时借助显式推理链标注框架,为模型可解释性研究提供了可验证的中间推理步骤,显著提升了复杂时空逻辑的演绎能力。
衍生相关工作
该数据集催生了面向时序一致性的多模态推理研究浪潮,例如基于关键帧语义对齐的VoT框架进一步扩展了视频思维链的时空 grounding 机制。相关工作如VideoEspresso通过核心帧选择优化长视频推理效率,而CoS方法则借鉴其动态分段思想,构建了链式镜头提示范式,共同推动了时序视频理解的技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作