DoraVQA
收藏arXiv2026-01-31 更新2026-02-05 收录
下载链接:
https://github.com/ostadabbas/DORA-Learning-Spatial-Reasoning
下载链接
链接失效反馈官方服务:
资源简介:
DoraVQA是由东北大学团队构建的教育视频问答数据集,基于《爱探险的朵拉》8季96集的视频内容,包含5,344条严格时间对齐的问答对。该数据集通过自动解析视频字幕和视觉停顿片段,保留了节目中特有的'上下文-提问-停顿-回答'教学结构,涵盖空间定位、导航决策等60.6%的空间推理任务。数据创建过程采用LLM代理自动对齐时间戳并提取教学逻辑,38小时的视频内容包含78.8%即时推理和23.2%序列推理问题。该数据集旨在提升视觉语言模型在空间推理、多模态理解等领域的表现,通过教育视频的结构化监督信号解决现有模型在基础推理任务上的系统性缺陷。
提供机构:
东北大学
创建时间:
2026-01-31
原始信息汇总
DORA-Learning-Spatial-Reasoning 数据集概述
数据集基本信息
- 数据集名称:DORA-Learning-Spatial-Reasoning
- 核心用途:用于教育推理任务,特别是从教育视频中学习空间推理。
- 数据来源:基于动画片《爱探险的朵拉》(Dora the Explorer)的问答视频。
- 关联研究:项目对应研究论文为《Structured Over Scale: Learning Spatial Reasoning from Educational Video》(arXiv:2601.23251)。
数据集内容与构建
- 数据类型:包含视频、字幕(SRT文件)及生成的问答对。
- 构建方式:通过处理视频帧和转录文本上下文来生成数据集,旨在训练模型结合视觉和文本信息提供准确答案。
- 处理脚本:主要使用
scripts/generate_grpo_dataset.py从视频和SRT文件生成数据集。
数据集使用目的
- 模型训练:用于微调QWEN-VL等视觉语言模型,采用GRPO(Group Relative Policy Optimization)方法。
- 任务目标:训练模型回答来自《朵拉》视频的问题,完成教育推理任务。
获取与准备
- 依赖安装:需通过
pip install -r requirements.txt安装项目依赖。 - 生成步骤:
- 运行
scripts/validate_all_seasons.py验证并过滤标签。 - 运行
scripts/generate_grpo_dataset.py脚本,指定标签、视频、SRT文件的目录及输出路径,可处理第1至8季的内容。
- 运行
相关资源
- 论文地址:https://arxiv.org/abs/2601.23251
- 项目主页:https://ostadabbas.github.io/dora.github.io/
- Hugging Face模型:https://huggingface.co/bishoygaloaa/Qween
- Hugging Face Space:https://huggingface.co/spaces/bishoygaloaa/Qween-Space
许可信息
- 许可证:MIT License
搜集汇总
数据集介绍

构建方式
在视频理解领域,现有模型虽在标准基准上表现卓越,却在基础空间推理任务上屡屡受挫。DoraVQA数据集的构建正是为了弥补这一鸿沟,它从《爱探险的朵拉》八季共96集教育视频中,通过自动化流程提取了5,344个精准对齐时间戳的问答对。构建过程首先利用大型语言模型代理解析转录对话,识别出节目中固有的“上下文-提问-暂停-回答”教学结构,随后将每个提问与对应的视频帧、上下文文本及标准答案进行对齐,从而形成自监督的训练信号。这一方法不仅保留了教育内容中清晰的正确性反馈,还通过暂停段的视觉线索为模型提供了隐式的推理轨迹。
特点
DoraVQA数据集的核心特点在于其高度结构化的教学设计与丰富多样的推理任务。数据集严格遵循教育节目的教学循环,每个样本都包含完整的叙事上下文、明确的提问、强调相关视觉证据的暂停间隔以及清晰的答案,这为模型学习空间概念提供了类似交互式辅导的环境。在任务构成上,数据集涵盖了空间定位、物体选择、导航等空间推理任务(占60.6%),以及知识回忆、问题解决和计数等非空间任务,同时在输入模态上平衡了纯文本、纯视觉与多模态问题。这种结构化的多样性使得数据集不仅能针对性地提升模型的空间推理能力,还能促进跨任务的知识迁移与泛化。
使用方法
该数据集主要应用于视觉语言模型的微调与评估,旨在提升模型在空间推理任务上的性能。典型的使用方法包括采用强化学习策略,如分组相对策略优化(GRPO),对预训练模型进行微调。在训练阶段,模型基于数据集的上下文、视觉帧和问题生成开放答案,并通过与标准答案的语义相似度计算奖励信号,从而学习将语言概念与视觉证据相锚定。评估时则采用训练-测试格式不匹配的策略,即在开放答案生成训练后,于多项选择基准(如Video-MME、CVBench)上进行测试,以此检验模型推理能力的可迁移性。这种使用范式不仅利用了教育内容内在的结构化监督,也有效验证了从狭窄教学领域到广泛多模态理解的泛化效能。
背景与挑战
背景概述
在视觉语言模型(VLMs)快速发展的背景下,尽管在标准视频理解基准上表现卓越,但模型在学龄前儿童能够轻松解决的空间推理、计数等基础任务上仍存在系统性缺陷。为应对这一挑战,美国东北大学的研究团队于2026年提出了DoraVQA数据集,该数据集从《爱探险的朵拉》八季共96集教育视频中自动提取了5,344个精确时间戳对齐的问答对。其核心研究问题在于探索如何利用教育视频中固有的教学结构——即“上下文-提问-暂停-回答”的固定模式——作为有效的监督信号,以增强模型的空间推理能力,而非单纯依赖海量数据。这一工作挑战了传统“规模至上”的训练范式,强调了内容结构在提升模型认知能力中的关键作用,为多模态理解领域提供了新的研究方向。
当前挑战
DoraVQA数据集旨在解决视觉语言模型在空间推理任务上的系统性缺陷,其核心挑战在于模型难以从传统网络视频数据中习得对‘上下’、‘前后’等空间概念的深层理解,往往仅停留在表层模式匹配。在构建过程中,研究团队面临多重技术挑战:首先,需从原始视频转录文本中自动识别并精准对齐教学结构中的提问、暂停与回答片段,确保时间戳的精确性以保留教育内容中的隐含推理轨迹;其次,数据集需平衡多种推理模式(如即时空间定位、序列导航)与输入模态(文本、视觉、多模态),以全面评估模型能力;最后,尽管数据规模有限(仅38小时视频),但需证明结构化教学信号能有效补偿数据量的不足,并实现向广泛多模态理解任务的泛化,这构成了方法验证上的关键挑战。
常用场景
经典使用场景
在视频语言模型研究领域,DoraVQA数据集被广泛应用于评估和提升模型的空间推理能力。该数据集通过提取《爱探险的朵拉》中具有明确教学结构的问答对,为模型提供了从上下文建立、问题提出、暂停思考到答案揭示的完整学习闭环。研究者通常利用这一数据集对预训练视觉语言模型进行微调,特别是在强化学习框架下,通过组相对策略优化方法,使模型能够从教育视频的暂停片段中学习隐含的推理轨迹,从而增强对空间位置、物体选择和导航等任务的深层理解。
解决学术问题
DoraVQA数据集有效解决了视觉语言模型在基础空间推理任务上的系统性缺陷。传统模型在计数、空间关系和方向理解等简单任务上表现远低于人类水平,这源于大规模网络视频数据缺乏明确的教学结构和正确性信号。该数据集通过提供具有清晰时间对齐和教学结构的问答对,为模型提供了将语言概念与视觉证据相连接的显式监督。它使得研究者能够验证“内容结构优于数据规模”的假设,即通过精心设计的教学内容,模型能够在有限数据下学习到可迁移的空间推理能力,从而弥补了当前模型在概念性理解而非表面模式匹配方面的不足。
衍生相关工作
DoraVQA数据集催生了一系列关注教学结构对模型推理能力影响的研究。其构建方法启发了从其他教育节目如《蓝色斑点狗》和可汗学院视频中提取类似数据集的尝试,形成了“教学交互结构”数据集的概念拓展。在方法层面,基于该数据集的组相对策略优化微调方法,被后续研究应用于更广泛的视觉推理任务,如人群计数和复杂场景理解。数据集所验证的“结构优于规模”思想,进一步促进了针对特定推理能力的专业化数据集构建,例如专注于数学推理或科学概念理解的数据集,推动研究从追求数据量转向追求数据的内在教学质量和结构设计。
以上内容由遇见数据集搜集并总结生成



