QTSplus-Dataset

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/AlpachinoNLP/QTSplus-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

QTSplus-Dataset是一个用于视频理解的综合性数据集，提供了用于长视频多模态语言模型的训练信号。该数据集专注于视觉问答，包括选择题（VSCQ）和自由回答（VQA）两种格式。数据集使用文本模型Qwen3-235B和视觉语言模型Qwen2.5-VL生成问题，并通过筛选和生成过程生成三个层次的数据集：QTS-VSCQ1、QTS-VSCQ2和QTS-VQA。数据集以JSONL格式存储，并通过PyTorch数据集类和手动加载方法方便地加载和使用。

创建时间：

2025-11-24

原始信息汇总

QTSplus-Dataset 数据集概述

数据集简介

QTSplus-Dataset 是一个用于视频理解任务的综合数据集，专门为长视频多模态语言模型提供训练信号。该数据集主要关注视觉问答任务，包含多项选择题（VSCQ）和自由形式问答（VQA）两种格式。

数据集组成

三级分层数据集结构

QTS-VSCQ1

描述：通过纯文本模型（Qwen3-235B）合成的大规模视觉单项选择题数据集
规模：超过855,000个多项选择题
来源：基于视频字幕生成

QTS-VSCQ2

描述：QTS-VSCQ1的精选子集，仅包含视觉语言模型（Qwen2.5-VL）回答正确的问题
模型版本：
- Qwen2.5-VL-3B-Instruct：759,650个正确示例（训练集），4,486个正确示例（评估集），89,851个错误示例（训练集）
- Qwen2.5-VL-7B-Instruct：771,218个正确示例（训练集）
准确率：3B模型22.24%，7B模型76.56%

QTS-VQA

描述：针对QTS-VSCQ2中的问题，由视觉语言模型生成的自由形式答案
模型版本：
- Qwen2.5-VL-3B-Instruct：544,138个正确示例（训练集），342个错误示例（训练集）
- Qwen2.5-VL-7B-Instruct：399,548个正确示例（训练集）

数据特征

问题类型

数据集涵盖9种不同的问题类型：

物体识别（object_identity）
属性识别（attribute_color_material_shape）
场景文本识别（text_in_scene）
数量统计（count_quantity）
活动识别（action_activity）
场景定位（setting_location）
时序顺序（temporal_order）
人物属性（person_attribute）
因果关系（cause_effect_or_purpose）

难度分布

简单级别：约59%
中等难度：约40%
困难级别：约0.5%

答案分布

多项选择题答案选项（A、B、C、D）分布均衡，各占约25%
自由形式答案平均长度：3B模型145字符，7B模型220字符

数据格式

QTS-VSCQ1数据格式

json { "source_id": "original-video-id", "qa_id": "original-video-id-Q01", "question": "What activity is being performed?", "options": {"A": "Rock climbing", "B": "Swimming", "C": "Running", "D": "Dancing"}, "correct_option": "A", "correct_answer": "Rock climbing", "question_type": "action_activity", "difficulty": "easy", "rationale": "The text states climber is seen using various holds and ledges", "evidence_span": "climber is seen using various holds and ledges" }

QTS-VSCQ2/QTS-VQA数据格式

json { "vision_id": "video-12345-Scene1", "question": "What activity is being performed in this video?", "options": {"A": "Swimming", "B": "Rock climbing", "C": "Dancing", "D": "Running"}, "answer": "B", "prediction": "B" 或 "The person in the video is rock climbing...", "rationale": "The video shows a person scaling a rock wall...", "evidence": "The climber is seen using various holds and ledges...", "difficulty": "easy" }

目录结构

QTS-VSCQ2目录结构

QTS-VSCQ2/ ├── Qwen2.5-VL-3B-Instruct/ │ ├── prediction_correct_train.jsonl │ ├── prediction_correct_eval.jsonl │ └── prediction_wrong_train.jsonl └── Qwen2.5-VL-7B-Instruct/ ├── prediction_correct_train.jsonl ├── prediction_correct_eval.jsonl └── prediction_wrong_train.jsonl

QTS-VQA目录结构

QTS-VQA/ ├── Qwen2.5-VL-3B-Instruct/ │ ├── prediction_correct_train.jsonl │ └── prediction_wrong_train.jsonl └── Qwen2.5-VL-7B-Instruct/ └── prediction_correct_train.jsonl

设计原则

文本基础问题：所有问题和答案仅基于视频内容
单一正确答案：每个问题有且仅有一个明确正确答案
合理干扰项：错误选项设计语义相似、长度风格一致
证据基础答案：每个答案包含解释理由和具体证据
难度平衡：问题按复杂度分为三个难度级别

相关资源

源数据集：https://huggingface.co/ShareGPTVideo
GitHub仓库：https://github.com/QTSplus/QTSplus-Dataset
许可证：MIT

搜集汇总

数据集介绍

构建方式

在视频理解研究领域，QTSplus数据集的构建采用了层次化生成策略。该数据集通过纯文本模型Qwen3-235B从视频描述中自动生成85.5万道视觉单选题，形成基础数据集QTS-VSCQ1。随后由视觉语言模型Qwen2.5-VL对题目进行筛选，仅保留模型预测正确的题目构成精炼数据集QTS-VSCQ2。最终基于筛选后的问题生成开放式答案，构建形成QTS-VQA数据集，整个过程形成了从描述到问题的知识蒸馏管道。

特点

该数据集最显著的特点是三层次递进式架构设计。QTS-VSCQ1覆盖九类视觉理解问题类型，包含物体识别、动作分析、时空推理等完整维度。QTS-VSCQ2通过模型验证机制确保题目质量，其答案分布均衡且标注了难度等级。QTS-VQA则提供自由形式的详细解答，平均答案长度达145-220字符。数据集整体遵循文本锚定原则，每个问题均附带证据依据和推理过程，保证了学术研究的严谨性。

使用方法

针对不同研究需求，该数据集提供了灵活的加载方式。研究者可通过专用PyTorch数据集类快速载入三个子集，支持批量处理和图像路径映射。对于定制化需求，可直接解析JSONL格式的原始文件，获取包含视觉标识、问题文本、选项内容和预测结果等完整字段。数据集按模型版本和正确性分类存储，便于进行对比实验和消融研究，特别适合用于长视频多模态模型的训练与评估。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，长视频理解成为计算机视觉与自然语言处理交叉领域的核心研究方向。QTSplus-Dataset由QTSplus团队于2025年创建，旨在通过层次化数据集架构提升视频问答任务的性能。该数据集基于ShareGPT Video的标注数据，利用Qwen系列大语言模型构建了包含选择题与开放式问答的三级数据集体系，为长视频多模态语言模型提供了高质量的训练信号，显著推动了视频内容语义解析技术的发展。

当前挑战

视频问答领域面临时序信息建模与多模态对齐的双重挑战，需解决长视频中动态事件理解与语义连贯性保持的难题。在数据集构建过程中，通过纯文本模型生成候选问题时需确保视觉相关性，而视觉语言模型筛选环节则需克服多模态推理偏差。此外，维持选择题选项的语义平衡性与自由形式答案的多样性，同时保证答案证据的可追溯性，构成了数据集质量控制的复杂工程挑战。

常用场景

经典使用场景

在视频理解研究领域，QTSplus数据集通过多层级结构设计为长视频多模态语言模型提供系统化训练信号。其经典应用场景聚焦于视觉问答任务，涵盖选择题与开放式回答两种形式，研究人员可利用该数据集构建从视觉特征提取到语义推理的完整评估流程。数据集包含的视觉单选题库支持模型进行细粒度视频内容分析，而自由形式问答则促进生成式语言能力的协同优化，为多模态理解研究建立了标准化基准。

解决学术问题

该数据集有效解决了视频语义理解中的关键学术挑战，包括长视频时序建模困难、视觉与语言模态对齐不精确等问题。通过文本基础的问题生成机制，确保了问答对与视频内容的严格对应，避免了外部知识干扰。其分层验证流程显著提升了训练数据的质量，为紧凑型学生模型的知识蒸馏提供了可靠监督信号，推动了视频语言模型在复杂推理任务上的性能突破。

衍生相关工作

基于该数据集衍生的经典研究包括多模态知识蒸馏框架的优化、长视频理解模型的架构设计等领域。相关工作中，研究者利用其分层数据构建了教师-学生协同训练范式，推动了紧凑型视频语言模型的发展。数据集提供的标准化评估基准也催生了多项视频问答领域的创新方法，特别是在跨模态表示学习和时序推理机制方面取得了显著进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集