lmms-lab/NExTQA
收藏Hugging Face2024-05-31 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/NExTQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: MC
features:
- name: video
dtype: int64
- name: frame_count
dtype: int64
- name: width
dtype: int64
- name: height
dtype: int64
- name: question
dtype: string
- name: answer
dtype: int64
- name: qid
dtype: int64
- name: type
dtype: string
- name: a0
dtype: string
- name: a1
dtype: string
- name: a2
dtype: string
- name: a3
dtype: string
- name: a4
dtype: string
splits:
- name: test
num_bytes: 1740045
num_examples: 8564
download_size: 1797314
dataset_size: 3480090
- config_name: OE
features:
- name: video
dtype: string
- name: frame_count
dtype: int32
- name: width
dtype: int32
- name: height
dtype: int32
- name: question
dtype: string
- name: answer
dtype: string
- name: qid
dtype: int32
- name: type
dtype: string
- name: additional_ref_answer
dtype: string
splits:
- name: train
num_bytes: 4384755
num_examples: 37523
- name: validation
num_bytes: 622556
num_examples: 5343
- name: test
num_bytes: 1129496
num_examples: 9178
download_size: 3082747
dataset_size: 6136807
configs:
- config_name: MC
data_files:
- split: test
path: MC/test-*
- config_name: OE
data_files:
- split: train
path: OE/train-*
- split: validation
path: OE/validation-*
- split: test
path: OE/test-*
---
数据集信息:
- 配置名称:MC
特征字段包含:
1. video(视频):64位整数类型
2. frame_count(帧数):64位整数类型
3. width(视频宽度):64位整数类型
4. height(视频高度):64位整数类型
5. question(问题文本):字符串类型
6. answer(答案):64位整数类型
7. qid(问题标识符):64位整数类型
8. type(题型类型):字符串类型
9. a0:字符串类型
10. a1:字符串类型
11. a2:字符串类型
12. a3:字符串类型
13. a4:字符串类型
数据集划分:
- 划分名称:test(测试集),字节占用量:1740045,样本数量:8564
全局统计:下载大小1797314,数据集总存储大小3480090
- 配置名称:OE
特征字段包含:
1. video(视频标识):字符串类型
2. frame_count(帧数):32位整数类型
3. width(视频宽度):32位整数类型
4. height(视频高度):32位整数类型
5. question(问题文本):字符串类型
6. answer(答案):字符串类型
7. qid(问题标识符):32位整数类型
8. type(题型类型):字符串类型
9. additional_ref_answer(附加参考答案):字符串类型
数据集划分:
- 划分名称:train(训练集),字节占用量:4384755,样本数量:37523
- 划分名称:validation(验证集),字节占用量:622556,样本数量:5343
- 划分名称:test(测试集),字节占用量:1129496,样本数量:9178
全局统计:下载大小3082747,数据集总存储大小6136807
配置详情:
- 配置名称:MC,数据文件配置:
- 划分:test,数据路径:MC/test-*
- 配置名称:OE,数据文件配置:
- 划分:train,数据路径:OE/train-*
- 划分:validation,数据路径:OE/validation-*
- 划分:test,数据路径:OE/test-*
提供机构:
lmms-lab
原始信息汇总
数据集概述
数据集配置
MC 配置
- 特征:
- video: int64
- frame_count: int64
- width: int64
- height: int64
- question: string
- answer: int64
- qid: int64
- type: string
- a0: string
- a1: string
- a2: string
- a3: string
- a4: string
- 分割:
- test:
- 字节数: 1740045
- 样本数: 8564
- test:
- 下载大小: 1797314
- 数据集大小: 3480090
OE 配置
- 特征:
- video: string
- frame_count: int32
- width: int32
- height: int32
- question: string
- answer: string
- qid: int32
- type: string
- additional_ref_answer: string
- 分割:
- train:
- 字节数: 4384755
- 样本数: 37523
- validation:
- 字节数: 622556
- 样本数: 5343
- test:
- 字节数: 1129496
- 样本数: 9178
- train:
- 下载大小: 3082747
- 数据集大小: 6136807
数据文件路径
MC 配置
- test: MC/test-*
OE 配置
- train: OE/train-*
- validation: OE/validation-*
- test: OE/test-*
搜集汇总
数据集介绍

构建方式
NExTQA数据集的构建基于视频内容与多选题及开放式问题的结合,旨在评估模型在视频理解与问答任务中的表现。数据集分为两个配置:MC(多选题)和OE(开放式问题)。MC配置包含视频ID、帧数、视频宽度与高度、问题、答案选项及类型等信息;OE配置则包含视频路径、帧数、视频宽度与高度、问题、答案及额外参考答案等信息。数据集通过精心设计的问答对,确保了问题的多样性与复杂性,从而为模型训练提供了丰富的资源。
特点
NExTQA数据集的显著特点在于其结合了视频内容与问答任务,涵盖了多选题与开放式问题两种类型,为模型提供了全面的评估基准。数据集中的视频信息详细,包括视频ID、帧数、宽度与高度等,确保了数据的完整性与准确性。此外,数据集的问答对设计精巧,问题类型多样,涵盖了不同层次的理解需求,使得模型在训练过程中能够应对多种复杂情境。
使用方法
使用NExTQA数据集时,用户可根据需求选择MC或OE配置进行模型训练与评估。对于MC配置,用户可利用视频信息与多选题进行模型训练,重点关注模型在多选题上的表现;对于OE配置,用户则可利用视频路径与开放式问题进行训练,评估模型在生成式回答上的能力。数据集提供了详细的训练、验证与测试集划分,用户可根据实际需求进行数据加载与处理,确保模型训练的系统性与科学性。
背景与挑战
背景概述
NExTQA数据集由lmms-lab团队创建,专注于视频问答领域的研究。该数据集的核心研究问题是如何在视频内容中提取有效信息,以回答复杂的多选题和开放式问题。NExTQA的构建旨在推动视频理解技术的发展,特别是在多模态数据处理和问答系统方面。通过提供丰富的视频和相关问题,NExTQA为研究人员提供了一个全面的平台,以探索和改进现有的视频问答模型。该数据集的发布对视频理解领域的研究具有重要影响,为未来的技术进步奠定了基础。
当前挑战
NExTQA数据集在构建过程中面临多项挑战。首先,视频数据的复杂性和多样性使得数据标注和处理变得极为困难。其次,多选题和开放式问题的结合要求模型具备高度的语义理解和推理能力,这对现有技术提出了严峻的考验。此外,数据集的规模和多样性也增加了模型训练的复杂性,需要高效的算法和计算资源来处理。最后,如何确保数据集的质量和一致性,以支持可靠的研究和模型评估,也是一项重要的挑战。
常用场景
经典使用场景
在视频理解领域,NExTQA数据集以其独特的多选题(MC)和开放式问题(OE)配置,成为研究视频内容理解和问答系统的经典资源。该数据集通过提供视频片段、帧数、宽高信息以及相关问题和答案,支持模型训练和评估。其经典使用场景包括视频问答模型的开发与优化,特别是在多选题和开放式问题的回答上,为研究人员提供了丰富的数据支持。
实际应用
在实际应用中,NExTQA数据集为视频问答系统的发展提供了坚实的基础。例如,在教育领域,该数据集可以用于开发智能教学系统,通过视频内容自动生成问题和答案,增强学习体验。在娱乐和媒体行业,它可以用于创建互动式视频内容,提升用户的参与度和满意度。此外,NExTQA还支持智能监控和安防系统的发展,通过视频分析和问答功能,提高系统的智能化水平和响应速度。
衍生相关工作
基于NExTQA数据集,研究者们开展了一系列相关工作,推动了视频问答领域的深入研究。例如,有研究利用该数据集开发了新的视频问答模型,通过结合视觉和语言信息,显著提升了问答的准确性和效率。此外,还有工作探讨了跨模态学习的策略,通过多模态数据的融合,增强了模型的理解和推理能力。这些衍生工作不仅丰富了视频问答的研究内容,也为实际应用提供了新的思路和技术支持。
以上内容由遇见数据集搜集并总结生成



