lmms-lab/egoschema
收藏Hugging Face2024-04-06 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/egoschema
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
- config_name: GENERATION
features:
- name: question_idx
dtype: string
- name: question
dtype: string
- name: video_idx
dtype: string
- name: option
sequence: string
- name: answer
dtype: string
splits:
- name: test
num_bytes: 4023963
num_examples: 5031
download_size: 2016753
dataset_size: 4023963
- config_name: MC
features:
- name: question_idx
dtype: string
- name: question
dtype: string
- name: video_idx
dtype: string
- name: option
sequence: string
- name: answer
dtype: string
splits:
- name: test
num_bytes: 4023963
num_examples: 5031
download_size: 2016753
dataset_size: 4023963
- config_name: MC_PPL
features:
- name: question_idx
dtype: string
- name: question
dtype: string
- name: video_idx
dtype: string
- name: option
sequence: string
- name: answer
dtype: string
splits:
- name: test
num_bytes: 4023963
num_examples: 5031
download_size: 2016753
dataset_size: 4023963
- config_name: Subset
features:
- name: question_idx
dtype: string
- name: question
dtype: string
- name: video_idx
dtype: string
- name: option
sequence: string
- name: answer
dtype: string
splits:
- name: test
num_bytes: 424910
num_examples: 500
download_size: 186199
dataset_size: 424910
configs:
- config_name: GENERATION
data_files:
- split: test
path: GENERATION/test-*
- config_name: MC
data_files:
- split: test
path: MC/test-*
- config_name: MC_PPL
data_files:
- split: test
path: MC_PPL/test-*
- config_name: Subset
data_files:
- split: test
path: Subset/test-*
---
本数据集采用MIT许可证。
数据集详情:
1. 配置名称:GENERATION
特征字段包括:
- 问题索引(question_idx):数据类型为字符串
- 问题(question):数据类型为字符串
- 视频索引(video_idx):数据类型为字符串
- 选项(option):数据类型为字符串序列
- 答案(answer):数据类型为字符串
数据划分:仅包含测试集(test),占用字节数为4023963,共计5031条示例
下载大小为2016753,数据集存储大小为4023963
2. 配置名称:MC
特征字段与GENERATION配置完全一致
数据划分:仅包含测试集(test),占用字节数为4023963,共计5031条示例
下载大小为2016753,数据集存储大小为4023963
3. 配置名称:MC_PPL
特征字段与GENERATION配置完全一致
数据划分:仅包含测试集(test),占用字节数为4023963,共计5031条示例
下载大小为2016753,数据集存储大小为4023963
4. 配置名称:Subset
特征字段与GENERATION配置完全一致
数据划分:仅包含测试集(test),占用字节数为424910,共计500条示例
下载大小为186199,数据集存储大小为424910
配置项说明:
- 配置名称GENERATION:对应数据文件为测试集划分下的`GENERATION/test-*`路径下的所有文件
- 配置名称MC:对应数据文件为测试集划分下的`MC/test-*`路径下的所有文件
- 配置名称MC_PPL:对应数据文件为测试集划分下的`MC_PPL/test-*`路径下的所有文件
- 配置名称Subset:对应数据文件为测试集划分下的`Subset/test-*`路径下的所有文件
提供机构:
lmms-lab
原始信息汇总
数据集概述
数据集配置
GENERATION
- 特征:
- question_idx: 字符串类型
- question: 字符串类型
- video_idx: 字符串类型
- option: 字符串序列类型
- answer: 字符串类型
- 分割:
- test:
- 字节数: 4023963
- 示例数: 5031
- 下载大小: 2016753
- 数据集大小: 4023963
- test:
MC
- 特征:
- question_idx: 字符串类型
- question: 字符串类型
- video_idx: 字符串类型
- option: 字符串序列类型
- answer: 字符串类型
- 分割:
- test:
- 字节数: 4023963
- 示例数: 5031
- 下载大小: 2016753
- 数据集大小: 4023963
- test:
MC_PPL
- 特征:
- question_idx: 字符串类型
- question: 字符串类型
- video_idx: 字符串类型
- option: 字符串序列类型
- answer: 字符串类型
- 分割:
- test:
- 字节数: 4023963
- 示例数: 5031
- 下载大小: 2016753
- 数据集大小: 4023963
- test:
Subset
- 特征:
- question_idx: 字符串类型
- question: 字符串类型
- video_idx: 字符串类型
- option: 字符串序列类型
- answer: 字符串类型
- 分割:
- test:
- 字节数: 424910
- 示例数: 500
- 下载大小: 186199
- 数据集大小: 424910
- test:
搜集汇总
数据集介绍

构建方式
在视频理解与推理领域,EgoSchema数据集通过精心设计的流程构建而成。该数据集从大规模第一人称视角视频中提取关键片段,并基于人类认知的时空推理需求,生成了涵盖复杂场景的多项选择题。每个问题均与特定视频索引关联,选项序列经过人工标注与验证,确保问题与答案在逻辑上紧密对应。整个构建过程注重数据的多样性与挑战性,旨在评估模型对动态视觉内容的高层次理解能力。
特点
EgoSchema数据集展现出鲜明的技术特性,其核心在于融合了第一人称视频与深度推理任务。数据集包含多个配置版本,如生成式与多项选择题型,每种配置均针对不同的评估目标设计。样本规模达到数千条,所有问题均围绕视频内容展开,要求模型在理解视觉动态的基础上进行因果推断或事件预测。这种结构不仅提升了数据集的学术价值,也为多模态推理研究提供了丰富的实验素材。
使用方法
使用EgoSchema数据集时,研究者可通过HuggingFace平台直接加载指定配置,如GENERATION或MC模式。数据集以标准化的特征字段组织,包括问题索引、视频索引及选项序列等,便于进行端到端的模型训练或评估。在实际应用中,用户可结合视觉编码器与语言模型,对视频片段进行特征提取,并针对问题生成答案或进行选项分类。该设计支持灵活的评估流程,适用于视频问答、推理能力测试等多种研究场景。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,视频理解与推理能力成为关键瓶颈。EgoSchema数据集由lmms-lab团队于2023年构建,旨在评估模型对长时、复杂第一人称视角视频的深层语义理解与因果推理能力。该数据集聚焦于核心研究问题:模型能否像人类一样,通过观察连续动态的视觉场景,理解事件间的逻辑关联并回答涉及意图、后果及社会关系的复杂问题。其构建基于大规模、高密度的视频-问题对,为视频语言模型与具身智能研究提供了严谨的评估基准,显著推动了长视频时序推理领域的发展。
当前挑战
EgoSchema数据集致力于解决第一人称长视频复杂推理这一前沿问题的挑战,其核心在于要求模型跨越冗长的视觉序列,捕捉细微的动作意图、社会互动与因果链条,这对现有模型的时序建模与常识知识整合能力提出了极高要求。在构建过程中,挑战同样艰巨:如何从海量第一人称视频中筛选出叙事连贯、富含推理要素的片段,并设计出既具多样性又能精准衡量深度理解的多选题与生成式问题,确保标注的高质量与一致性,是数据集构建者面临的主要难题。
常用场景
经典使用场景
在视频理解与推理领域,EgoSchema数据集以其精心构建的复杂长视频问答任务,为评估多模态大模型的时空推理能力提供了基准。该数据集包含超过五千个基于自我中心视角长视频的问答对,每个视频时长约三分钟,要求模型深入理解视频中的事件序列、因果关系及社会互动。研究者通常利用其多项选择题配置,系统测试模型在长时间跨度下对视觉与语义信息的整合效能,从而推动视频语言模型在时序推理方面的前沿探索。
解决学术问题
EgoSchema直面当前多模态研究中的核心挑战:如何让机器像人类一样对长时程、高复杂度的视觉叙事进行深层理解。它有效解决了现有数据集在视频时长与问题复杂度上的局限,为衡量模型是否具备真实世界的常识推理与情境推断能力提供了严谨标尺。该数据集的意义在于将评估焦点从短片段识别延伸至长视频的连贯性分析,对促进人工智能在认知层级上的进步产生了深远影响,为构建更通用、更鲁棒的视频理解系统奠定了数据基础。
衍生相关工作
自EgoSchema发布以来,它已催生了一系列围绕长视频理解与推理的经典研究工作。众多团队以其为基准,提出了新颖的模型架构,如引入记忆增强机制或分层注意力网络来处理长序列信息。同时,该数据集也激发了对于视频语言预训练目标、高效长视频编码器以及因果推理建模方法的深入探索。这些衍生工作共同推动了多模态人工智能在处理长时、复杂视觉内容方面的技术边界不断拓展。
以上内容由遇见数据集搜集并总结生成



