five

jdsannchao/ObjectCount

收藏
Hugging Face2024-03-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jdsannchao/ObjectCount
下载链接
链接失效反馈
官方服务:
资源简介:
CLEVRER是一个视频数据集,包含5000个训练视频的问答对,主要用于物体计数任务。它包含描述性类型和计数子类型的问题,并且问题复杂度通过program列表中的长度来表示。CLEVRER还包含正问题和负问题(询问不存在的物体),因此不需要生成负样本。VisualGenome是一个图像数据集,包含超过10万张图像,用于物体计数任务。它生成了关于不存在物体的负样本问题,并且每个图像添加了3个不存在物体和1个不存在属性的负样本。

CLEVRER是一个视频数据集,包含5000个训练视频的问答对,主要用于物体计数任务。它包含描述性类型和计数子类型的问题,并且问题复杂度通过program列表中的长度来表示。CLEVRER还包含正问题和负问题(询问不存在的物体),因此不需要生成负样本。VisualGenome是一个图像数据集,包含超过10万张图像,用于物体计数任务。它生成了关于不存在物体的负样本问题,并且每个图像添加了3个不存在物体和1个不存在属性的负样本。
提供机构:
jdsannchao
原始信息汇总

数据集概述

CLEVRER

  • 数据类型: 视频数据集
  • 特征:
    • video_filename: 字符串类型
    • scene_index: 整数类型
    • question_text: 字符串类型
    • answer_text: 字符串类型
    • attributes_list: 字符串序列
  • 训练集:
    • 大小: 2029869字节
    • 样本数: 13374
  • 下载大小: 203081字节
  • 数据集大小: 2029869字节
  • 任务: 对象计数
  • 问题类型: 描述性类型,计数子类型
  • 筛选条件: 过滤程序长度超过9的问题以降低难度
  • 视频下载链接: http://clevrer.csail.mit.edu/

VisualGenome

  • 数据类型: 图像数据集
  • 特征:
    • img_id: 整数类型
    • orig_qa: 字符串类型
    • question_text: 字符串类型
    • answer_text: 字符串类型
  • 训练集:
    • 大小: 26281742字节
    • 样本数: 424507
  • 下载大小: 7732035字节
  • 数据集大小: 26281742字节
  • 任务: 对象计数及生成不存在对象的负面问题
  • 负面样本: 每张图像添加3个不存在的对象和1个不存在的属性
  • 原始QA数据: 包含对象计数问题,orig_qa标记为Yes或No
  • 图像下载链接: https://homes.cs.washington.edu/~ranjay/visualgenome/api.html

以上信息基于提供的数据集详情页面README文件内容整理。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与自然语言处理交叉领域,ObjectCount数据集通过整合现有资源构建而成。其核心源自CLEVRER视频数据集与VisualGenome图像数据集,针对物体计数任务进行了精细化筛选与扩展。对于CLEVRER部分,研究者从训练视频中提取描述性问答对,专门聚焦于“计数”子类型的问题,并依据程序复杂度过滤长度超过九个步骤的样本,以控制任务难度。同时,该部分保留了原始数据中针对存在与不存在物体的正负向问题,无需额外生成负样本。VisualGenome部分则基于版本一的图像集合,不仅收录了原有的物体计数问题,还通过引入不存在物体或属性的方式,系统性地构建了负向样本,从而增强了数据集的多样性与挑战性。
使用方法
该数据集主要服务于视觉问答领域的指令微调任务,尤其专注于物体计数这一细分方向。使用者可通过HuggingFace平台直接加载指定的配置名称(如CLEVRER或VG_v1)来访问不同子集。每个数据样本均提供了清晰的文本问题与对应答案,对于图像或视频数据,需根据文件名或标识符从原始来源下载相应的视觉文件以进行关联。在模型训练或评估过程中,开发者可利用这些结构化的问答对,结合视觉输入,训练模型理解复杂问题并输出准确的数量答案。数据集中标注的‘orig_qa’字段(如‘Yes’或‘No’)有助于区分原始问题与生成的负样本,为有监督学习或负采样策略提供了便利。
背景与挑战
背景概述
在视觉与语言交叉研究领域,对象计数任务旨在评估模型对视觉场景中特定实体数量的理解能力。数据集jdsannchao/ObjectCount由研究者jdsannchao于近年构建,其核心研究问题聚焦于通过指令微调提升模型在复杂视觉环境下的对象计数性能。该数据集巧妙整合了CLEVRER视频数据集与VisualGenome图像数据集,前者由麻省理工学院计算机科学与人工智能实验室开发,专注于动态场景中的因果推理与事件理解;后者源自华盛顿大学,以其丰富的视觉语义标注著称。通过融合两类数据源,该数据集不仅拓展了对象计数任务的模态范围,还引入了对存在性与非存在性对象的判别挑战,为视觉问答与场景理解模型提供了更为严谨的评估基准,推动了多模态推理技术的发展。
当前挑战
该数据集致力于解决视觉对象计数领域的核心挑战,即模型在动态视频与静态图像中准确识别并统计特定属性对象的能力,尤其在面对遮挡、运动模糊及复杂背景干扰时保持鲁棒性。构建过程中的挑战主要体现在数据整合与质量控制方面:首先,从CLEVRER数据集中筛选描述性计数问题时,需依据程序复杂度进行过滤,以平衡任务难度与数据多样性;其次,在VisualGenome中生成负样本时,需合理设计非存在对象与非存在属性的合成策略,确保负样本的语义合理性与分布真实性。此外,跨模态数据的对齐与标注一致性维护也增加了构建的复杂性,要求精细的预处理流程以消除噪声与歧义。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,ObjectCount数据集为对象计数任务提供了丰富的多模态基准。该数据集整合了CLEVRER视频数据与VisualGenome图像数据,专注于通过问答形式评估模型对场景中物体数量的理解能力。经典使用场景涉及训练视觉问答模型,使其能够解析复杂视觉输入并准确回答关于物体数量的查询,尤其在需要推理物体属性、运动状态或事件关联的语境下,展现了数据集在提升模型细粒度感知方面的价值。
解决学术问题
ObjectCount数据集针对视觉推理中的对象计数难题,系统性地解决了模型在复杂场景下准确量化物体的学术挑战。通过引入正负样本平衡机制,包括真实计数问题与针对不存在物体或属性的负向问题,该数据集帮助研究者克服模型过拟合与泛化不足的常见瓶颈。其意义在于推动了视觉语言模型在计数任务上的鲁棒性评估,为理解模型的空间推理与逻辑判断能力提供了标准化测试平台,对多模态人工智能的发展产生了深远影响。
实际应用
在实际应用层面,ObjectCount数据集为智能监控、自动驾驶及机器人视觉系统提供了关键的训练与验证资源。例如,在自动驾驶环境中,模型需实时计数道路上的车辆或行人以辅助决策;在工业质检中,准确统计生产线上的零件数量可提升效率与精度。数据集中的事件相关计数问题,如统计特定事件发生时的静止物体数量,进一步扩展了其在动态场景分析中的应用潜力,助力开发更智能、适应性更强的视觉系统。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理交叉领域,jdsannchao/ObjectCount数据集整合了CLEVRER视频数据与VisualGenome图像数据,专注于物体计数指令调优任务。当前前沿研究围绕多模态理解展开,探索视频动态场景与静态图像中复杂计数问题的统一建模。热点方向包括利用该数据集训练大语言模型处理时空推理任务,例如在CLEVRER中分析事件触发时的物体状态变化,以及在VisualGenome中结合属性生成负样本以增强模型鲁棒性。这些研究推动了视觉问答系统向更细粒度的场景理解发展,对自动驾驶、机器人环境感知等应用具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作