five

CLEVR|视觉推理数据集|自然语言处理数据集

收藏
github2020-01-16 更新2024-05-31 收录
视觉推理
自然语言处理
下载链接:
https://github.com/rimamittal/clevr-dataset-gen
下载链接
链接失效反馈
资源简介:
CLEVR数据集是一个用于组合语言和基本视觉推理的诊断数据集,旨在帮助研究者评估和开发能够理解和回答复杂视觉场景中问题的模型。

The CLEVR dataset is a diagnostic dataset designed for compositional language and elementary visual reasoning, aimed at assisting researchers in evaluating and developing models capable of understanding and answering questions about complex visual scenes.
创建时间:
2019-05-22
原始信息汇总

CLEVR 数据集概述

数据集描述

  • 名称: CLEVR 数据集
  • 目的: 用于诊断组合语言和基本视觉推理能力
  • 来源: 由Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Fei-Fei Li, C Lawrence Zitnick, Ross Girshick 在CVPR 2017上提出

数据集生成

  • 图像生成: 使用Blender渲染合成图像,并输出包含每张图像场景信息的JSON文件。
  • 问题生成: 根据图像的场景信息生成问题、功能程序和答案,输出包含所有问题的JSON文件。

数据集内容示例

  • 图像示例: 展示了几张合成图像,如images/img1.pngimages/img6.png
  • 问题与答案示例:
    • Q: 有多少个小球体?
    • A: 2
    • Q: 有多少个立方体是小物体或红色金属物体?
    • A: 2
    • Q: 金属球体和金属圆柱的颜色是否相同?
    • A: 是
    • Q: 小圆柱是否比金属物体多?
    • A: 否
    • Q: 在大黄色物体后面的蓝色球右侧是否有一个闪亮的立方体?
    • A: 是

引用信息

@inproceedings{johnson2017clevr, title={CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning}, author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Zitnick, C Lawrence and Girshick, Ross}, booktitle={CVPR}, year={2017} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CLEVR数据集的构建采取自动化生成的方式,利用Blender软件渲染出具有不同形状、材质、颜色和尺寸的合成图像,并配以相应的场景描述JSON文件。该过程不仅包含了图像的生成,还涉及了场景信息的精确记录,确保了数据集的质量和一致性。
特点
CLEVR数据集的特点在于其合成图像的多样性以及与之对应的丰富的问题和答案。数据集设计用于诊断语言理解和视觉推理能力,包含的问题涵盖了从简单到复杂的各类视觉推理任务,能够有效地评估模型在图像理解和问题解答方面的性能。
使用方法
使用CLEVR数据集首先需要生成图像和对应的问题。图像可以通过运行Blender脚本生成,并保存至指定目录。随后,利用生成的问题模板,可以创建与图像内容相对应的问题和答案。最终,这些数据可以用于训练和评估机器学习模型在视觉问答任务上的表现。
背景与挑战
背景概述
CLEVR数据集,创建于2017年,由Justin Johnson、Bharath Hariharan、Laurens van der Maaten、Fei-Fei Li、C Lawrence Zitnick以及Ross Girshick等研究人员共同开发。该数据集的核心研究问题是评估机器在合成图像上的视觉推理和语言理解能力。CLEVR数据集的构建旨在为机器学习模型提供一种诊断性工具,以识别和理解合成图像中的物体和场景。数据集发布后,在计算机视觉和自然语言处理领域产生了广泛影响,成为评估相关模型性能的重要基准之一。
当前挑战
CLEVR数据集在构建和应用过程中面临的挑战主要包括:1) 如何构建具有高度多样性和复杂性的合成图像,以及设计能够反映人类视觉和语言理解能力的问题;2) 数据集的生成过程中,需要解决图像渲染、问题生成和答案标注的一致性和准确性问题;3) 在数据集的应用中,如何有效评估模型在视觉推理和语言理解方面的性能,以及识别和处理模型可能存在的偏差和错误模式。
常用场景
经典使用场景
在计算机视觉与自然语言处理领域,CLEVR数据集被广泛用于评估模型在合成图像上的视觉理解能力以及处理组合语言的能力。其经典使用场景在于训练与测试深度学习模型对图像中物体及其属性的理解,以及基于图像内容生成和回答复杂的问题。
实际应用
在实际应用中,CLEVR数据集可用于开发智能系统,这些系统能够理解和解释图像内容,进而对用户的查询做出准确响应。例如,在增强现实和虚拟助理等领域,该数据集有助于提高系统处理自然语言查询并与之交互的能力。
衍生相关工作
CLEVR数据集催生了多项相关工作,包括但不限于对数据集本身的分析、基于该数据集的模型性能比较研究,以及针对其特定属性设计的优化算法。这些衍生工作进一步拓展了数据集的应用范围,促进了视觉理解和语言处理技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

风电预测数据集

全球能源预测大赛(Global Energy Forecasting Competition ) 2012 - 风力发电赛道 所用数据集.

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录