Multimodal-Fatima/VizWiz_train
收藏Hugging Face2023-03-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Multimodal-Fatima/VizWiz_train
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int32
- name: image
dtype: image
- name: filename
dtype: string
- name: question
dtype: string
- name: answers
sequence: string
- name: answers_original
list:
- name: answer
dtype: string
- name: answer_confidence
dtype: string
- name: answer_type
dtype: string
- name: answerable
dtype: int32
- name: id_image
dtype: int64
- name: clip_tags_ViT_L_14
sequence: string
- name: clip_tags_LAION_ViT_H_14_2B
sequence: string
- name: blip_caption_beam_5
dtype: string
- name: LLM_Description_gpt3_downstream_tasks_visual_genome_ViT_L_14
sequence: string
- name: LLM_Description_gpt3_downstream_tasks_visual_genome_LAION-ViT-H-14-2B
sequence: string
- name: DETA_detections_deta_swin_large_o365_coco_classes
list:
- name: attribute
dtype: string
- name: box
sequence: float32
- name: label
dtype: string
- name: location
dtype: string
- name: ratio
dtype: float32
- name: size
dtype: string
- name: tag
dtype: string
splits:
- name: train
num_bytes: 9906518637.0
num_examples: 20523
download_size: 9880125036
dataset_size: 9906518637.0
---
# Dataset Card for "VizWiz_train"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Multimodal-Fatima
原始信息汇总
数据集概述
数据集名称
- VizWiz_train
数据集特征
- id:整数类型 (int32)
- image:图像类型
- filename:字符串类型 (string)
- question:字符串类型 (string)
- answers:字符串序列
- answers_original:列表类型,包含:
- answer:字符串类型 (string)
- answer_confidence:字符串类型 (string)
- answer_type:字符串类型 (string)
- answerable:整数类型 (int32)
- id_image:长整数类型 (int64)
- clip_tags_ViT_L_14:字符串序列
- clip_tags_LAION_ViT_H_14_2B:字符串序列
- blip_caption_beam_5:字符串类型 (string)
- LLM_Description_gpt3_downstream_tasks_visual_genome_ViT_L_14:字符串序列
- LLM_Description_gpt3_downstream_tasks_visual_genome_LAION-ViT-H-14-2B:字符串序列
- DETA_detections_deta_swin_large_o365_coco_classes:列表类型,包含:
- attribute:字符串类型 (string)
- box:浮点数序列 (float32)
- label:字符串类型 (string)
- location:字符串类型 (string)
- ratio:浮点数类型 (float32)
- size:字符串类型 (string)
- tag:字符串类型 (string)
数据集分割
- train:
- 数据量:9906518637.0 字节
- 示例数量:20523
数据集大小
- 下载大小:9880125036 字节
- 数据集大小:9906518637.0 字节
搜集汇总
数据集介绍

构建方式
在视觉问答与辅助技术交叉领域,VizWiz_train数据集专为视障用户场景设计,其构建过程融合了多模态信息增强策略。该数据集包含20,523个训练样本,每个样本由图像、自然语言问题及人工标注的答案组成,并额外引入CLIP、BLIP等预训练模型生成的视觉标签与描述。通过DETA目标检测框架提取图像中的物体属性、边界框及空间位置,结合GPT-3生成的下游任务描述,形成了从原始视觉内容到高层语义的完整标注链路。这种多层级、多来源的标注架构,旨在弥合低质量图像与精准问答之间的鸿沟。
特点
该数据集的核心特性在于其多维度的信息融合与细粒度标注。每个样本不仅包含标准问答对,还携带基于ViT-L/14与LAION-ViT-H-14-2B的CLIP标签、基于beam搜索的BLIP字幕,以及针对视觉基因组任务的GPT-3描述。尤为突出的是DETA检测结果,它提供了物体属性、边界框坐标、空间位置与尺寸等结构化信息,使模型能同时理解图像的整体语义与局部细节。此外,答案置信度与可回答性标记进一步反映了数据质量,为鲁棒模型训练提供了可靠基础。
使用方法
使用时,可通过HuggingFace Datasets库加载该数据集,其结构以图像为锚点,关联问题、答案序列及多模态增强字段。研究人员可直接利用预计算的视觉特征(如CLIP标签)进行跨模态对齐任务,或结合DETA检测框训练空间感知的视觉问答模型。BLIP字幕与GPT-3描述可作为辅助监督信号,用于弱监督学习或知识蒸馏。数据集的20523个样本已预划分训练集,支持直接迭代访问,适合作为基准测试或迁移学习的起点。
背景与挑战
背景概述
VizWiz数据集诞生于视觉问答(VQA)领域对真实场景需求的深刻洞察,由来自哈佛大学、麻省理工学院等机构的研究人员于2018年首次推出。该数据集的核心研究问题聚焦于帮助视觉障碍人士通过拍摄图像并提出自然语言问题,从而获取关于周围环境的即时描述,旨在弥合计算机视觉技术与特殊人群实际需求之间的鸿沟。作为首个大规模收集自真实盲人用户场景的VQA数据集,VizWiz不仅推动了多模态学习在辅助技术中的应用,更成为评估模型在低质量、模糊、旋转等非理想条件下表现的重要基准,对包容性人工智能的发展产生了深远影响。
当前挑战
VizWiz数据集所面临的挑战首先体现在其解决的领域问题上:与常规VQA任务不同,该数据集中的图像常因拍摄者视力受限而呈现模糊、倾斜或光照不均等特性,问题表述也带有口语化和非结构化特点,这要求模型具备更强的鲁棒性和对噪声的容忍度。其次,在构建过程中,研究人员需克服数据收集的伦理与隐私难题,确保在真实用户场景下获取图像和问题时的知情同意,同时处理答案标注的主观性和不确定性,例如同一问题可能对应多个合理答案,而标注者置信度(answer_confidence)的引入又增加了答案质量评估的复杂性。
常用场景
经典使用场景
在视觉与语言交叉领域的研究中,VizWiz_train数据集以其独特的视觉问答(VQA)任务设定,成为探索辅助视障人士获取视觉信息的经典资源。该数据集包含由真实视障用户拍摄的图片及其自发提出的问题,并附有多样化的答案标注,使得模型需在图像质量参差不齐、问题意图模糊的条件下完成精准回答。这一场景不仅考验模型的视觉理解与常识推理能力,更强调其在真实、非理想环境下的鲁棒性,为构建更具包容性的多模态智能系统提供了基准测试平台。
解决学术问题
该数据集核心解决了传统VQA数据集忽视的“视觉障碍用户真实需求”这一学术空白。通过收集低质量、非专业拍摄的图片及口语化问题,它迫使研究者关注模型在噪声图像、模糊描述和不确定答案中的表现,从而推动了对视觉注意力机制、跨模态对齐和答案置信度估计等关键问题的深入探索。其意义在于,它揭示了现有模型在应对现实世界多样性时的脆弱性,并激励了针对弱监督学习、领域自适应和鲁棒表示学习等方向的理论突破。
衍生相关工作
该数据集催生了一系列经典学术工作,例如“VizWiz Grand Challenge”系列竞赛,推动了针对低质量图像VQA的专门模型架构设计,如引入多尺度特征融合和不确定性建模。后续研究还衍生出“Answer Confidence Prediction”任务,旨在评估模型回答的可靠性,以及“VizWiz-Text”子集,专注于场景文本识别与推理。这些工作不仅深化了对视觉语言理解中鲁棒性的认知,也为跨领域迁移学习提供了新的评价范式。
以上内容由遇见数据集搜集并总结生成



