five

sled-umich/ROPE

收藏
Hugging Face2024-07-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/sled-umich/ROPE
下载链接
链接失效反馈
官方服务:
资源简介:
ROPE数据集旨在通过利用现有的全景分割数据集(如MSCOCO-Panoptic和ADE20K)来评估和分析多目标幻觉现象。数据集包含多样对象及其实例级语义注释,分为训练和验证两部分,每部分根据图像中对象类别的分布进一步细分为同质、异质、野外和对抗性子集。文件结构包括图像和JSON文件,图像分为原始图像和带有边界框的可视化图像。JSON文件结构详细描述了图像文件夹、文件名、来源、尺寸、分割信息、对象信息等。

The ROPE dataset is designed to evaluate and analyze multi-object hallucination in large vision-language models (LVLMs) by leveraging existing panoptic segmentation datasets such as MSCOCO-Panoptic and ADE20K. It includes diverse objects and their instance-level semantic annotations. The dataset is divided into several subsets based on the distribution of object classes within each image at test time, including Homogeneous, Heterogeneous, In-the-Wild, and Adversarial subsets. The dataset is structured into training and validation directories, each containing images divided by their object class distributions. Each image directory includes visualizations of bounding boxes and raw images, further categorized into ADE and COCO sources. The dataset also includes JSON files detailing the structure and features of the dataset.
提供机构:
sled-umich
原始信息汇总

数据集概述

基本信息

  • 任务类别: 问答、文本分类
  • 许可协议: Apache 2.0
  • 语言: 英语
  • 数据量: 1K<n<10K

数据集构造

数据集基于MSCOCO-Panoptic和ADE20K构建,旨在评估和分析多对象幻觉现象。数据集分为以下几个子集:

  • Homogeneous: 所有测试对象属于同一类别。
  • Heterogeneous: 所有测试对象属于不同类别。
  • In-the-Wild: 混合分布,测试对象随机选择和排序。
  • Adversarial: 设计用于挑战模型,包含困难的对象分布。

数据统计

训练数据统计

数据集 总数 COCO ADE
Wild 1539 732 807
Hom. 312 168 144
Het. 400 200 200
Adv. 168 54 114

验证数据统计

数据集 总数 COCO ADE
Wild 1172 547 625
Het. 246 76 170
Hom. 490 289 201
Adv. 334 170 164

数据文件结构

数据集分为训练和验证目录,每个目录包含按对象类别分布划分的图像。每个图像目录包含边界框(bbox)和原始图像(raw)的可视化,进一步分为ADECOCO来源。

arduino ROPE/ │ ├── train/ │ ├── image/ │ │ ├── AAAAB-images/ │ │ │ ├── bbox/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ │ ├── raw/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ ├── BAAAA-images/ │ │ │ ├── bbox/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ │ ├── raw/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ ├── heterogenous-images/ │ │ │ ├── bbox/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ │ ├── raw/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ ├── homogenous-images/ │ │ │ ├── bbox/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ │ ├── raw/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ ├── mixed-images/ │ │ │ ├── bbox/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ │ │ ├── raw/ │ │ │ │ ├── ADE/ │ │ │ │ ├── COCO/ │ ├── AAAAB_data.json │ ├── BAAAA_data.json │ ├── merged_heterogenous_data.json │ ├── merged_homogenous_data.json │ ├── merged_mixed_data.json │ ├── validation/ #similar to train part │ ├── image/ │ │ ├── AAAAB-images/
│ │ ├── BAAAA-images/ │ │ ├── heterogenous-images/ │ │ ├── homogenous-images/ │ │ ├── mixed-images/ │ ├── AAAAB_data.json │ ├── BAAAA_data.json │ ├── merged_heterogenous_data.json │ ├── merged_homogenous_data.json │ ├── merged_mixed_data.json │ ├── .gitattributes ├── README.md ├── train.zip ├── validation.zip

JSON文件结构

JSON文件包含以下特征:

  • folder: 文件夹名称,字符串类型。
  • filename: 文件名,字符串类型。
  • source: 数据来源,结构类型,包含databaseimage_idcoco_idflickr_id字段。
  • size: 图像尺寸,结构类型,包含widthheightdepth字段。
  • segmented: 是否分割,整数类型。
  • objects: 对象列表,列表类型,每个对象包含nameobject_iddifficultbndboxareabbox_number字段。
  • relations: 关系列表,字符串类型。
  • object_set: 对象集合,字符串类型。
  • data_source: 数据来源,字符串类型。

json { "features": [ { "name": "folder", "dtype": "string" }, { "name": "filename", "dtype": "string" }, { "name": "source", "dtype": "struct", "fields": [ { "name": "database", "dtype": "string" }, { "name": "image_id", "dtype": "string" }, { "name": "coco_id", "dtype": "string" }, { "name": "flickr_id", "dtype": "string" } ] }, { "name": "size", "dtype": "struct", "fields": [ { "name": "width", "dtype": "int32" }, { "name": "height", "dtype": "int32" }, { "name": "depth", "dtype": "int32" } ] }, { "name": "segmented", "dtype": "int32" }, { "name": "objects", "dtype": "list", "item": { "dtype": "struct", "fields": [ { "name": "name", "dtype": "string" }, { "name": "object_id", "dtype": "string" }, { "name": "difficult", "dtype": "int32" }, { "name": "bndbox", "dtype": "struct", "fields": [ { "name": "xmin", "dtype": "int32" }, { "name": "ymin", "dtype": "int32" }, { "name": "xmax", "dtype": "int32" }, { "name": "ymax", "dtype": "int32" } ] }, { "name": "area", "dtype": "int32" }, { "name": "bbox_number", "dtype": "int32" } ] } }, { "name": "relations", "dtype": "list", "item": { "dtype": "string" } }, { "name": "object_set", "dtype": "list", "item": { "dtype": "string" } }, { "name": "data_source", "dtype": "string" } ] }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型研究领域,ROPE数据集的构建旨在系统评估多目标幻觉现象。该数据集巧妙整合了MSCOCO-Panoptic与ADE20K两大权威全景分割数据集,确保涵盖丰富多样的物体类别及其实例级语义标注。构建过程依据测试图像中物体类别的分布规律,将数据划分为同质、异质、自然混合及对抗性四个子集,从而实现对大型视觉语言模型在不同分布场景下幻觉行为的精细化分析。
使用方法
研究人员可通过下载训练与验证压缩包,按目录结构加载图像及对应的JSON标注文件。数据集适用于视觉问答与文本分类任务,主要用于评测视觉语言模型在多目标场景下的幻觉倾向。使用时可针对不同分布子集分别进行测试,以探究模型在均匀、多样或对抗性物体分布下的性能差异。相关代码与详细指南可在官方仓库中获取,便于复现与扩展研究。
背景与挑战
背景概述
在视觉语言模型(VLMs)迅猛发展的背景下,模型生成与图像内容不符的虚假描述,即幻觉问题,已成为制约其可靠应用的核心障碍。ROPE数据集由密歇根大学SLED研究组于2024年构建,旨在系统评估大型视觉语言模型中的多目标幻觉现象。该数据集创新性地利用MSCOCO-Panoptic和ADE20K等全景分割数据集,构建了包含同质、异质、野外混合及对抗性分布在内的多种测试子集,为深入探究模型在复杂对象组合下的幻觉行为提供了精细化的基准。其工作发表于ALVR 2024研讨会,为提升视觉语言模型的可靠性与可解释性奠定了重要的数据基础。
当前挑战
ROPE数据集致力于解决视觉语言模型多目标幻觉评估这一前沿问题,其核心挑战在于如何精准量化模型在描述包含多个对象的复杂场景时产生的系统性错误。在构建过程中,研究团队面临多重挑战:首先,需要从现有全景分割数据中精心筛选和重组,以构建具有统计意义且覆盖不同对象分布模式(如同质、异质、对抗)的测试样本,确保评估的全面性与严谨性。其次,标注过程需保证实例级语义信息的准确迁移与一致性,这对数据清洗与验证流程提出了极高要求。最后,设计能够有效揭示模型幻觉脆弱性的对抗性分布,本身即是一项需要深入理解模型失效模式的复杂任务。
常用场景
经典使用场景
在视觉语言模型(VLM)的评估领域,ROPE数据集被设计用于系统性地分析和量化模型在多目标场景下的幻觉现象。该数据集基于MSCOCO-Panoptic和ADE20K的实例级语义标注构建,通过精心划分的同质、异质、自然分布及对抗性子集,为研究者提供了评估模型在不同对象分布下生成准确性和一致性的标准化测试平台。其经典使用场景在于作为基准测试集,驱动视觉语言模型在复杂多对象理解任务上的性能评估与比较。
解决学术问题
ROPE数据集的核心学术价值在于解决了视觉语言模型中长期存在的多目标幻觉量化难题。传统评估方法往往难以系统捕捉模型在描述包含多个对象的复杂场景时产生的虚构或错误关联,而该数据集通过结构化分布设计,使得研究者能够精确分析幻觉现象与对象类别分布之间的关联机制。这为深入理解模型认知边界、推动幻觉检测与缓解技术的理论发展提供了关键的数据支撑,显著提升了该领域研究的可复现性与科学性。
实际应用
在实际应用层面,ROPE数据集为开发可靠的多模态人工智能系统提供了重要的评估工具。例如,在自动驾驶的环境感知模块、智能医疗影像分析系统以及内容审核平台中,模型需要准确描述包含多个实体的复杂视觉场景。利用该数据集进行严格测试,能够帮助工程师识别并修正模型在密集对象识别与关系推理中的系统性偏差,从而提升实际部署系统的鲁棒性、安全性与用户信任度,推动视觉语言技术从实验室走向产业落地。
数据集最近研究
最新研究方向
在视觉语言模型领域,ROPE数据集正推动多目标幻觉现象的前沿探索。该数据集基于MSCOCO-Panoptic与ADE20K构建,通过同质、异质、自然与对抗性分布的子集设计,系统剖析大规模视觉语言模型在复杂场景下的幻觉生成机制。当前研究聚焦于模型对物体类别分布的敏感性,揭示其在密集标注环境中的认知偏差,为提升模型的可信度与鲁棒性提供了关键基准。相关成果已在ALVR等国际研讨会发表,促进了视觉与语言交叉领域对模型可靠性的深度讨论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作