five

HuggingFaceM4/POPE_modif

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/POPE_modif
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: test path: data/test-* dataset_info: features: - name: image dtype: image - name: context dtype: string - name: label dtype: class_label: names: '0': 'No' '1': 'Yes' splits: - name: test num_bytes: 457791044.0 num_examples: 9000 download_size: 79490468 dataset_size: 457791044.0 --- # Dataset Card for "POPE_modif" This dataset is the concatenation of all splits (random, popular, adversarial) of the [POPE benchmark](https://arxiv.org/pdf/2305.10355.pdf).

配置项: - 配置名称:default 数据文件: - 数据拆分:test 路径:data/test-* 数据集信息: 特征: - 名称:image 数据类型:图像 - 名称:context 数据类型:字符串 - 名称:label 数据类型: 类别标签: 类别名称: '0': 'No' '1': 'Yes' 数据拆分: - 名称:test 字节大小:457791044.0 样本数量:9000 下载大小:79490468 数据集总大小:457791044.0 --- # "POPE_modif"数据集卡片 本数据集为[POPE基准测试集(POPE benchmark)](https://arxiv.org/pdf/2305.10355.pdf)的全部三个数据拆分(随机、流行、对抗)的拼接集合。
提供机构:
HuggingFaceM4
原始信息汇总

数据集 "POPE_modif" 概述

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: test
    • 路径: data/test-*

数据集信息

  • 特征:
    • 名称: image
      • 数据类型: image
    • 名称: context
      • 数据类型: string
    • 名称: label
      • 数据类型:
        • class_label:
          • 名称:
            • 0: No
            • 1: Yes
  • 分割:
    • 名称: test
      • 字节数: 457791044.0
      • 样本数: 9000
  • 下载大小: 79490468
  • 数据集大小: 457791044.0
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,POPE_modif数据集通过整合POPE基准测试的所有分割版本构建而成。该数据集系统性地汇集了随机、流行及对抗性三种分割策略下的样本,旨在全面评估模型在不同情境下的幻觉检测能力。其构建过程严格遵循原始研究框架,确保了数据的一致性与可比性,为多维度分析模型性能提供了结构化基础。
特点
POPE_modif数据集的核心特征在于其多维度的评估架构,涵盖了图像、文本上下文及二分类标签的复合特征。图像数据以视觉形式呈现,文本上下文提供问答背景,而标签则明确标注模型回答的准确性。数据集包含9000个测试样本,规模适中,专注于测试场景,避免了训练数据的干扰,从而精准聚焦于模型幻觉现象的检测与分析。
使用方法
使用POPE_modif数据集时,研究者可直接加载测试分割进行模型评估。该数据集适用于视觉问答任务的幻觉检测,用户需将图像与上下文输入模型,对比模型输出与标签的一致性,以量化模型产生错误信息的倾向。通过整合三种分割策略,用户能够全面评估模型在随机、常见及对抗性条件下的鲁棒性,推动视觉语言模型的可靠性研究。
背景与挑战
背景概述
在视觉语言模型评估领域,POPE_modif数据集作为一项关键基准,由HuggingFaceM4团队于2023年构建,其核心研究问题聚焦于评估多模态模型在对象存在性判断任务中的幻觉现象。该数据集基于POPE基准框架,整合了随机、流行与对抗性三种分割策略,旨在系统检验模型对图像内容描述的准确性。通过提供包含图像、上下文与二元标签的结构化数据,它推动了视觉语言理解领域向更严谨的可靠性评估方向发展,为减少模型生成误导性内容提供了实证基础。
当前挑战
该数据集主要应对视觉语言模型中对象幻觉检测的挑战,即模型可能生成与图像实际内容不符的对象描述,这要求评估机制具备高精度与鲁棒性。在构建过程中,挑战体现在平衡数据分割的多样性:随机分割需确保样本无偏,流行分割需涵盖常见对象以反映现实分布,而对抗性分割则需精心设计误导性上下文以暴露模型弱点。此外,大规模图像与文本的对齐标注,以及避免标注偏差对评估结果的影响,亦是构建中的关键难点。
常用场景
经典使用场景
在视觉语言模型评估领域,POPE_modif数据集作为基准测试工具,主要用于系统性地评估模型在图像内容理解与问答任务中的幻觉现象。该数据集通过整合随机、流行和对抗性三种分割,构建了多样化的测试环境,使研究者能够全面考察模型对图像中对象、属性及关系的判断准确性。其经典应用场景在于为多模态大语言模型提供标准化的幻觉检测框架,推动模型在复杂视觉推理任务中的可靠性验证。
解决学术问题
该数据集有效解决了视觉语言模型中普遍存在的幻觉问题,即模型生成与图像内容不符的陈述。通过提供结构化的二元分类任务,它帮助学术界量化模型产生错误关联的频率与模式,为理解多模态表示对齐的局限性提供了实证基础。其意义在于建立了可重复的评估标准,促进了模型鲁棒性研究,对提升视觉语言交互系统的可信度产生了深远影响。
衍生相关工作
围绕POPE_modif数据集,衍生了一系列经典研究工作,包括基于对抗性样本的幻觉缓解策略、多模态注意力机制的可解释性分析,以及跨模态对齐模型的改进架构。这些工作不仅扩展了幻觉检测的理论边界,还催生了如LLaVA、BLIP等先进模型的评估框架,推动了视觉语言理解领域向更高精度与更强泛化能力的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作