five

openkg/MHaluBench|多模态模型数据集|幻觉检测数据集

收藏
hugging_face2024-06-12 更新2024-03-04 收录
多模态模型
幻觉检测
下载链接:
https://hf-mirror.com/datasets/openkg/MHaluBench
下载链接
链接失效反馈
资源简介:
MHaluBench是一个用于评估多模态幻觉检测器的基准数据集,涵盖了图像到文本和文本到图像生成的内容。该数据集旨在严格评估多模态幻觉检测器的进展,并提供了详细的统计数据,包括幻觉类别分布和声明级别的数据统计。

MHaluBench是一个用于评估多模态幻觉检测器的基准数据集,涵盖了图像到文本和文本到图像生成的内容。该数据集旨在严格评估多模态幻觉检测器的进展,并提供了详细的统计数据,包括幻觉类别分布和声明级别的数据统计。
提供机构:
openkg
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 英语
  • 标签: 代码
  • 美观名称: MHaluBench
  • 大小类别: 1K<n<10K

配置详情

  • 配置名称: default
    • 数据文件:
      • 分割: train
        • 路径: MHaluBench_train.json
      • 分割: val
        • 路径: MHaluBench_val-v0.1.json

数据集统计

  • 数据集: MHaluBench
    • 内容: 包含图像到文本和文本到图像生成的内容,旨在严格评估多模态幻觉检测器的进展。
    • 详细统计: 请参见下图。

框架说明

  • 框架: UniHD
    • 目标: 针对图像到文本和文本到图像任务,系统地处理多模态幻觉识别。
    • 具体说明: 请参见下图。

版本信息

  • 验证集版本:
    • v0.1: 用于UniHD论文的数据。
    • v0.2: 修改了图像6dfc3ab66883fd8c.jpg和图像COCO_val2014_000000009727.jpg中的第五个声明标签。

引用

  • 请引用我们的仓库,如果您在工作中使用了EasyDetect。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MHaluBench数据集的构建基于对多模态大语言模型(MLLMs)中幻觉现象的系统性研究。该数据集涵盖了图像到文本和文本到图像生成任务中的幻觉检测,旨在通过严格的评估来推动多模态幻觉检测技术的发展。数据集的构建过程中,研究人员对不同模态间的冲突幻觉和事实冲突幻觉进行了细致的分类和标注,确保了数据集的多样性和代表性。
特点
MHaluBench数据集的特点在于其对多模态幻觉的统一检测视角,涵盖了对象、属性、场景文本等多个层次的幻觉检测。此外,数据集还提供了详细的统计信息和分类分布,帮助研究者更好地理解和利用数据。数据集的多样性和细致的标注使其成为评估和改进多模态幻觉检测模型的理想选择。
使用方法
使用MHaluBench数据集时,用户可以通过提供的配置文件快速设置参数,并利用示例代码进行快速上手。数据集支持多种任务类型,包括图像到文本和文本到图像生成任务的幻觉检测。用户可以根据需要调整配置文件中的参数,以适应不同的实验需求。数据集的详细文档和示例代码为用户提供了便捷的使用指南。
背景与挑战
背景概述
MHaluBench数据集由OpenKG团队于2023年10月启动开发,旨在为多模态大语言模型(MLLMs)中的幻觉检测提供一个系统化的评估框架。该数据集的核心研究问题集中在多模态幻觉的统一检测上,特别是针对图像到文本和文本到图像生成任务中的幻觉现象。MHaluBench的推出标志着多模态幻觉检测领域的一个重要里程碑,其研究成果发表于2024年2月的《Unified Hallucination Detection for Multimodal Large Language Models》论文中。该数据集的创建不仅为研究人员提供了一个标准化的评估工具,还为多模态大语言模型的进一步优化提供了宝贵的资源。
当前挑战
MHaluBench数据集面临的挑战主要集中在两个方面:首先,多模态幻觉的检测任务本身具有复杂性,涉及图像与文本之间的细粒度对齐问题,尤其是在对象、属性和场景文本级别的冲突检测上。其次,数据集的构建过程中,研究人员需要处理大量的多模态数据,确保每个图像-文本对的标注准确性和一致性,这对数据处理和标注工作提出了较高的要求。此外,随着多模态大语言模型的不断发展,如何持续更新和扩展MHaluBench以适应新的模型和技术也是一个重要的挑战。
常用场景
经典使用场景
MHaluBench数据集的经典使用场景主要集中在多模态大语言模型(MLLMs)的幻觉检测任务中。该数据集通过提供图像与文本对的形式,帮助研究者评估模型在图像描述生成(Image Captioning)和文本到图像生成(Text-to-Image)任务中的幻觉现象。具体而言,研究者可以利用MHaluBench对模型的输出进行细粒度的幻觉检测,识别出模型生成的文本或图像是否与输入数据或事实知识存在冲突。
实际应用
MHaluBench数据集在实际应用中具有广泛的应用场景。例如,在新闻媒体领域,该数据集可用于检测自动生成的新闻图片与文本描述是否一致,确保信息的真实性。在教育领域,它可以用于评估智能教学系统生成的视觉内容与文本解释的匹配度,提升教学效果。此外,在医疗领域,MHaluBench可用于检测医学图像与报告描述之间的幻觉现象,确保诊断的准确性。
衍生相关工作
基于MHaluBench数据集,研究者开发了多种幻觉检测模型,如HalDet-LLaVA,这些模型在HuggingFace、ModelScope和WiseModel等平台上广泛应用。此外,该数据集还启发了许多关于多模态幻觉检测的进一步研究,包括如何利用多模态证据进行更精确的幻觉识别,以及如何通过统一的框架解决不同类型的幻觉问题。这些工作不仅丰富了多模态大语言模型的研究领域,还为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。

hugging_face 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录