PhD

arXiv2024-03-17 更新2024-06-21 收录

下载链接：

https URL

下载链接

链接失效反馈

官方服务：

资源简介：

PhD数据集是由中国人民大学DEKE重点实验室和腾讯机器学习平台部联合开发的，专注于评估大型视觉-语言模型（LVLMs）中的内在视觉-语言幻觉（IVL-Hallu）问题。该数据集包含超过7000张图像和53976个问题，涵盖四种IVL-Hallu类型：物体幻觉、属性幻觉、多模态冲突幻觉和反常识幻觉。数据集通过自动化流程生成，确保数据的高质量和多样性，旨在帮助研究人员更好地理解和解决LVLMs中的幻觉问题，推动未来在IVL-Hallu和LVLMs领域的研究。

PhD Dataset is co-developed by the DEKE Key Laboratory of Renmin University of China and Tencent Machine Learning Platform Department, focusing on evaluating the intrinsic vision-language hallucination (IVL-Hallu) issues in large vision-language models (LVLMs). This dataset contains over 7,000 images and 53,976 questions, covering four types of IVL-Hallu: object hallucination, attribute hallucination, multimodal conflict hallucination, and counter-intuitive hallucination. Generated via automated pipelines, the dataset ensures high data quality and diversity, aiming to help researchers better understand and address the hallucination problems in LVLMs, and promote future research in the fields of IVL-Hallu and LVLMs.

提供机构：

中国人民大学 DEKE 重点实验室腾讯机器学习平台部

创建时间：

2024-03-17

搜集汇总

数据集介绍

构建方式

PhD数据集的构建基于对视觉-语言模型（LVLMs）中内在视觉-语言幻觉（IVL-Hallu）问题的深入分析。研究团队通过自动化数据生成管道，生成了包含四种类型幻觉的数据：对象幻觉、属性幻觉、多模态冲突幻觉和反常识幻觉。每种幻觉类型的数据均通过精心设计的提示和图像内容生成，确保数据的高质量和挑战性。

特点

PhD数据集的特点在于其全面性和多样性，涵盖了四种主要的幻觉类型，每种类型都具有独特的挑战性。数据集不仅提供了高质量的幻觉数据，还详细记录了导致幻觉的元素，有助于深入分析和理解LVLMs的幻觉问题。此外，数据集的自动化生成管道确保了数据的大规模和高效性。

使用方法

PhD数据集适用于评估和研究LVLMs在处理视觉-语言幻觉问题上的能力。研究者可以使用该数据集进行模型训练、验证和测试，以提高模型在识别和纠正幻觉方面的性能。通过分析数据集中的幻觉元素，研究者可以进一步探索和开发新的方法来减少或消除LVLMs中的幻觉现象。

背景与挑战

背景概述

随着大型语言模型（LLMs）的迅猛发展，视觉-语言模型（LVLMs）也得到了显著的进步。PhD数据集由中国人民大学和腾讯机器学习平台部门的研究团队共同创建，旨在深入研究视觉-语言模型中的内在幻觉问题（IVL-Hallu）。该数据集的核心研究问题是如何有效识别和分类LVLMs中的不同类型的幻觉，包括对象幻觉、属性幻觉、多模态冲突幻觉和反常识幻觉。PhD数据集的提出不仅为LVLMs的评估提供了新的基准，还为未来研究提供了丰富的实验数据和深入的分析，推动了视觉-语言模型领域的进一步发展。

当前挑战

PhD数据集面临的挑战主要集中在两个方面：一是如何准确识别和分类LVLMs中的不同类型的幻觉，这需要对模型的内部机制有深入的理解；二是如何在数据集构建过程中生成高质量的幻觉数据，确保数据的真实性和可靠性。此外，LVLMs在处理多模态信息时，由于模态不平衡问题，容易产生幻觉，这要求模型在设计和训练时需要更加注重模态间的协调与平衡。PhD数据集通过提出自动化的数据生成管道，尝试解决这些挑战，但其有效性和广泛适用性仍需进一步验证。

常用场景

经典使用场景

PhD数据集主要用于评估和探索大视觉-语言模型（LVLMs）中的内在视觉-语言幻觉（IVL-Hallu）问题。通过提供四种不同类型的幻觉数据（对象幻觉、属性幻觉、多模态冲突幻觉和反常识幻觉），该数据集帮助研究人员深入分析LVLMs在处理视觉和语言信息时的不一致性，从而推动模型的改进和优化。

解决学术问题

PhD数据集解决了当前LVLMs研究中对幻觉问题关注不足的学术研究问题。通过系统地分类和生成不同类型的幻觉数据，该数据集为研究人员提供了一个全面的基准，用于评估和改进LVLMs的性能。这不仅有助于理解幻觉产生的根本原因，还为未来开发更鲁棒的视觉-语言模型提供了重要的研究方向。

衍生相关工作

PhD数据集的提出激发了大量相关研究工作，特别是在幻觉检测和缓解技术方面。例如，一些研究提出了基于数据分布平衡的技术（如LRV-Instruction和HalluciDoctor），以及利用外部反馈和自我修正的方法（如Woodpecker和Volcano）。此外，OPERA分析了注意力图谱，以进一步理解幻觉问题。这些工作不仅扩展了PhD数据集的应用范围，还为解决LVLMs中的幻觉问题提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集