Multimodal-Hallucination-Annotations-reduced

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/alita01/Multimodal-Hallucination-Annotations-reduced

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为R1-Onevision-7B，包含问题、模型输出、真实答案以及对应的图片等字段。数据集分为五个部分，分别是phd_ccs_annotations、phd_sec_annotations、phd_icc_annotations、phd_base_annotations和longfact_annotations，每个部分包含不同数量的标注例子，用于不同任务的训练和评估。

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

数据集名称: Multimodal-Hallucination-Annotations-reduced
配置名称: R1-Onevision-7B
下载大小: 344,308,345 字节
数据集大小: 258,477,517 字节

数据结构

特征字段

question_id: 字符串类型
question: 字符串类型
model_output: 字符串类型
ground_truth: 字符串类型
image: 图像类型
image_name: 字符串类型
task: 字符串类型
hallucination_annotation: 列表类型
- index: 整型
- label: 字符串类型
- span: 字符串类型
- verification_note: 字符串类型
annotator_model: 字符串类型
model_name: 字符串类型
detailed_prompt: 字符串类型

数据划分

划分详情

phd_ccs_annotations: 409个样本，178,298,090字节
phd_sec_annotations: 461个样本，25,936,398字节
phd_icc_annotations: 464个样本，26,852,747字节
phd_base_annotations: 407个样本，23,290,798字节
longfact_annotations: 492个样本，4,099,484字节

文件配置

数据文件路径

R1-Onevision-7B/phd_ccs_annotations-*
R1-Onevision-7B/phd_sec_annotations-*
R1-Onevision-7B/phd_icc_annotations-*
R1-Onevision-7B/phd_base_annotations-*
R1-Onevision-7B/longfact_annotations-*

搜集汇总

数据集介绍

构建方式

在人工智能多模态研究领域，该数据集通过系统化标注流程构建而成。研究人员采用结构化标注框架，针对视觉语言模型生成的文本内容进行幻觉现象标注。数据集包含五个独立子集，分别对应不同的任务场景，每个样本均包含问题标识、原始问题、模型输出、真实答案及对应图像等多维度信息。标注过程中采用细粒度标注体系，对幻觉片段的位置、类型和验证说明进行精确记录，确保数据质量的可靠性与一致性。

特点

该数据集展现出显著的多模态特性与专业标注深度。其核心特征在于对模型幻觉现象的精细化标注体系，涵盖索引定位、类型分类、文本片段和验证说明四个维度。数据集包含丰富的任务类型和图像文本对，五个子集分别针对不同应用场景，样本总量超过两千条。每个样本均配备完整的元数据信息，包括标注模型来源和详细提示模板，为研究多模态模型幻觉机制提供了全面的数据支撑。

使用方法

在多模态人工智能模型评估研究中，该数据集支持多种应用场景。研究人员可通过加载指定配置名称访问不同子集，每个子集对应特定的任务类型和标注标准。使用时应根据研究需求选择相应分割，如基础标注、长事实标注等不同版本。数据集采用标准化的特征结构，支持直接提取问题-答案对、模型输出对比和幻觉标注分析，便于进行模型性能评估、幻觉检测算法开发和多模态理解能力测试。

背景与挑战

背景概述

多模态大语言模型在视觉与语言融合任务中展现出卓越潜力，然而其生成内容常伴随事实性失真现象，即幻觉问题。Multimodal-Hallucination-Annotations-reduced数据集由研究机构针对这一核心问题构建，聚焦于系统识别和标注模型输出中的幻觉片段。该数据集通过整合图像、文本问答对及细粒度标注，为量化评估多模态模型的可靠性提供了基准，对推动可信人工智能发展具有关键意义。

当前挑战

多模态幻觉检测需应对模型生成内容与真实世界知识对齐的复杂性，包括视觉 grounding 偏差和文本语义矛盾的双重验证。数据构建过程中面临标注一致性的挑战，需协调不同标注者对幻觉边界的主观判断，同时处理图像语义与文本描述间的隐含关联，这对标注协议的严谨性和跨模态理解深度提出了极高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，该数据集为研究多模态幻觉现象提供了标准化的基准平台。通过精心标注的问答对和图像样本，研究人员能够系统分析模型生成内容与真实世界知识之间的偏差，特别适用于评估模型在复杂视觉推理任务中产生虚构或错误信息的行为模式。

解决学术问题

该数据集有效解决了多模态人工智能领域对幻觉现象量化评估的迫切需求。通过提供细粒度的幻觉标注和验证说明，使研究者能够深入探究模型产生错误信息的根本原因，为开发更可靠的视觉语言模型奠定了实证基础，显著推进了多模态可信人工智能的研究进程。

衍生相关工作

基于该数据集的研究催生了多模态幻觉检测领域的系列创新成果。学者们开发了多种先进的幻觉评估框架和缓解策略，如基于注意力机制的幻觉定位方法和知识增强的生成模型，这些工作显著提升了多模态模型的准确性和鲁棒性，推动了整个领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集