DocHallu
收藏Hugging Face2026-04-19 更新2026-04-20 收录
下载链接:
https://huggingface.co/datasets/IB99/DocHallu
下载链接
链接失效反馈官方服务:
资源简介:
DocHallu v1 是一个包含配对原始和损坏文档图像、任务提示、真实答案、模型预测以及人类幻觉判断的基准数据集。该数据集旨在用于分析和验证视觉-语言模型中的感知幻觉现象。数据集包含三个任务:MER-Hallu(1,469个样本)、KIE-Hallu(283个样本)和DVQA-Hallu(919个样本),总计2,671个样本。数据来源于公共语料库和工具,包括Wikipedia衍生的表达式、WildReceipt和OCR-Bench对齐的收据、DocVQA风格的提示和监督等。数据集的重新分发可能受到原始材料许可的限制。数据集还包括人类评估标签和聚合字段,用于论文指标的权威验证。使用该数据集时,请引用ACL 2026论文《Perceptual Hallucination in Vision–Language Models: Definition, Analysis and Verification》。
创建时间:
2026-04-19
原始信息汇总
DocHallu v1 数据集概述
数据集基本信息
- 许可证: cc-by-4.0
- 语言: 英语 (en)
- 官方名称: DocHallu v1
数据集内容与结构
该数据集包含成对的原始与受损文档图像、任务提示、真实答案、论文实验中的模型预测以及人工幻觉判断。
目录结构:
DocHallu_v1 Dataset/ ├── README.md # 说明文件 ├── statistics.json # 各任务的数量统计与真实答案摘要 ├── annotations/ │ └── human_eval_hallucination_gt_aggregated.csv ├── KIE-Hallu/dataset.jsonl # KIE-Hallu 样本(路径相对于 KIE-Hallu/) ├── KIE-Hallu/eval_bundle.jsonl # 真实答案 + 模型输出 + 人工判断(每个样本) ├── KIE-Hallu/images/original/ ├── KIE-Hallu/images/damaged/ ├── MER-Hallu/... └── DVQA-Hallu/...
核心文件说明:
dataset.jsonl: 仅包含公共基准字段(id、提示、gt_original、gt_damaged、图像路径)。eval_bundle.jsonl: 每行一个JSON对象;包含ground_truth、by_model(含model_output(原始/受损))和human_evaluation(含匿名ID的by_annotator,以及来自CSV的aggregated(如可用))。annotations/human_eval_hallucination_gt_aggregated.csv: 样本 × 模型的表格,包含一致风格的聚合结果和投票计数。
数据集规模
| 任务 | 样本数 |
|---|---|
| MER-Hallu | 1,469 |
| KIE-Hallu | 283 |
| DVQA-Hallu | 919 |
| 总计 | 2,671 |
数据来源与再分发说明
DocHallu 基于论文中引用的公共语料库和工具构建,包括:
- 用于 MER 的 Wikipedia 衍生表达式。
- 用于 KIE 的 WildReceipt / OCR-Bench 对齐的收据。
- 用于 DVQA(本基准中的文档视觉问答)的 DocVQA 风格提示和监督。
- 用于定位的第三方 OCR。
再分发可能受原始材料许可证的限制。在重新发布此捆绑包之前,请验证是否符合以下条款:
- WildReceipt 及相关收据数据条款(参见 Ikomia WildReceipt 项目许可证)。
- 构建子集时使用的 DocVQA / 数据集条款。
- OCR-Bench / OCR-Bench v2 条款(如果你的 KIE 对齐依赖于它们)。
- 任何商业 OCR 供应商条款(如果适用于你的构建流程)。
本版本中的渲染的 MER 图像和损坏流程输出由作者为本工作生成;使用时仍需引用 DocHallu 及上游来源,如 ACL 论文所述。
人工评估说明
eval_bundle.jsonl中的每个标注者标签使用稳定的匿名 ID(annotator_<hash>)。此版本中未关联真实姓名。- 用于论文指标的权威聚合字段与
annotations/human_eval_hallucination_gt_aggregated.csv对齐(论文中每个任务有三名标注者;参见论文 §4.3)。 - 内部
human_eval/项目文件夹下的原始评估者 JSON 文件不要求与此捆绑包一起分发(如果你的 IRB 或政策限制);JSONL + CSV 足以满足大多数复现需求。
引用
请引用 ACL 2026 论文 Perceptual Hallucination in Vision–Language Models: Definition, Analysis and Verification。
搜集汇总
数据集介绍

构建方式
在文档视觉理解领域,DocHallu数据集的构建体现了严谨的学术设计。其核心方法在于系统性地采集并处理来自多个公开语料库的文档图像与文本数据,包括基于Wikipedia的数学表达式、WildReceipt的收据图像以及DocVQA风格的问题对。构建过程中,研究者为每份原始文档生成了对应的受损版本,通过预设的损坏流程模拟现实中的图像退化,从而形成配对样本。同时,数据集整合了任务提示、真实答案以及模型预测,并辅以经过严格聚合的人工幻觉标注,确保了数据对的完整性与评估的可靠性。
特点
DocHallu数据集展现出多维度、任务导向的显著特点。其覆盖了数学表达式识别、关键信息提取和文档视觉问答三大核心任务,共计2,671个样本,构成了一个中等规模但内容聚焦的基准测试集。每个样本均包含原始与受损的文档图像对、清晰的任务指令以及经过人工校验的真实答案,这种配对结构为研究视觉-语言模型在文档质量变化下的表现提供了独特视角。此外,数据集附带了详尽的模型输出与多人标注的幻觉判断,其标注信息经过匿名化与统计聚合处理,既保护了标注者隐私,又为量化分析提供了坚实的数据基础。
使用方法
对于研究者而言,DocHallu数据集的使用路径清晰且结构化。用户主要可通过`dataset.jsonl`文件获取基准测试所需的公开字段,包括样本ID、提示文本、真实答案及图像路径。若需进行深入分析与结果复现,则应参考`eval_bundle.jsonl`文件,其中包含了模型输出、人工评估的详细记录以及聚合后的真实标签。数据集目录按任务划分,便于针对特定任务(如KIE-Hallu、MER-Hallu)进行独立实验。在使用前,使用者务必核查并遵守其依赖的原始数据源(如WildReceipt、DocVQA)的许可条款,以确保研究的合规性。最终,该数据集旨在服务于文档视觉-语言模型幻觉现象的检测、分析与验证研究。
背景与挑战
背景概述
DocHallu数据集由研究团队于2026年构建,旨在系统探究视觉-语言模型在文档理解任务中的感知幻觉现象。该数据集聚焦于文档图像分析领域,核心研究问题在于量化并验证模型在处理受损或完整文档时产生的错误感知响应,即模型“看到”文本中并不存在的内容。通过整合来自公开语料库如Wikipedia、WildReceipt和DocVQA的文档资源,并引入人工标注的幻觉判断,DocHallu为评估模型在关键信息提取、文档视觉问答等任务上的鲁棒性提供了基准,推动了文档智能领域对模型可靠性的深入研究。
当前挑战
DocHallu数据集面临的挑战主要体现在两个方面:在领域问题层面,文档理解任务本身涉及复杂的版面分析、光学字符识别与语义推理的融合,模型极易因图像质量退化或上下文歧义而产生感知幻觉,即输出与视觉证据不符的文本内容,这严重影响了实际应用的可信度。在构建过程中,数据集需协调多种异构文档来源的许可协议,确保合规使用;同时,设计有效的图像损坏流程以模拟真实世界退化,并组织大规模人工标注以获取可靠的幻觉评估标准,这些环节均对数据集的严谨性与可复现性提出了较高要求。
常用场景
经典使用场景
在视觉语言模型研究领域,DocHallu数据集为评估文档理解任务中的幻觉现象提供了关键基准。该数据集通过构建原始与受损文档图像的配对样本,结合任务提示和人工标注的真实答案,支持对模型在关键信息提取、文档视觉问答等场景下的输出可靠性进行系统性分析。研究人员利用这一资源,能够深入探究模型在文档内容缺失或噪声干扰时产生错误或虚构信息的倾向,从而推动更稳健的文档理解技术的发展。
衍生相关工作
基于DocHallu数据集,学术界衍生了一系列经典研究工作,特别是在文档幻觉检测与缓解方面。例如,研究者利用该数据集的标注框架开发了新的评估指标,以量化模型幻觉程度;同时,一些工作聚焦于设计对抗性训练方法,减少模型在信息不完整时的错误生成。这些衍生成果不仅扩展了文档理解的研究边界,而且为视觉语言模型的可靠性优化提供了方法论借鉴,推动了该领域的持续创新。
数据集最近研究
最新研究方向
在文档智能领域,视觉-语言模型(VLMs)的幻觉问题正成为前沿研究焦点。DocHallu数据集通过构建原始与受损文档图像对,系统评估模型在关键信息提取(KIE)、医学实体识别(MER)及文档视觉问答(DVQA)任务中的感知幻觉现象。该数据集关联了当前多模态大模型在真实场景下的可靠性挑战,其设计灵感源于WildReceipt、DocVQA等公开语料,推动了文档理解任务中幻觉检测与缓解机制的发展。研究不仅量化了模型输出与人类标注的差异,还为构建更稳健的文档分析系统提供了基准,对提升医疗、金融等高风险领域的应用安全性具有深远意义。
以上内容由遇见数据集搜集并总结生成



