Doc-PP (Document Policy Preservation Benchmark)

Name: Doc-PP (Document Policy Preservation Benchmark)
Creator: 中央大学
Published: 2026-01-07 21:45:39
License: 暂无描述

arXiv2026-01-07 更新2026-01-09 收录

下载链接：

https://github.com/hwanchang00/doc-pp

下载链接

链接失效反馈

官方服务：

资源简介：

Doc-PP是由韩国中央大学团队构建的多模态文档政策保护基准数据集，旨在评估大型视觉语言模型在复杂跨模态推理场景下对用户定义的非披露政策的遵守能力。该数据集包含635条从真实世界PDF文档（如财务报告、行业报告）中提取的样本，每条样本均包含文本和视觉元素，并配有明确的保密政策及需跨模态推理的查询。数据通过三阶段流程构建：首先生成候选保密目标并过滤，随后创建目标对齐的文档片段，最后设计显式和隐式查询以测试政策合规性。该数据集主要应用于文档级问答系统的安全性和合规性研究，解决动态政策约束下的敏感信息泄露问题。

Doc-PP is a multimodal document policy protection benchmark dataset constructed by a team from Chung-Ang University, South Korea, aiming to evaluate the compliance of large vision-language models with user-defined non-disclosure policies in complex cross-modal reasoning scenarios. This dataset contains 635 samples extracted from real-world PDF documents such as financial reports and industry reports. Each sample includes both textual and visual elements, paired with explicit confidentiality policies and queries requiring cross-modal reasoning. The dataset is built via a three-stage workflow: first, generate and filter candidate confidentiality targets; second, create target-aligned document fragments; finally, design both explicit and implicit queries to test policy compliance. This dataset is primarily applied to safety and compliance research of document-level question answering systems, addressing the issue of sensitive information leakage under dynamic policy constraints.

提供机构：

中央大学

创建时间：

2026-01-07

原始信息汇总

Doc-PP: Document Policy Preservation Benchmark 数据集概述

数据集简介

Doc-PP 是一个用于评估大型视觉语言模型（LVLMs）在处理多模态文档时，能否遵守用户定义的保密策略的基准。该基准揭示了一个“推理引发的安全漏洞”：当需要复杂推理或跨模态合成时，模型经常泄露敏感信息。为应对此问题，研究提出了 DVA（分解-验证-聚合）结构推理框架，该框架将推理与策略验证解耦，其性能显著优于标准提示防御方法。

数据内容与结构

数据集包含基准JSON文件和对应的PDF文档。

主要数据文件：02_final_faithfulness_checklists.json（基准JSON文件）。
文档文件：位于 docs_clip/ 目录下的多个 *.pdf 文件。
数据获取：原始数据以分卷压缩文件形式提供（data.zip, data.z01 ~ data.z06），需按说明合并并解压。

数据来源

本基准中使用的文档基于以下公开数据集：

MMLongBench-Doc (https://proceedings.neurips.cc/paper_files/paper/2024/hash/ae0e43289bffea0c1fa34633fc608e92-Abstract-Datasets_and_Benchmarks_Track.html)
SustainableQA (https://arxiv.org/abs/2508.03000)

使用与评估

数据集用于模型评估、评分及缓解策略测试。

模型评估：生成模型对文档问题的回答。
评分：使用LLM作为评判者对评估结果进行打分。
缓解策略：运行包括DVA在内的多种防御策略进行测试。

相关资源

研究论文：https://arxiv.org/abs/2601.03926
代码与数据仓库：https://github.com/hwanchang00/doc-pp

搜集汇总

数据集介绍

构建方式

在文档智能与多模态安全交叉领域，Doc-PP基准的构建遵循严谨的三阶段流程。其源数据精选自公开的长篇PDF文档，涵盖商业、金融及行业报告等实际场景。构建过程首先利用先进大语言模型生成潜在的保密目标，并辅以人工验证确保证据与原文精确对应；随后通过目标对齐裁剪与值提取，为每个目标创建紧凑的文档片段；最终，基于精心设计的检查清单进行严格过滤，确保生成的保密政策具备高质量与可评估性，从而形成包含显性与隐性查询的多样化评估实例。

特点

Doc-PP基准的核心特点在于其紧密贴合现实需求的评估场景设计。它不仅要求模型理解多模态文档中分散于文本、图表、图像间的异构信息，更引入了动态、用户自定义的非披露政策作为硬性约束。数据集显著揭示了“推理诱导的安全鸿沟”现象，即模型在需要进行跨模态综合推理或信息聚合时，泄露敏感信息的风险急剧升高。此外，数据分布呈现多样性，约39%的查询涉及非文本视觉元素推理，且包含需要跨页面或多源证据合成的复杂案例，全面挑战模型在政策遵从与回答忠实度间的平衡能力。

使用方法

该数据集主要用于评估大型视觉-语言模型在带有保密政策的文档问答任务中的表现。评估框架围绕“泄露”与“忠实度”两个核心维度展开。对于显性查询，重点检测模型输出是否包含受保护的具体数值或信息；对于隐性查询，则需同时评估模型在避免泄露的同时，基于文档证据生成实质性回答的能力。评估采用基于检查清单的自动化流程，利用大语言模型作为评判者，对输出内容进行结构化判断。研究者可通过对比不同模型或干预策略（如提出的DVA框架）在各项指标上的表现，系统性分析模型在政策遵从方面的脆弱性与改进潜力。

背景与挑战

背景概述

随着大规模视觉语言模型在复杂多模态文档问答任务中的广泛应用，其实践部署常受限于动态且用户自定义的信息披露策略。现有安全研究多聚焦于隐性的社会规范或纯文本环境，忽视了多模态文档中信息约束的复杂性。为此，韩国中央大学的研究团队于2026年提出了Doc-PP基准，旨在评估模型在严格非披露政策下对跨视觉与文本异构元素进行推理时的策略遵循能力。该数据集源自真实世界报告，涵盖金融、行业等多种文档类型，其核心研究问题是探究模型在需要复杂合成或跨模态聚合推理时，如何系统性地产生安全漏洞，即‘推理诱导的安全鸿沟’。Doc-PP的建立为政策合规的文档理解研究提供了关键的评估基础，推动了多模态环境下用户定义约束的安全性研究。

当前挑战

Doc-PP基准所应对的核心领域挑战在于确保大规模视觉语言模型在文档问答中能严格遵循动态的用户定义非披露策略，尤其是在需要跨视觉与文本模态进行复杂推理的场景下。具体构建挑战包括：首先，从真实长文档中自动化生成高质量、需深度推理的保密目标与证据对，并确保其与文档的精确对齐及唯一可识别性；其次，设计既能自然引发敏感信息泄露、又保持回答忠实性的隐式查询，这需要平衡问题的复杂性与评估的可操作性。此外，数据集中约39%的查询涉及非文本视觉元素，且部分需要跨多页或多源证据合成，这增加了标注与验证的复杂性。评估框架还需可靠地度量信息泄漏与回答忠实性，并克服OCR输入在提升感知清晰度时反而加剧信息泄露的悖论。

常用场景

经典使用场景

在文档智能领域，Doc-PP基准测试主要用于评估大型视觉-语言模型在复杂多模态文档问答任务中，对用户定义的非披露策略的遵守能力。该数据集通过构建包含财务报告、行业分析等真实文档的测试实例，要求模型在整合文本、图表、表格等异构信息的同时，严格遵循动态保密策略。其经典使用场景体现在对模型跨模态推理安全性的系统性测评，特别是在需要从分散的视觉与文本证据中合成答案时，检验模型是否会在推理过程中无意泄露受保护信息。

实际应用

在实际应用层面，Doc-PP基准测试直接服务于需要高保密性的行业文档处理场景。例如，在金融、法律和企业管理领域，系统在处理包含敏感数据的季度财报、内部审计报告或战略规划文件时，必须能够根据不同的受众和场景，动态地选择性披露信息。该数据集为开发能够理解复杂文档布局、同时精确执行用户自定义红线策略的智能问答系统提供了关键的评估工具，有助于在实际部署前发现并修复模型在信息合成过程中可能引发的合规风险。

衍生相关工作

Doc-PP基准测试的提出，建立并扩展了多个相关研究脉络。它直接继承了文本领域CoPriva等工作中对用户定义策略保持的研究，并将其复杂化至多模态文档场景。同时，它与关注隐式社会规范与上下文隐私的研究（如ConfAIde、PrivacyLens）形成互补。该数据集所揭示的独特漏洞催生了新的缓解框架，例如其作者提出的DVA（分解-验证-聚合）结构推理方法，该方法通过将推理步骤与策略验证解耦，为后续研究如何构建更安全的跨模态文档理解系统设立了坚实的基线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集