Dean2Wang/Adversarial-PDF-Parsing-Taxonomy-8Ops

Name: Dean2Wang/Adversarial-PDF-Parsing-Taxonomy-8Ops
Creator: Dean2Wang
Published: 2026-04-25 12:57:04
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Dean2Wang/Adversarial-PDF-Parsing-Taxonomy-8Ops

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模对抗性基准，包含超过4000个精心制作的PDF样本，旨在量化检索增强生成（RAG）摄取管道中的系统性安全风险。它专注于解析差异——一种关键漏洞，即机器解析器提取对人类视觉感知隐藏的恶意指令。数据集包含8种不同的攻击操作符、多样化的基线语料库（包括学术论文、简历、研究/商业报告和技术文档各1000个样本）以及双模态设计（包括“数字原生”PDF和“扫描/基于图像”PDF）。该基准旨在供研究人员和开发人员评估各种文档加载器（如LangChain、LlamaIndex、Docling）并识别商业LLM文档摄取生态系统中的安全盲点。

This dataset is a large-scale adversarial benchmark consisting of over 4,000 carefully crafted PDF samples designed to quantify the systemic security risks in Retrieval-Augmented Generation (RAG) ingestion pipelines. It focuses on parsing discrepancy—a critical vulnerability where machine parsers extract malicious instructions that are hidden from human visual perception. The dataset includes 8 distinct attack operators, a diverse baseline corpus (1,000 samples each across academic papers, resumes, research/business reports, and technical documents), and a dual-modality design (featuring both Digital Native PDFs and Scanned/Image-based PDFs). This benchmark is intended for researchers and developers to evaluate various document loaders (e.g., LangChain, LlamaIndex, Docling) and identify security blind spots in commercial LLM document ingestion ecosystems.

提供机构：

Dean2Wang

搜集汇总

数据集介绍

构建方式

该数据集名为Adversarial-PDF-Parsing-Taxonomy-8Ops，是一个大规模对抗性基准，由超过4000个精心设计的PDF样本构成，旨在量化检索增强生成（RAG）流水线中的系统性安全风险。构建过程聚焦于解析差异这一关键漏洞，即机器解析器提取出人类视觉感知中隐藏的恶意指令。数据集系统性地实现了8种视觉-解析差异攻击操作：包括白字（不可见颜色操控）、零尺寸字体（文本矩阵缩放攻击）、文本渲染模式（抑制字形绘制但保留数据）、双层PDF（利用图形状态进行视觉遮挡）、越界坐标（将文本定位矩阵操控至MediaBox之外）、隐藏OCG（利用可选内容组）、零宽度字符注入（Unicode混淆）以及错序序列（解耦逻辑流顺序与视觉阅读顺序）。这些操作覆盖了从颜色、字体、渲染到布局的多种对抗攻击手法，确保了对解析器脆弱性的全面评估。

特点

该数据集的特点在于其系统性和多样性。它基于1000个样本的基线语料库，覆盖学术论文、简历、研究/商业报告及技术文档四类文档，增强了评估的普适性。此外，数据集采用双模态设计，包含“数字原生”PDF和“扫描/图像型”PDF两种形式，分别用于基准测试基于流式解析和OCR解析的路径。这种设计不仅暴露了不同解析引擎在应对视觉隐藏攻击时的安全盲点，还揭示了人类与机器在信息提取中的差异，为深入理解RAG流水线的脆弱性提供了独特视角。

使用方法

该数据集主要面向研究人员和开发者，用于评估多种文档加载器的安全性，例如LangChain、LlamaIndex和Docling等工具。使用方法上，用户可将数据集中的对抗样本导入RAG流水线，通过分析解析器对隐藏指令的提取结果，识别商业大语言模型文档摄入生态中的安全盲区。具体操作包括对比不同解析器在应对8种攻击操作时的表现，从而量化其脆弱性等级。该基准还支持对“数字原生”与“扫描型”PDF的分类测试，以区分流式与OCR解析路线的安全差异，为改进解析器设计提供实证依据。

背景与挑战

背景概述

Adversarial-PDF-Parsing-Taxonomy-8Ops数据集由研究机构于近期创建，旨在系统性揭示检索增强生成（RAG）流水线中因PDF解析差异引发的安全隐患。该数据集聚焦于机器解析器与人类视觉感知之间的隐秘差异——一种被称为“解析差异”的关键脆弱性，它使得恶意指令在文档中隐而不显，却能通过解析器被提取执行。数据集包含超过4000个精心构造的PDF样本，覆盖8种攻击算子，涵盖文本颜色、字体缩放、渲染模式、图形遮挡、坐标篡改、可选内容组、零宽字符注入及序列错位等维度，并基于学术论文、简历、研究/商业报告及技术文档等多样化语料库构建，为评估和加固RAG系统的文档解析安全性提供了标准化基准，对保障大语言模型应用的信息安全具有重要价值。

当前挑战

该数据集所解决的领域核心挑战在于RAG系统中因解析差异导致的视觉隐藏攻击，这类攻击能绕过人类审查而向语言模型注入恶意指令，却难以被传统安全机制检测。具体而言，数据集需应对的问题包括：1）多种PDF解析器（如LangChain、LlamaIndex、Docling）对异常文档结构的脆弱性，现有工具往往无法识别经混淆的文本定位、隐藏内容或字体操控；2）扫描型PDF与数字原生PDF在OCR和流式解析路径上的双重验证难题，使得同一攻击方式在不同文档类型中效果迥异。在数据集构建过程中，挑战体现为：1）手动设计与验证8种攻击算子的有效性，确保每个样本在视觉上与正常文档无异但解析时触发预设攻击；2）平衡覆盖度与真实度，在控制样本多样性（涵盖四种文档类型）的同时保持语义合理性，避免因过度攻击而导致样本失真。

常用场景

经典使用场景

在检索增强生成（RAG）系统的安全评估领域，Adversarial-PDF-Parsing-Taxonomy-8Ops数据集扮演着至关重要的角色。该数据集专为考察文档加载器在解析PDF时对隐藏恶意指令的脆弱性而设计，其核心应用场景是量化RAG管线在对抗性攻击下的安全风险。研究者利用这4000余个精心构造的PDF样本，系统性地评估LangChain、LlamaIndex等主流框架中解析器对视觉与文本解析偏差的抵抗能力，从而揭示出机器解析器在面临白字文字、零尺寸字体、零宽字符注入等八类攻击算子时的固有安全盲区。这一经典用法为构建更鲁棒的文档处理管道提供了严格的测试基准。

衍生相关工作

该数据集催生了一系列富有启发性的后续研究，其中最具代表性的是围绕视觉-解析偏差的防御机制探索。受其攻击算子分类启发，研究者提出了多模态一致性校验方法，通过融合视觉渲染结果与解析文本流的交叉验证来检测隐藏指令。另有一线工作致力于构建自适应解析器，利用该数据集的对抗样本来训练能够识别零尺寸字体、多层结构等异常的检测模型。此外，该数据集还推动了跨模态安全基准的建立，衍生出针对图片型PDF与混合格式文档的扩展攻击范式，并开始影响国际标准组织对PDF文档安全规范的修订讨论。

数据集最近研究