PDF Accessibility Benchmark Dataset

Name: PDF Accessibility Benchmark Dataset
Creator: 华盛顿大学
Published: 2025-09-23 21:17:13
License: 暂无描述

arXiv2025-09-23 更新2025-09-25 收录

下载链接：

https://github.com/Anukriti12/PDF-Accessibility-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专门为评估PDF文件可访问性而设计的基准数据集，由专家验证的注释涵盖了七个标准，包括替代文本质量、逻辑阅读顺序、语义标记、表格结构、功能超链接、颜色对比和字体可读性。数据集采用W3C推荐的四个分类评估框架（通过、失败、不存在、无法判断）进行标注。该数据集旨在解决学术文献PDF文件在盲人和低视力用户中存在的大量可访问性问题，通过引入评估方法和基准，为可访问性评估提供系统性的评估框架，从而促进PDF文件可访问性的改进。

This is a benchmark dataset specifically designed for evaluating the accessibility of PDF documents. It features expert-validated annotations covering seven criteria: alternative text quality, logical reading order, semantic markup, table structure, functional hyperlinks, color contrast, and font readability. The dataset is annotated using four classification evaluation frameworks recommended by the World Wide Web Consortium (W3C): pass, fail, not present, and undetermined. This dataset aims to resolve the widespread accessibility issues of academic PDF documents for blind and low-vision users. By introducing evaluation methodologies and benchmarks, it provides a systematic assessment framework for accessibility evaluation, thus facilitating improvements in the accessibility of PDF documents.

提供机构：

华盛顿大学

创建时间：

2025-09-23

原始信息汇总

PDF Accessibility Benchmark Dataset 概述

数据集简介

PDF Accessibility Benchmark Dataset 是首个针对 PDF 可访问性评估的综合性基准数据集，包含专家验证的标注，涵盖多项标准。

数据集规模

文档数量：125 份 PDF 文档
标注标准：7 项关键可访问性标准

可访问性标准

标准	描述	WCAG 2.2 对齐	文档数量
替代文本质量	图像描述的质量和适当性	1.1.1 非文本内容	20 份文档
颜色对比度	文本和元素的足够对比度	1.4.3, 1.4.6 对比度	15 份文档
字体可读性	字体可访问性，包括大小和样式	1.4.4, 1.4.8, 1.4.12	15 份文档
功能超链接	链接可访问性和描述性	2.4.4, 2.4.9 链接目的	20 份文档
逻辑阅读顺序	文档结构和阅读顺序	1.3.1, 1.3.2 顺序	15 份文档
语义标记	适当的语义标记和结构	1.3.1 关系	20 份文档
表格结构	表格可访问性，包含标题和关系	1.3.1 关系	20 份文档

可访问性标签

通过 (P)：文档完全满足可访问性要求
未通过 (F)：文档存在明显的可访问性违规
不存在 (NP)：可访问性特征不适用
无法判断 (CT)：信息不足无法确定合规性

支持的大语言模型

GPT-4-Turbo
GPT-4o-Vision
Claude-3.5
Gemini-1.5
Llama-3.2

基准结果

大语言模型性能（平均准确率）

模型	总体	替代文本	颜色	字体	链接	阅读顺序	语义	表格
GPT-4-Turbo	0.85	0.70	0.93	1.00	0.80	0.67	0.85	1.00
GPT-4o-Vision	0.81	0.50	1.00	0.93	0.75	0.87	0.85	0.75
Claude-3.5	0.74	0.50	0.67	0.73	0.80	1.00	0.90	0.55
Gemini-1.5	0.75	0.50	0.60	1.00	0.85	0.93	0.80	0.55
Llama-3.2	0.42	0.40	0.53	0.47	0.50	0.27	0.35	0.45

自动化工具比较

工具	覆盖率	速度	准确率	误报率
Adobe Acrobat Pro	高	快	中等	低
PAC 2024	非常高	中等	高	中等
axesPDF	高	快	中等	高
CommonLook	非常高	慢	高	低

文件类型及用途

文件类型	用途	示例
`*.pdf`	源 PDF 文档	`W2460269320_0.pdf`
`*.html`	用于分析的 HTML 转换	`W2460269320_0.html`
`*.png`	完整页面渲染	`W2460269320_0.png`
`*.jpg`	图表/表格提取	`W2460269320_0#0.jpg`
`*.txt`	文本内容和替代文本	`W2460269320_0#0.txt`
`*.json`	结构化元数据	`W2904322054.json`
`*.zip`	文档包	`W2772922866.zip`
`structuredData.json`	文档结构数据	各种文档

学术领域覆盖

计算机科学
医学
生物学
物理学
化学
工程学
数学

许可证

本数据集根据 MIT 许可证发布。

联系方式

Anukriti Kumar - anukriti@uw.edu - 华盛顿大学

搜集汇总

数据集介绍

构建方式

该数据集通过系统化构建流程创建，首先从20,000篇学术PDF中筛选出35篇代表性文献作为基础文档。针对七项WCAG与PDF/UA标准定义的无障碍准则（如替代文本质量、逻辑阅读顺序等），研究人员使用Adobe Acrobat Pro对每篇文档进行人工修改，生成符合四种评估标签（通过/未通过/不存在/无法判断）的变体。最终通过无障碍专家独立验证标签准确性，并整合文档图像、标签结构、屏幕阅读器转录等多模态输入，形成包含125个标注样本的基准数据集。

使用方法

该数据集主要用于评估自动化工具及大语言模型在PDF无障碍检测中的性能。研究者可针对特定准则输入文档的多模态数据（如图像、标签结构、颜色值等），通过比对模型输出与专家标注的四种标签计算准确率。评估时需注意页面级结果的聚合策略，若同一文档不同页面标签冲突则采用最保守分类。数据集支持零样本或微调实验设计，并可结合传统规则工具进行混合方法验证。对于“无法判断”类样本的分析有助于揭示模型在信息不完整场景下的认知边界，为开发分层评估管道提供依据。

背景与挑战

背景概述

PDF无障碍基准数据集由华盛顿大学研究团队于2025年创建，旨在解决学术文献PDF文档对视障用户造成的系统性访问障碍。该数据集基于WCAG 2.2和PDF/UA标准，构建了涵盖替代文本质量、逻辑阅读顺序、语义标记等七个核心指标的专家验证标注体系，并引入四分类评估框架（通过/未通过/不存在/无法判断）。作为首个专门针对PDF无障碍评估的公开基准，该数据集填补了数字文档可访问性研究领域的标准化评估空白，为自动化检测工具和大语言模型的性能比较提供了科学依据。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需要解决PDF文档结构性标签缺失、视觉布局与程序阅读顺序错位、复杂图表语义描述不充分等传统自动化工具难以检测的语义级无障碍问题；在构建过程中，需通过人工修改Adobe Acrobat Pro标签树实现精准的文档变异控制，同时建立跨学科文献的采样策略与专家验证机制，确保125个文档变体在七项准则下的标注一致性。此外，数据提取需整合PyMuPDF视觉渲染、PDFix SDK标签解析和VoiceOver屏幕阅读器转录等多源技术，处理文档结构复杂性与评估边界案例的平衡成为关键难点。

常用场景

经典使用场景

在学术文档可访问性研究领域，PDF无障碍基准数据集为评估自动化检测工具与大语言模型的性能提供了标准化测试平台。该数据集通过专家验证的七项核心可访问性标注（包括替代文本质量、逻辑阅读顺序、语义标记等），构建了涵盖通过、未通过、不存在和无法判断的四级评估框架。研究者可利用该数据集系统比较不同方法在识别PDF文档结构性障碍与语义缺陷方面的效能，尤其适用于验证新兴AI技术在复杂文档场景下的评估鲁棒性。

解决学术问题

该数据集有效解决了PDF可访问性评估领域长期缺乏标准化基准的学术空白。通过将WCAG 2.2与PDF/UA标准转化为可量化的评估指标，它使研究者能够系统分析自动化工具在语义理解、上下文关联等深层可访问性维度的局限性。其四分类标签体系突破了传统二元评估的局限，为研究模型在信息缺失场景下的元认知能力提供了实验基础，推动了可访问性评估从技术合规性验证向用户体验保障的范式转变。

实际应用

在实际应用层面，该数据集为出版机构、教育平台和政府部门的文档无障碍合规检测提供了技术支撑。出版商可依据基准测试结果优化文档生成流程，确保学术论文满足视障用户的屏幕阅读需求；数字图书馆能借助数据集训练的评估模型批量扫描馆藏PDF，优先修复高影响力文献的可访问性缺陷。此外，法律合规部门可参考数据集的评估框架制定行业标准，推动《欧洲无障碍法案》等法规在数字文档领域的具体落地。

数据集最近研究