five

PDF Accessibility Benchmark Dataset

收藏
arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://github.com/Anukriti12/PDF-Accessibility-Benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个专门为评估PDF文件可访问性而设计的基准数据集,由专家验证的注释涵盖了七个标准,包括替代文本质量、逻辑阅读顺序、语义标记、表格结构、功能超链接、颜色对比和字体可读性。数据集采用W3C推荐的四个分类评估框架(通过、失败、不存在、无法判断)进行标注。该数据集旨在解决学术文献PDF文件在盲人和低视力用户中存在的大量可访问性问题,通过引入评估方法和基准,为可访问性评估提供系统性的评估框架,从而促进PDF文件可访问性的改进。

This is a benchmark dataset specifically designed for evaluating the accessibility of PDF documents. It features expert-validated annotations covering seven criteria: alternative text quality, logical reading order, semantic markup, table structure, functional hyperlinks, color contrast, and font readability. The dataset is annotated using four classification evaluation frameworks recommended by the World Wide Web Consortium (W3C): pass, fail, not present, and undetermined. This dataset aims to resolve the widespread accessibility issues of academic PDF documents for blind and low-vision users. By introducing evaluation methodologies and benchmarks, it provides a systematic assessment framework for accessibility evaluation, thus facilitating improvements in the accessibility of PDF documents.
提供机构:
华盛顿大学
创建时间:
2025-09-23
原始信息汇总

PDF Accessibility Benchmark Dataset 概述

数据集简介

PDF Accessibility Benchmark Dataset 是首个针对 PDF 可访问性评估的综合性基准数据集,包含专家验证的标注,涵盖多项标准。

数据集规模

  • 文档数量:125 份 PDF 文档
  • 标注标准:7 项关键可访问性标准

可访问性标准

标准 描述 WCAG 2.2 对齐 文档数量
替代文本质量 图像描述的质量和适当性 1.1.1 非文本内容 20 份文档
颜色对比度 文本和元素的足够对比度 1.4.3, 1.4.6 对比度 15 份文档
字体可读性 字体可访问性,包括大小和样式 1.4.4, 1.4.8, 1.4.12 15 份文档
功能超链接 链接可访问性和描述性 2.4.4, 2.4.9 链接目的 20 份文档
逻辑阅读顺序 文档结构和阅读顺序 1.3.1, 1.3.2 顺序 15 份文档
语义标记 适当的语义标记和结构 1.3.1 关系 20 份文档
表格结构 表格可访问性,包含标题和关系 1.3.1 关系 20 份文档

可访问性标签

  • 通过 (P):文档完全满足可访问性要求
  • 未通过 (F):文档存在明显的可访问性违规
  • 不存在 (NP):可访问性特征不适用
  • 无法判断 (CT):信息不足无法确定合规性

支持的大语言模型

  • GPT-4-Turbo
  • GPT-4o-Vision
  • Claude-3.5
  • Gemini-1.5
  • Llama-3.2

基准结果

大语言模型性能(平均准确率)

模型 总体 替代文本 颜色 字体 链接 阅读顺序 语义 表格
GPT-4-Turbo 0.85 0.70 0.93 1.00 0.80 0.67 0.85 1.00
GPT-4o-Vision 0.81 0.50 1.00 0.93 0.75 0.87 0.85 0.75
Claude-3.5 0.74 0.50 0.67 0.73 0.80 1.00 0.90 0.55
Gemini-1.5 0.75 0.50 0.60 1.00 0.85 0.93 0.80 0.55
Llama-3.2 0.42 0.40 0.53 0.47 0.50 0.27 0.35 0.45

自动化工具比较

工具 覆盖率 速度 准确率 误报率
Adobe Acrobat Pro 中等
PAC 2024 非常高 中等 中等
axesPDF 中等
CommonLook 非常高

文件类型及用途

文件类型 用途 示例
*.pdf 源 PDF 文档 W2460269320_0.pdf
*.html 用于分析的 HTML 转换 W2460269320_0.html
*.png 完整页面渲染 W2460269320_0.png
*.jpg 图表/表格提取 W2460269320_0#0.jpg
*.txt 文本内容和替代文本 W2460269320_0#0.txt
*.json 结构化元数据 W2904322054.json
*.zip 文档包 W2772922866.zip
structuredData.json 文档结构数据 各种文档

学术领域覆盖

  • 计算机科学
  • 医学
  • 生物学
  • 物理学
  • 化学
  • 工程学
  • 数学

许可证

本数据集根据 MIT 许可证发布。

联系方式

Anukriti Kumar - anukriti@uw.edu - 华盛顿大学

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统化构建流程创建,首先从20,000篇学术PDF中筛选出35篇代表性文献作为基础文档。针对七项WCAG与PDF/UA标准定义的无障碍准则(如替代文本质量、逻辑阅读顺序等),研究人员使用Adobe Acrobat Pro对每篇文档进行人工修改,生成符合四种评估标签(通过/未通过/不存在/无法判断)的变体。最终通过无障碍专家独立验证标签准确性,并整合文档图像、标签结构、屏幕阅读器转录等多模态输入,形成包含125个标注样本的基准数据集。
使用方法
该数据集主要用于评估自动化工具及大语言模型在PDF无障碍检测中的性能。研究者可针对特定准则输入文档的多模态数据(如图像、标签结构、颜色值等),通过比对模型输出与专家标注的四种标签计算准确率。评估时需注意页面级结果的聚合策略,若同一文档不同页面标签冲突则采用最保守分类。数据集支持零样本或微调实验设计,并可结合传统规则工具进行混合方法验证。对于“无法判断”类样本的分析有助于揭示模型在信息不完整场景下的认知边界,为开发分层评估管道提供依据。
背景与挑战
背景概述
PDF无障碍基准数据集由华盛顿大学研究团队于2025年创建,旨在解决学术文献PDF文档对视障用户造成的系统性访问障碍。该数据集基于WCAG 2.2和PDF/UA标准,构建了涵盖替代文本质量、逻辑阅读顺序、语义标记等七个核心指标的专家验证标注体系,并引入四分类评估框架(通过/未通过/不存在/无法判断)。作为首个专门针对PDF无障碍评估的公开基准,该数据集填补了数字文档可访问性研究领域的标准化评估空白,为自动化检测工具和大语言模型的性能比较提供了科学依据。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需要解决PDF文档结构性标签缺失、视觉布局与程序阅读顺序错位、复杂图表语义描述不充分等传统自动化工具难以检测的语义级无障碍问题;在构建过程中,需通过人工修改Adobe Acrobat Pro标签树实现精准的文档变异控制,同时建立跨学科文献的采样策略与专家验证机制,确保125个文档变体在七项准则下的标注一致性。此外,数据提取需整合PyMuPDF视觉渲染、PDFix SDK标签解析和VoiceOver屏幕阅读器转录等多源技术,处理文档结构复杂性与评估边界案例的平衡成为关键难点。
常用场景
经典使用场景
在学术文档可访问性研究领域,PDF无障碍基准数据集为评估自动化检测工具与大语言模型的性能提供了标准化测试平台。该数据集通过专家验证的七项核心可访问性标注(包括替代文本质量、逻辑阅读顺序、语义标记等),构建了涵盖通过、未通过、不存在和无法判断的四级评估框架。研究者可利用该数据集系统比较不同方法在识别PDF文档结构性障碍与语义缺陷方面的效能,尤其适用于验证新兴AI技术在复杂文档场景下的评估鲁棒性。
解决学术问题
该数据集有效解决了PDF可访问性评估领域长期缺乏标准化基准的学术空白。通过将WCAG 2.2与PDF/UA标准转化为可量化的评估指标,它使研究者能够系统分析自动化工具在语义理解、上下文关联等深层可访问性维度的局限性。其四分类标签体系突破了传统二元评估的局限,为研究模型在信息缺失场景下的元认知能力提供了实验基础,推动了可访问性评估从技术合规性验证向用户体验保障的范式转变。
实际应用
在实际应用层面,该数据集为出版机构、教育平台和政府部门的文档无障碍合规检测提供了技术支撑。出版商可依据基准测试结果优化文档生成流程,确保学术论文满足视障用户的屏幕阅读需求;数字图书馆能借助数据集训练的评估模型批量扫描馆藏PDF,优先修复高影响力文献的可访问性缺陷。此外,法律合规部门可参考数据集的评估框架制定行业标准,推动《欧洲无障碍法案》等法规在数字文档领域的具体落地。
数据集最近研究
最新研究方向
在数字文档无障碍领域,PDF Accessibility Benchmark Dataset的推出标志着学术出版可访问性评估迈入标准化新阶段。该数据集聚焦于学术PDF文档的七大无障碍标准,涵盖替代文本质量、逻辑阅读顺序等核心维度,并引入四分类评估框架,为自动化检测工具与大语言模型的性能比对提供了基准依据。当前前沿研究主要探索大语言模型在语义层面的评估潜力,特别是GPT-4-Turbo在复杂语境判断中展现的85%综合准确率,揭示了其与传统规则工具在技术验证与语义理解间的互补性。随着欧盟《无障碍法案》等法规的推进,该数据集正推动混合评估范式的形成,通过结合自动化检查、大语言模型推理与人工验证的三层架构,有望系统性解决PDF文档在结构合规性与用户体验间的长期矛盾。
相关研究论文
  • 1
    Benchmarking PDF Accessibility Evaluation A Dataset and Framework for Assessing Automated and LLM-Based Approaches for Accessibility Testing华盛顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作