未提及具体数据集名称

Name: 未提及具体数据集名称
Creator: 浙江大学
Published: 2025-11-05 21:50:19
License: 暂无描述

arXiv2025-11-05 更新2025-11-07 收录

下载链接：

https://github.com/eaglelab-zju/AAA

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一种名为AAA的框架，旨在通过人机协作模型实现可扩展的网站无障碍性审计。AAA框架包含两个关键创新：GRASP，一种基于图的跨模态采样方法，通过学习视觉、文本和关系提示的嵌入来确保页面覆盖的代表性；MaC，一种基于多模态大型语言模型的副驾驶，通过跨模态推理和智能辅助支持审计员在高强度任务中的工作。为了支持未来的研究，我们还发布了四个针对WAA管道不同阶段量身定制的新数据集。

This paper proposes a framework named AAA, which aims to enable scalable website accessibility auditing via human-AI collaborative models. The AAA framework encompasses two core innovations: GRASP, a graph-based cross-modal sampling method that learns embeddings of visual, textual, and relational prompts to ensure representative coverage of web pages; and MaC, a copilot based on multimodal large language models, which supports auditors in high-intensity tasks through cross-modal reasoning and intelligent assistance. To support future research, we also release four novel datasets tailored for different stages of the WAA pipeline.

提供机构：

浙江大学

创建时间：

2025-11-05

原始信息汇总

AAA数据集概述

数据集基本信息

数据集名称：AWA Web Accessibility Benchmark
发布来源：AAAI 2026 Special Track AI for Social Impact论文《Towards Scalable Web Accessibility Audit with MLLMs as Copilots》
存储位置：https://doi.org/10.5281/zenodo.17548393

数据集组成

AWA网络可访问性基准包含四个子数据集：

APR

全称：Accessibility-relevant Page Recognition
用途：可访问性相关页面识别

CCT

全称：CAPTCHA of Cognitive Tests
用途：认知测试验证码

TPS

全称：Triple-representativeness Page Sampling
用途：三重代表性页面采样
重要性：GRASP方法唯一使用的数据集

CPE

全称：Complete Process Extraction
用途：完整流程提取

使用方法

数据准备

至少需要下载TPS数据集
放置在项目同级目录的data/TPS文件夹中

实验配置

对于APR、CCT和CPE实验，需参考论文附录中的提示词
使用任意MLLMs运行实验

引用信息

bibtex @inproceedings{aaa, title={Towards Scalable Web Accessibility Audit with {MLLMs} as Copilots}, author={Ming Gu and Ziwei Wang and Sicen Lai and Zirui Gao and Sheng Zhou and Jiajun Bu}, journal = {Proceedings of the AAAI Conference on Artificial Intelligence}, year={2026}, url={https://arxiv.org/abs/2511.03471}, }

搜集汇总

数据集介绍

构建方式

在构建该数据集时，研究团队采用了系统化的自动化网站爬取方法，覆盖了495个公开可访问的网站，总计97,246个网页。每个网页均包含DOM结构、屏幕截图、基于Axe-core工具的131项自动化检查结果以及表示网站超链接结构的邻接矩阵。通过整合视觉、文本和关系信息，利用BERT、ViT和GNN等深度学习模型进行多模态表示学习，确保数据在语义、布局和链接关系上的代表性，从而支持可扩展的Web可访问性审计研究。

特点

该数据集的特点在于其全面的多模态覆盖和精细的标注体系。它不仅提供了网页的文本内容和视觉布局信息，还包含了超链接图结构，这在现有数据集中较为罕见。数据集涵盖了117个不同的网站类别，确保了功能性和主题的多样性。此外，针对可访问性审计的关键任务，如页面采样、认知CAPTCHA识别和完整流程提取，数据集提供了专门的人工标注，包括四类结构化样本标签和五类关键组件标记，为评估多模态大语言模型在可访问性任务中的表现提供了坚实基础。

使用方法

该数据集主要用于基准测试多模态大语言模型在Web可访问性审计核心阶段的能力。研究人员可通过提供的DOM、截图和检查结果，评估模型在代表性页面采样、可访问性相关页面识别、认知CAPTCHA分类和完整流程提取等任务中的性能。数据集支持少样本微调和直接推理，用户可根据任务需求选择适当的模型规模。通过分析模型在文本、视觉和关系模态上的表现，可以推动可访问性审计的自动化与智能化发展，并为实际应用中的模型选择和集成提供依据。

背景与挑战

背景概述

随着数字包容性成为全球关注的核心议题，网页可访问性评估的重要性日益凸显。该数据集由浙江大学无障碍感知与智能系统浙江省重点实验室的研究团队于2025年提出，旨在解决现有网页可访问性审计方法在规模化实施中存在的资源密集型瓶颈。通过构建包含多模态页面采样、认知测试验证等四大子集的数据体系，该研究首次实现了对WCAG-EM标准全流程的标准化基准测试，为人工智能辅助的可访问性审计提供了关键基础设施。

当前挑战

当前面临的核心挑战包括多模态页面采样的语义完整性难题，传统基于文本统计的方法难以捕捉视觉布局与超链接关系的深层语义；认知可访问性评估的复杂性，特别是针对WCAG 2.2标准中认证机制等认知障碍的检测；以及全流程评估数据集的稀缺性，现有基准大多局限于单环节验证，缺乏对多模态大语言模型在完整审计生命周期中性能的系统评估框架。

常用场景

经典使用场景

在数字包容性研究领域，该数据集作为评估多模态大语言模型在网页可访问性审计中应用效果的核心基准。其典型使用场景聚焦于自动化采样与人工审计的协同工作流，通过整合视觉截图、DOM结构及链接图谱等多模态数据，系统验证GRASP算法在代表性页面选择方面的效能，并为MaC策略中智能辅助决策提供标准化测试环境。

衍生相关工作

基于该数据集的多模态表征学习方法，催生了面向异质图结构的改进聚类算法IGNN，突破了传统DOM文本分析的局限性。在认知可访问性方向，其构建的CAPTCHA分类体系启发了后续关于动态验证机制无障碍设计的系列研究，同时为多模态大模型在网页元素定位、流程完整性校验等细分任务中的能力评估建立了标准范式。

数据集最近研究