NeuroVista: Cognitive-Specific Web Accessibility Dataset

github2026-04-02 更新2026-04-08 收录

下载链接：

https://github.com/SiluniKannagara/neurovista-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于认知特定网页可访问性评估的数据集，重点关注神经多样性用户的需求。数据集包含1,231个经过清理的网页（原始为1,288个），标注了三种认知配置文件的可访问性：阅读和文本处理挑战（阅读障碍）、注意力和专注相关挑战（ADHD）以及一般可访问性基线（神经典型）。

A dataset designed for cognitive-specific web accessibility evaluations, with a core focus on the needs of neurodiverse users. The dataset includes 1,231 cleaned web pages (originally 1,288 in total), annotated with accessibility metrics corresponding to three cognitive profiles: reading and text processing challenges (dyslexia), attention and focus-related challenges (ADHD), and a general accessibility baseline for neurotypical individuals.

创建时间：

2026-04-02

原始信息汇总

NeuroVista: Cognitive-Specific Web Accessibility Dataset

数据集概述

这是一个用于认知特异性网络无障碍评估的数据集，专注于神经多样性用户的需求。该数据集包含1,231个已清洗的网页（原始为1,288个），并针对三种认知特征进行了无障碍标注。

核心信息

DOI: https://doi.org/10.5281/zenodo.19389131
数据集规模: 清洗后共1,231个页面，原始为1,288个页面。
认知特征: 阅读障碍、注意力缺陷多动障碍、神经典型性。
特征数量: 每个页面约30个特征。
标注类型: 每个认知特征下分为低、中、高三个难度等级。

标注分布

认知特征	低	中	高
阅读障碍	398 (31%)	427 (33%)	463 (36%)
注意力缺陷多动障碍	628 (49%)	581 (45%)	79 (6%)
神经典型性	255 (20%)	578 (45%)	455 (35%)

特征描述

数据集包含约30个工程化特征，涵盖以下方面：

排版
颜色与对比度
布局结构
交互模式
内容特征
可读性指标完整定义见 data/feature_descriptions.json。

文件格式

格式: CSV
结构:
- 行：1,231个页面
- 列：页面ID + 特征 + 分数 + 标签
示例列: page_id, dyslexia_score, adhd_score, neurotypical_score, dyslexia, adhd, neurotypical

应用场景

训练用于预测认知无障碍性的机器学习模型。
研究神经多样性用户体验中的模式。
开发自适应或个性化的网络界面。
评估超越标准WCAG合规性的无障碍性。

构建方法

收集: 从220个不同领域的种子URL开始，使用Puppeteer进行自动化爬取，并通过自定义流程提取特征。
标注: 使用基于规则的评分进行弱监督，源自无障碍指南，并映射到分类难度等级。
清洗: 包括重复项删除、无效页面过滤和异常值处理。

引用信息

bibtex @dataset{neurovista2026, author = {Kannangara, Siluni}, title = {NeuroVista: Cognitive-Specific Web Accessibility Dataset}, year = {2026}, publisher = {Zenodo}, doi = {10.5281/zenodo.19389131}, url = {https://doi.org/10.5281/zenodo.19389131} }

许可与联系

许可证: 知识共享署名4.0国际许可协议。
联系人: Siluni Kannangara
邮箱: slwkannangara@gmail.com
GitHub: https://github.com/SiluniKannagara

局限性

标签通过弱监督生成，非人工标注。
未经直接的用户研究验证。
仅包含英语网站。
为静态页面快照。

版本信息

版本: 1.0.1 (2026年4月)

搜集汇总

数据集介绍

构建方式

在认知无障碍研究领域，数据集的构建往往需要兼顾技术可行性与实际应用价值。NeuroVista数据集通过系统化的流程构建而成，首先从220个种子URL出发，利用Puppeteer工具进行自动化网页抓取，覆盖了多样化的网络域。随后，通过定制化的特征提取流水线，从每个页面中抽取出约30个工程化特征，涵盖排版、色彩对比、布局结构、交互模式、内容特性及可读性指标等多个维度。在标注环节，采用基于规则的弱监督方法，依据WCAG 2.1 AA等无障碍指南生成可访问性分数，并将其映射为低、中、高三个难度等级。最后，经过数据清洗步骤，包括去重、无效页面过滤和异常值处理，从原始的1,288个页面中筛选出1,231个清洁页面，确保了数据质量与一致性。

特点

该数据集在认知无障碍评估领域展现出鲜明的特色。其核心在于针对三种认知特征——阅读障碍、注意力缺陷多动障碍以及神经典型性——提供了精细化的标注，每个页面均包含对应的可访问性分数与分类标签。数据集中特征设计全面，围绕视觉与交互维度展开，能够有效捕捉影响认知体验的关键因素。标签分布呈现出差异化模式，例如注意力缺陷多动障碍的样本中高难度占比较低，反映了不同认知需求下的可访问性挑战差异。此外，数据集以CSV格式组织，结构清晰，便于直接用于机器学习流程，为研究者探索神经多样性友好的网页设计提供了扎实的数据基础。

使用方法

对于希望利用该数据集的研究者而言，其使用方法直观且灵活。数据集以CSV文件形式提供，可直接使用Pandas等工具加载，其中包含页面标识符、特征列、分数列及标签列。用户可轻松分离特征与标签，例如将排版、色彩等特征作为输入，将阅读障碍或注意力缺陷多动障碍的分类标签作为预测目标。该数据集适用于训练机器学习模型，以预测网页针对特定认知特征的可访问性水平；也可用于分析神经多样性用户体验中的模式，或开发自适应界面。需要注意的是，由于标签基于弱监督生成，建议在应用中结合领域知识进行验证，以提升模型的可靠性与泛化能力。

背景与挑战

背景概述

随着数字包容性理念的深入发展，网络无障碍研究逐渐从传统的视觉与运动障碍支持，拓展至认知多样性的需求领域。NeuroVista数据集由Siluni Kannangara于2026年创建，依托Zenodo平台发布，旨在填补认知无障碍数据资源的空白。该数据集聚焦阅读障碍、注意力缺陷多动障碍及神经典型三类认知特征，通过约30项工程化特征对1231个网页页面进行标注，为核心研究问题——即如何基于机器学习技术实现针对神经多样性用户的网页可访问性评估与优化——提供了结构化数据基础。其出现推动了人机交互与无障碍计算领域向更精细化的认知维度演进。

当前挑战

在认知无障碍评估领域，首要挑战在于如何准确量化与预测网页设计对神经多样性用户体验的影响，这涉及跨认知特征的差异化建模以及高维特征与复杂标签间的映射关系。数据构建过程中，研究者面临多重困难：弱监督标注方法依赖规则化评分，缺乏真实用户研究的直接验证，可能引入偏差；数据源局限于英文静态网页，限制了模型的跨语言与文化泛化能力；同时，特征工程需平衡可解释性与预测性能，以应对布局、排版、交互等多模态属性的融合分析。

常用场景

经典使用场景

在认知无障碍研究领域，NeuroVista数据集为机器学习模型训练提供了关键资源。该数据集通过约30个工程化特征，如排版、色彩对比和布局结构，支持对网页内容进行认知可访问性评估。研究人员能够利用其标注的低、中、高难度等级，针对阅读障碍、注意力缺陷多动障碍及神经典型用户，构建预测模型，从而识别并优化网页设计中的认知障碍点。

实际应用

在实际应用中，NeuroVista数据集助力开发自适应网页界面，为个性化用户体验提供技术支持。企业可利用其训练模型，自动检测并调整网站元素，以适配阅读障碍或ADHD用户的认知需求。教育机构和公共服务平台也能借此评估其在线资源的可访问性，确保信息平等获取，从而提升数字包容性，满足多样化的用户群体。

衍生相关工作

基于NeuroVista数据集，衍生出多项经典研究工作，包括认知无障碍预测算法的优化、跨领域可访问性评估工具的集成，以及神经多样性用户体验模式的探索。这些工作进一步扩展了数据集的适用性，例如结合深度学习模型提升分类精度，或将其与用户行为数据融合，推动了个性化界面设计研究的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集