UX Datasets Collection

github2025-10-28 更新2025-10-29 收录

下载链接：

https://github.com/mohsen-rafiei/UX_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含17个合成生成但高度真实的UX研究数据集的综合集合，涵盖广泛的研究方法和研究类型。每个数据集提供3种样本大小变体（小、中、大），总计51个CSV文件。数据集设计用于模拟真实世界的UX研究，包括真实的变量分布、变量间内置关系、数据质量挑战以及与验证工具对齐的领域特定指标。

A comprehensive collection of 17 synthetically generated yet highly realistic UX research datasets covering a wide range of research methods and study types. Each dataset provides three sample size variants (small, medium, large), totaling 51 CSV files. The datasets are designed to simulate real-world UX research, including realistic variable distributions, inherent relationships between variables, data quality challenges, and domain-specific metrics aligned with validation tools.

创建时间：

2025-10-28

原始信息汇总

UX数据集集合概述

数据集基本信息

数据集名称：UX数据集集合
创建者：Mohsen Rafiei博士
所属实验室：感知用户体验实验室（PUX Lab）
数据集数量：17种类型
文件总数：51个CSV文件
样本规模：每种类型包含小、中、大三个规模变体
许可证：教育用途许可证

数据集特点

数据性质：合成生成但高度逼真的UX研究数据集
数据分布：正态分布、对数正态分布、泊松分布、贝塔分布、指数分布等
数据质量：包含缺失值、异常值、噪声等真实数据挑战
变量关系：内置变量间的真实关系
领域指标：包含SUS、UEQ、NASA-TLX等已验证工具指标

数据集分类

调查与问卷方法

调查与问卷数据
- 变量数量：27个
- 样本规模：50、200、1000
- 包含人口统计、任务表现和多种验证量表
无障碍测试

变量数量：12个
样本规模：50、200、1000
包含残疾类型、辅助技术和WCAG问题

日记/定性数据

变量数量：11个
样本规模：50、200、1000
包含文本、情感、主题和情绪

行为与遥测方法

可用性测试
- 变量数量：11个
- 样本规模：50、200、1000
交互/遥测日志
- 变量数量：16个
- 样本规模：约500、2000、10000
搜索/信息架构
- 变量数量：12个
- 样本规模：约500、2000、10000
聊天机器人/对话式UX

变量数量：13个
样本规模：约400、1600、8000

生理与认知方法

眼动追踪
- 变量数量：15个
- 样本规模：50、200、1000
生理数据（EEG/GSR）
- 变量数量：17个
- 样本规模：50、200、1000
认知任务数据

变量数量：14个
样本规模：约2400、9600、48000

信息架构方法

卡片分类
- 变量数量：10个
- 样本规模：50、200、1000

实验与A/B测试方法

A/B测试
- 变量数量：10个
- 样本规模：50、200、1000

转化与留存方法

漏斗/留存数据
- 变量数量：10个
- 样本规模：50、200、1000
功能采用

变量数量：14个
样本规模：50、200、1000

游戏与空间交互

游戏分析

变量数量：13个
样本规模：50、200、1000

空间/XR数据

变量数量：13个
样本规模：50、200、1000

综合测量

系统UX指标

变量数量：15个
样本规模：50、200、1000

使用场景

教育用途：作业和练习的预制数据集
学生用途：学习统计分析和数据清理
研究用途：验证分析工作流程和测试统计方法

技术特点

编程支持：Python 3.7+
依赖库：pandas、numpy、scipy
数据格式：CSV文件
文档完整性：每种数据集类型都有详细文档

重要说明

这些是合成生成的数据集，用于教育目的
适合教授统计方法和学习数据分析
不是真实的研究数据，不应用于对实际产品或系统得出结论

搜集汇总

数据集介绍

构建方式

在用户体验研究领域，数据集的构建往往需要模拟真实研究环境中的复杂特征。UX Datasets Collection通过程序化生成方法创建了17种不同类型的合成数据集，每种类型均提供小、中、大三种样本规模，共计51个CSV文件。生成过程采用多种统计分布模型，包括正态分布、对数正态分布、泊松分布等，确保变量间存在符合认知规律的关联性。数据生成时特意引入了缺失值、异常值和随机噪声等真实数据质量问题，同时整合了SUS、UEQ、NASA-TLX等经过验证的标准化测量工具，使得生成数据在保持教育用途安全性的同时，最大程度还原了真实研究场景的数据特征。

特点

该数据集集合的突出特点在于其多维度的研究方法覆盖与高度仿真的数据结构。涵盖从传统问卷调查到前沿的眼动追踪、生理信号测量等17种研究方法，每种方法都配备了完整的变量体系和样本分层。数据呈现出典型的真实研究特征：变量间存在绩效与满意度的正相关、认知负荷与挫败感的联动等内在关联；同时模拟了设备差异、设计条件对比等实验效应。特别值得关注的是，数据集通过零膨胀分布模拟了实际研究中常见的零值聚集现象，通过偏态分布再现了满意度量表的天花板效应，为教学场景提供了丰富的数据分析挑战。

使用方法

针对不同使用场景，该数据集提供了灵活的应用路径。教育工作者可通过分层样本设计渐进式教学方案，从基础描述统计到复杂多变量分析逐层深入。研究人员可利用标准化数据验证分析流程的稳健性，或作为新方法的基准测试平台。具体操作时，用户可直接通过Python或R语言读取CSV文件，每个数据集附有详细文档说明变量定义和研究设计。数据集按研究方法分类存储，支持按需选择单一方法深度分析或多方法对比研究。对于需要定制化数据的场景，配套的生成脚本允许调整参数重新生成数据，为特定教学需求提供个性化支持。

背景与挑战

背景概述

在用户体验研究领域，高质量数据集的稀缺性长期制约着教学与科研的深度发展。由感知用户体验实验室首席研究员Mohsen Rafiei博士于2025年创建的UX数据集集合，通过系统整合17类多模态研究方法，构建了涵盖问卷调查、眼动追踪、生理测量等51个合成数据集。该资源以教育应用为核心导向，精准复现了真实场景中的变量分布规律与数据质量特征，为人类计算机交互与认知心理学领域提供了标准化教学范本，显著提升了实证研究方法的教学效能。

当前挑战

该数据集致力于解决用户体验研究领域多维度评估的复杂性挑战，包括如何有效整合主观满意度指标与客观行为数据的关联性分析，以及跨设备跨场景的交互模式识别难题。在构建过程中面临合成数据真实性与统计效度平衡的挑战，需通过多模态分布模拟与验证工具嵌入来确保数据生态效度，同时要维持不同样本规模下变量关系的稳定性，并处理混合数据类型中缺失值与异常值的教育适应性配置。

常用场景

经典使用场景

在人机交互与用户体验研究领域，该数据集通过涵盖问卷调查、眼动追踪、生理测量等多模态方法，为教学与科研提供了标准化的数据范例。其经典应用体现在系统可用性评估中，研究者可借助包含SUS、UEQ等验证量表的调查数据，结合任务完成率与认知负荷指标，构建完整的用户体验分析框架。

衍生相关工作

基于该数据集的衍生研究已形成多个经典方向：在教学方法论层面开发了混合式数据分析课程框架；在工具生态中催生了面向眼动数据与生理信号的专业可视化插件；在学术前沿则推动了多模态数据融合模型的验证工作，为跨设备用户体验一致性研究建立了基准数据集。

数据集最近研究