Card Sorting Simulator

Name: Card Sorting Simulator
Creator: 斯洛伐克技术大学信息与信息技术学院, UXtweak研究
Published: 2025-05-14 23:29:15
License: 暂无描述

arXiv2025-05-14 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.09478v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了Card Sorting Simulator数据集，该数据集包含28个预存在的卡片分类研究，涉及1,399名参与者。这些研究涵盖了多样化的内容和来源，旨在通过大型语言模型（LLMs）生成具有信息量的卡片分类，以辅助信息架构设计。数据集内容丰富，包括参与者对卡片的自然分组，以及LLMs生成的模拟分组。数据集的创建过程包括从真实实践中获取数据，并使用LLMs进行模拟。该数据集的应用领域主要集中在用户研究，旨在解决信息架构设计中的用户分组问题，以提升用户导航和信息组织的效果。

This paper presents the Card Sorting Simulator dataset, which includes 28 pre-existing card sorting studies involving 1,399 participants. These studies cover diverse content and sources, aiming to generate informative card sorts via Large Language Models (LLMs) to assist information architecture design. The dataset contains rich content, including both the natural card groupings made by participants and the simulated groupings generated by LLMs. The creation process of this dataset involves acquiring data from real-world practices and conducting simulations using LLMs. The main application fields of this dataset focus on user research, with the goal of addressing user grouping issues in information architecture design to improve the effectiveness of user navigation and information organization.

提供机构：

斯洛伐克技术大学信息与信息技术学院, UXtweak研究

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

Card Sorting Simulator数据集的构建基于28项预先存在的卡片分类研究，涵盖1,399名真实参与者的行为数据。研究团队采用多模态提示工程策略，设计了四种不同的LLM提示变体（P1-P4），分别模拟原始数据生成、相似度矩阵构建、聚类生成及无上下文聚类生成。通过UXtweak平台获取的匿名化数据经过严格的质量筛选，确保研究样本量≥10人、卡片数量≥10项且内容合理。数据预处理阶段采用双盲编码与冲突解决机制，最终形成包含技术、教育、电商等多领域的高生态效度数据集。

使用方法

研究者可通过两种范式使用该数据集：横向比较不同LLM模型在相同卡片集上的表现差异，或纵向分析复杂度变量对生成质量的影响。技术路径上，建议采用多维标度（MDS）降维后接K-means聚类（自动肘部法则确定κ值）的标准流程，配合非参数检验（Kruskal-Wallis/Wilcoxon）进行显著性分析。实践应用中，数据集特别适用于：1）信息架构设计中的快速原型验证 2）树测试的自动化预演 3）LLM提示工程的优化实验。需注意输出需经对称性验证、卡片完整性检查等后处理，原始数据因隐私条款需申请获取。

背景与挑战

背景概述

Card Sorting Simulator数据集由斯洛伐克技术大学的Eduard Kuric、Peter Demcak和Matus Krajcovic于2025年提出，旨在通过大型语言模型（LLMs）增强卡片分类研究。卡片分类是一种常用的用户体验研究方法，用于揭示用户对信息和功能的心智模型。该数据集的提出标志着信息架构设计领域向AI辅助研究的重大转变，通过生成合成分类结果来提供快速反馈，从而优化设计流程。

当前挑战

该数据集面临的挑战主要包括：1) 领域问题挑战：如何确保LLM生成的分类结果能准确反映真实用户的心智模型，尤其是在复杂标签和高卡片数量的情况下；2) 构建过程挑战：处理LLM输出中的错误（如卡片遗漏或重复），以及在不同LLM模型和提示设计下保持结果的一致性。此外，缺乏真实用户的多样性以及上下文信息对结果的影响也是构建过程中的主要难点。

常用场景

经典使用场景

Card Sorting Simulator数据集在用户体验（UX）研究和信息架构设计领域具有广泛的应用。该数据集通过模拟用户对卡片分类的行为，为研究人员提供了一种高效的工具，用于探索用户如何组织和分类信息。经典使用场景包括设计直观的网站导航菜单、优化电子商务平台的产品分类以及改进政府或医疗信息系统的内容结构。数据集的应用不仅限于传统的用户研究，还扩展到了快速原型设计和迭代测试中，帮助设计师在早期阶段获取有价值的反馈。

解决学术问题

Card Sorting Simulator数据集解决了多个学术研究问题，尤其是在信息架构和用户体验设计领域。它提供了一种方法来量化用户对信息的组织和分类方式，从而帮助研究者理解用户的心理模型。此外，数据集还支持对大型语言模型（LLMs）在模拟人类行为方面的能力进行深入研究，特别是在开放卡片分类任务中的表现。通过比较真实用户和AI生成的分类结果，研究者可以评估AI在模拟复杂认知任务中的准确性和局限性。

实际应用

在实际应用中，Card Sorting Simulator数据集被广泛用于优化信息架构设计。例如，企业可以利用该数据集快速测试不同的网站导航结构，确保其符合用户的预期。教育机构可以通过模拟学生的分类行为来改进在线学习平台的课程组织。此外，医疗保健领域也可以利用该数据集优化患者信息系统的布局，提升用户体验和信息的可访问性。数据集的快速反馈能力使其成为迭代设计和用户研究中的宝贵工具。

数据集最近研究