UserStudy
收藏arXiv2025-04-10 更新2025-04-12 收录
下载链接:
https://github.com/MeowE/USimAgent2.0
下载链接
链接失效反馈官方服务:
资源简介:
UserStudy数据集是由中国人民大学GSAI研究机构收集的,包含31名参与者在实验室环境中完成10个搜索任务时产生的296个搜索会话。每个搜索会话记录了用户的查询、点击等行为数据,以及用户在执行每个操作前的思考过程。该数据集旨在研究用户搜索行为中的认知过程,并用于训练语言模型以模拟人类的思考和行为,推进信息检索领域中用户行为模型的研究。
The UserStudy Dataset was collected by the GSAI Research Institution of Renmin University of China. It comprises 296 search sessions generated by 31 participants while completing 10 search tasks in a laboratory environment. Each search session records user behavior data including queries, clicks and other behavioral records, as well as the user's thought process prior to each operation. This dataset is designed to investigate the cognitive processes underlying user search behavior, and can be used to train language models to simulate human thinking and behaviors, thereby advancing research on user behavior models in the field of information retrieval.
提供机构:
中国人民大学
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
在信息检索领域,模拟用户搜索行为对于用户行为建模、数据增强和系统评估至关重要。UserStudy数据集的构建采用了严格的实验室控制方法,通过31名参与者完成10项复杂搜索任务,利用有声思考法收集用户在执行查询、点击和停止行为前的显性思维过程。实验平台模拟了商业搜索引擎界面,通过JavaScript插件记录用户交互数据,同时采用屏幕和音频捕捉技术确保数据的全面性。最终数据集包含296个搜索会话,每个会话均附有用户口头表达的认知过程转录文本,为研究用户隐式认知机制提供了宝贵资源。
特点
该数据集的核心价值在于其独特的认知维度标注,不仅包含传统搜索行为数据(如732次查询和1425次点击),还完整记录了用户在决策前的思维过程。通过对比表1和表2的统计特征可见,该数据集在任务复杂度(10个设计任务)和认知数据密度(690条查询相关思考)方面具有显著优势。特别值得注意的是,数据集采用中文语境采集,填补了非英语搜索行为研究的空白,且通过预实验培训和双小时限设计有效控制了数据质量,避免了用户疲劳导致的噪声干扰。
使用方法
该数据集主要应用于基于大语言模型的用户行为模拟研究,具体实施包含两个关键维度:认知过程融合与微调策略。研究者可采用'思想-行动'框架(如GPT-Llama组合),利用监督微调技术使模型同时学习用户的外显行为和内隐思维。如表4所示,在查询生成任务中,经过微调的Llama模型在BLEU和BERTscore指标上分别达到0.4766和0.7901,显著优于传统方法。对于点击预测(表6)和停止行为模拟(表7),数据集支持对比传统概率图模型与LLM方法的性能差异,为探索认知因素对不同搜索阶段的影响提供实证基础。
背景与挑战
背景概述
UserStudy数据集由中国人民大学高瓴人工智能学院的研究团队于2025年创建,旨在探索大型语言模型在搜索模拟中融入人类思维过程的可行性。该数据集包含31名参与者完成的296个搜索会话,通过有声思考法收集了用户在查询、点击和停止行为时的显性认知过程。作为信息检索领域首个融合用户认知数据的实验性数据集,其创新性地将认知心理学理论与搜索行为建模相结合,为理解用户决策机制提供了新的研究范式,对提升搜索系统的人机交互质量具有重要价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,如何准确建模用户从认知决策到行为执行的复杂映射关系,特别是在多轮交互中动态演变的思维状态;在构建过程中,需克服有声思考法可能干扰自然搜索行为的霍桑效应,以及中文语义表达的多样性与标注一致性之间的矛盾。此外,将离散的认知陈述转化为可计算的思维表征,需要解决自然语言理解与行为预测之间的语义鸿沟问题。
常用场景
经典使用场景
UserStudy数据集在信息检索领域中被广泛用于模拟用户搜索行为,特别是在研究用户查询生成、点击预测和停止行为等方面。通过收集用户在搜索任务中的显式思维数据,该数据集为研究者提供了丰富的认知过程信息,使得基于大语言模型的用户模拟更加贴近真实人类行为。
实际应用
在实际应用中,UserStudy数据集为搜索引擎优化、个性化推荐系统和智能助手开发提供了重要支持。通过模拟用户的搜索行为和认知过程,开发者可以更精准地预测用户需求,优化搜索结果排序,并提升用户满意度。此外,该数据集还可用于数据增强,帮助训练更强大的信息检索模型。
衍生相关工作
UserStudy数据集衍生了一系列经典研究工作,如USimAgent和Cognitive-Aware Complex Searcher Model (CACSM)。这些工作进一步探索了大语言模型在用户模拟中的应用,结合显式思维数据提升了模拟的逼真度和可解释性。此外,该数据集还推动了基于监督微调的方法在用户行为建模中的发展。
以上内容由遇见数据集搜集并总结生成



