Fashion-AlterEval
收藏arXiv2025-07-24 更新2025-07-26 收录
下载链接:
https://github.com/mariavlachou/AlterEval_CRS/ 和 https://osf.io/yueab/
下载链接
链接失效反馈官方服务:
资源简介:
Fashion-AlterEval是一个用于改进会话推荐系统评估的数据集,该数据集通过在常见的时尚会话推荐系统数据集中添加新的注释来包含人类对替代项的判断。数据集由格拉斯哥大学的研究人员创建,包含了对200个已知目标项的替代项的相关性评估,这些目标项来自两个流行的时尚会话推荐系统数据集:Shoes和FashionIQ。数据集包含了来自真实用户对每个不同时尚类别(鞋类和连衣裙)的替代项的相关性评估。数据集的创建通过两个阶段进行:目标池和数据收集。目标池阶段通过使用亚马逊Mechanical Turk平台,对原始数据集中的目标项进行了抽样和评估。数据收集阶段通过让用户在MTurk上对替代项进行评估来完成。数据集的创建旨在解决现有用户模拟器在评估会话推荐系统时的局限性,并提供一个更完整的测试集合,以便更好地评估会话推荐系统。
Fashion-AlterEval is a dataset designed to enhance the evaluation of conversational recommendation systems. It incorporates human judgments on alternative items by adding new annotations to existing fashion conversational recommendation datasets. Developed by researchers from the University of Glasgow, this dataset contains relevance assessments of alternative items for 200 target items sourced from two popular fashion conversational recommendation datasets: Shoes and FashionIQ. Specifically, it includes relevance ratings from real users for alternative items across two fashion categories: footwear and dresses. The construction of this dataset consists of two stages: the target pool stage and the data collection stage. In the target pool stage, Amazon Mechanical Turk was utilized to sample and evaluate target items from the original datasets. The data collection stage was completed by having users conduct relevance assessments of alternative items on the MTurk platform. The development of Fashion-AlterEval aims to address the limitations of existing user simulators for conversational recommendation system evaluation, and to provide a more comprehensive test collection to enable more robust assessment of such systems.
提供机构:
格拉斯哥大学
创建时间:
2025-07-24
搜集汇总
数据集介绍

构建方式
Fashion-AlterEval数据集的构建基于对现有时尚对话推荐系统(CRS)数据集的扩展与增强。研究者通过亚马逊Mechanical Turk平台进行了大规模的用户研究,收集了针对200个目标时尚物品(来自Shoes和FashionIQ Dresses数据集)的相关替代品的人类标注。研究采用了目标池化策略,确保样本具有代表性和多样性,并通过功率分析确定了所需的样本量。每个目标物品的候选替代品来自两个先进的CRS模型的检索结果和最近邻物品,以确保覆盖广泛的视觉特征和风格。
特点
Fashion-AlterEval数据集的主要特点在于其引入了替代相关物品的标注,从而扩展了传统CRS评估中单一目标物品的限制。该数据集包含丰富的视觉和风格相似性标注,使得模拟用户能够在对话过程中灵活调整偏好。此外,数据集还提供了用户选择替代品的理由,增强了数据的可解释性。通过高标注一致性(Cohen’s κ=0.87)和多样化的目标物品难度分布,该数据集为CRS的评估提供了更真实和全面的基准。
使用方法
Fashion-AlterEval数据集的使用方法主要围绕其提出的两种元用户模拟器(固定替代选择和基于概率增益-损失的替代选择)。研究人员可以利用该数据集训练和评估CRS模型,模拟用户在对话中可能的行为变化,如偏好调整和耐心限制。具体而言,数据集支持通过替代物品的标注改进CRS的评估指标(如Success Rate@1、nDCG@10和MRR@10),从而更准确地反映模型在实际场景中的表现。此外,数据集还可用于单轮图像检索任务,扩展了其应用范围。
背景与挑战
背景概述
Fashion-AlterEval是由格拉斯哥大学的Maria Vlachou等人于2025年提出的数据集,旨在改进对话推荐系统(CRS)在时尚领域的评估方法。该数据集基于Shoes和FashionIQ两个流行的时尚CRS数据集,通过添加人类对替代相关物品的判断来扩展目标空间。Fashion-AlterEval的创建解决了现有评估方法中用户模拟器仅关注单一目标物品的局限性,为CRS研究提供了更真实、更全面的评估环境。该数据集的出现推动了对话推荐系统在时尚领域的应用,特别是在多轮交互和用户偏好动态变化的情境下。
当前挑战
Fashion-AlterEval面临的挑战主要包括两个方面:在领域问题方面,现有的对话推荐系统评估方法低估了系统的有效性,因为它们假设用户仅有一个固定的目标物品,而忽略了用户在真实购物场景中可能会考虑替代物品的情况;在构建过程方面,数据集的创建需要克服如何选择代表性目标物品、如何确保替代物品的相关性判断的准确性,以及如何设计能够模拟用户动态偏好的用户模拟器等挑战。此外,数据集的构建还需要平衡样本数量和评估深度,以确保结果的可靠性和泛化能力。
常用场景
经典使用场景
Fashion-AlterEval数据集在对话式推荐系统(CRS)的研究中扮演了关键角色,尤其在时尚领域的图像推荐任务中。通过引入人类对替代物品的相关性判断,该数据集为模拟用户行为提供了更真实的评估环境。研究者可以利用该数据集训练和评估CRS模型,模拟用户在对话过程中对推荐物品的反馈,包括对替代物品的偏好和耐心水平的变化。
解决学术问题
Fashion-AlterEval解决了传统CRS评估中的两个主要问题:单一目标物品的局限性和用户耐心水平的假设。传统评估方法假设用户仅关注单一目标物品且具有无限耐心,这与实际购物场景不符。该数据集通过引入替代物品的相关性判断和动态用户模拟器,使评估更加贴近真实用户行为,从而更准确地衡量CRS模型的性能。
衍生相关工作
Fashion-AlterEval的推出催生了一系列相关研究,尤其是在用户模拟器和对话式推荐系统的评估方法上。例如,基于该数据集的研究提出了两种新型元用户模拟器(固定替代选择和概率性增益-损失选择),这些模拟器被广泛应用于后续的CRS模型评估中。此外,该数据集还为多模态对话状态跟踪和交互式推荐系统的研究提供了重要基础。
以上内容由遇见数据集搜集并总结生成



