xxxxdszz/personalized-query

Name: xxxxdszz/personalized-query
Creator: xxxxdszz
Published: 2026-05-01 07:45:37
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/xxxxdszz/personalized-query

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个个性化产品搜索查询数据集，分别对应三个产品类别：婴儿产品、杂货和美食、宠物用品。每个类别有两个分割：full（所有正确的查询）和paired（带有配对错误查询的查询）。数据集用于研究个性化产品搜索、查询生成和错误查询鲁棒性。包含产品类别、用户标识符、查询类型、复杂度级别、正确和错误查询等字段。数据是合成的，基于用户/产品信号生成，并注入了错误模式。

This repository contains three personalized product-search query datasets in one Hugging Face dataset page. Each config corresponds to one product category: Baby Products, Grocery and Gourmet Food, and Pet Supplies. Each config has two splits: full (all correct queries) and paired (queries with paired error queries). The dataset is intended for research on personalized product search, query generation, and error-query robustness. It includes fields such as product category, user identifier, query type, complexity level, correct and error queries, and more. The data is synthetic and generated from user/product signals with injected error patterns.

提供机构：

xxxxdszz

搜集汇总

数据集介绍

构建方式

personalized-query数据集旨在服务于个性化产品搜索、查询生成及错误查询鲁棒性研究。其构建过程基于一个多阶段流水线：第五阶段生成用户画像复杂度等级，第六阶段依据用户画像与产品属性合成正确的个性化查询，第七阶段则通过注入用户特定的写作错误模式，产出与之配对的错误查询变体。数据集覆盖婴儿用品、食品杂货与宠物用品三大产品类目，每个类目均提供完整查询集与配对查询集两种划分，其中配对集仅保留同时拥有正确与错误查询的样本。

特点

该数据集在规模与结构上展现出丰富性：完整查询总数达84450条，配对查询共计5192对。每条样本包含查询类型（广度或深度）、复杂度等级、用户画像复杂度、正确查询文本及其词数与IDF均值、所用产品属性、是否包含错误查询及注入的错误类型等多元字段。查询类型与复杂度等级的细致划分，使得数据集能够支持从简单到复杂的多层次个性化搜索与错误分析研究。

使用方法

研究者可通过Hugging Face的datasets库便捷加载数据，例如使用`load_dataset('xxxxdszz/personalized-query', name='baby', split='full')`获取婴儿用品类目的完整查询集。数据集支持文本生成与文本检索两大任务，适用于评估个性化搜索模型对正确与错误查询的鲁棒性，以及训练查询生成与纠错模型。所有查询均为合成数据，使用前需注意上游源数据的许可与再分发要求。

背景与挑战

背景概述

随着电子商务领域的蓬勃发展，个性化产品搜索已成为提升用户体验与商业转化率的关键技术。在此背景下，研究人员于2024年左右构建了Personalized Query数据集，该数据集由来自Amazon Reviews的婴儿用品、食品杂货及宠物用品三个垂直类别的用户行为数据构成，共包含84450条查询样本。其核心研究问题聚焦于如何模拟用户在使用搜索引擎时因个体书写习惯差异而产生的正确查询与错误查询之间的映射关系，从而为个性化搜索、查询生成及检索鲁棒性评估提供基准资源。该数据集通过多阶段流水线生成，融合了用户画像复杂度、查询深度/宽度分类及错误注入等机制，显著推动了面向真实场景的个性化信息检索研究。

当前挑战

该数据集所解决的领域挑战在于，传统产品搜索模型往往忽略用户个体差异导致的查询变异性，例如用户可能因拼写错误、术语偏好或信息组织方式不同而产生语义等价但形式迥异的查询，这要求检索系统具备更强的鲁棒性与个性化适应能力。在构建过程中，数据集面临的主要挑战包括：如何从海量非结构化的用户行为日志中提取可靠的个性化信号，如何设计合理的查询复杂度层级并确保不同类别间分布均衡，以及如何在不引入噪声干扰的前提下自动注入符合真实用户错误模式的误差查询。此外，合成数据的领域迁移性与外部释放许可的限制也为数据的通用性带来了额外考验。

常用场景

经典使用场景

在个性化产品搜索与查询理解的研究领域中，personalized-query数据集为构建和评估用户感知的查询系统提供了宝贵的资源。该数据集包含了婴儿用品、食品杂货与宠物用品三大垂直品类的合成查询，每个查询都严格区分了宽泛型与深度型查询类别，并标注了复杂度层级。研究者可基于此探究用户个性化偏好如何影响查询的表达形式，进而开展个性化查询生成、错误查询修正与检索鲁棒性评估等经典课题。数据集提供的配对查询设计，特别适用于对比正确查询与注入错误之间的语义差异，极大地促进了面向真实用户行为的查询理解研究。

衍生相关工作

基于personalized-query数据集的独特性，已衍生出一系列富有影响力的研究工作。在查询生成领域，该数据集常被用作微调序列到序列模型的训练语料，以学习从产品属性到个性化查询的映射规律。在检索系统评估方面，研究者利用配对查询架构设计对比实验，量化纠错机制在提升搜索命中率方面的贡献。此外，数据集中的复杂度层级划分催生了针对查询难度自适应调整检索策略的研究，以及通过对比宽深查询特征来优化用户画像建模的探索。这些衍生工作共同推动了个性化检索从刚性模板匹配到柔性用户感知的范式演进。

数据集最近研究