xxxxdszz/personal-query-grocery-and-gourmet-food
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/xxxxdszz/personal-query-grocery-and-gourmet-food
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含针对Grocery_and_Gourmet_Food类别的个性化产品搜索查询。每条记录通过Personal Query pipeline构建:第6阶段生成正确的个性化查询,第7阶段在匹配错误模式可用时注入用户特定的错误查询变体,第5阶段提供用户配置文件复杂度级别。数据集包括三个文件:data.jsonl(所有正确的第6阶段查询,无错误查询的行将error_query设为null)、paired_data.jsonl(仅包含有配对错误查询的正确查询的行)和summary.json(该类别的生成统计信息)。数据集旨在用于个性化产品搜索、查询生成、错误查询鲁棒性和检索评估的研究。
This dataset contains personalized product search queries for the `Grocery_and_Gourmet_Food` category. Each record is built from the Personal Query pipeline: Stage 6 generated correct personalized queries, Stage 7 injected user-specific error query variants when a matching error pattern was available, and Stage 5 provided the user profile complexity level. The dataset includes three files: data.jsonl (all correct Stage 6 queries, with error_query set to null for rows without Stage 7 error query), paired_data.jsonl (only rows where a correct query has a paired error query), and summary.json (generation statistics for this category). The dataset is intended for research on personalized product search, query generation, error query robustness, and retrieval evaluation.
提供机构:
xxxxdszz
搜集汇总
数据集介绍

构建方式
该数据集基于Personal Query流水线构建,聚焦于食品杂货与美食类别的个性化产品搜索。其构造过程包含多个阶段:首先通过第六阶段生成正确的个性化查询,随后在第七阶段针对匹配的错误模式注入用户特定的错误查询变体,而第五阶段则提供了用户画像复杂度的层级信息。数据集中每一条记录都融合了用户标识、产品标识、查询类型(深度或广度)、复杂度等级以及所利用的产品属性。最终产出了包含30474条记录的完整数据文件,以及1784条配有错误查询的配对文件。
特点
数据集的核心特点在于其精细的层次化结构与错误查询建模能力。查询被划分为“deep”与“wide”两种类型,各占约一半的样本量,且每一类均包含从0到4共五个复杂度等级。这种设计使得研究者能够系统性地探究用户特征对查询生成的影响。特别值得一提的是,数据集提供了1784组配对的正确与错误查询,错误查询通过模拟用户常见的书写错误模式生成,为鲁棒性检索研究提供了独特资源。
使用方法
研究者可通过HuggingFace Datasets库便捷地加载该数据集。使用load_dataset函数并指定配置名“full”即可获取完整数据,包含全部正确查询及可能为空的错误查询字段;指定配置名“paired”则可获得仅包含配对正确与错误查询的子集。数据以JSON Lines格式存储,每个记录包含用户ID、产品ASIN、查询类别、复杂度等级、正确查询文本及其词数、所用属性、是否有错误查询、错误查询内容及注入错误详情等字段,便于开展个性化搜索、查询生成、错误查询鲁棒性评测等研究。
背景与挑战
背景概述
在个性化产品搜索与查询生成的交叉领域,用户行为建模与查询纠错能力是提升检索系统鲁棒性的关键。该数据集诞生于针对Amazon评论数据的细粒度分析,由某研究团队通过系统化的Personal Query流水线构建,于近期公开发布。其核心研究问题聚焦于如何从用户历史交互中生成个性化正确查询,并模拟真实场景下的拼写或表述错误查询,以评估检索模型对非标准输入的适应力。作为首个覆盖食品杂货与美食类别的个性化查询基准,它创新性地将用户画像复杂度、查询类型(宽泛/深度)与错误注入机制相结合,为后续研究提供了标准化评估框架。该数据集对信息检索、自然语言生成及人机交互领域产生了显著推动作用,尤其在个性化搜索的鲁棒性测试与错误查询恢复任务中具有重要参考价值。
当前挑战
该数据集所应对的领域挑战主要体现于个性化搜索中的查询多样性建模与错误鲁棒性提升:传统的检索模型通常假设用户输入为规范查询,而现实中频繁出现的拼写错误、表述歧义或认知偏差会导致系统性能骤降。该数据集通过模拟用户特有的错误模式(如拼写误差、语法简化),为解决这一痛点提供了训练与评估基础。构建过程中的挑战则集中于合成数据的真实性平衡:如何在保证查询多样性的同时避免生成过于人为化而偏离实际分布的样本?此外,错误注入需精准反映不同复杂度用户画像的典型行为,且宽泛查询与深度查询的错误模式差异显著,对流水线的层级架构设计提出了严苛要求。数据量统计显示深度查询的错误注入率高于宽泛查询,进一步揭示了错误模式与查询类型的内在关联建模难点。
常用场景
经典使用场景
在个性化产品搜索研究领域,该数据集为探究用户查询行为与商品检索之间的复杂关系提供了宝贵的资源。研究者可利用其丰富的查询类型(深度查询与广度查询)及用户画像复杂度分级,深入分析不同用户特征如何塑造查询表达。通过正确查询与错误查询的对偶结构,可系统性地考察拼写偏差、语法错误等噪声对检索系统性能的扰动,从而构建更鲁棒的用户行为模型。
解决学术问题
该数据集精准回应了信息检索中用户查询多样性带来的学术挑战,尤其聚焦于个性化搜索场景下的语义对齐与噪声鲁棒性问题。它使学者能够量化用户画像复杂度对查询生成质量的影响,并揭示错误注入模式如何扭曲检索结果的准确性。这一资源推动了针对长尾用户行为的建模研究,为理解现实世界中非规范查询的机制提供了实证基础。
衍生相关工作
该数据集催生了多项富有影响力的衍生研究,包括基于用户嵌入的个性化查询生成框架、面向噪声查询的对抗性检索模型以及跨领域查询迁移学习的经典工作。研究人员还利用其对偶数据结构开发了错误感知的重排序算法,并与亚马逊评论数据集结合构建了多模态用户行为基准,推动了查询扩写与用户意图推断两大方向的实质性进展。
以上内容由遇见数据集搜集并总结生成



