xxxxdszz/personal-query-baby-products

收藏

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/xxxxdszz/personal-query-baby-products

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对Baby_Products类别的个性化产品搜索查询。每条记录都是通过Personal Query pipeline构建的：第6阶段生成了正确的个性化查询；第7阶段在匹配到错误模式时注入了用户特定的错误查询变体；第5阶段提供了用户配置文件的复杂度级别。数据集包含两个主要文件：data.jsonl（所有正确的第6阶段查询）和paired_data.jsonl（仅包含有配对错误查询的正确查询行）。数据集旨在用于个性化产品搜索、查询生成、错误查询鲁棒性和检索评估的研究。

This dataset contains personalized product search queries for the `Baby_Products` category. Each record is built from the Personal Query pipeline: Stage 6 generated correct personalized queries; Stage 7 injected user-specific error query variants when a matching error pattern was available; Stage 5 provided the user profile complexity level. The dataset includes two main files: data.jsonl (all correct Stage 6 queries) and paired_data.jsonl (only rows where a correct query has a paired error query). The dataset is intended for research on personalized product search, query generation, error query robustness, and retrieval evaluation.

提供机构：

xxxxdszz

搜集汇总

数据集介绍

main_image_url

构建方式

该数据集源于个性化商品查询生成管线，针对亚马逊婴儿用品类别构建。在管线第六阶段，系统基于用户画像与产品属性生成正确的个性化查询；第七阶段则依据用户特有的书写错误模式，向正确查询中注入错误变体，形成配对数据。第五阶段提供的用户画像复杂度等级亦被记录，使得每条数据均携带丰富的生成上下文信息。数据集以JSON Lines格式存储，包含完整数据与仅含配对查询的数据两个子集。

使用方法

研究者可通过HuggingFace Datasets库轻松加载数据，使用load_dataset函数指定'full'或'paired'配置即可获取完整数据或仅含错误配对的数据。数据集适用于个性化商品搜索、查询生成、错误查询鲁棒性分析以及检索评估等任务。用户可基于correct_query与error_query字段进行对比研究，或利用complexity_level与query_category进行分层实验。建议在使用前审查上游源数据的使用许可与再分发要求。

背景与挑战

背景概述

在电子商务领域，个性化产品搜索已成为提升用户体验与商品检索效率的核心技术之一。该数据集由研究人员基于亚马逊评论数据构建，旨在系统性地研究用户个性化搜索查询的生成与纠错问题。发布于近年，数据集聚焦于“婴儿用品”类别，通过多阶段流水线（Personal Query pipeline）生成合成查询：利用用户画像与产品属性生成正确查询，并基于写作错误模式注入用户特定的错误查询变体。数据集涵盖深层（deep）与广泛（wide）两种查询类型，并将用户画像复杂度划分为四个层级，共计超过1.3万条记录。它的发布为个性化搜索、查询生成、检索鲁棒性等领域提供了标准化的基准资源，推动了用户中心式搜索算法的研究与评估。

当前挑战

数据集所面对的领域挑战主要源于个性化搜索的复杂性：用户意图多样化且具有高度动态性，真实场景中用户查询常包含拼写、语法等噪声，导致检索系统难以准确捕捉需求。在构建过程中，挑战集中于如何基于有限的产品属性与用户信号生成兼具多样性且符合实际用户行为的查询，以及如何定义和注入合理的错误模式以模拟真实世界的书写偏差。此外，平衡深层与广泛查询类型的分布、合理标注用户画像复杂度层级，并确保合成数据的生态效度，亦为关键难点。这些挑战促使研究者在查询生成与纠错模型的鲁棒性、泛化性方面持续探索。

常用场景

经典使用场景

Personal Query: Baby Products 数据集专为个性化产品搜索研究而设计，其经典使用场景聚焦于模拟与评估用户在电商平台上的真实查询行为。通过将用户画像与产品属性深度融合，该数据集生成两种核心查询类型："wide"查询代表广泛的产品类别搜索，而"deep"查询则体现用户对特定属性或功能的精细需求。研究者可借助该数据集训练和验证个性化查询生成模型，探索如何从用户历史行为与产品描述中自动合成高精度的搜索语句。此外，该数据集提供的查询复杂度层级（0至3级）为分析不同难度下的检索性能提供了基准，从而推动更贴近用户意图的搜索系统发展。

解决学术问题

该数据集系统性地解决了个性化搜索领域中用户意图建模与查询生成两个关键学术难题。传统查询生成方法往往忽略个体差异，导致生成的搜索词与用户真实需求脱节。而Personal Query: Baby Products通过多阶段流水线引入用户profile复杂度与属性级注意力机制，使合成查询能够捕捉微观偏好（如"wide"类别的泛化需求与"deep"类别的精细筛选）。更重要的是，其创新性地注入用户特有的错误模式（如拼写错误、术语误用），构建了错误查询对的基准集，从而直面查询纠错与鲁棒性检索的挑战。这一设计不仅补全了用户行为差异化的数据缺口，还为评估检索系统在噪声环境下的抗干扰能力提供了关键度量。

实际应用

在实际电商场景中，该数据集可驱动多项直接触达用户的优化应用。首先，基于其生成的个性化查询可被集成到推荐系统的Query Rewriting模块，帮助将模糊的搜索输入（如“婴儿推车”+用户月龄特征）转化为精准的产品筛选条件（如“可折叠新生儿推车”），显著提升转化率。其次，通过配对错误查询样例，平台可构建自动纠错模型，主动修正用户输入中的拼写错误（如"bottel"→"bottle"）或属性混淆（如将"吸管杯"误写为"奶嘴杯"），降低搜索失败率。此外，电商网站可利用复杂度层级标签动态调整搜索策略——对新手用户提供宽泛结果，而对经验用户优先展示深度匹配的特定商品，从而实现分层搜索体验的智能适配。

数据集最近研究

最新研究方向

该数据集聚焦于个性化产品搜索中的查询生成与纠错前沿，通过模拟用户书写错误模式注入合成错误查询，为研究查询鲁棒性与个性化检索提供了高质量基准。结合亚马逊婴儿产品评论的丰富语义，当前热点方向包括利用多层级用户画像复杂度（0-3级）构建自适应查询生成模型，以及基于“宽/深”查询分类探索用户意图细粒度解析。这对推动电商场景下错误容忍检索系统与个性化推荐算法的协同进化具有关键意义，尤其为弱监督学习与数据增强策略提供了验证平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作