xxxxdszz/personal-query-pet-supplies

Name: xxxxdszz/personal-query-pet-supplies
Creator: xxxxdszz
Published: 2026-05-01 06:49:38
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/xxxxdszz/personal-query-pet-supplies

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对`Pet_Supplies`类别的个性化产品搜索查询。每条记录都是通过Personal Query流程构建的：阶段6生成了正确的个性化查询；阶段7在匹配到错误模式时注入了用户特定的错误查询变体；阶段5提供了用户配置文件的复杂性级别。数据集文件包括`data.jsonl`（所有正确的阶段6查询，无错误查询的行将`error_query`设为`null`）、`paired_data.jsonl`（仅包含正确查询与错误查询配对的行）和`summary.json`（该类别的生成统计信息）。数据集旨在用于个性化产品搜索、查询生成、错误查询鲁棒性和检索评估的研究。查询是从本地Personal Query流程中的用户/产品信号生成的合成输出，错误查询通过注入用户特定的书写错误模式生成。

This dataset contains personalized product search queries for the `Pet_Supplies` category. Each record is built from the Personal Query pipeline: Stage 6 generated correct personalized queries; Stage 7 injected user-specific error query variants when a matching error pattern was available; Stage 5 provided the user profile complexity level. The dataset files include `data.jsonl` (all correct Stage 6 queries, with `error_query` as `null` for rows without Stage 7 error query), `paired_data.jsonl` (only rows where a correct query has a paired error query), and `summary.json` (generation statistics for this category). The dataset is intended for research on personalized product search, query generation, error query robustness, and retrieval evaluation. The queries are synthetic outputs generated from user/product signals in the local Personal Query pipeline, and the error queries are generated by injecting user-specific writing error patterns.

提供机构：

xxxxdszz

搜集汇总

数据集介绍

构建方式

该数据集源于针对宠物用品类别的个性化商品搜索查询生成流程。构建过程遵循多阶段流水线设计：首先在第六阶段生成精准的用户查询，随后在第七阶段依据用户特有的错误模式，为匹配的查询注入个性化的错误变体。第五阶段则负责刻画用户画像的复杂度层级，为后续生成提供上下文信息。最终产出涵盖正确查询与配对错误查询的完整记录，并以JSONL格式存储，同时辅以统计摘要文件。

特点

数据集包含超过四万条查询记录，其中约两千五百条拥有配对错误查询，其余为纯净正确查询。查询按‘深’与‘广’两种类别均衡分布，各占半数。用户画像复杂度层级从0至3递进，覆盖从简到繁的多样化场景。每条记录详列用户标识、产品标识、查询类型、复杂度级别、所用属性及错误注入元数据，为个性化搜索中的鲁棒性研究提供了丰富而细致的标注信息。

使用方法

研究者可通过HuggingFace Datasets库便捷加载数据，支持‘full’与‘paired’两种配置，分别获取全部查询记录和仅含配对查询的子集。该数据集适用于个性化商品搜索、查询生成、错误查询鲁棒性分析及检索评估等研究方向。使用时需注意查询为合成生成，且外部重用前应核查上游数据的许可与再分发要求。

背景与挑战

背景概述

随着电子商务的蓬勃发展，个性化产品搜索成为提升用户体验与转化率的关键技术。由研究团队通过Personal Query流水线构建的“personal-query-pet-supplies”数据集于近期发布，专注于宠物用品类别的个性化搜索查询。该数据集由四个阶段生成：从用户画像复杂度评估（Stage 5）到正确查询生成（Stage 6），再到错误模式注入生成用户专属错误查询（Stage 7），最终形成包含40814条记录的高质量合成数据。数据集覆盖深度查询（deep）与广度查询（wide）两类，复杂度层级从0到3级，为个性化搜索、查询生成、错误鲁棒性及检索评估等研究提供了标准化基准。其影响力在于填补了真实用户特定错误模式与个性化查询交叉领域的数据空白，推动了电子商务搜索引擎对用户个体差异的建模能力。

当前挑战

该数据集致力于解决个性化产品搜索中的领域问题挑战：传统搜索系统难以有效融合用户历史行为与产品属性，导致结果同质化，而本数据集通过注入用户特定的书写错误模式（如拼写或语法变异），模拟真实场景下的查询偏差，评估模型的纠错与鲁棒性。然而，构建过程面临多重挑战：一是合成数据的真实性验证，需确保生成查询与用户画像复杂度一致，避免脱离实际行为模式；二是错误模式的多样性覆盖，需从有限用户信号中提取普遍规律，避免过拟合；三是数据规模与质量平衡，仅2589对错误查询配对样本（占总数6.3%）揭示了长尾分布下的标注困难，复杂层级越高（如deep:3仅2065条）样本稀疏性加剧模型泛化风险。

常用场景

经典使用场景

在信息检索与个性化搜索的研究领域中，Personal Query: Pet Supplies数据集为探究用户行为与查询意图的多样性提供了坚实的实验基础。该数据集涵盖四万余条针对宠物用品类别的合成查询，按查询类型划分为深度查询与广度查询，并标注了用户画像的复杂度层级。经典使用场景包括基于用户历史画像的个性化查询生成、查询纠错与鲁棒性研究，以及检索结果质量评估。通过对比正确查询与注入用户书写错误的变形查询，研究者能够系统性地分析查询噪声对检索效果的干扰，并训练更具适应性的检索模型。

衍生相关工作

该数据集催生了一系列具有代表性的学术工作，例如基于用户画像的深度查询生成模型，通过引入注意力机制与多任务学习范式，成功融合用户复杂度特征与商品属性信息，生成高度定制化的查询语句。此外，在查询鲁棒性研究方面，衍生工作聚焦于错误注入策略的自动发现与纠正，通过端到端的生成-判别模型，实现了在无监督条件下对用户书写错误的检测与修复。另有工作利用该数据集的配对样本，设计对比学习框架以增强检索模型对查询变体的抗干扰能力，推动了个性化搜索技术在真实场景中的落地应用。

数据集最近研究