five

ProductSearchDataset

收藏
Hugging Face2025-04-04 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/lv12/ProductSearchDataset
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了两种类型的配置:pairs和triplets。在pairs配置中,数据集由查询、相关性、文档和元数据组成,适用于训练和测试两种split。而在triplets配置中,数据集由锚点、正例、负例、边缘和元数据组成,同样适用于训练和测试split。数据集提供了详细的示例数量和大小信息。
创建时间:
2025-04-04
搜集汇总
数据集介绍
main_image_url
构建方式
ProductSearchDataset通过整合多个开源电子商务平台的搜索数据构建而成,涵盖Google Shopping、Amazon ESCI、Wayfair等主流平台的商品检索记录。数据集采用双重配置结构:pairs配置包含查询-文档对及其相关性评分,triplets配置则采用锚点-正例-负例的三元组格式。原始数据经过标准化模板处理,保留标题、类别、属性和描述等关键字段,同时维持各来源的原始评分分布。数据采样策略因平台而异,多数相关性评分来自人工标注,仅Google Shopping采用系统检索结果自动生成。
特点
该数据集最显著的特征在于其多源异构性,融合了五个电子商务平台逾557万训练样本和146万测试样本。pairs配置提供精确的相关性评分,适用于监督学习;triplets配置则通过对比学习框架优化表示空间。数据字段设计具有高度可扩展性,采用模版化结构兼容不同来源的异构商品信息。值得注意的是,相关性评分虽经跨平台归一化处理,但仍保留各平台的原始分布特性,为研究跨域适应性提供了天然实验场。
使用方法
研究者可通过HuggingFace数据集库直接加载pairs或triplets配置,分别适用于不同的学习范式。pairs配置可直接用于训练基于相关性评分的检索模型,triplets配置则适合对比学习任务。使用时应特别注意不同数据源的评分标准差异,建议参考原始数据集文档理解各平台的标注方法论。数据加载后可通过模板解析器提取结构化商品信息,或直接使用原始文本字段进行端到端训练。该数据集兼容常见的PyTorch和TensorFlow生态工具链,可无缝集成至现代神经信息检索系统的训练流程。
背景与挑战
背景概述
ProductSearchDataset作为电子商务领域的重要语料库,由Marqo等机构于近年整合多源公开数据构建而成,旨在解决跨平台商品搜索的语义匹配难题。该数据集汇聚了Google Shopping、Amazon ESCI等五大电商平台的真实搜索交互记录,包含557万对查询-商品关联数据,其核心价值在于通过标准化模板统一异构商品信息,为表示学习任务提供基准。该资源的建立显著推动了细粒度相关性评估、跨域商品检索等研究方向的发展,成为电商搜索算法迭代的关键基础设施。
当前挑战
数据集面临多维度挑战:在领域问题层面,商品标题与描述的语义鸿沟、长尾查询的稀疏分布、跨平台相关性评分标准不统一等问题,制约着搜索模型的泛化性能;在构建过程中,原始数据存在标注噪声(如Marqo子集仅含系统召回结果)、属性字段缺失(如Wayfair缺少商品描述)、各源评分尺度差异等难题,需通过复杂的归一化与过滤策略处理。此外,如何平衡不同电商领域的数据分布,避免头部平台数据主导模型训练,亦是构建时需解决的关键问题。
常用场景
经典使用场景
在电子商务领域,ProductSearchDataset为商品搜索相关性研究提供了丰富的实验数据。该数据集通过整合Google Shopping、Amazon ESCI等多个平台的真实搜索记录,构建了包含查询-商品对和三元组的标准化格式,特别适用于训练和评估基于深度学习的语义匹配模型。研究人员可利用其海量的标注数据,探索查询意图理解与商品特征表示之间的复杂映射关系。
解决学术问题
该数据集有效解决了跨平台商品搜索中的语义鸿沟问题。通过提供多源归一化的相关性评分,研究者能够系统分析不同电商平台的查询-文档匹配机制差异。其标注体系为构建鲁棒性强的跨域商品检索模型奠定基础,显著推进了细粒度相关性预测、长尾查询处理等核心课题的研究进展。
衍生相关工作
基于该数据集衍生的研究已形成系列重要成果。在表示学习方向,催生了结合对比学习的商品嵌入方法;在检索系统优化领域,推动了基于多任务学习的相关性排序框架发展。部分工作进一步扩展了原始数据架构,构建了融合用户行为日志的增强版本,为个性化搜索研究开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作