bag-of-documents

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/dtunkelang/bag-of-documents

下载链接

链接失效反馈

官方服务：

资源简介：

Bag-of-Documents: 产品搜索数据集是一个基于亚马逊产品数据的大规模文档袋数据集，专为电子商务产品搜索设计。该数据集通过嵌入空间中的相关产品分布来表示每个搜索查询，具体表现为一个中心向量和一个特异性分数。中心向量代表查询的含义，特异性分数则反映查询的宽泛程度（高特异性表示如“hp笔记本16gb内存”这样的具体查询，低特异性表示如“笔记本”这样的宽泛查询）。数据集包含约600万产品（占所有33个类别中3000万产品的20%样本）和约7.5万带有文档袋的查询（来自亚马逊ESCI，美国地区）。支持的任务包括检索模型训练、特异性预测和搜索评估。数据集结构包括JSONL格式的文档袋和Parquet格式的产品信息，嵌入维度为384。数据集创建过程中使用了亚马逊评论2023和亚马逊购物查询数据集作为源数据，并通过混合检索和交叉编码器评分构建文档袋。已知限制包括对型号数字的敏感性、类别覆盖范围以及ESCI召回率。数据集遵循MIT许可证，适用于研究用途。

Bag-of-Documents: Product Search Dataset is a large-scale bag-of-documents dataset based on Amazon product data, specifically designed for e-commerce product search. This dataset represents each search query via the distribution of relevant products in the embedding space, manifested as a centroid vector and a specificity score. The centroid vector represents the semantic meaning of the query, while the specificity score reflects the broadness of the query: high specificity refers to specific queries such as "HP 16GB RAM laptops", while low specificity refers to broad queries such as "laptops". The dataset contains approximately 6 million products (20% sampled from 30 million products across all 33 categories) and about 75,000 bag-of-documents-equipped queries sourced from the Amazon ESCI dataset for the U.S. region. Supported tasks include retrieval model training, specificity prediction, and search evaluation. The dataset structure includes bag-of-documents files in JSONL format and product information files in Parquet format, with an embedding dimension of 384. The dataset was created using the 2023 Amazon Customer Reviews and Amazon Shopping Queries datasets as source data, and bag-of-documents were constructed via hybrid retrieval and cross-encoder scoring. Known limitations include sensitivity to model numbers, category coverage, and ESCI recall rates. The dataset is released under the MIT License and is intended for research use only.

创建时间：

2026-04-19

原始信息汇总

Bag-of-Documents: Product Search Dataset 概述

数据集基本信息

名称: Bag-of-Documents: Product Search Dataset
发布者: Daniel Tunkelang, Aritra Mandal
发布日期: 2026年
许可证: MIT
语言: 英语（美国）
任务类别: 句子相似度、特征提取
标签: 电子商务、产品搜索、bag-of-documents、sentence-transformers、检索
数据规模: 10K<n<100K

数据集简介

这是一个用于电子商务产品搜索的大规模“文档袋”数据集，基于亚马逊产品数据构建。每个搜索查询被表示为嵌入空间中相关产品的分布，通过一个质心向量和一个特异性分数来捕获。

质心: 产品嵌入空间中的平均方向，代表查询的含义。
特异性: 分布的紧密程度（高值表示如“hp laptop 16gb ram”的窄查询，低值表示如“laptop”的宽查询）。

数据集统计

项目	数量
产品	约600万（来自所有33个类别的约3000万产品的20%随机样本）
带有“文档袋”的查询	约7.5万（来自亚马逊ESCI，美国地区）
嵌入维度	384
类别	全部33个亚马逊类别

支持的任务

检索模型训练: 微调嵌入模型，以从查询文本预测“文档袋”质心，从而生成专门用于产品搜索的查询编码器。
特异性预测: 使用“文档袋”质心的k近邻算法预测查询是宽泛还是狭窄。
搜索评估: 使用“文档袋”质心作为真实查询表示来比较检索模型。

数据集结构

Bags (JSONL格式)

每个“文档袋”是一个JSON对象，包含以下字段：

query: 查询文本。
num_results: 结果数量。
query_vector: 384维归一化质心向量。
specificity: 特异性分数。
results: 相关产品标题列表。

Products (Parquet格式)

包含产品标题、类别和品牌元数据，使用微调后的all-MiniLM-L6-v2模型进行嵌入。

ESCI评估

与亚马逊购物查询数据集交叉引用，用于外部评估检索质量。

数据集创建

源数据

产品: 来自Amazon Reviews 2023（McAuley Lab, UCSD；数据收集于1996-2023年）。在所有33个类别中，对完整目录进行20%随机抽样（约3000万独特产品中的约600万）。
查询: 来自Amazon Shopping Queries Dataset（ESCI，KDD Cup 2022）的所有7.5万条美国地区查询，涵盖所有产品类别的真实亚马逊搜索查询。

“文档袋”构建流程

混合检索: 结合关键词检索和FAISS嵌入相似性。
交叉编码器评分: 使用LiYuan/Amazon-Cup-Cross-Encoder-Regression模型（基于ESCI数据训练的RoBERTa模型）对所有候选产品评分，阈值设为0.3。
生成“文档袋”: 取前50个通过阈值的候选产品，编码后计算质心和特异性。

微调

“文档袋”质心作为查询编码器的训练目标：

基础模型: all-MiniLM-L6-v2
损失函数: 模型输出与“文档袋”质心之间的均方误差（余弦距离）
结果: 与真实质心的余弦相似度从0.787提升至0.914

注意事项

已知限制

型号数字敏感性: 例如，“iphone 6”可能检索到iPhone 7/8产品。MiniLM嵌入不能很好地区分数值标识符。
类别覆盖范围: 当前数据集覆盖了完整目录的20%随机样本。扩展到100%需要更多计算资源。
ESCI召回率: 所有模型的召回率都较低，因为从600万产品中检索前50名只覆盖了已标注产品的一小部分。精确度是更有意义的指标。

伦理考虑

产品数据来自公共学术数据集（McAuley Lab），仅供研究使用。
不包含用户行为数据、个人信息或购买历史。
查询-产品相关性判断来自亚马逊的公共ESCI基准。

引用

如果使用此数据集，请引用：

@misc{tunkelang2026bagdocs, title={Bag-of-Documents: Product Search Dataset}, author={Daniel Tunkelang and Aritra Mandal}, year={2026}, url={https://huggingface.co/datasets/dtunkelang/bag-of-documents} }

相关资源

博客文章: Distilling Retrieval Pipelines to a Single Embedding Model
在线演示: https://huggingface.co/spaces/dtunkelang/bag-of-documents-demo
代码仓库: https://github.com/dtunkelang/bag-of-documents

搜集汇总

数据集介绍

构建方式

在电子商务信息检索领域，构建高质量的训练数据对于提升产品搜索性能至关重要。该数据集的构建过程始于对亚马逊产品评论数据集的系统采样，从中随机抽取了约六百万个产品条目，覆盖全部三十三个商品类别。查询数据则源自亚马逊购物查询数据集，囊括了七万五千条真实用户搜索记录。核心的“文档袋”生成流程融合了混合检索策略，首先通过关键词匹配与向量相似度检索候选产品，继而利用经过ESCI数据训练的交叉编码器模型进行精细化相关性评分，筛选出相关性阈值超过零点三的候选产品。最终，基于这些高相关性产品的嵌入向量，计算其均值方向作为查询的质心向量，并量化分布的紧密度作为查询特异性指标，从而将复杂的检索管道蒸馏为可学习的嵌入表示。

特点

该数据集在电子商务搜索研究领域呈现出若干鲜明特征。其核心创新在于将传统基于点对点标注的查询-文档相关性，转化为基于分布表示的“文档袋”模型，每个查询由一个高维空间中的质心向量和一个特异性分数共同刻画。这种表示方法不仅捕捉了查询的语义内涵，还量化了其意图的宽泛程度，例如“笔记本电脑”与“惠普16GB内存笔记本电脑”在特异性上便存在显著差异。数据集规模庞大，包含数百万级的产品嵌入和数万条查询袋，且所有数据均基于真实的亚马逊搜索日志与产品目录，确保了研究场景的现实性与挑战性。此外，数据集与公开的ESCI基准紧密关联，为模型的外部评估与比较提供了可靠依据。

使用方法

该数据集主要服务于信息检索模型的训练与评估。研究人员可利用查询文本及其对应的质心向量作为监督信号，对预训练的句子嵌入模型进行微调，旨在训练一个能够直接从查询文本预测其语义质心的专用编码器，从而优化产品搜索的召回效果。数据集中的特异性分数可用于辅助分析查询意图的明确性，或作为特征训练分类模型以区分宽泛查询与具体查询。在评估层面，训练所得的检索模型可以通过计算其生成的查询嵌入与真实质心之间的余弦相似度来进行内在评估，同时也可借助外部的ESCI标注数据，通过标准的信息检索指标如精确度等，对模型在真实场景下的检索性能进行综合衡量。

背景与挑战

背景概述

在电子商务与信息检索领域，高效精准的产品搜索系统是提升用户体验与商业价值的关键。Bag-of-Documents数据集由Daniel Tunkelang与Aritra Mandal于2026年创建，其核心研究问题在于如何将复杂的检索流程蒸馏为单一的嵌入模型，以优化查询表示。该数据集基于亚马逊产品评论数据与购物查询数据集构建，通过将每个搜索查询建模为嵌入空间中相关产品的分布，即质心向量与特异性分数，为训练专用的查询编码器提供了大规模监督信号。这一创新方法推动了检索模型在商品搜索场景下的性能边界，对嵌入学习与检索系统研究产生了显著影响。

当前挑战

该数据集旨在解决电子商务产品检索中的查询表示与匹配挑战，其核心难题在于如何准确捕捉用户查询的语义意图，并区分宽泛与狭窄查询的匹配粒度。构建过程中的挑战包括：从海量产品目录中高效构建高质量查询-产品关联，需克服混合检索与交叉编码器评分带来的计算复杂度；同时，嵌入模型对数字标识符的敏感性不足，导致类似“iphone 6”的查询可能错误匹配相近型号。此外，数据规模扩展至全量目录面临显著的计算资源需求，而基于采样的评估也使得精确度量检索召回率变得复杂。

常用场景

经典使用场景

在电子商务信息检索领域，Bag-of-Documents数据集为产品搜索任务提供了创新的建模范式。该数据集将每个搜索查询表示为相关产品在嵌入空间中的分布，通过质心向量和特异性分数捕捉查询的语义内涵与范围广度。这一设计使得研究者能够直接利用查询质心作为监督信号，微调嵌入模型以学习专用于产品搜索的查询编码器，从而优化检索性能。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在检索模型的蒸馏与优化。例如，Tunkelang提出的《Distilling Retrieval Pipelines to a Single Embedding Model》系统阐述了利用文档包质心训练单一嵌入模型的方法。同时，数据集构建本身借鉴了KDD Cup 2022的ESCI基准与交叉编码器技术，相关研究进一步推动了基于稠密检索的查询表示学习，并在产品搜索领域催生了多篇聚焦于嵌入质量与检索效率的学术论文。

数据集最近研究