Amazon’s ESCI dataset

github2024-09-09 更新2024-09-11 收录

下载链接：

https://github.com/AlexBlazee/AmazonProductSearch

下载链接

链接失效反馈

官方服务：

资源简介：

Amazon的ESCI数据集包含约180万种产品和260万条搜索查询，用于多语言混合产品搜索应用程序。数据集经过采样和清洗，以适应Pinecone向量数据库的使用。

The Amazon ESCI Dataset contains approximately 1.8 million products and 2.6 million search queries, and is tailored for multilingual hybrid product search applications. The dataset has been sampled and cleaned to be compatible with Pinecone vector databases.

创建时间：

2024-09-09

原始信息汇总

AmazonProductSearch 数据集概述

数据集来源

数据集名称: Amazon’s ESCI dataset
数据集链接: https://github.com/amazon-science/esci-data
数据规模: 约180万产品，260万搜索查询

数据预处理与清洗

数据采样:
- 删除包含NaN值的产品行
- 英语数据集: 437,953个产品，产品地区为us
- 多语言数据集: 基于策略选择，从品牌中选择10个产品，共422,015个产品
数据清洗:
- 移除HTML脚本、表情符号等

嵌入模型

混合搜索: 使用稀疏和密集嵌入
稀疏嵌入模型:
- BM25 from pinecone
密集嵌入模型:
- 英语模型:
  - Voyage AI – voyage-large-2-instruct (1024维)
  - AllMini – all-MiniLM-L6-v2 (384维)
- 多语言模型:
  - Voyage AI – voyage-multilingual-2 (1024维)
  - LaBSE (768维)

向量数据库

Pinecone

重排序模型

Jina AI’s – jina-reranker-v2-base-multilingual

评估数据

策略: 随机选择10K简单查询和5K复杂查询
数据量: 约30K简单查询和15K复杂查询

评估器

功能:
- 单查询评估
- 并行评估
- 批量并行评估

评估指标

Hit_rate @ (1,5,10)
Hits @ (1,5,10)
Precision @ (1,5,10)
Recall @ (1,5,10)
F1 @ (1,5,10)
MRR

结果

英语: 结果图示
多语言: 结果图示

搜集汇总

数据集介绍

构建方式

在构建Amazon’s ESCI数据集时，研究者采用了大规模的数据采样策略，涵盖了约180万种产品和260万条搜索查询。数据预处理阶段，针对计划使用Pinecone作为向量数据库的考量，剔除了含有缺失值的产品行，确保数据集的完整性。具体而言，英文数据集筛选出437,953种产品，而多语言数据集则通过策略性选择，最终包含422,015种产品。此外，数据清洗过程中移除了HTML脚本和表情符号等非文本元素，以确保数据质量。

使用方法

使用Amazon’s ESCI数据集时，研究者可以利用其丰富的产品信息和搜索查询数据，构建高效的推荐系统和搜索引擎。数据集支持单查询和批量查询搜索，特别适用于在免费层级下使用专有嵌入模型时，通过批处理避免速率限制。此外，数据集还提供了详细的评估数据和评估工具，支持单查询、并行查询和批量并行查询的评估，涵盖了多种评估指标如命中率、精确度、召回率和F1分数，便于研究者全面评估模型性能。

背景与挑战

背景概述

Amazon’s ESCI数据集由亚马逊科学团队创建，旨在推动产品搜索和推荐系统的发展。该数据集包含约180万种产品和260万条搜索查询，涵盖多语言环境，特别是英语和多语言混合场景。其核心研究问题在于如何通过语义和句法分析，提升产品搜索的准确性和用户体验。该数据集的发布对电子商务领域的研究具有重要意义，为研究人员提供了一个丰富的资源库，以探索和优化搜索算法。

当前挑战

Amazon’s ESCI数据集在构建和应用过程中面临多项挑战。首先，数据集的规模庞大，涉及多语言处理，这要求高效的预处理和清洗技术。其次，如何在有限的计算资源下，实现高维度的向量嵌入和检索，是一个技术难题。此外，评估推荐系统的性能时，如何确保评估指标的全面性和准确性，也是一个重要的挑战。最后，如何在实际应用中，特别是在电子商务场景下，实现快速且准确的产品推荐，是该数据集需要解决的关键问题。

常用场景

经典使用场景

Amazon’s ESCI数据集在产品搜索领域展现了其经典应用场景，尤其在多语言和多模态的混合搜索中。通过结合Pinecone向量数据库和Voyage嵌入模型，该数据集能够实现高效的语义和句法搜索。此外，数据集支持批量查询处理，这对于在免费层级上使用专有嵌入模型时避免速率限制尤为重要。

解决学术问题

Amazon’s ESCI数据集解决了电子商务领域中多语言产品搜索的复杂性问题。通过提供大规模的产品和搜索查询数据，该数据集为研究人员提供了丰富的资源，以探索和优化多语言环境下的搜索算法。其对精确度、召回率、F1分数和MRR等指标的评估，进一步推动了相关算法的学术研究。

实际应用

在实际应用中，Amazon’s ESCI数据集被广泛用于构建和优化电子商务平台的产品推荐系统。通过集成Pinecone向量数据库和多语言嵌入模型，企业能够提供更精准和多样化的搜索结果，从而提升用户体验和销售转化率。此外，数据集的批量处理能力也使其在处理大规模查询时表现出色。

数据集最近研究