arabic-ecom-search-bench

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/prestoai/arabic-ecom-search-bench

下载链接

链接失效反馈

官方服务：

资源简介：

ArabicEcomSearchBench 是一个用于评估阿拉伯语电子商务端到端检索系统的基准数据集，涵盖词汇、密集、混合和多阶段检索流程。该数据集填补了现有阿拉伯语NLP基准的空白，专注于电子商务目录搜索的实际需求，包含现代标准阿拉伯语（MSA）和利比亚方言的真实查询。数据集包含29,014条查询、107,041个产品条目和262,599条相关性判断，其中包含96,510个硬负样本。相关性评分分为5级（3为完全匹配，-1为硬负样本）。数据集适用于评估检索系统的端到端性能，支持多种评价指标如nDCG、Recall、MRR等。数据以JSONL和TSV格式提供，包含查询、候选产品和语料库文件。

创建时间：

2026-04-02

原始信息汇总

ArabicEcomSearchBench 数据集概述

数据集简介

ArabicEcomSearchBench 是一个用于端到端阿拉伯语电子商务检索系统评估的基准数据集，涵盖词汇、密集、混合和多阶段检索流程。它专注于评估客户在实际电子商务目录搜索中体验的完整搜索流程质量。

数据集核心特征

任务类型：端到端检索系统评估。
领域：电子商务目录搜索。
语言：现代标准阿拉伯语 (MSA) 和利比亚方言。
数据规模：
- 查询数量：29,014
- 语料库项目：107,041
- 总相关性判断：262,599
- 困难负样本 (score=-1)：96,510
- 正样本判断 (score 1-3)：162,549
相关性量表：
- 3分：完全匹配——文本或语义与查询意图匹配。
- 2分：相关——相关但不完全匹配。
- 1分：部分相关——有间接关系。
- 0分：不相关——与查询无有意义关联。
- -1分：困难负样本——视觉/文本相似但不相关（仅用于诊断）。

文件结构

arabic-ecom-search-bench/ ├── README.md ├── evaluate.py ├── data/ │ ├── candidates.jsonl │ ├── queries.jsonl │ ├── corpus.jsonl │ ├── qrels.tsv │ ├── meta.json │ └── convert.py └── examples/ └── meilisearch/ └── sync_meilisearch_documents.py

数据格式说明

candidates.jsonl：每行一个JSON对象，包含查询ID、查询文本及其候选产品列表（含相关性分数）。
qrels.tsv：TREC格式的相关性判断文件。
queries.jsonl：查询ID到查询文本的映射。
corpus.jsonl：项目ID到产品阿拉伯语名称和类别的映射。

评估指标

主要指标（基于相关性分数0-3）

nDCG@k：归一化折损累积增益。
Recall@k：前k个结果中找到的相关项目比例。
MRR@k：平均倒数排名。
Success@k (HitRate)：前k个结果中是否出现任何相关项目。
Precision@k：前k个结果中相关项目的比例。
ERR@k：期望倒数排名。

困难负样本诊断指标（分数-1）

HardNegative@k：前k个结果中的困难负样本数量。
HN-rate@k：前k个结果中困难负样本的比例。
HN-first-rank：第一个困难负样本出现的排名。

使用流程

索引语料库：将 data/corpus.jsonl 中的文档索引到目标搜索引擎。
执行查询：对 data/queries.jsonl 中的所有查询进行搜索。
生成结果文件：按照指定格式输出检索结果。
运行评估：使用 evaluate.py 脚本对结果进行评估。

预期用途

本基准用于评估面向客户的阿拉伯语电子商务端到端搜索和检索系统，不限制底层技术（词汇、密集、混合、多阶段或其任意组合）。

局限性

产品目录：基于单一电子商务平台的目录，类别分布可能无法泛化到所有阿拉伯语市场。
方言覆盖：目前涵盖MSA和利比亚方言。埃及、海湾、黎凡特和马格里布方言计划在未来版本中添加。
相关性判断：通过启发式和基于LLM的标注结合生成，并经过部分人工验证。可能存在一些边缘情况。

引用

如果使用此基准，请引用： bibtex @misc{arabicecomsearchbench2025, title={ArabicEcomSearchBench: A Benchmark for End-to-End Arabic E-Commerce Retrieval}, author={Mohamed Okasha and AbuBaker Naji}, year={2025}, url={https://huggingface.co/datasets/presto-ai/ArabicEcomSearchBench} }

许可证

基准数据和评估代码出于研究和评估目的发布。

搜集汇总

数据集介绍

构建方式

阿拉伯电子商务搜索基准数据集的构建过程体现了对现实场景的精细化模拟。该数据集以真实的电子商务产品目录为基础，涵盖了超过十万个商品条目，并收集了近三万条用户查询，这些查询同时包含现代标准阿拉伯语和利比亚方言，以反映阿拉伯语使用者的实际搜索习惯。数据标注采用了五级分级相关性判定机制，从完全匹配到无关，并特别引入了近十万条硬负样本，这些样本在视觉或文本上相似但实际不相关，专门用于诊断检索系统的常见错误。整个标注流程结合了启发式规则、大语言模型自动标注以及部分人工验证，确保了相关性判断的准确性与实用性。

特点

本数据集的核心特点在于其专注于电子商务领域的端到端检索系统评估，而非孤立地测试嵌入模型或相似度计算。它突破了现有阿拉伯语基准多局限于通用领域和现代标准阿拉伯语的局限，首次系统性地引入了方言数据，并严格模拟了商品目录搜索的意图模式和相关性期望。数据集规模庞大，包含超过二十六万条相关性判定，并提供了丰富的评估指标，如nDCG、召回率及针对硬负样本的诊断性指标。这种设计使得研究者能够全面评估从索引、检索到排序的完整搜索流水线在真实商业环境下的表现。

使用方法

使用该数据集进行评估，首先需将提供的商品语料库索引至目标搜索引擎中。语料库以JSONL格式提供，包含商品ID、阿拉伯语商品名称及类别信息。研究者需根据所选引擎（如Meilisearch、Elasticsearch或Typesense）的规范，配置可搜索与可过滤字段，并批量导入数据。随后，加载查询文件，对每条查询执行检索，并保存返回的有序结果列表。最后，运行配套的评估脚本，将检索结果与标准相关性文件进行比对，即可生成涵盖多种核心指标和硬负样本诊断指标的详细报告，从而量化检索系统的整体效能。

背景与挑战

背景概述

随着电子商务在全球范围内的蓬勃发展，阿拉伯语地区的在线购物市场展现出巨大潜力，然而针对阿拉伯语的电子商务检索系统评估长期面临空白。现有自然语言处理基准如STS系列和MTEB主要聚焦于嵌入层面的通用任务评估，如语义相似度或分类，缺乏对端到端检索流程在特定商业场景下的真实性能考量。在此背景下，由Mohamed Okasha与AbuBaker Naji等人于2025年推出的ArabicEcomSearchBench数据集应运而生，旨在填补这一关键缺口。该数据集专注于阿拉伯语电子商务目录搜索，涵盖现代标准阿拉伯语（MSA）及利比亚方言的真实查询，包含超过2.9万条查询、10.7万种商品及26万条相关性标注，其核心研究问题在于如何系统评估从索引到排序的完整检索流程在真实商业环境中的效果，为阿拉伯语信息检索与电子商务交叉领域的研究与实践提供了重要的评估基础。

当前挑战

该数据集致力于解决阿拉伯语电子商务检索这一特定领域问题的挑战，其核心在于如何准确评估端到端检索系统在真实用户查询下的性能，尤其是处理多语言变体（如方言与标准语）及商业场景中复杂的相关性层次。构建过程中面临的挑战主要包括：首先，在数据收集与标注方面，需要获取大量真实且多样化的电子商务查询与商品目录，并设计适用于目录搜索的五级分级相关性标准，同时还需识别并标注近十万条难以区分的困难负样本以提升评估的诊断能力；其次，在语言覆盖层面，需平衡现代标准阿拉伯语与具体方言（如利比亚方言）的代表性，以反映实际用户的搜索行为，而现有资源往往缺乏方言数据。这些挑战共同塑造了数据集的构建难度与学术价值。

常用场景

经典使用场景

在阿拉伯语电子商务搜索领域，ArabicEcomSearchBench数据集为评估端到端检索系统提供了标准化测试环境。该数据集通过覆盖现代标准阿拉伯语和利比亚方言的真实查询，模拟了用户在产品目录中的搜索行为，使研究人员能够全面测试从索引构建到结果排序的完整检索流程。其包含的十万余条产品条目与分级相关性标注，为衡量检索质量提供了细致入微的评估基准，尤其适用于检验系统在复杂查询和多语言变体下的表现。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作，主要集中在跨语言检索适配和混合检索系统优化方向。部分研究利用其分级标注机制改进了阿拉伯语检索中的相关性排序模型，特别是针对电商场景的语义匹配算法。另有工作基于其多方言特性开发了方言自适应检索框架，通过迁移学习提升对利比亚方言的泛化能力。这些衍生研究不仅推动了阿拉伯语信息检索技术的发展，也为其他低资源语言检索系统的构建提供了可借鉴的方法论。

数据集最近研究