aifindr-search-eval

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/theagilemonkeys/aifindr-search-eval

下载链接

链接失效反馈

官方服务：

资源简介：

AIFindr Search 评估数据集是为搜索研究项目开发的评估资源，主要包含带标注的查询-商品相关性判断、评估查询集、商品目录词汇表以及实验结果。数据集采用 Apache-2.0 许可，专注于电子商务和时尚领域的搜索评估任务，支持英语和西班牙语。数据规模介于1K到10K之间，包含多个版本（v5/v6）的标注数据集、基础查询集（v4）和扩展查询集（v6）、用于过滤器生成的商品目录词汇、GPT-5.2生成的查询过滤器和扩展，以及评估结果和显著性测试。数据集可通过Hugging Face的load_dataset函数或配套下载脚本获取。

创建时间：

2026-02-13

原始信息汇总

AIFindr Search — 评估数据集概述

数据集基本信息

许可证：Apache 2.0
主要任务类别：文本检索
语言：英语、西班牙语
标签：电子商务、时尚、搜索、评估
数据规模：1K<n<10K

数据集内容

v5/ 与 v6/：包含ESCI分级相关性判断的带标注数据集。
queries/：评估查询集（v4基础版与v6扩展版）。
catalog/：用于过滤器生成的产品目录词汇表。
filters/：由GPT-5.2生成的查询过滤器与扩展。
results/：评估结果与显著性检验。

使用方法

可通过 datasets 库加载数据： python from datasets import load_dataset ds = load_dataset("theagilemonkeys/aifindr-search-eval", data_files="v6/labeled-dataset-v6.json")

或使用配套下载脚本： bash cd research && uv run python experiments/tools/download_data.py --repo eval

搜集汇总

数据集介绍

构建方式

在电子商务搜索评估领域，该数据集通过系统化的标注流程构建而成。其核心部分包含ESCI（Exact, Substitute, Complement, Irrelevant）分级的相关性判断，由专业标注人员依据严格的准则对查询与产品之间的关联程度进行人工标注。数据来源于真实的电商平台产品目录，涵盖了时尚领域的多样化商品，确保了评估场景的真实性与代表性。标注过程经过多轮迭代与质量控制，形成了v5和v6两个版本，每个版本均包含结构化的查询-产品对及其对应的相关性标签，为搜索算法提供了可靠的评估基准。

特点

该数据集在电商搜索评估中展现出鲜明的专业特性。其采用ESCI分级体系，精细区分了精确匹配、替代品、互补品及无关产品四类相关性，超越了传统的二元相关判断，能够更细致地评估搜索系统的性能。数据集覆盖英语和西班牙语双语言环境，并专注于时尚商品领域，提供了丰富的查询集与产品词汇表。此外，数据集还包含了由先进语言模型生成的查询过滤与扩展信息，以及完整的实验结果与显著性检验数据，构成了一个从原始标注到最终分析的全链条评估资源。

使用方法

对于希望评估或改进电商搜索系统的研究者与开发者，该数据集提供了便捷的接入方式。用户可通过Hugging Face的`datasets`库直接加载指定版本的数据文件，例如加载v6版本的标注数据集。数据集的结构化设计便于用户提取查询、产品信息及对应的ESCI标签，用于训练或测试检索模型的相关性排序能力。配套的下载脚本与实验工具进一步简化了数据获取与复现流程。用户可基于提供的查询集、产品目录和过滤条件，构建复杂的搜索评估实验，并利用已有的结果数据进行对比分析与验证。

背景与挑战

背景概述

在电子商务与信息检索的交叉领域，商品搜索系统的性能评估一直是推动技术进步的核心驱动力。aifindr-search-eval数据集由The Agile Monkeys团队构建，专注于时尚电商场景下的搜索相关性评估。该数据集旨在为查询-产品相关性判断提供精细标注，采用ESCI（Exact, Substitute, Complement, Irrelevant）分级体系，以支持搜索算法在真实商业环境中的精准优化。其发布标志着电商搜索评估从通用性向领域专业化的深化，为学术界与工业界提供了衡量搜索系统有效性的关键基准，促进了检索模型在复杂商品匹配任务上的可解释性与可靠性研究。

当前挑战

该数据集致力于解决时尚电商领域中查询-产品相关性评估的挑战，其核心在于如何准确捕捉用户模糊查询意图与多样化商品属性之间的复杂匹配关系。构建过程中，挑战主要体现在标注一致性上：时尚商品的主观性与语境依赖性使得ESCI分级标注极易产生歧义，需要标注者具备领域专业知识以确保判断的可靠性。此外，电商数据的动态性——如商品上下架频繁、描述文本非结构化——也为构建稳定且具代表性的评估集带来困难，要求数据集设计能适应快速变化的商品目录与用户行为模式。

常用场景

经典使用场景

在电子商务与时尚领域的文本检索研究中，aifindr-search-eval数据集常被用于评估搜索系统的相关性排序性能。该数据集提供了带有ESCI分级标签的查询-产品对，涵盖了英语和西班牙语两种语言，使研究人员能够系统地测试检索模型在跨语言时尚商品搜索中的准确性和鲁棒性。其核心应用场景包括构建基准测试平台，以量化不同算法在理解用户查询意图、匹配产品属性方面的效能，从而推动搜索技术在实际电商环境中的优化。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在增强型检索模型的开发与评估框架的创新上。例如，研究人员利用其多语言标签探索了跨语言预训练模型在时尚搜索中的迁移学习效果，或结合ESCI分级设计了更细粒度的损失函数。此外，基于数据集提供的查询过滤和扩展资源，部分研究聚焦于生成式检索与交互式搜索系统的构建，推动了检索技术与自然语言处理的交叉融合，为后续的垂直领域搜索基准树立了参考范式。

数据集最近研究