MERIT

github2025-07-26 更新2025-07-27 收录

下载链接：

https://github.com/weichow23/merit

下载链接

链接失效反馈

官方服务：

资源简介：

MERIT是第一个用于交错多条件语义检索的多语言数据集，包含320,000个查询和135,000个产品，覆盖5种语言和7种不同的产品类别。

MERIT is the first multilingual dataset designed for interleaved multi-conditional semantic retrieval. It contains 320,000 queries and 135,000 products, covering 5 languages and 7 distinct product categories.

创建时间：

2025-07-10

原始信息汇总

MERIT: 多语言交错多条件查询语义检索数据集

数据集概述

名称: MERIT (Multilingual Semantic Retrieval with Interleaved Multi-Condition Query)
类型: 多语言语义检索数据集
规模:
- 320,000条查询
- 135,000个商品
语言: 5种语言
商品类别: 7个不同类别

数据集特点

首个支持交错多条件查询的多语言语义检索数据集
查询包含多个图像和文本条件的组合
覆盖多种商品属性和类别

数据集结构

训练集:
- train_products: 训练商品数据
- queries-train.json: 训练查询数据
测试集:
- test_products: 测试商品数据
- queries-test.json: 测试查询数据

数据字段

商品数据:
- idx: 商品ID
- image: 商品图片
- title: 商品标题
- class: 商品类别
- country: 国家
- language: 语言
- attribute: 商品属性
查询数据:
- query instruction: 查询指令
- query: 查询商品列表
- pos_candidate: 正样本候选商品列表

下载与使用

下载地址: HuggingFace数据集
加载方式: python from datasets import load_dataset train_products = load_dataset("WeiChow/merit")["train"] test_products = load_dataset("WeiChow/merit")["test"]

评估指标

使用MRR(Mean Reciprocal Rank)作为主要评估指标
评估脚本位于annotator/utils.py中的calculate_mrr函数

相关资源

论文: arXiv:2506.03144
项目主页: MERIT主页
许可证: Apache 2.0

搜集汇总

数据集介绍

构建方式

在跨语言语义检索研究领域，MERIT数据集的构建采用了多阶段协同标注的范式。研究团队首先通过开放式标签生成系统筛选关键属性值，并利用GPT模型进行二次过滤，形成结构化属性卡片库。基于此，采用自动化脚本对135,000个商品进行多维度标注，涵盖图像、标题、类别等7种商品属性。查询语句的生成创新性地采用组合式构建策略，既支持基于商品特征的人工智能组合生成，也提供相似商品直接匹配的冷启动方案，最终通过人工校验确保320,000条跨5种语言查询的质量。为增强数据可靠性，专门设计了机械过滤模块和OOD数据划分机制。

特点

作为首个支持交错多条件查询的多语言语义检索数据集，MERIT展现出显著的学术价值。其核心优势在于覆盖中文、英语等5种语言体系，每个查询平均包含2.6个视觉-文本混合条件，真实模拟电商等复杂检索场景。数据规模达到32万查询-13.5万商品的量级，均匀分布在7大商品类别。特别值得注意的是，该数据集突破了传统单模态检索的局限，要求模型同时处理多图像交叉引用和跨语言语义对齐，其构建过程中发现的全局语义与细粒度条件间的张力，为后续研究提供了重要启示。

使用方法

该数据集通过HuggingFace平台提供标准化访问接口，支持灵活的数据加载方式。典型使用流程包含三个关键环节：首先通过huggingface-cli工具下载结构化数据，包含训练集和测试集商品库及对应查询；继而利用产品索引映射构建高效检索系统，其中商品数据以JSON格式存储图像URL、多语言标题等关键字段；最终通过定制化评估模块计算MRR等检索指标。为提升使用效率，官方提供预处理工具链，包括图像本地缓存优化方案和并行处理建议。实验人员可通过组合查询指令、商品视觉特征和属性条件，构建端到端的跨模态检索评估系统。

背景与挑战

背景概述

MERIT数据集由字节跳动与浙江大学联合团队于2025年推出，作为首个支持多语言交错多条件查询的语义检索基准，填补了现有研究局限于单语言、单图像或单一检索条件的空白。该数据集包含32万条跨5种语言的查询指令与13.5万件商品数据，覆盖7大商品类别，其创新性在于模拟真实场景中用户混合使用多图、多模态条件的复杂查询需求。通过引入商品属性标注框架与个性化指令生成机制，MERIT显著提升了视觉信息在语义检索中的表达效率，为多语言跨模态检索领域建立了新的评估标准。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，现有模型难以捕捉交错查询中的细粒度条件元素，仅关注全局语义导致检索准确率下降45.9%；在构建过程中，需解决多语言商品属性对齐、跨模态查询组合优化等难题，通过融合开放式标注与GPT过滤机制确保数据质量。此外，商品SPU-SKU层级关系建模与冷启动查询合成也构成显著技术壁垒。

常用场景

经典使用场景

在跨语言和多模态信息检索领域，MERIT数据集为研究者提供了一个独特的实验平台，特别适用于处理包含多图像、多条件的复杂查询场景。该数据集通过整合五种语言的13.5万商品数据和32万查询实例，覆盖了七种商品类别，为评估模型在真实电商环境下的语义理解能力提供了标准化的测试基准。其典型应用包括训练和验证多语言多模态检索模型在用户输入混合图像和文本条件时的表现，例如当用户同时使用中文描述和产品图片搜索特定商品时，模型能否准确捕捉跨模态语义关联。

衍生相关工作

基于MERIT数据集的研究已催生多项创新成果，其中最典型的是Coral微调框架。该框架通过嵌入重建保留查询细粒度特征，结合对比学习提取全局语义，在MERIT基准上实现45.9%的性能提升。相关工作还衍生出多模态条件注意力机制、跨语言对齐增强方法等技术路线，这些成果在CLIP、ALBEF等8个主流检索模型上的迁移实验验证了其普适性。数据集建立的评估标准也促进了Retrieval-Augmented Generation等领域的新研究范式。

数据集最近研究