five

MERIT

收藏
arXiv2025-06-04 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/WeiChow/merit
下载链接
链接失效反馈
官方服务:
资源简介:
MERIT是一个多语言语义检索数据集,包含来自7个不同产品类别的135,000种产品,以及5种语言的320,000个检索查询。数据集旨在模拟真实世界的多条件检索场景,其中用户通过文本和图像描述多个属性。MERIT的数据收集过程包括高质量产品选择、产品属性标注、检索查询构建和过滤优化。数据集的创建旨在解决现有检索模型在处理多条件查询和图像信息表达方面的局限性,并为未来研究提供基础。

MERIT is a multilingual semantic retrieval dataset containing 135,000 products from 7 distinct product categories and 320,000 retrieval queries across 5 languages. This dataset is designed to simulate real-world multi-condition retrieval scenarios, where users describe multiple attributes via both text and images. The data collection process of MERIT includes high-quality product selection, product attribute annotation, retrieval query construction and filtering optimization. The creation of this dataset aims to address the limitations of existing retrieval models when handling multi-condition queries and image-based information expression, and provides a foundation for future research.
提供机构:
字节跳动公司, 浙江大学
创建时间:
2025-06-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作