MTEB-NL

Name: MTEB-NL
Creator: 安特卫普大学
Published: 2025-09-16 02:08:08
License: 暂无描述

arXiv2025-09-16 更新2025-09-18 收录

下载链接：

https://huggingface.co/collections/clips/mteb-nl-6888d7136112c731605f93ed

下载链接

链接失效反馈

官方服务：

资源简介：

MTEB-NL是一个针对荷兰语文本嵌入的大规模文本嵌入基准，包含40个数据集，涵盖了广泛的任务类别，包括分类、多标签分类、成对分类、重新排序、检索、聚类和语义文本相似度。这个基准旨在提供一个可靠的平台，以评估荷兰语嵌入模型的性能，并促进荷兰语嵌入模型的进一步发展。

MTEB-NL is a large-scale text embedding benchmark tailored for Dutch language text embeddings, comprising 40 datasets covering a wide range of task categories including classification, multi-label classification, pairwise classification, re-ranking, retrieval, clustering, and semantic textual similarity. This benchmark aims to provide a reliable platform for evaluating the performance of Dutch embedding models and facilitating the further development of Dutch embedding models.

提供机构：

安特卫普大学

创建时间：

2025-09-16

搜集汇总

数据集介绍

构建方式

MTEB-NL数据集的构建遵循多语言文本嵌入基准框架，整合了现有荷兰语数据集与新创建资源，覆盖分类、检索、聚类等七类任务。通过筛选公开数据集并补充人工翻译与合成数据，确保任务多样性与零样本评估的严谨性。构建过程中严格规避训练数据污染，优先采用原生荷兰语语料，仅在稀缺领域（如语义文本相似性）保留高质量机器翻译内容，最终形成包含40个子数据集的综合基准。

特点

该数据集涵盖荷兰语嵌入模型的全面评估维度，其特点包括任务多样性（如多标签分类、文档检索、语义相似性计算）、语言纯化（优先采用原生荷兰文化语境数据）以及规模优化（控制数据量以降低计算成本）。数据集融合学术、新闻、法律等多领域文本，并引入合成数据增强泛化能力，同时通过严格许可审核确保资源的可公开分发性。其设计显著弥补了荷兰语在多语言嵌入评估中的代表性不足问题。

使用方法

MTEB-NL适用于零样本环境下荷兰语嵌入模型的性能评估，用户可通过标准化的管道计算各任务指标（如分类任务的F1宏平均、检索任务的nDCG）。评估时需加载预训练模型，对查询和文档生成嵌入向量后计算相似度，并与标注结果比对。数据集已集成至Hugging Face平台，支持直接调用MTEB库进行自动化测试，同时提供详细的任务划分与统计信息以指导模型优化方向。

背景与挑战

背景概述

MTEB-NL（荷兰语大规模文本嵌入基准）由安特卫普大学研究团队于2025年创建，旨在解决荷兰语在自然语言处理领域长期缺乏高质量嵌入评估资源的问题。该数据集整合了40个涵盖检索、分类、聚类、语义相似性等多任务的荷兰语数据集，既包含现有公开资源也包含新构建的合成数据。作为多语言文本嵌入基准（MTEB）在荷兰语领域的专项扩展，它显著提升了荷兰语嵌入模型的评估可靠性，并为低资源语言嵌入研究提供了重要范式。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决荷兰语嵌入模型在零样本设置下跨任务泛化能力评估的复杂性，包括处理语义相似性计算、跨域检索和细粒度分类等异构任务；在构建层面，需克服荷兰语原生标注数据稀缺导致的机器翻译依赖问题，同时通过合成数据生成技术平衡任务覆盖度与语言真实性，并设计严格的数据过滤机制确保生成质量。

常用场景

经典使用场景

在自然语言处理领域，MTEB-NL作为荷兰语文本嵌入模型的标准化评估基准，广泛应用于多任务场景下的零样本性能测试。该数据集覆盖分类、检索、聚类及语义相似性等七类核心任务，通过整合现有荷兰语数据集与人工构建资源，为研究者提供了统一的评估框架。其设计遵循MTEB多语言扩展原则，确保任务多样性与评估可靠性，显著推动了荷兰语嵌入模型在学术界的可比性与可复现性发展。

解决学术问题

MTEB-NL有效解决了荷兰语嵌入模型评估资源匮乏的核心问题，填补了多语言嵌入研究中荷兰语代表性不足的空白。通过提供涵盖40个数据集的综合基准，它支持模型在检索、分类、聚类等任务上的系统性评估，助力研究者识别模型弱点并指导优化方向。该资源显著降低了荷兰语NLP研究的门槛，促进了高质量嵌入模型的开发，对提升低资源语言在全球化NLP技术中的平等性具有深远意义。

衍生相关工作

MTEB-NL催生了多项荷兰语嵌入模型的重要研究，例如基于E5架构的E5-NL模型系列通过词汇裁剪与迁移学习实现了参数高效化。相关工作包括使用合成数据增强训练的策略（如Wang等人提出的混合数据配方）、RobBERT模型的领域适配研究，以及BEIR-NL在检索任务中的扩展应用。这些工作共同构建了荷兰语嵌入技术的生态系统，为后续指令微调模型与跨语言迁移学习提供了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集