MuPLeR-retrieval

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/eherra/MuPLeR-retrieval

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

MuPLeR-retrieval 是一个多语言并行法律检索数据集，专为评估检索和跨语言检索任务而设计。数据集包含来自欧盟DGT-Acquis语料库的10,000条人工翻译的平行法律段落（每种语言）和200条合成的平行查询（覆盖14种欧洲语言）。该数据集属于法律领域，适用于文本检索任务。数据经过严格的清洗、分块、去重和语义对齐处理，确保高质量和跨语言一致性。数据集支持的语言包括英语、法语、斯洛文尼亚语、意大利语、波兰语、芬兰语、荷兰语、葡萄牙语、瑞典语、斯洛伐克语、拉脱维亚语、立陶宛语、希腊语和西班牙语。

创建时间：

2026-03-21

原始信息汇总

MuPLeR-retrieval 数据集概述

基本信息

数据集名称：MuPLeR-retrieval
任务类别：文本检索
领域：法律
多语言性：多语言
许可证：eupl-1.2
标注创建者：LM-generated and reviewed
源数据集：eherra/MuPLeR-retrieval

语言覆盖

数据集涵盖以下14种欧洲语言：

希腊语 (ell)
英语 (eng)
芬兰语 (fin)
法语 (fra)
意大利语 (ita)
拉脱维亚语 (lav)
立陶宛语 (lit)
荷兰语 (nld)
波兰语 (pol)
葡萄牙语 (por)
斯洛伐克语 (slk)
斯洛文尼亚语 (slv)
西班牙语 (spa)
瑞典语 (swe)

数据集构成与规模

数据集为每种语言包含三个独立的配置：语料库、查询和相关性判断。

语料库配置

每种语言的语料库包含10,000个测试集样本，每个样本具有以下特征：

id (字符串)
text (字符串)
title (字符串)

各语言语料库具体规模：

希腊语 (el-corpus)：13,691,971字节
英语 (en-corpus)：6,684,520字节
西班牙语 (es-corpus)：7,649,144字节
芬兰语 (fi-corpus)：7,299,865字节
法语 (fr-corpus)：7,893,805字节
意大利语 (it-corpus)：7,480,260字节
立陶宛语 (lt-corpus)：6,751,646字节
拉脱维亚语 (lv-corpus)：6,834,219字节
荷兰语 (nl-corpus)：7,352,444字节
波兰语 (pl-corpus)：7,407,578字节
葡萄牙语 (pt-corpus)：7,452,692字节
斯洛伐克语 (sk-corpus)：7,079,534字节
斯洛文尼亚语 (sl-corpus)：6,395,786字节
瑞典语 (sv-corpus)：7,019,496字节

查询配置

每种语言的查询集包含200个测试集样本，每个样本具有以下特征：

id (字符串)
text (字符串)

各语言查询集具体规模：

希腊语 (el-queries)：61,088字节
英语 (en-queries)：35,801字节
西班牙语 (es-queries)：36,601字节
芬兰语 (fi-queries)：42,267字节
法语 (fr-queries)：38,059字节
意大利语 (it-queries)：37,113字节
立陶宛语 (lt-queries)：39,171字节
拉脱维亚语 (lv-queries)：39,592字节
荷兰语 (nl-queries)：38,449字节
波兰语 (pl-queries)：39,189字节
葡萄牙语 (pt-queries)：36,858字节
斯洛伐克语 (sk-queries)：38,572字节
斯洛文尼亚语 (sl-queries)：36,706字节
瑞典语 (sv-queries)：38,793字节

数据来源与处理

原始语料：欧盟委员会的DGT-Acquis语料库（段落级别，2004-2011年）
语料参考：An Overview of the European Unions Highly Multilingual Parallel Corpora (https://link.springer.com/article/10.1007/s10579-014-9277-0)
数据处理流程：
1. 文本文件提取
2. 文本清理
3. 句子分割与分块（60-150词，最多5句）
4. 去重（98%模糊匹配阈值）
5. 语言检测
6. 余弦相似度对齐（≥0.75）
7. 最终选择（每种语言10,000个段落）
8. 合成查询生成（使用LlamaIndex和GPT-5-mini）
9. 跨语言查询验证（余弦相似度≥0.80）

最终数据集组成

14种语言 × 10,000个平行上下文块
14种语言 × 200个合成查询，映射到相应段落

评估方法

可通过MTEB（Massive Text Embedding Benchmark）库进行评估： python import mteb task = mteb.get_task("MuPLeR-retrieval") evaluator = mteb.MTEB([task]) model = mteb.get_model(YOUR_MODEL) evaluator.run(model)

相关资源

MTEB GitHub仓库：https://github.com/embeddings-benchmark/mteb
DGT-Acquis语料库网站：https://joint-research-centre.ec.europa.eu/language-technology-resources/dgt-acquis_en
DGT-Acquis研究论文：https://joint-research-centre.ec.europa.eu/document/download/5943acfd-6edb-4955-84cc-4ad21071e538_en?filename=2014_08_LRE-Journal_JRC-Linguistic-Resources_Manuscript.pdf

搜集汇总

数据集介绍

构建方式

在跨语言信息检索领域，构建高质量平行语料库是评估模型性能的关键。MuPLeR-retrieval数据集的构建依托于欧盟DGT-Acquis段落级语料库，通过一套严谨的处理流程实现。首先从原始语料中提取文本文件并进行结构化整理，随后执行文本清洗以去除格式标记。通过句子分割与分块技术，将文本划分为60至150词的短段落，确保适应有限上下文窗口的模型评估。采用98%模糊匹配阈值进行去重，消除仅因标点或空格差异导致的冗余内容。利用lingua-py库进行语言检测验证文本语言准确性，并通过余弦相似度不低于0.75的语义对齐检查，确保14种语言间平行段落的一致性。最终从符合标准的翻译中选择前10000个段落构成核心语料。

特点

作为法律信息检索领域的多语言基准数据集，MuPLeR-retrieval展现出鲜明的特征。其覆盖英语、法语、西班牙语等14种欧洲语言，每种语言均包含10000条平行法律段落，这些段落源自欧盟立法文件，具有高度的领域专业性。数据集采用人工翻译的平行语料，确保跨语言语义一致性，同时通过严格的去重和语言验证流程保障数据质量。每条段落长度控制在60至150词之间，结构紧凑，适合评估各类嵌入模型的检索能力。此外，每种语言配套200条合成查询，这些查询通过大语言模型生成并经过跨语言相似度验证，为检索任务提供了标准化的测试集合。

使用方法

在嵌入模型评估实践中，MuPLeR-retrieval数据集通过MTEB框架提供了便捷的使用途径。研究人员可通过安装mteb库并调用get_task函数加载该数据集任务，随后初始化评估器并指定待测模型。评估过程自动执行跨语言检索任务，计算模型在不同语言对上的检索性能指标。数据集以标准化的语料库、查询和相关度判断文件形式组织，支持直接用于训练或测试检索系统。用户亦可单独提取特定语言的语料进行单语言检索实验，或利用平行特性开展跨语言检索研究。数据集的EUPL许可证允许学术和商业用途的灵活使用。

背景与挑战

背景概述

在自然语言处理领域，跨语言文本检索任务长期面临高质量平行语料稀缺的挑战。MuPLeR-retrieval数据集由欧洲联盟委员会翻译总局（DGT）的Acquis语料库衍生而来，旨在构建一个覆盖14种欧洲语言的大规模平行法律文本检索基准。该数据集依托大规模文本嵌入基准（MTEB）框架，其核心研究问题聚焦于评估多语言嵌入模型在法律领域的检索性能与跨语言对齐能力。通过提供一万条人工翻译的平行法律段落及两百条合成查询，该数据集为多语言信息检索系统的开发与评测奠定了重要基础，显著推动了法律文本处理技术的国际化发展。

当前挑战

MuPLeR-retrieval数据集致力于解决法律领域跨语言文本检索的复杂挑战，包括处理高度专业化的法律术语、确保不同语言版本间的语义一致性，以及应对低资源语言的数据稀疏性问题。在构建过程中，研究团队面临多重技术障碍：需要从原始语料中精确提取并清洗法律文本，同时通过严格的去重算法消除近重复内容；为确保跨语言对齐，必须实施高阈值的余弦相似度验证；此外，合成查询的生成需保持多语言间的平行语义，并依赖语言检测工具进行准确校验。这些步骤共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在跨语言信息检索领域，MuPLeR-retrieval数据集为评估多语言文本嵌入模型的检索性能提供了标准化基准。该数据集基于欧盟法律文本构建，包含14种欧洲语言的平行语料，每个语言配置均提供查询、文档和相关度标注。其经典使用场景在于作为MTEB基准的一部分，用于系统性地测试和比较不同嵌入模型在跨语言法律文档检索任务中的效果，特别是衡量模型在语义对齐和语言迁移方面的能力。

衍生相关工作

围绕MuPLeR-retrieval数据集，已衍生出一系列专注于提升多语言检索性能的经典研究工作。这些工作通常利用该数据集作为核心评估基准，探索更先进的嵌入模型架构、跨语言对齐训练策略以及针对低资源语言的迁移学习方法。相关研究不仅验证了模型在严格平行语料上的有效性，也进一步推动了如语义相似度计算、零样本跨语言检索等子领域的技术发展。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集