five

MuPLeR-retrieval

收藏
Hugging Face2026-03-30 更新2026-03-31 收录
下载链接:
https://huggingface.co/datasets/eherra/MuPLeR-retrieval
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
MuPLeR-retrieval 是一个多语言并行法律检索数据集,专为评估检索和跨语言检索任务而设计。数据集包含来自欧盟DGT-Acquis语料库的10,000条人工翻译的平行法律段落(每种语言)和200条合成的平行查询(覆盖14种欧洲语言)。该数据集属于法律领域,适用于文本检索任务。数据经过严格的清洗、分块、去重和语义对齐处理,确保高质量和跨语言一致性。数据集支持的语言包括英语、法语、斯洛文尼亚语、意大利语、波兰语、芬兰语、荷兰语、葡萄牙语、瑞典语、斯洛伐克语、拉脱维亚语、立陶宛语、希腊语和西班牙语。
创建时间:
2026-03-21
原始信息汇总

MuPLeR-retrieval 数据集概述

基本信息

  • 数据集名称:MuPLeR-retrieval
  • 任务类别:文本检索
  • 领域:法律
  • 多语言性:多语言
  • 许可证:eupl-1.2
  • 标注创建者:LM-generated and reviewed
  • 源数据集:eherra/MuPLeR-retrieval

语言覆盖

数据集涵盖以下14种欧洲语言:

  • 希腊语 (ell)
  • 英语 (eng)
  • 芬兰语 (fin)
  • 法语 (fra)
  • 意大利语 (ita)
  • 拉脱维亚语 (lav)
  • 立陶宛语 (lit)
  • 荷兰语 (nld)
  • 波兰语 (pol)
  • 葡萄牙语 (por)
  • 斯洛伐克语 (slk)
  • 斯洛文尼亚语 (slv)
  • 西班牙语 (spa)
  • 瑞典语 (swe)

数据集构成与规模

数据集为每种语言包含三个独立的配置:语料库、查询和相关性判断。

语料库配置

每种语言的语料库包含10,000个测试集样本,每个样本具有以下特征:

  • id (字符串)
  • text (字符串)
  • title (字符串)

各语言语料库具体规模:

  • 希腊语 (el-corpus):13,691,971字节
  • 英语 (en-corpus):6,684,520字节
  • 西班牙语 (es-corpus):7,649,144字节
  • 芬兰语 (fi-corpus):7,299,865字节
  • 法语 (fr-corpus):7,893,805字节
  • 意大利语 (it-corpus):7,480,260字节
  • 立陶宛语 (lt-corpus):6,751,646字节
  • 拉脱维亚语 (lv-corpus):6,834,219字节
  • 荷兰语 (nl-corpus):7,352,444字节
  • 波兰语 (pl-corpus):7,407,578字节
  • 葡萄牙语 (pt-corpus):7,452,692字节
  • 斯洛伐克语 (sk-corpus):7,079,534字节
  • 斯洛文尼亚语 (sl-corpus):6,395,786字节
  • 瑞典语 (sv-corpus):7,019,496字节

查询配置

每种语言的查询集包含200个测试集样本,每个样本具有以下特征:

  • id (字符串)
  • text (字符串)

各语言查询集具体规模:

  • 希腊语 (el-queries):61,088字节
  • 英语 (en-queries):35,801字节
  • 西班牙语 (es-queries):36,601字节
  • 芬兰语 (fi-queries):42,267字节
  • 法语 (fr-queries):38,059字节
  • 意大利语 (it-queries):37,113字节
  • 立陶宛语 (lt-queries):39,171字节
  • 拉脱维亚语 (lv-queries):39,592字节
  • 荷兰语 (nl-queries):38,449字节
  • 波兰语 (pl-queries):39,189字节
  • 葡萄牙语 (pt-queries):36,858字节
  • 斯洛伐克语 (sk-queries):38,572字节
  • 斯洛文尼亚语 (sl-queries):36,706字节
  • 瑞典语 (sv-queries):38,793字节

相关性判断配置

每种语言的相关性判断集包含200个测试集样本,每个样本具有以下特征:

  • query-id (字符串)
  • corpus-id (字符串)
  • score (int64)

所有语言的相关性判断集规模均为11,176字节。

数据来源与处理

  • 原始语料:欧盟委员会的DGT-Acquis语料库(段落级别,2004-2011年)
  • 语料参考:An Overview of the European Unions Highly Multilingual Parallel Corpora (https://link.springer.com/article/10.1007/s10579-014-9277-0)
  • 数据处理流程
    1. 文本文件提取
    2. 文本清理
    3. 句子分割与分块(60-150词,最多5句)
    4. 去重(98%模糊匹配阈值)
    5. 语言检测
    6. 余弦相似度对齐(≥0.75)
    7. 最终选择(每种语言10,000个段落)
    8. 合成查询生成(使用LlamaIndex和GPT-5-mini)
    9. 跨语言查询验证(余弦相似度≥0.80)

最终数据集组成

  • 14种语言 × 10,000个平行上下文块
  • 14种语言 × 200个合成查询,映射到相应段落

评估方法

可通过MTEB(Massive Text Embedding Benchmark)库进行评估: python import mteb task = mteb.get_task("MuPLeR-retrieval") evaluator = mteb.MTEB([task]) model = mteb.get_model(YOUR_MODEL) evaluator.run(model)

相关资源

  • MTEB GitHub仓库:https://github.com/embeddings-benchmark/mteb
  • DGT-Acquis语料库网站:https://joint-research-centre.ec.europa.eu/language-technology-resources/dgt-acquis_en
  • DGT-Acquis研究论文:https://joint-research-centre.ec.europa.eu/document/download/5943acfd-6edb-4955-84cc-4ad21071e538_en?filename=2014_08_LRE-Journal_JRC-Linguistic-Resources_Manuscript.pdf
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索领域,构建高质量平行语料库是评估模型性能的关键。MuPLeR-retrieval数据集的构建依托于欧盟DGT-Acquis段落级语料库,通过一套严谨的处理流程实现。首先从原始语料中提取文本文件并进行结构化整理,随后执行文本清洗以去除格式标记。通过句子分割与分块技术,将文本划分为60至150词的短段落,确保适应有限上下文窗口的模型评估。采用98%模糊匹配阈值进行去重,消除仅因标点或空格差异导致的冗余内容。利用lingua-py库进行语言检测验证文本语言准确性,并通过余弦相似度不低于0.75的语义对齐检查,确保14种语言间平行段落的一致性。最终从符合标准的翻译中选择前10000个段落构成核心语料。
特点
作为法律信息检索领域的多语言基准数据集,MuPLeR-retrieval展现出鲜明的特征。其覆盖英语、法语、西班牙语等14种欧洲语言,每种语言均包含10000条平行法律段落,这些段落源自欧盟立法文件,具有高度的领域专业性。数据集采用人工翻译的平行语料,确保跨语言语义一致性,同时通过严格的去重和语言验证流程保障数据质量。每条段落长度控制在60至150词之间,结构紧凑,适合评估各类嵌入模型的检索能力。此外,每种语言配套200条合成查询,这些查询通过大语言模型生成并经过跨语言相似度验证,为检索任务提供了标准化的测试集合。
使用方法
在嵌入模型评估实践中,MuPLeR-retrieval数据集通过MTEB框架提供了便捷的使用途径。研究人员可通过安装mteb库并调用get_task函数加载该数据集任务,随后初始化评估器并指定待测模型。评估过程自动执行跨语言检索任务,计算模型在不同语言对上的检索性能指标。数据集以标准化的语料库、查询和相关度判断文件形式组织,支持直接用于训练或测试检索系统。用户亦可单独提取特定语言的语料进行单语言检索实验,或利用平行特性开展跨语言检索研究。数据集的EUPL许可证允许学术和商业用途的灵活使用。
背景与挑战
背景概述
在自然语言处理领域,跨语言文本检索任务长期面临高质量平行语料稀缺的挑战。MuPLeR-retrieval数据集由欧洲联盟委员会翻译总局(DGT)的Acquis语料库衍生而来,旨在构建一个覆盖14种欧洲语言的大规模平行法律文本检索基准。该数据集依托大规模文本嵌入基准(MTEB)框架,其核心研究问题聚焦于评估多语言嵌入模型在法律领域的检索性能与跨语言对齐能力。通过提供一万条人工翻译的平行法律段落及两百条合成查询,该数据集为多语言信息检索系统的开发与评测奠定了重要基础,显著推动了法律文本处理技术的国际化发展。
当前挑战
MuPLeR-retrieval数据集致力于解决法律领域跨语言文本检索的复杂挑战,包括处理高度专业化的法律术语、确保不同语言版本间的语义一致性,以及应对低资源语言的数据稀疏性问题。在构建过程中,研究团队面临多重技术障碍:需要从原始语料中精确提取并清洗法律文本,同时通过严格的去重算法消除近重复内容;为确保跨语言对齐,必须实施高阈值的余弦相似度验证;此外,合成查询的生成需保持多语言间的平行语义,并依赖语言检测工具进行准确校验。这些步骤共同构成了数据集构建的核心难点。
常用场景
经典使用场景
在跨语言信息检索领域,MuPLeR-retrieval数据集为评估多语言文本嵌入模型的检索性能提供了标准化基准。该数据集基于欧盟法律文本构建,包含14种欧洲语言的平行语料,每个语言配置均提供查询、文档和相关度标注。其经典使用场景在于作为MTEB基准的一部分,用于系统性地测试和比较不同嵌入模型在跨语言法律文档检索任务中的效果,特别是衡量模型在语义对齐和语言迁移方面的能力。
衍生相关工作
围绕MuPLeR-retrieval数据集,已衍生出一系列专注于提升多语言检索性能的经典研究工作。这些工作通常利用该数据集作为核心评估基准,探索更先进的嵌入模型架构、跨语言对齐训练策略以及针对低资源语言的迁移学习方法。相关研究不仅验证了模型在严格平行语料上的有效性,也进一步推动了如语义相似度计算、零样本跨语言检索等子领域的技术发展。
数据集最近研究
最新研究方向
在跨语言信息检索领域,MuPLeR-retrieval数据集因其涵盖14种欧洲语言的法律文本平行语料而备受关注。该数据集源自欧盟DGT-Acquis语料库,通过人工翻译和严格的质量控制流程构建,为评估多语言嵌入模型提供了标准化基准。近期研究聚焦于利用该数据集推动跨语言检索模型在低资源语言上的性能提升,特别是在法律领域应用中,模型需要处理复杂的术语和句式结构。随着欧盟数字单一市场政策的推进,多语言法律检索成为热点,该数据集为开发能够理解并匹配不同语言法律文档的系统提供了关键资源。其平行对齐特性使得研究者能够深入探究语义对齐和跨语言迁移学习的前沿问题,对促进全球法律信息访问的公平性与效率具有深远意义。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作