FrenchLegal1Retrieval-sample

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/mteb-private/FrenchLegal1Retrieval-sample

下载链接

链接失效反馈

官方服务：

资源简介：

FrenchLegal1Retrieval-sample是一个法语法律文件检索评估的样本数据集，包含10个文档和6个查询，以及相关性判断。数据集适用于评估嵌入模型在法律和政府领域的检索任务。

FrenchLegal1Retrieval-sample is a sample dataset for French legal document retrieval evaluation, which contains 10 documents, 6 queries and relevance judgments. This dataset is suitable for evaluating retrieval tasks of embedding models in the legal and governmental domains.

创建时间：

2025-09-12

原始信息汇总

FrenchLegal1Retrieval-sample 数据集概述

数据集基本信息

语言：法语（fr）
许可协议：other
多语言性：单语
任务类别：文本检索
任务ID：文档检索
标签：mteb, text, retrieval, sample

数据集结构

配置详情

配置名称：corpus
- 特征：
  - _id：字符串类型
  - title：字符串类型
  - text：字符串类型
- 分割：
  - train：10个样本
配置名称：default
- 特征：
  - query-id：字符串类型
  - corpus-id：字符串类型
  - score：int64类型
- 分割：
  - test：6个样本
配置名称：queries
- 特征：
  - _id：字符串类型
  - text：字符串类型
- 分割：
  - train：6个样本

数据文件

corpus/corpus-00000-of-00001.parquet：包含10个文档，字段包括_id、title、text
queries/queries-00000-of-00001.parquet：包含6个查询，字段包括_id、text
data/test-00000-of-00001.parquet：包含6个相关性判断，字段包括query-id、corpus-id、score

领域

法律、政府

用途

用于法语法律文档检索评估的样本数据集，遵循标准MTEB检索格式。

样本内容

6个描述信息需求的查询
10个对应文档
6个连接查询与文档的相关性判断

注释创建者

derived

搜集汇总

数据集介绍

构建方式

在法国法律文档检索领域，该样本数据集通过派生方式构建，严格遵循MTEB检索评估框架的标准格式。数据集包含三个核心组件：语料库文件存储具有唯一标识符、标题和正文的法律文档，查询文件记录用户信息需求，相关性判断文件则提供查询与文档之间的匹配评分，形成完整的检索评估体系。

特点

该数据集呈现典型的法语单语特性，专注于法律与政府领域文本检索任务。其显著特征在于精心设计的微型样本结构：包含6个精确表述的信息需求查询、10个对应法律文档及6组人工标注的相关性判断。这种设计既保持了原始数据分布特征，又为模型快速验证提供了高效评估环境。

使用方法

研究人员可通过MTEB评估框架直接加载该数据集进行嵌入模型性能验证。使用流程包括调用mteb.get_task方法获取任务实例，初始化评估器后传入待测试的嵌入模型，系统将自动执行检索任务并生成标准化评估指标。需要注意的是，完整数据集访问需提供相应的身份验证凭证。

背景与挑战

背景概述

法国法律文档检索领域的研究近年来受到学术界与实务界的广泛关注，FrenchLegal1Retrieval-sample数据集作为该领域的重要资源，由研究机构基于实际法律需求构建，专注于法语法律文本的检索任务。该数据集旨在推动法律信息检索技术的发展，通过提供结构化查询与文档关联，支持检索模型在法律专业场景下的性能评估与优化，对提升法律文书处理效率与准确性具有显著意义。

当前挑战

法律文档检索面临领域专业性挑战，包括术语复杂性、条文关联性判断以及语义精确匹配等问题。数据集构建过程中需克服法律文本的异构性、标注一致性与隐私合规性等困难，同时确保查询-文档对的质量与代表性，以支撑模型在真实法律环境中的有效应用。

常用场景

经典使用场景

在法律信息检索领域，FrenchLegal1Retrieval-sample数据集作为标准化评估基准，主要用于测试嵌入模型对法语法律文档的检索效能。该数据集通过精心构建的查询-文档对，模拟真实法律检索场景，使研究者能够系统评估模型在理解法律术语、处理专业表述方面的能力。其结构化设计支持多种检索算法的性能对比，为法律文本检索研究提供可靠的数据支撑。

衍生相关工作

围绕该数据集衍生出多项重要研究工作，包括基于深度学习的法律文档嵌入方法、跨模态法律信息检索系统以及多任务法律文本处理框架。这些研究不仅扩展了法律文本检索的技术边界，还催生了新的评估指标和基准测试方法。相关成果已应用于欧洲多个法律科技项目，形成了完整的法律人工智能研究生态，为后续研究者提供了丰富的技术参考和实践经验。

数据集最近研究