mteb/LeCaRDv2
收藏Hugging Face2025-05-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mteb/LeCaRDv2
下载链接
链接失效反馈官方服务:
资源简介:
LeCaRDv2是一个大规模的中文法律案例检索数据集,用于评估文本嵌入模型在文本检索任务上的表现。数据集包含测试集、语料库和查询三个部分,其中测试集包含查询ID、语料库ID和相关性得分,语料库包含文档标题和文本内容,查询部分包含查询文本。
LeCaRDv2 is a large-scale Chinese legal case retrieval dataset designed for evaluating text embedding models on text retrieval tasks. The dataset includes test set, corpus, and queries, where the test set contains query IDs, corpus IDs, and relevance scores, the corpus contains document titles and text contents, and the query section contains query texts.
提供机构:
mteb
原始信息汇总
数据集概述
基本信息
- 语言: 中文
- 多语言性: 单语种
- 任务类别: 文本检索
- 任务ID: 文档检索
- 配置名称: corpus
- 标签: 文本检索
数据集结构
默认配置
- 特征:
query-id: 字符串类型corpus-id: 字符串类型score: 浮点数类型
- 分割:
test: 3896个样本
语料库配置
- 特征:
_id: 字符串类型title: 字符串类型text: 字符串类型
- 分割:
corpus: 3795个样本
查询配置
- 特征:
_id: 字符串类型text: 字符串类型
- 分割:
queries: 159个样本
数据文件
默认配置
- 测试分割:
qrels/test.jsonl
语料库配置
- 语料库分割:
corpus.jsonl
查询配置
- 查询分割:
queries.jsonl
数据集任务
- 任务涉及识别并检索与每个查询描述的场景最匹配或最相关的案例文档。
- 查询集包含159个查询,每个查询描述一个独特的情境。
- 语料库集包含3795个候选案例文档。
搜集汇总
数据集介绍

构建方式
在中文法律信息检索领域,LeCaRDv2数据集通过系统化流程构建而成。该数据集从真实法律案例库中精选3795份裁判文书作为语料库,每份文档均包含标题与详细文本内容。同时,研究团队精心设计了159个具有代表性的法律场景查询,每个查询对应平均24.5份相关文书,形成了3896对查询-文档相关性标注。所有标注均基于法律专家对案情相似性与法理关联性的专业判断,确保了评估标准的权威性与一致性。
特点
该数据集展现出鲜明的领域专业化特征,其文档平均长度达7233字符,查询平均长度4259字符,充分体现了法律文本的复杂性与专业性。作为大规模中文法律案例检索基准,数据集覆盖了多样化的法律案由与裁判类型,查询与文档间存在多层次语义关联。特别值得注意的是,所有文档均经过严格筛选与脱敏处理,在保持法律文本原貌的同时符合数据安全规范,为中文法律智能研究提供了高质量的评估基准。
使用方法
研究者可通过MTEB框架便捷地使用该数据集进行嵌入模型评估。具体操作时,首先导入mteb库并获取LeCaRDv2任务实例,随后初始化评估器并加载待测模型。评估过程将自动执行检索任务,计算模型在精确匹配法律相关文档方面的性能指标。数据集采用标准化JSONL格式存储,包含语料库、查询集及相关性标注三个独立文件,支持灵活的数据加载与分析。用户还可通过描述性统计接口获取详细的文本分布特征,为模型优化提供数据洞察。
背景与挑战
背景概述
在自然语言处理与法律智能交叉领域,中文法律案例检索作为司法辅助系统的核心任务,长期面临专业性强、语义复杂度高的挑战。LeCaRDv2数据集由清华大学信息检索研究团队于2023年创建,旨在构建一个大规模、高质量的中文法律案例检索基准。该数据集聚焦于从海量法律文书中精准匹配与查询场景最相关的案例文档,其核心研究问题在于提升模型对法律文本深层语义与专业逻辑的理解能力。作为MTEB基准的重要组成部分,LeCaRDv2不仅推动了法律文本嵌入模型的评估标准化,也为跨语言法律智能研究提供了关键资源,对促进司法效率与公平性具有深远影响。
当前挑战
在法律案例检索领域,主要挑战在于法律文本特有的专业术语密集、逻辑结构严谨以及案例间细微差异的辨识。模型需克服语义模糊性,准确捕捉法律事实与条款间的复杂关联,这对传统检索方法构成了显著障碍。在数据集构建过程中,研究人员面临标注一致性的难题,法律专家需对大量案例进行精细的相关性评判,确保标注质量的高标准。同时,处理中文法律文本特有的长文档结构与多样化表述风格,要求设计高效的预处理与标准化流程,以保障数据集的代表性与可靠性。
常用场景
经典使用场景
在中文法律信息检索领域,LeCaRDv2数据集为评估文本嵌入模型的性能提供了标准化的基准。该数据集通过模拟真实的法律案例检索场景,要求模型根据复杂的案情描述查询,从大规模案例文档库中精准定位最相关的判例。这种设计使得研究者能够系统地测试模型在理解长文本、捕捉法律语义细微差别以及处理专业术语方面的能力,从而推动法律智能技术的进步。
解决学术问题
LeCaRDv2数据集主要解决了法律文本检索中语义匹配精度不足的学术难题。传统基于关键词的检索方法难以应对法律文书的长篇特性与复杂逻辑,而该数据集通过提供高质量的人工标注相关性评分,促进了深度语义模型的发展。其意义在于为中文法律自然语言处理研究建立了可复现的实验环境,显著提升了领域内模型评估的可靠性与可比性,对推动司法智能化具有深远影响。
衍生相关工作
围绕LeCaRDv2数据集,学术界衍生了一系列经典研究工作。这些工作主要集中在改进法律文本的表示学习,例如开发针对中文法律领域的预训练语言模型,以及设计结合法律知识图谱的混合检索架构。同时,该数据集也被纳入MTEB等大规模评测基准,促进了跨领域文本嵌入模型的比较与优化,为后续法律人工智能研究提供了坚实的实验基础。
以上内容由遇见数据集搜集并总结生成



