sentence-transformers/lecard-v2
收藏Hugging Face2024-06-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/lecard-v2
下载链接
链接失效反馈官方服务:
资源简介:
LeCaRDv2数据集是一个用于特征提取和句子相似性任务的中文单语言数据集。它包含三个子集:triplet、triplet-20和triplet-all。triplet子集包含三列:anchor、positive和negative,每列都是字符串类型。triplet-20子集包含anchor、positive和20个negative列,每列也是字符串类型。triplet-all子集与triplet子集结构相同,但包含更多的示例。数据集的主要用途是训练BGE-M3模型,用于句子相似性任务。数据集的收集策略是从Shitao/bge-m3-data数据集中读取LeCaRDv2的jsonl文件,并提取第一个positive和第一个negative。数据集未进行去重处理。
The LeCaRDv2 dataset is a Chinese monolingual dataset used for feature extraction and sentence similarity tasks. It contains three subsets: triplet, triplet-20, and triplet-all. The triplet subset includes three columns: anchor, positive, and negative, all of which are string types. The triplet-20 subset includes anchor, positive, and 20 negative columns, all of which are also string types. The triplet-all subset has the same structure as the triplet subset but contains more examples. The primary use of the dataset is to train the BGE-M3 model for sentence similarity tasks. The dataset collection strategy involves reading the LeCaRDv2 jsonl file from the Shitao/bge-m3-data dataset and extracting the first positive and first negative. The dataset has not been deduplicated.
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
LeCaRDv2
数据集语言
中文
数据集类型
单语种
数据集规模
1K<n<10K
任务类别
- 特征提取
- 句子相似度
数据集标签
- sentence-transformers
数据集配置
配置1: triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 25289322
- 样本数: 591
- train:
- 下载大小: 11817840
- 数据集大小: 25289322
配置2: triplet-20
- 特征:
- anchor: string
- positive: string
- negative_1: string
- negative_2: string
- negative_3: string
- negative_4: string
- negative_5: string
- negative_6: string
- negative_7: string
- negative_8: string
- negative_9: string
- negative_10: string
- negative_11: string
- negative_12: string
- negative_13: string
- negative_14: string
- negative_15: string
- negative_16: string
- negative_17: string
- negative_18: string
- negative_19: string
- negative_20: string
- 分割:
- train:
- 字节数: 181161015
- 样本数: 591
- train:
- 下载大小: 83596114
- 数据集大小: 181161015
配置3: triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train:
- 字节数: 505751068
- 样本数: 11820
- train:
- 下载大小: 83310603
- 数据集大小: 505751068
数据文件
配置1: triplet
- 数据文件:
- 分割: train
- 路径: triplet/train-*
配置2: triplet-20
- 数据文件:
- 分割: train
- 路径: triplet-20/train-*
配置3: triplet-all
- 数据文件:
- 分割: train
- 路径: triplet-all/train-*
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,特别是针对法律文本的语义理解任务,LeCaRDv2数据集的构建体现了精心的设计思路。该数据集源自Shitao/bge-m3-data,通过读取原始JSONL文件并提取关键三元组信息而构建。具体而言,构建过程聚焦于锚点文本、正例文本以及负例文本的筛选,对于基础的三元组子集,仅选取每个锚点对应的首个正例和首个负例,确保了数据对的核心对比关系。此外,数据集还提供了扩展版本,例如包含多达20个负例的变体,以及一个整合了所有可用三元组的完整版本,从而为模型训练提供了不同粒度和丰富度的对比样本。这种构建方式旨在服务于句子嵌入模型的训练,特别是在法律文档相似性计算和特征提取任务中,能够有效捕捉文本间的语义关联与差异。
使用方法
针对句子嵌入和文本相似性计算任务,LeCaRDv2数据集提供了直接的应用路径。研究人员或开发者可通过HuggingFace数据集库加载该数据集的不同子集,例如‘triplet’、‘triplet-20’或‘triplet-all’。加载后,数据以字典形式呈现,包含‘anchor’、‘positive’、‘negative’等键,对应的值为完整的法律判决书文本字符串。这些文本可直接输入到句子转换器(Sentence Transformers)等模型框架中进行对比学习训练。在训练过程中,模型学习将语义相似的锚点与正例在嵌入空间中拉近,同时将锚点与负例推远。该数据集主要用于监督或自监督的表示学习,以提升模型在法律领域的语义理解能力和相似性判断精度。
背景与挑战
背景概述
LeCaRDv2数据集由北京智源人工智能研究院(BAAI)的研究团队于2023年构建,旨在为法律文本检索与相似性计算提供高质量的训练资源。该数据集聚焦于中文法律文书领域,通过构建三元组(anchor, positive, negative)形式,专门用于训练如BGE-M3等先进的句子嵌入模型。其核心研究问题在于解决法律文本中语义相似性判定的复杂性,尤其是在罪名认定、事实描述和法律条款引用等方面,为法律智能应用如案例检索、判决预测等提供了关键的数据支持,显著推动了法律自然语言处理技术的发展。
当前挑战
该数据集旨在应对法律文本相似性计算中的挑战,包括法律术语的精确匹配、案情描述的语义歧义性,以及不同罪名间细微差别的区分。在构建过程中,挑战主要源于法律文书的专业性与多样性:需要从海量判决书中筛选并标注高质量的正负样本,确保三元组在罪名相关性上的准确性;同时,处理文本长度不一、结构复杂的问题,并避免数据冗余,以维持数据集的平衡与有效性。
常用场景
经典使用场景
在司法智能与法律信息检索领域,LeCaRDv2数据集以其精心构建的刑事判决书三元组结构,为文本相似度计算与语义检索模型的训练提供了经典范例。该数据集通过锚点、正例与负例的对比学习框架,使模型能够精准捕捉法律文书在罪名、情节与法律条文层面的语义关联,尤其适用于训练如BGE-M3等先进的多功能嵌入模型,以提升法律文档的匹配精度与检索效率。
解决学术问题
该数据集有效应对了法律文本处理中语义鸿沟与领域适应性不足的学术挑战。通过提供高质量的中文刑事判决书三元组,它解决了法律领域缺乏大规模、细粒度标注数据的问题,支持了对比学习与度量学习在司法场景下的深入探索。其意义在于推动了法律人工智能向更精准、可解释的方向发展,为构建鲁棒的法律语义表示模型奠定了数据基础,促进了跨案件分析与智能辅助决策系统的学术进展。
实际应用
在实际应用中,LeCaRDv2数据集支撑了智慧法院系统的核心功能开发。基于该数据集训练的模型可部署于类案推荐、法律咨询自动化与裁判文书智能检索等场景,帮助法律从业者快速定位相似案例,统一裁判尺度。此外,它还能赋能法律教育平台,为学生提供案例对比分析工具,或辅助立法研究中的案例规律挖掘,从而提升司法效率与法律服务的智能化水平。
数据集最近研究
最新研究方向
在司法智能与法律科技领域,LeCaRDv2数据集作为中文法律文本相似性计算与特征提取的关键资源,其最新研究聚焦于多粒度语义匹配与对比学习框架的优化。该数据集以刑事判决书为语料,通过精心构建的锚点-正例-负例三元组,为模型训练提供了丰富的司法语境。前沿探索主要围绕增强模型对复杂法律概念与事实关系的判别能力,结合大语言模型进行知识注入与微调,以提升法律检索、类案推荐与判决预测等下游任务的性能。相关研究亦关注数据集的扩展与噪声过滤,旨在构建更鲁棒、更精准的法律语义表示,对推动智慧司法系统的落地具有深远意义。
以上内容由遇见数据集搜集并总结生成



