LEEC
收藏arXiv2023-10-10 更新2024-06-21 收录
下载链接:
https://github.com/THUlawtech/LEEC
下载链接
链接失效反馈官方服务:
资源简介:
LEEC数据集是由清华大学法学院创建的法律要素提取数据集,专注于中国刑事法律系统。该数据集包含15,831个司法文档,涵盖159个标签,旨在通过法律专家团队设计的标签系统,提高对法律案件的解释和分析能力。数据集的创建过程包括设计标签系统和根据标签系统及注释指南对司法文档进行标注。LEEC数据集的应用领域广泛,包括法律判决预测和类似案件检索,以及实证法律研究,旨在解决法律实践中的复杂问题。
The LEEC dataset is a legal element extraction dataset created by the Law School of Tsinghua University, focusing on China's criminal justice system. It contains 15,831 judicial documents and covers 159 labels, aiming to improve the interpretation and analysis of legal cases via a labeling system designed by a team of legal experts. The creation process of the LEEC dataset includes two core steps: designing the labeling system and annotating judicial documents in accordance with the labeling system and annotation guidelines. The LEEC dataset has broad application scenarios, including legal judgment prediction, similar case retrieval and empirical legal research, and is intended to address complex issues in legal practice.
提供机构:
清华大学法学院
创建时间:
2023-10-02
搜集汇总
数据集介绍

构建方式
在司法文书智能分析领域,构建高质量标注数据集是推动法律人工智能发展的关键。LEEC数据集的构建过程体现了严谨的学术规范与领域知识的深度融合。其构建始于由法学专家团队主导的标签体系设计,该体系不仅涵盖了中国刑法明文规定的量刑情节,还系统性地整合了发表于核心法学期刊及国际SSCI期刊的实证研究成果所识别出的法外关键因素,形成了包含159个标签的、覆盖被告人特征、被害人特征、案件特征与罪行特征四大类别的知识图谱。随后,基于公开的LEVEN和LeCaRD数据集中的司法文书,由经过严格筛选与培训的法学院学生在详尽的155页中文标注指南指导下,进行了大规模人工标注。标注过程采用两阶段策略,并对部分文档进行了双重标注以确保一致性,最终形成了包含15,831份刑事判决文书的标注语料,其标注者间一致性Kappa值达到0.71,确保了数据的高质量与可靠性。
特点
LEEC数据集在中文法律信息抽取领域具有鲜明的特色与显著优势。其最核心的特征在于构建了一个迄今为止最为广泛且深入领域特定的标签系统。该系统突破了以往研究多局限于罪名导向要素的局限,创造性地将大量经实证研究证实对司法实践有显著影响的法外要素纳入其中,例如被告人的户籍状况、民族等,从而更全面地捕捉了‘书本上的法’与‘行动中的法’之间的复杂互动。数据集规模庞大,覆盖了近二十年的刑事判决,有效缓解了低频罪名样本不足的问题。尤为重要的是,其知识图谱内嵌了丰富的要素间关系,能够精确地将被告人、被害人、罪行等多重实体的特征进行关联,这对于处理涉及多个被告、多个罪行的复杂司法文书至关重要,极大地提升了数据集在下游任务中的实用性与解释力。
使用方法
LEEC数据集为法律文本分析与人工智能应用提供了丰富的研究资源。研究者可将其直接应用于文档级事件抽取任务,通过评估如DCFEE、Doc2EDAG、PTPCG等前沿模型在该数据集上的性能,探索适用于法律长文本、复杂要素关系的抽取方法。数据集中精细的要素标注与关联关系,能够有力支撑法律判决预测、类案检索、量刑辅助分析等核心LegalAI任务,并为实证法学研究提供可计算的数据基础。在使用时,用户需遵循数据提供的许可协议,特别注意其中包含的个人信息需以符合伦理与法律要求的方式进行处理。鉴于数据集中部分要素存在稀疏性,以及基于公开文书的潜在选择偏差,在构建模型与解释结论时应予以充分考虑。数据集已划分为训练、验证与测试集,便于模型开发与评估。
背景与挑战
背景概述
在自然语言处理领域,法律要素提取作为一项关键任务,对于深化司法文档的理解与分析具有重要价值。LEEC(Legal Element Extraction Dataset)数据集由清华大学法学院的研究团队于2023年构建,旨在解决中国刑事司法领域中要素提取的现有局限。该数据集基于15,831份司法文档,涵盖159个精细标注的法律与法外要素,其核心研究问题聚焦于如何通过领域特定的标签体系,系统性地捕捉影响刑事审判与量刑的关键因素。LEEC的创建不仅推动了法律人工智能的发展,还为实证法学研究提供了高质量的数据基础,显著提升了类似案例检索与法律判决预测等下游任务的性能。
当前挑战
LEEC数据集面临的挑战主要体现在两个方面:在领域问题层面,法律要素提取需克服司法实践中“书本上的法”与“行动中的法”之间的差异,例如如何准确区分累犯与前科等紧密关联却语义迥异的法律概念,以及处理多被告、多罪行情境下要素间的复杂关联。在构建过程中,挑战包括设计全面且领域专精的标签体系,该体系需整合法律条文与实证研究中的关键因素;同时,标注工作依赖法律专家的深度参与,以确保对灵活表述的要素(如是否构成共同犯罪)进行一致且准确的注释。此外,数据稀疏性与司法文档的选择偏差也为模型的训练与应用带来了额外难度。
常用场景
经典使用场景
在自然语言处理与法律智能交叉领域,LEEC数据集为文档级事件提取任务提供了经典的应用场景。该数据集包含15,831份中文刑事司法文书,涵盖159个精细标注的法律要素,特别适用于训练和评估模型从复杂法律文本中自动识别并结构化关键信息,如被告人特征、犯罪情节及量刑要素。通过将法律专业知识融入标注体系,LEEC能够支持模型在多重被告、多罪名等复杂司法情境下的要素提取,为法律文本的深度解析奠定基础。
衍生相关工作
围绕LEEC数据集,已衍生出一系列经典研究工作,主要集中在文档级事件提取模型的适配与优化。例如,研究团队基于LEEC评估了DCFEE、Doc2EDAG、PTPCG等先进事件提取模型,验证了其在法律长文本与分散论元场景下的性能。这些实验揭示了法律领域事件提取的独特挑战,如文本复杂度高、要素关系密集,从而催生了针对法律文本结构优化的新模型设计。此外,LEEC与现有法律数据集(如LEVEN、LeCaRD)的标注互补性,也促进了跨任务联合学习与知识图谱构建等方向的探索。
数据集最近研究
最新研究方向
在司法人工智能领域,LEEC数据集的推出标志着法律要素提取研究迈入了一个新的阶段。该数据集凭借其涵盖159个标签的领域专用标签体系,不仅整合了法定量刑因素,还融入了实证法学研究中揭示的非法定要素,如被告人的户籍、民族等社会人口学特征,为理解“书本上的法”与“行动中的法”之间的复杂互动提供了数据基础。当前的前沿研究聚焦于利用此类大规模精细化标注数据,探索文档级事件提取模型在法律长文本、多被告、多罪名等复杂场景下的适应性与泛化能力。研究热点包括如何克服法律文本中要素表述的灵活性与稀疏性挑战,以及如何构建能够理解法律概念间复杂关系的知识图谱增强模型。这些努力旨在推动法律判决预测、类案检索等下游应用的发展,并对实证法学研究产生深远影响,为司法透明化和智能化提供坚实支撑。
相关研究论文
- 1LEEC: A Legal Element Extraction Dataset with an Extensive Domain-Specific Label System清华大学法学院 · 2023年
以上内容由遇见数据集搜集并总结生成



