InLegalNER

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/Legal-NLP-EkStep/legal_NER

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于印度法院判决中的命名实体识别，包含了法院、当事人、法官、律师、日期等特定法律实体的标注，适用于开发专门针对印度法律文本的NER模型。

This dataset is designed for Named Entity Recognition (NER) in Indian court judgments, encompassing annotations for specific legal entities such as courts, parties, judges, lawyers, and dates. It is suitable for developing NER models specifically tailored to Indian legal texts.

创建时间：

2022-03-28

原始信息汇总

数据集概述

1. 数据集名称

名称: legal_NER

2. 数据集目的

目的: 为印度法院判决文本开发专门的命名实体识别（NER）模型。由于印度法律程序和术语的特殊性，标准NER模型如spacy无法识别法律文档中的特定实体，如原告、被告、法院、法规、条款、先例等。

3. 覆盖的实体类型

实体类型:
- COURT
- PETITIONER
- RESPONDENT
- JUDGE
- LAWYER
- DATE
- ORG
- GPE
- STATUTE
- PROVISION
- PRECEDENT
- CASE_NUMBER
- WITNESS
- OTHER_PERSON

4. 数据集内容

训练数据: 可在此链接获取：训练数据
开发数据: 可在此链接获取：开发数据
测试数据: 可在此链接获取：测试数据

5. 数据集特点

数据来源: 判决文本来自1950至2021年，使用代表性样本生成方法选择。
数据预处理: 使用spacy预训练模型进行预标注，通过法律专家和数据科学家进行标注。
实体统计: 提供了各实体在判决和序言中的计数。

6. 数据集使用

模型训练: 使用spacy库将数据转换为spacy格式后进行训练。
模型使用: 提供了详细的步骤和代码示例，用于加载和使用训练好的模型进行实体提取。
结果可视化: 提供了实体提取结果的可视化方法。
结果分析: 提供了获取唯一条款、法规和先例计数的方法。

7. 数据集评估

评估方法: 使用提供的测试数据进行模型评估。

结论

该数据集专为印度法院判决文本的命名实体识别设计，提供了详细的实体类型、数据分布和使用指南，适用于法律文本处理和自然语言处理领域的研究和应用。

搜集汇总

数据集介绍

构建方式

InLegalNER数据集的构建基于印度法院1950年至2021年间的判决文本，采用代表性样本生成方法选取了训练和测试数据。训练数据涵盖1950年至2017年的判决，测试数据则来自2017年至2021年。为减少类别不平衡，数据集通过预标注和人工校正相结合的方式进行标注，使用spaCy预训练模型进行初步预测，并由法律专家和数据科学家进一步校正。数据集分为判决文本和前言两部分，分别包含9435个判决句子和1560个前言，涵盖多种法律实体类型。

特点

InLegalNER数据集的显著特点在于其专注于印度法院判决文本中的命名实体识别，涵盖了多种法律实体类型，如法院、当事人、法官、律师、日期、组织、地缘政治实体、法条、条款、先例、案件编号、证人及其他人员。数据集通过分离前言和判决文本，确保了实体标注的准确性，并采用平坦实体标注方式，避免了嵌套实体的复杂性。此外，数据集通过预处理和后处理步骤，进一步提升了实体识别的准确性和一致性。

使用方法

InLegalNER数据集可通过Huggingface Datasets平台获取，并支持多种使用方式。用户可以通过spaCy库加载预训练模型，使用Python脚本对自定义的判决文本进行实体提取。模型支持两种运行模式：一是将整个判决文本传递给模型进行实体提取，二是逐句传递以提高准确性。提取的实体可通过后处理步骤进一步优化，如先例、法条和条款的归一化处理。此外，数据集还提供了可视化工具，便于用户直观查看提取的实体结果。

背景与挑战

背景概述

InLegalNER数据集由OpenNyAI团队创建，旨在解决印度法庭判决文本中的命名实体识别（NER）问题。该数据集的构建源于对印度法律文本中独特实体类型的识别需求，如当事人、法院、法条等，这些实体在标准NER模型中往往无法被准确识别。数据集的创建时间可追溯至2022年，其研究成果在EMNLP的NLLP研讨会上发表，标志着该领域的重要进展。通过提供标注的训练、验证和测试数据，InLegalNER为研究者提供了一个专门针对印度法律文本的NER工具，推动了法律自然语言处理领域的发展。

当前挑战

InLegalNER数据集面临的挑战主要来自两个方面：一是印度法律文本的独特性和复杂性，导致标准NER模型难以有效识别其中的实体；二是数据集构建过程中遇到的实体类别不平衡问题，尤其是罕见实体的标注和识别。此外，法律文本中的上下文依赖性较强，如何在句子级别进行有效的实体识别，同时考虑文档级别的上下文信息，也是该数据集面临的重要挑战。这些挑战不仅影响了模型的训练效果，也对后续的模型评估和应用提出了更高的要求。

常用场景

经典使用场景

InLegalNER数据集的经典使用场景主要集中在法律文本的命名实体识别（NER）任务中。该数据集特别针对印度法院判决书中的独特实体进行标注，如法院名称、当事人、法官、律师、日期、法条等。通过使用该数据集，研究人员和开发者可以训练模型，自动识别和提取这些法律实体，从而为法律文本分析提供强大的工具支持。

解决学术问题

InLegalNER数据集解决了在自然语言处理领域中，法律文本命名实体识别的学术研究问题。由于法律文本中的实体类型与通用文本存在显著差异，现有的通用NER模型难以准确识别这些特定实体。该数据集通过提供高质量的标注数据，帮助研究人员开发专门针对法律文本的NER模型，推动了法律文本处理技术的发展，具有重要的学术意义和应用价值。

衍生相关工作

InLegalNER数据集的发布催生了一系列相关的经典工作。例如，基于该数据集，研究人员开发了多种法律文本NER模型，并在多个法律文本处理任务中取得了显著的性能提升。此外，该数据集还激发了对法律文本语义理解、法律知识图谱构建等领域的研究，推动了法律自然语言处理技术的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集