E-NER

Name: E-NER
Creator: 伦敦大学学院计算机科学系
Published: 2022-12-19 17:03:32
License: 暂无描述

arXiv2022-12-19 更新2024-07-24 收录

下载链接：

https://github.com/terenceau2/E-NER-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

E-NER数据集是由伦敦大学学院计算机科学系创建的一个针对法律文本的命名实体识别（NER）数据集。该数据集基于美国证券交易委员会的EDGAR数据库中的法律公司文件，共包含52份文件，涵盖多种法律文书类型。数据集的创建过程涉及从HTML文本中提取句子并进行手动标注，以确保标签的准确性。E-NER数据集主要用于训练和测试NER模型在法律领域的应用，旨在提高法律文本处理中的信息提取准确性。

The E-NER dataset is a named entity recognition (NER) dataset tailored for legal texts, developed by the Department of Computer Science at University College London (UCL). This dataset comprises 52 documents sourced from legal corporate filings in the U.S. Securities and Exchange Commission (SEC)’s EDGAR database, covering a wide range of legal document categories. The dataset creation process involved extracting sentences from HTML texts and conducting manual annotation to guarantee the accuracy of entity labels. The E-NER dataset is primarily utilized for training and testing NER models for legal domain applications, with the objective of enhancing the accuracy of information extraction in legal text processing.

提供机构：

伦敦大学学院计算机科学系

创建时间：

2022-12-19

原始信息汇总

E-NER 数据集

数据集概述

数据来源：包含来自美国 SEC EDGAR 数据库的 52 份文件。
数据标注：命名实体标签为手工标注。

命名实体分类

完整分类：数据集中的命名实体分为 7 个类别：Person, Court, Business, Government, Location, Legislation/Act, Miscellaneous（以及用于非命名实体的类别 "Outside"）。
简化分类：在 "edgar_4.csv" 文件中，命名实体类别简化为 4 个：Person, Organization, Location, Miscellaneous。其中，Court, Business 和 Government 合并为 Organization，Legislation/Act 和 Miscellaneous 合并为 Miscellaneous。

文件说明

all.csv：包含标注的文件，每行一个词，后跟命名实体标签，词和标签之间用制表符分隔。
edgar_4.csv：与 "all.csv" 包含相同的数据，但命名实体类别简化为 4 个。

许可证

该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

搜集汇总

数据集介绍

构建方式

E-NER数据集的构建基于美国证券交易委员会（SEC）的EDGAR数据库中的法律公司文件。首先，从EDGAR数据库中下载了2010年的52份文件，这些文件涵盖了多种类型的法律文件，如公司季度报告和重大事件公告。随后，使用Python的Beautiful Soup包对这些HTML格式的文件进行预处理，去除无关的HTML标签、图形元素、表格、页面标题和数字等。最终，将这些文档分割成句子，并由第一作者进行命名实体的标注，确保数据集的高质量。

使用方法

E-NER数据集主要用于训练和评估命名实体识别（NER）模型在法律文本中的表现。研究者可以使用该数据集来训练和微调现有的NER模型，如BERT、CRF和HMM等，以提高其在法律领域的准确性。通过对比在一般英语数据集（如CoNLL-2003）上训练的模型与在E-NER数据集上训练的模型的性能，可以更深入地理解领域特定数据集对NER模型性能的影响。

背景与挑战

背景概述

E-NER数据集，全称为Annotated Named Entity Recognition Corpus of Legal Text，由Ting Wai Terence Au、Vasileios Lampos和Ingemar J. Cox等人于2022年创建。该数据集基于美国证券交易委员会（SEC）的EDGAR数据库中的法律公司文件，旨在解决法律文本中命名实体识别（NER）的挑战。E-NER数据集的创建填补了法律领域NER数据集的空白，为法律文本处理提供了宝贵的资源，尤其在记录链接、合同分析和司法决策预测等法律任务中具有重要应用。

当前挑战

E-NER数据集在构建过程中面临多项挑战。首先，法律文本的特殊性导致通用英语NER模型在法律文本上的性能显著下降，这要求开发专门针对法律领域的NER模型。其次，数据集的构建涉及大量手动标注，耗时且劳动密集。此外，法律文本的复杂性和多样性使得标注任务对非专家来说极具挑战性，导致标注结果的一致性难以保证。最后，尽管已有一些法律领域的NER研究，但公开可用的法律NER数据集仍然稀缺，限制了相关研究的进展。

常用场景

经典使用场景

E-NER数据集在法律文本中的命名实体识别（NER）任务中展现了其经典应用。该数据集通过标注法律公司文件中的实体，如个人、地点和组织，为训练和评估NER模型提供了宝贵的资源。研究者们利用E-NER数据集，能够开发出针对法律领域特化的NER模型，从而显著提升在法律文本中的实体识别精度。

解决学术问题

E-NER数据集解决了在法律领域中NER模型性能显著下降的学术问题。传统NER模型在通用英语数据集上训练后，应用于法律文本时，其准确性大幅降低。E-NER通过提供专门针对法律文本的标注数据，使得研究者能够训练出更适应法律语言特性的NER模型，从而在法律文本处理中取得了显著的性能提升。

实际应用

E-NER数据集在实际应用中具有广泛的前景，特别是在法律信息处理和自动化领域。例如，在法律文档的自动摘要、合同分析、司法判决预测以及法律问答系统中，E-NER数据集训练的NER模型能够高效地识别和提取关键实体信息，极大地提高了这些应用的准确性和效率。

数据集最近研究