five

E-NER|法律文本数据集|命名实体识别数据集

收藏
arXiv2022-12-19 更新2024-07-24 收录
法律文本
命名实体识别
下载链接:
https://github.com/terenceau2/E-NER-Dataset
下载链接
链接失效反馈
资源简介:
E-NER数据集是由伦敦大学学院计算机科学系创建的一个针对法律文本的命名实体识别(NER)数据集。该数据集基于美国证券交易委员会的EDGAR数据库中的法律公司文件,共包含52份文件,涵盖多种法律文书类型。数据集的创建过程涉及从HTML文本中提取句子并进行手动标注,以确保标签的准确性。E-NER数据集主要用于训练和测试NER模型在法律领域的应用,旨在提高法律文本处理中的信息提取准确性。
提供机构:
伦敦大学学院计算机科学系
创建时间:
2022-12-19
原始信息汇总

E-NER 数据集

数据集概述

  • 数据来源:包含来自美国 SEC EDGAR 数据库的 52 份文件。
  • 数据标注:命名实体标签为手工标注。

命名实体分类

  • 完整分类:数据集中的命名实体分为 7 个类别:Person, Court, Business, Government, Location, Legislation/Act, Miscellaneous(以及用于非命名实体的类别 "Outside")。
  • 简化分类:在 "edgar_4.csv" 文件中,命名实体类别简化为 4 个:Person, Organization, Location, Miscellaneous。其中,Court, Business 和 Government 合并为 Organization,Legislation/Act 和 Miscellaneous 合并为 Miscellaneous。

文件说明

  • all.csv:包含标注的文件,每行一个词,后跟命名实体标签,词和标签之间用制表符分隔。
  • edgar_4.csv:与 "all.csv" 包含相同的数据,但命名实体类别简化为 4 个。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
E-NER数据集的构建基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件。首先,从EDGAR数据库中下载了2010年的52份文件,这些文件涵盖了多种类型的法律文件,如公司季度报告和重大事件公告。随后,使用Python的Beautiful Soup包对这些HTML格式的文件进行预处理,去除无关的HTML标签、图形元素、表格、页面标题和数字等。最终,将这些文档分割成句子,并由第一作者进行命名实体的标注,确保数据集的高质量。
使用方法
E-NER数据集主要用于训练和评估命名实体识别(NER)模型在法律文本中的表现。研究者可以使用该数据集来训练和微调现有的NER模型,如BERT、CRF和HMM等,以提高其在法律领域的准确性。通过对比在一般英语数据集(如CoNLL-2003)上训练的模型与在E-NER数据集上训练的模型的性能,可以更深入地理解领域特定数据集对NER模型性能的影响。
背景与挑战
背景概述
E-NER数据集,全称为Annotated Named Entity Recognition Corpus of Legal Text,由Ting Wai Terence Au、Vasileios Lampos和Ingemar J. Cox等人于2022年创建。该数据集基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件,旨在解决法律文本中命名实体识别(NER)的挑战。E-NER数据集的创建填补了法律领域NER数据集的空白,为法律文本处理提供了宝贵的资源,尤其在记录链接、合同分析和司法决策预测等法律任务中具有重要应用。
当前挑战
E-NER数据集在构建过程中面临多项挑战。首先,法律文本的特殊性导致通用英语NER模型在法律文本上的性能显著下降,这要求开发专门针对法律领域的NER模型。其次,数据集的构建涉及大量手动标注,耗时且劳动密集。此外,法律文本的复杂性和多样性使得标注任务对非专家来说极具挑战性,导致标注结果的一致性难以保证。最后,尽管已有一些法律领域的NER研究,但公开可用的法律NER数据集仍然稀缺,限制了相关研究的进展。
常用场景
经典使用场景
E-NER数据集在法律文本中的命名实体识别(NER)任务中展现了其经典应用。该数据集通过标注法律公司文件中的实体,如个人、地点和组织,为训练和评估NER模型提供了宝贵的资源。研究者们利用E-NER数据集,能够开发出针对法律领域特化的NER模型,从而显著提升在法律文本中的实体识别精度。
解决学术问题
E-NER数据集解决了在法律领域中NER模型性能显著下降的学术问题。传统NER模型在通用英语数据集上训练后,应用于法律文本时,其准确性大幅降低。E-NER通过提供专门针对法律文本的标注数据,使得研究者能够训练出更适应法律语言特性的NER模型,从而在法律文本处理中取得了显著的性能提升。
实际应用
E-NER数据集在实际应用中具有广泛的前景,特别是在法律信息处理和自动化领域。例如,在法律文档的自动摘要、合同分析、司法判决预测以及法律问答系统中,E-NER数据集训练的NER模型能够高效地识别和提取关键实体信息,极大地提高了这些应用的准确性和效率。
数据集最近研究
最新研究方向
在法律文本处理领域,E-NER数据集的最新研究方向主要集中在提升命名实体识别(NER)模型在法律文本中的性能。由于法律文本的特殊性和复杂性,传统的NER模型在处理此类文本时表现显著下降。因此,研究者们致力于开发和优化专门针对法律领域的NER模型,以提高其在法律文本中的识别精度和效率。此外,随着预训练语言模型(如BERT)在通用领域的成功应用,研究者们也在探索如何将这些模型迁移到法律领域,通过微调或特定任务的预训练,进一步提升法律NER模型的性能。这些研究不仅有助于法律文本的自动化处理,也为法律信息检索、合同分析等下游任务提供了更强大的技术支持。
相关研究论文
  • 1
    E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text伦敦大学学院计算机科学系 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录