five

E-NER|法律文本数据集|命名实体识别数据集

收藏
arXiv2022-12-19 更新2024-07-24 收录
法律文本
命名实体识别
下载链接:
https://github.com/terenceau2/E-NER-Dataset
下载链接
链接失效反馈
资源简介:
E-NER数据集是由伦敦大学学院计算机科学系创建的一个针对法律文本的命名实体识别(NER)数据集。该数据集基于美国证券交易委员会的EDGAR数据库中的法律公司文件,共包含52份文件,涵盖多种法律文书类型。数据集的创建过程涉及从HTML文本中提取句子并进行手动标注,以确保标签的准确性。E-NER数据集主要用于训练和测试NER模型在法律领域的应用,旨在提高法律文本处理中的信息提取准确性。
提供机构:
伦敦大学学院计算机科学系
创建时间:
2022-12-19
原始信息汇总

E-NER 数据集

数据集概述

  • 数据来源:包含来自美国 SEC EDGAR 数据库的 52 份文件。
  • 数据标注:命名实体标签为手工标注。

命名实体分类

  • 完整分类:数据集中的命名实体分为 7 个类别:Person, Court, Business, Government, Location, Legislation/Act, Miscellaneous(以及用于非命名实体的类别 "Outside")。
  • 简化分类:在 "edgar_4.csv" 文件中,命名实体类别简化为 4 个:Person, Organization, Location, Miscellaneous。其中,Court, Business 和 Government 合并为 Organization,Legislation/Act 和 Miscellaneous 合并为 Miscellaneous。

文件说明

  • all.csv:包含标注的文件,每行一个词,后跟命名实体标签,词和标签之间用制表符分隔。
  • edgar_4.csv:与 "all.csv" 包含相同的数据,但命名实体类别简化为 4 个。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
E-NER数据集的构建基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件。首先,从EDGAR数据库中下载了2010年的52份文件,这些文件涵盖了多种类型的法律文件,如公司季度报告和重大事件公告。随后,使用Python的Beautiful Soup包对这些HTML格式的文件进行预处理,去除无关的HTML标签、图形元素、表格、页面标题和数字等。最终,将这些文档分割成句子,并由第一作者进行命名实体的标注,确保数据集的高质量。
使用方法
E-NER数据集主要用于训练和评估命名实体识别(NER)模型在法律文本中的表现。研究者可以使用该数据集来训练和微调现有的NER模型,如BERT、CRF和HMM等,以提高其在法律领域的准确性。通过对比在一般英语数据集(如CoNLL-2003)上训练的模型与在E-NER数据集上训练的模型的性能,可以更深入地理解领域特定数据集对NER模型性能的影响。
背景与挑战
背景概述
E-NER数据集,全称为Annotated Named Entity Recognition Corpus of Legal Text,由Ting Wai Terence Au、Vasileios Lampos和Ingemar J. Cox等人于2022年创建。该数据集基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件,旨在解决法律文本中命名实体识别(NER)的挑战。E-NER数据集的创建填补了法律领域NER数据集的空白,为法律文本处理提供了宝贵的资源,尤其在记录链接、合同分析和司法决策预测等法律任务中具有重要应用。
当前挑战
E-NER数据集在构建过程中面临多项挑战。首先,法律文本的特殊性导致通用英语NER模型在法律文本上的性能显著下降,这要求开发专门针对法律领域的NER模型。其次,数据集的构建涉及大量手动标注,耗时且劳动密集。此外,法律文本的复杂性和多样性使得标注任务对非专家来说极具挑战性,导致标注结果的一致性难以保证。最后,尽管已有一些法律领域的NER研究,但公开可用的法律NER数据集仍然稀缺,限制了相关研究的进展。
常用场景
经典使用场景
E-NER数据集在法律文本中的命名实体识别(NER)任务中展现了其经典应用。该数据集通过标注法律公司文件中的实体,如个人、地点和组织,为训练和评估NER模型提供了宝贵的资源。研究者们利用E-NER数据集,能够开发出针对法律领域特化的NER模型,从而显著提升在法律文本中的实体识别精度。
解决学术问题
E-NER数据集解决了在法律领域中NER模型性能显著下降的学术问题。传统NER模型在通用英语数据集上训练后,应用于法律文本时,其准确性大幅降低。E-NER通过提供专门针对法律文本的标注数据,使得研究者能够训练出更适应法律语言特性的NER模型,从而在法律文本处理中取得了显著的性能提升。
实际应用
E-NER数据集在实际应用中具有广泛的前景,特别是在法律信息处理和自动化领域。例如,在法律文档的自动摘要、合同分析、司法判决预测以及法律问答系统中,E-NER数据集训练的NER模型能够高效地识别和提取关键实体信息,极大地提高了这些应用的准确性和效率。
数据集最近研究
最新研究方向
在法律文本处理领域,E-NER数据集的最新研究方向主要集中在提升命名实体识别(NER)模型在法律文本中的性能。由于法律文本的特殊性和复杂性,传统的NER模型在处理此类文本时表现显著下降。因此,研究者们致力于开发和优化专门针对法律领域的NER模型,以提高其在法律文本中的识别精度和效率。此外,随着预训练语言模型(如BERT)在通用领域的成功应用,研究者们也在探索如何将这些模型迁移到法律领域,通过微调或特定任务的预训练,进一步提升法律NER模型的性能。这些研究不仅有助于法律文本的自动化处理,也为法律信息检索、合同分析等下游任务提供了更强大的技术支持。
相关研究论文
  • 1
    E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text伦敦大学学院计算机科学系 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。

arXiv 收录

Natural Questions

Natural Questions (NQ) 包含真实用户向Google搜索提出的问题,以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录