five

E-NER|法律文本数据集|命名实体识别数据集

收藏
arXiv2022-12-19 更新2024-07-24 收录
法律文本
命名实体识别
下载链接:
https://github.com/terenceau2/E-NER-Dataset
下载链接
链接失效反馈
资源简介:
E-NER数据集是由伦敦大学学院计算机科学系创建的一个针对法律文本的命名实体识别(NER)数据集。该数据集基于美国证券交易委员会的EDGAR数据库中的法律公司文件,共包含52份文件,涵盖多种法律文书类型。数据集的创建过程涉及从HTML文本中提取句子并进行手动标注,以确保标签的准确性。E-NER数据集主要用于训练和测试NER模型在法律领域的应用,旨在提高法律文本处理中的信息提取准确性。
提供机构:
伦敦大学学院计算机科学系
创建时间:
2022-12-19
原始信息汇总

E-NER 数据集

数据集概述

  • 数据来源:包含来自美国 SEC EDGAR 数据库的 52 份文件。
  • 数据标注:命名实体标签为手工标注。

命名实体分类

  • 完整分类:数据集中的命名实体分为 7 个类别:Person, Court, Business, Government, Location, Legislation/Act, Miscellaneous(以及用于非命名实体的类别 "Outside")。
  • 简化分类:在 "edgar_4.csv" 文件中,命名实体类别简化为 4 个:Person, Organization, Location, Miscellaneous。其中,Court, Business 和 Government 合并为 Organization,Legislation/Act 和 Miscellaneous 合并为 Miscellaneous。

文件说明

  • all.csv:包含标注的文件,每行一个词,后跟命名实体标签,词和标签之间用制表符分隔。
  • edgar_4.csv:与 "all.csv" 包含相同的数据,但命名实体类别简化为 4 个。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
E-NER数据集的构建基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件。首先,从EDGAR数据库中下载了2010年的52份文件,这些文件涵盖了多种类型的法律文件,如公司季度报告和重大事件公告。随后,使用Python的Beautiful Soup包对这些HTML格式的文件进行预处理,去除无关的HTML标签、图形元素、表格、页面标题和数字等。最终,将这些文档分割成句子,并由第一作者进行命名实体的标注,确保数据集的高质量。
使用方法
E-NER数据集主要用于训练和评估命名实体识别(NER)模型在法律文本中的表现。研究者可以使用该数据集来训练和微调现有的NER模型,如BERT、CRF和HMM等,以提高其在法律领域的准确性。通过对比在一般英语数据集(如CoNLL-2003)上训练的模型与在E-NER数据集上训练的模型的性能,可以更深入地理解领域特定数据集对NER模型性能的影响。
背景与挑战
背景概述
E-NER数据集,全称为Annotated Named Entity Recognition Corpus of Legal Text,由Ting Wai Terence Au、Vasileios Lampos和Ingemar J. Cox等人于2022年创建。该数据集基于美国证券交易委员会(SEC)的EDGAR数据库中的法律公司文件,旨在解决法律文本中命名实体识别(NER)的挑战。E-NER数据集的创建填补了法律领域NER数据集的空白,为法律文本处理提供了宝贵的资源,尤其在记录链接、合同分析和司法决策预测等法律任务中具有重要应用。
当前挑战
E-NER数据集在构建过程中面临多项挑战。首先,法律文本的特殊性导致通用英语NER模型在法律文本上的性能显著下降,这要求开发专门针对法律领域的NER模型。其次,数据集的构建涉及大量手动标注,耗时且劳动密集。此外,法律文本的复杂性和多样性使得标注任务对非专家来说极具挑战性,导致标注结果的一致性难以保证。最后,尽管已有一些法律领域的NER研究,但公开可用的法律NER数据集仍然稀缺,限制了相关研究的进展。
常用场景
经典使用场景
E-NER数据集在法律文本中的命名实体识别(NER)任务中展现了其经典应用。该数据集通过标注法律公司文件中的实体,如个人、地点和组织,为训练和评估NER模型提供了宝贵的资源。研究者们利用E-NER数据集,能够开发出针对法律领域特化的NER模型,从而显著提升在法律文本中的实体识别精度。
解决学术问题
E-NER数据集解决了在法律领域中NER模型性能显著下降的学术问题。传统NER模型在通用英语数据集上训练后,应用于法律文本时,其准确性大幅降低。E-NER通过提供专门针对法律文本的标注数据,使得研究者能够训练出更适应法律语言特性的NER模型,从而在法律文本处理中取得了显著的性能提升。
实际应用
E-NER数据集在实际应用中具有广泛的前景,特别是在法律信息处理和自动化领域。例如,在法律文档的自动摘要、合同分析、司法判决预测以及法律问答系统中,E-NER数据集训练的NER模型能够高效地识别和提取关键实体信息,极大地提高了这些应用的准确性和效率。
数据集最近研究
最新研究方向
在法律文本处理领域,E-NER数据集的最新研究方向主要集中在提升命名实体识别(NER)模型在法律文本中的性能。由于法律文本的特殊性和复杂性,传统的NER模型在处理此类文本时表现显著下降。因此,研究者们致力于开发和优化专门针对法律领域的NER模型,以提高其在法律文本中的识别精度和效率。此外,随着预训练语言模型(如BERT)在通用领域的成功应用,研究者们也在探索如何将这些模型迁移到法律领域,通过微调或特定任务的预训练,进一步提升法律NER模型的性能。这些研究不仅有助于法律文本的自动化处理,也为法律信息检索、合同分析等下游任务提供了更强大的技术支持。
相关研究论文
  • 1
    E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text伦敦大学学院计算机科学系 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

绿途App——植被信息数据采集服务软件

绿途app是一款植被信息数据采集服务的软件应用,还能在这里进行数据的整理,智能的为用户带来便捷的数据采集服务,还能在这里生成报表分析,更好的服务用户的数据需求,操作起来便捷快速,更好的服务用户,让用户在这里可以享受到优质的信息服务,满足用户的需求。 绿途app介绍 绿途app是一款专业的植被分布数据采集软件。 绿途app可以加载多源遥感地图,同时提供了打点记录模式和拍照记录模式, 并支持离线上传和编辑修改等功能。 绿途app是由北京数字绿土科技有限公司开发,由中国科学院植物研究所提供数据和理论支持。 绿途app特点 绿途app具备普通用户拍照记录模式和专家用户打点记录模式。 拍照模式下,用户可以根据绿途app自带的自动定位功能,在当前GPS位置下进行图像数据的采集,描述类别并上传到服务端。 打点模式下,用户可以根据绿途app自动的谷歌影像和1:100万植被图等图层作为参考,进行目视范围内植被名称的快速标记,上传。 上传到服务端的数据可以通过用户名或者绿途app设置中的扫一扫功能登陆网页端进行数据的查看,审核和下载等功能。 同时,绿途app包含由离线数据存储方便用户在网络条件差的情况下进行数据的获取和后期上传。 绿途app优势 专家打点记录功能,可快速在地图取点标记植被分布信息,对于专家用户快速作业提供了新手段; 离线数据上传功能,有效解决了APP在野外作业没有网络无法实现数据上传的挑战; 数据的编辑和下载使用,同时支持扫一扫登陆网页端等人性化设计。 绿途app功能 1)多源遥感底图(高德卫星图像和谷歌卫星图像)的加载显示和离线下载,方便用户做好外业规划和实地参考; 2)支持兴趣点的创建和导航,方便用户标记感兴趣的研究区,保存历史记录,同时兴趣点支持导航等功能,方便用户标记热点和重点区域再次进行调查; 3)拍照记录功能,为用户提供了快速高效的照片信息采集功能,同时照片记录有用户GPS信息,提升了数据的使用价值; 绿途app说明 绿途app是一款在线进行提供地图信息资源的平台。 这是有中国科学院进行研发制作出来的,所有的信息资源都是可以在线进行查看的, 为的就是帮助用户进行更好的出行与查询的, 是可以在线进行使用导航的,都是有现有的信息进行汇集起来的哦。

植物科学数据中心 收录

era5

ERA5数据集是基于Hersbach等人的研究,包含26个气候变量,数据采样间隔为每6小时一次,覆盖了整个月份的每天,适用于气候研究。

huggingface 收录