five

NER4Legal SRB

收藏
arXiv2025-02-15 更新2025-02-19 收录
下载链接:
https://huggingface.co/kalusev/NER4Legal SRB
下载链接
链接失效反馈
官方服务:
资源简介:
NER4Legal SRB数据集是由塞尔维亚人工智能研究所创建,包含75份塞尔维亚上诉法院的裁决书,这些裁决书经过仔细挑选,以提供塞尔维亚司法实践的代表样本。数据集以官方 gazette 的公告、法律、法院裁决等8种命名实体类型进行了字符级别的标注,采用BIO标注方案,形成了总共2172个包含命名实体的句子。该数据集可用于塞尔维亚法律文书中命名实体的识别研究。

The NER4Legal SRB dataset was created by the Artificial Intelligence Research Institute of Serbia. It consists of 75 rulings from Serbian appellate courts, which were carefully selected to provide a representative sample of Serbian judicial practice. The dataset is annotated at the character level with 8 types of named entities including official gazette announcements, laws, court rulings and others using the BIO annotation scheme, resulting in a total of 2172 sentences containing named entities. This dataset can be used for research on named entity recognition in Serbian legal documents.
提供机构:
塞尔维亚人工智能研究所
创建时间:
2025-02-15
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集NER4Legal SRB的构建主要围绕塞尔维亚语法律文档的命名实体识别(Named Entity Recognition, NER)任务展开。研究者收集了75份塞尔维亚语司法实践中具有代表性的上诉法院判决书,并对其进行了数字化和拉丁文转写处理。然后,研究者对这些文档进行了人工标注,采用BIO标注方案,将文档中的文本分割成句子,并识别和分类了8种不同的命名实体类型,包括法院名称、日期、判决结果、法律名称、金额、官方公报、人名和案件编号。为了适应低资源语言的特定下游任务,研究者使用了预训练的BERTi´c模型,该模型是专门为塞尔维亚语和其他南斯拉夫语言开发的。通过在小规模数据集上对BERTi´c模型进行微调,研究者展示了该模型在塞尔维亚语法律文档命名实体识别任务上的可行性和鲁棒性。
特点
NER4Legal SRB数据集的特点在于其针对塞尔维亚语法律文档进行了专门的构建和标注,填补了塞尔维亚语NLP工具和特定训练语料库的空白。数据集涵盖了8种不同的命名实体类型,包括法院名称、日期、判决结果、法律名称、金额、官方公报、人名和案件编号,这些实体在法律文档中具有重要价值。此外,数据集的构建过程中采用了拉丁文转写,使得数据集可以与预训练的BERTi´c模型兼容。数据集的标注采用了BIO标注方案,可以有效地识别和分类实体。
使用方法
NER4Legal SRB数据集可以用于塞尔维亚语法律文档的命名实体识别任务。研究者通过在小规模数据集上对预训练的BERTi´c模型进行微调,实现了对法律文档中8种不同命名实体类型的识别和分类。数据集的使用方法包括以下步骤:首先,将塞尔维亚语法律文档进行拉丁文转写,并分割成句子;其次,使用预训练的BERTi´c模型对句子进行编码,并提取特征;最后,使用微调后的模型对句子中的命名实体进行识别和分类。通过使用NER4Legal SRB数据集,可以实现塞尔维亚语法律文档的自动化信息提取、文档分类和文本摘要等功能。
背景与挑战
背景概述
随着自然语言处理(NLP)领域的最新进展,特别是大型语言模型(LLM)及其众多应用的兴起,研究人员对设计不同的文档处理工具和改进文档存档、搜索和检索过程产生了浓厚兴趣。在官方法律文件领域,由于每天产生的大量数据和对此感兴趣的专业实践者(律师、律师事务所、行政人员、国家机构和公民)的显著社区,这一领域尤其引人注目。因此,提供高效的自动化日常法律文件工作的方式有望在不同领域产生重大影响。本文介绍了名为NER4Legal SRB的数据集,这是一个为塞尔维亚法律文件设计的命名实体识别(NER)数据集,它利用了预训练的双向编码器表示,即变换器(BERT),这些表示已经过精心调整,以识别和分类文本内容中的特定数据点。除了塞尔维亚语言(涉及公共法院裁决)的新数据集开发外,本文还讨论了系统设计和应用方法,以及所实现的性能指标及其对所提出解决方案客观评估的影响。
当前挑战
塞尔维亚语言在LLM开发和各种下游应用方面仍然被认为是低资源的,因此,塞尔维亚法律文件中用于命名实体识别(NER)的工具仍然很少,并且在实践中不常见。本文旨在克服现有的挑战,并促进LLM技术在塞尔维亚语社区的民主化和普及。NER4Legal SRB数据集的开发面临的主要挑战包括塞尔维亚语言资源稀缺、法律文件的复杂性和语言障碍。塞尔维亚法律文本通常包含长句、嵌套句和语法复杂的句子,这些句子由正式和特定领域的语言组成,并包含复杂的缩写和与其他文件的交叉引用。尽管数字化过程无处不在,包括对旧档案的光学字符识别(OCR),但塞尔维亚语仍然缺乏标记化的法律数据集,并且法律框架不断演变。此外,法律文件中的命名实体可能包含同义词、缩写和拼写错误,这增加了数据集标记和模型训练的难度。
常用场景
经典使用场景
NER4Legal SRB数据集主要应用于塞尔维亚语法律文书的命名实体识别(NER)任务,通过预先训练的BERT模型对法律文书中的实体进行识别和分类,如法院名称、日期、裁决、法律、金额等。该数据集为塞尔维亚语低资源语言环境下NER任务的模型训练提供了宝贵的数据资源,有助于推动塞尔维亚语NLP工具的研发和应用。
解决学术问题
NER4Legal SRB数据集解决了塞尔维亚语低资源环境下法律文书NER任务的数据匮乏问题,为相关研究提供了数据支持。同时,该数据集还展示了在低资源语言环境下,利用预训练模型进行微调以适应特定领域任务的可行性,为其他低资源语言和领域的NLP任务提供了参考。
衍生相关工作
基于NER4Legal SRB数据集的研究成果,可以进一步探索塞尔维亚语法律领域其他NLP任务,如文本分类、情感分析、关系抽取等。同时,该数据集还可以为其他低资源语言的NLP任务提供借鉴,推动低资源语言环境下NLP技术的发展。此外,该数据集还可以用于开发塞尔维亚语法律领域的智能问答系统、法律检索系统等,为法律工作者提供更加便捷的工具和服务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作