peluz/lener_br

Name: peluz/lener_br
Creator: peluz
Published: 2024-01-18 11:07:59
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/peluz/lener_br

下载链接

链接失效反馈

官方服务：

资源简介：

leNER-br是一个用于命名实体识别（NER）的葡萄牙语数据集，专门应用于法律文档。数据集由66个来自巴西多个法院的法律文件和4个立法文件组成，共计70个文档。数据集包含手动标注的实体标签，如人名、地点、时间、组织、立法和判例等。数据集的结构包括训练集、验证集和测试集，分别包含7828、1177和1390个样本。数据集的创建目的是为了支持法律文本中的命名实体识别任务。

提供机构：

peluz

原始信息汇总

数据集概述

数据集名称: leNER-br

语言: 葡萄牙语 (pt)

许可: 未知

多语言性: 单语

大小类别: 10K<n<100K

源数据集: 原始数据

任务类别: 令牌分类

任务ID: 命名实体识别

数据集信息:

特征:
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 序列类型，包含以下类别标签：
  - 0: O
  - 1: B-ORGANIZACAO
  - 2: I-ORGANIZACAO
  - 3: B-PESSOA
  - 4: I-PESSOA
  - 5: B-TEMPO
  - 6: I-TEMPO
  - 7: B-LOCAL
  - 8: I-LOCAL
  - 9: B-LEGISLACAO
  - 10: I-LEGISLACAO
  - 11: B-JURISPRUDENCIA
  - 12: I-JURISPRUDENCIA
配置名称: lener_br
数据分割:
- 训练集: 7828个样本，3984189字节
- 验证集: 1177个样本，719433字节
- 测试集: 1390个样本，823708字节
下载大小: 2983137字节
数据集大小: 5527330字节

标签: 法律

搜集汇总

数据集介绍

构建方式

在法律文本处理领域，命名实体识别是信息抽取的关键技术。LeNER-Br数据集应运而生，专为巴西葡萄牙语法律文档的命名实体识别任务而构建。该数据集由70份法律文件组成，其中66份来自巴西各级法院（如联邦最高法院、高等法院、米纳斯吉拉斯州法院及联邦审计法院），另4份为立法文件（如《玛丽亚·达佩尼亚法》）。所有文本均由领域专家进行人工标注，涵盖人物、地点、时间、组织、立法及判例六类实体，采用CoNLL格式的BIO标注体系，确保了标注的精确性与专业性。

使用方法

使用LeNER-Br数据集时，研究者可直接通过HuggingFace Datasets库加载，配置名为'lener_br'。数据集结构简洁，每条样本包含'id'、'tokens'（分词列表）和'ner_tags'（对应标签列表，数值映射至13类标签）。数据已预先划分为训练、验证和测试集，便于直接用于序列标注模型的训练与评估。典型应用场景包括法律文档的自动信息抽取、法律知识图谱构建及司法文书辅助分析，研究者可基于此数据集微调预训练语言模型（如BERT、RoBERTa）以提升在法律域NER任务上的表现。

背景与挑战

背景概述

LeNER-Br数据集诞生于2018年，由巴西利亚大学Pedro H. Luz de Araujo等人创建，专注于葡萄牙语法律文本的命名实体识别。该数据集从巴西多个法院（如联邦最高法院、高等法院、米纳斯吉拉斯州法院及联邦审计法院）收集了66份法律文件，并补充了《玛丽亚·达佩尼亚法》等4份立法文本，共计70份文档。其核心研究问题在于为法律领域提供高质量的人工标注语料，涵盖人物、地点、时间、组织、立法及判例六类实体。该数据集填补了巴西法律文本信息抽取领域的空白，成为葡萄牙语自然语言处理研究的重要基准，推动了法律文档自动化分析的发展。

当前挑战

LeNER-Br面临的核心挑战在于法律文本的领域特异性与构建复杂性。首先，法律语言结构严谨、术语密集，实体边界模糊（如复合组织名、嵌套引文），对模型泛化能力构成严峻考验。其次，数据构建过程中，人工标注需兼顾法律专业性与一致性：66份司法文书涉及不同法院的格式差异，立法文本的抽象表述（如时间条款）增加了实体判别难度。此外，数据集规模有限（训练集7828句），可能限制深度学习模型的充分训练，且未覆盖巴西所有法律分支（如税法），导致领域迁移时出现性能下降。隐私脱敏处理（如匿名化当事人信息）亦可能引入标注噪声，影响实体识别的准确性。

常用场景

经典使用场景

在自然语言处理与法律智能的交叉领域中，leNER-Br数据集被广泛用于葡萄牙语法律文本的命名实体识别任务。该数据集包含来自巴西各级法院的法律文件与立法文本，标注了组织、人物、时间、地点、立法及判例六大类实体，为构建法律领域专用的序列标注模型提供了高质量的训练与评估基准。研究者常以此数据集检验条件随机场、双向长短期记忆网络搭配条件随机场层，以及基于Transformer的预训练语言模型在法律实体抽取任务上的表现，是葡语法律NLP研究的标杆性资源。

解决学术问题

leNER-Br的提出有效填补了巴西葡萄牙语法律文本结构化信息抽取领域的数据空白。此前，针对葡语法律领域的命名实体识别研究受限于标注语料匮乏，难以开展系统性的模型训练与性能评估。该数据集通过专家手工标注70份法律文档，构建了包含约一万个样本的标注语料库，使得学术研究者能够定量分析不同模型在法律实体边界识别与分类上的能力差异，推动了法律文本信息抽取方法在葡语环境下的实证研究，并为跨语言法律NLP的对比分析提供了关键支撑。

实际应用

在实际应用中，leNER-Br所支撑的命名实体识别技术可深度嵌入巴西司法系统的智能化流程。例如，在案件卷宗自动化处理中，模型能够从判决书、诉状等非结构化文本中精准提取当事人姓名、涉案法律条款、审判机构及关键时间节点，进而辅助法律文书摘要生成、案例检索与相似案例推荐系统。法律科技企业亦可基于该数据集开发面向律所或法院的合规审查工具，实现从海量法律文档中自动抽取监管实体与风险要素，显著提升法律事务处理效率。

数据集最近研究