five

joelniklaus/legalnero

收藏
Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/legalnero
下载链接
链接失效反馈
官方服务:
资源简介:
LegalNERo是一个手动标注的语料库,用于罗马尼亚法律领域的命名实体识别。它提供了法律文档中提到的组织、地点、人物、时间和法律资源的黄金标注。此外,它还提供了标注为地点的命名实体的GEONAMES代码(在可以建立链接的情况下)。数据集支持命名实体识别任务,语言为罗马尼亚语,数据格式为jsonl,包含训练、验证和测试三个数据分割。数据集的创建过程包括从MARCELL-RO语料库中提取的370个文档,并由5名人类标注者在两位资深研究员的监督下进行标注。数据集的许可证为CC BY-NC-ND 4.0。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称

  • 名称: Romanian Named Entity Recognition in the Legal domain (LegalNERo)
  • 别名: LegalNERo

数据集基本信息

语言

  • 语言: 罗马尼亚语 (ro)

许可证

  • 许可证: Creative Commons Attribution Non Commercial No Derivatives 4.0 International (cc-by-nc-nd-4.0)

多语言性

  • 多语言性: 单语种

数据集大小

  • 大小: 10K<n<100K

源数据集

  • 源数据集: 原始数据

任务类别

  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别

标签

  • 标签: 法律

数据集描述

数据集摘要

  • 摘要: LegalNERo 是一个手动标注的罗马尼亚法律领域命名实体识别语料库,提供组织、地点、人物、时间和法律资源在法律文件中的黄金标注。此外,它还为标注为位置的命名实体提供GEONAMES代码(如有链接)。

支持的任务和排行榜

  • 支持的任务: 命名实体识别

语言

  • 语言来源: 法律文档从更大的MARCELL-RO语料库中提取,使用的是1881年至2021年间的罗马尼亚国家立法语言。

数据集结构

数据实例

  • 文件格式: jsonl
  • 数据分割: 训练、验证和测试
  • 命名实体标注: 非重叠
  • 过滤: 过滤掉仅包含一个单词(如 , -----)的行

数据字段

  • 字段:
    • file_name: 相关标注文档的文件名
    • words: 通过spacy希腊语分词器(v 3.3.1)获得的令牌列表
    • ner: 命名实体标签列表,包括LEGAL, LOC, ORG, PER, TIME, O
    • 标签集: [O, B-TIME, I-TIME, B-LEGAL, I-LEGAL, B-ORG, I-ORG, B-LOC, I-LOC, B-PER, I-PER]

数据分割

  • 分割详情:
    • 训练: 296文档 (80%), 7552句子
    • 验证: 37文档 (10%), 966句子
    • 测试: 37文档 (10%), 907句子

数据集创建

来源数据

  • 数据收集: 从MARCELL-RO语料库中收集的370文档
  • 语言生产者: 政治家和律师

标注过程

  • 标注者: 5名人类标注者,由罗马尼亚科学院人工智能研究所的两位高级研究员监督
  • 使用的工具: BRAT
  • 标注内容: 组织、地点、人物、时间和法律资源
  • 标注一致性: Cohen’s Kappa值为0.89

数据集使用考虑

  • 数据集结构: 可能与原始数据集结构有显著差异,建议查看转换脚本convert_to_hf_dataset.py以了解从原始数据集到当前jsonl格式的转换步骤。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作