five

joelniklaus/greek_legal_ner

收藏
Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/greek_legal_ner
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含希腊法律文本的标注语料,用于命名实体识别任务。这是希腊语言中首个如此大规模的命名实体识别数据集,也是少数几个全面研究法律文本实体识别的数据集之一。数据集的语言为希腊语,格式为jsonl,包含训练、验证和测试三个数据分割。数据字段包括发布日期、政府公报类型、单词列表和命名实体标签列表。数据集的创建目的是为了希腊命名实体识别和实体链接。数据集的来源是希腊政府公报,标注工作由论文作者完成。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称

  • 名称: Greek Legal Named Entity Recognition
  • 别名: 希腊法律命名实体识别

数据集基本信息

  • 语言: 希腊语 (el)
  • 许可证: CC-BY-NC-SA-4.0
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 标签: 法律

数据集内容

  • 描述: 该数据集包含一个用于希腊法律文本中命名实体识别的标注语料库。它是希腊语中首个此类扩展形式的数据集,也是少数全面研究法律文本实体识别的数据集之一。
  • 支持任务: 命名实体识别
  • 数据实例格式: jsonl
  • 数据分割: 训练集、验证集和测试集

数据集结构

  • 数据字段:
    • date: 文档发布日期
    • gazette: 政府公报类型(A或D)
    • words: 通过spacy希腊语分词器处理句子得到的令牌列表
    • ner: 命名实体标签列表,包括以下类别:
      • FACILITY
      • GPE
      • LEG-REFS
      • LOCATION-NAT
      • LOCATION-UNK
      • ORG
      • PERSON
      • PUBLIC-DOCS
      • O

数据分割详情

  • 文档分割:
    • 训练集: 23723个文档
    • 验证集: 5478个文档
    • 测试集: 5084个文档
  • NER标签分割:
    • 各标签在不同分割中的实例数量详细列出

数据集创建

  • 创建理由: 创建一个大型希腊语命名实体识别和实体链接数据集
  • 源数据: 希腊政府公报
  • 标注者: 论文作者

许可证信息

引用信息

@inproceedings{Angelidis2018NamedER, author = {Angelidis, Iosif and Chalkidis, Ilias and Koubarakis, Manolis}, booktitle = {JURIX}, keywords = {greek,legal nlp,named entity recognition}, title = {{Named Entity Recognition, Linking and Generation for Greek Legislation}}, year = {2018} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作