joelniklaus/greek_legal_ner
收藏Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/greek_legal_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含希腊法律文本的标注语料,用于命名实体识别任务。这是希腊语言中首个如此大规模的命名实体识别数据集,也是少数几个全面研究法律文本实体识别的数据集之一。数据集的语言为希腊语,格式为jsonl,包含训练、验证和测试三个数据分割。数据字段包括发布日期、政府公报类型、单词列表和命名实体标签列表。数据集的创建目的是为了希腊命名实体识别和实体链接。数据集的来源是希腊政府公报,标注工作由论文作者完成。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
提供机构:
joelniklaus
原始信息汇总
数据集概述
数据集名称
- 名称: Greek Legal Named Entity Recognition
- 别名: 希腊法律命名实体识别
数据集基本信息
- 语言: 希腊语 (el)
- 许可证: CC-BY-NC-SA-4.0
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 标签: 法律
数据集内容
- 描述: 该数据集包含一个用于希腊法律文本中命名实体识别的标注语料库。它是希腊语中首个此类扩展形式的数据集,也是少数全面研究法律文本实体识别的数据集之一。
- 支持任务: 命名实体识别
- 数据实例格式: jsonl
- 数据分割: 训练集、验证集和测试集
数据集结构
- 数据字段:
date: 文档发布日期gazette: 政府公报类型(A或D)words: 通过spacy希腊语分词器处理句子得到的令牌列表ner: 命名实体标签列表,包括以下类别:FACILITYGPELEG-REFSLOCATION-NATLOCATION-UNKORGPERSONPUBLIC-DOCSO
数据分割详情
- 文档分割:
- 训练集: 23723个文档
- 验证集: 5478个文档
- 测试集: 5084个文档
- NER标签分割:
- 各标签在不同分割中的实例数量详细列出
数据集创建
- 创建理由: 创建一个大型希腊语命名实体识别和实体链接数据集
- 源数据: 希腊政府公报
- 标注者: 论文作者
许可证信息
引用信息
@inproceedings{Angelidis2018NamedER, author = {Angelidis, Iosif and Chalkidis, Ilias and Koubarakis, Manolis}, booktitle = {JURIX}, keywords = {greek,legal nlp,named entity recognition}, title = {{Named Entity Recognition, Linking and Generation for Greek Legislation}}, year = {2018} }



