fewshot-goes-multilingual/cs_czech-court-decisions-ner
收藏Hugging Face2022-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fewshot-goes-multilingual/cs_czech-court-decisions-ner
下载链接
链接失效反馈官方服务:
资源简介:
Czech Court Decisions NER数据集包含300个由捷克共和国最高法院和宪法法院发布的法院判决文件,标注了4种命名实体。每个样本包含文件名、文本内容以及实体列表,实体列表包括类别ID、类别名称、起始位置、结束位置、实体内容、实体ID和引用信息。数据集是从现有的捷克法院判决数据集预处理而来,去除了泄露的XML标签,并由捷克母语者添加了类别名称。数据集适用于命名实体识别任务,主要用于捷克语的文本处理。
提供机构:
fewshot-goes-multilingual
原始信息汇总
数据集概述
基本信息
- 名称: Czech Court Decisions NER
- 语言: 捷克语
- 许可证: CC-BY-NC-SA-4.0
- 多语言性: 单语种
- 大小: 小于1000条
- 来源: 原始数据
- 标签: 捷克NER, 法院判决
- 任务类别: 词元分类
- 任务ID: 命名实体识别
数据集描述
Czech Court Decisions NER 包含300份由捷克共和国最高法院和宪法法院发布的法院判决。文档中选取了4种类型的命名实体。
数据集特征
每个样本包含以下特征:
filename: 原始数据集中的文件名text: 法院判决文档的纯文本entities: 选定的实体列表,每个实体包含:category_id: 实体类别的整数标识符category_str: 捷克语中的人类友好类别名称start: 实体在源文本中开始位置的索引end: 实体在源文本中结束位置的索引content: 实体内容,由text[start:end]创建entity_id: 唯一的实体字符串标识符refers_to: 某些实体(主要是Reference na rozhodnutí soudu类别)指向特定的其他实体,refers_to属性包含所引用实体的entity_id
实体类别
识别的实体类别包括:
- 0: Soudní instituce
- 1: Reference na rozhodnutí soudu
- 2: Účinnost
- 3: Reference zákonu
数据集来源
该数据集是对现有捷克法院判决数据集的预处理适应版本,包含几乎相同的数据,但转换为方便的格式,并去除了文本中的泄露的xml-like标签。类别名称(verbalizers)由捷克语母语者添加。
引用
引用原始数据集的作者: bibtex @misc{11234/1-2853, title = {Czech Court Decisions Dataset}, author = {Kr{{i}}{v z}, Vincent and Hladk{a}, Barbora}, url = {http://hdl.handle.net/11234/1-2853}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {Creative Commons - Attribution-{NonCommercial}-{ShareAlike} 4.0 International ({CC} {BY}-{NC}-{SA} 4.0)}, year = {2014} }
搜集汇总
背景与挑战
背景概述
该数据集是一个捷克语命名实体识别数据集,包含300个捷克最高法院和宪法法院的判决文件,标注了4种命名实体。它由现有数据集预处理而来,去除了XML标签并由母语者添加类别名称,专门用于捷克语的文本处理和NER任务。
以上内容由遇见数据集搜集并总结生成



