five

fewshot-goes-multilingual/cs_czech-court-decisions-ner

收藏
Hugging Face2022-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fewshot-goes-multilingual/cs_czech-court-decisions-ner
下载链接
链接失效反馈
官方服务:
资源简介:
Czech Court Decisions NER数据集包含300个由捷克共和国最高法院和宪法法院发布的法院判决文件,标注了4种命名实体。每个样本包含文件名、文本内容以及实体列表,实体列表包括类别ID、类别名称、起始位置、结束位置、实体内容、实体ID和引用信息。数据集是从现有的捷克法院判决数据集预处理而来,去除了泄露的XML标签,并由捷克母语者添加了类别名称。数据集适用于命名实体识别任务,主要用于捷克语的文本处理。
提供机构:
fewshot-goes-multilingual
原始信息汇总

数据集概述

基本信息

  • 名称: Czech Court Decisions NER
  • 语言: 捷克语
  • 许可证: CC-BY-NC-SA-4.0
  • 多语言性: 单语种
  • 大小: 小于1000条
  • 来源: 原始数据
  • 标签: 捷克NER, 法院判决
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集描述

Czech Court Decisions NER 包含300份由捷克共和国最高法院和宪法法院发布的法院判决。文档中选取了4种类型的命名实体。

数据集特征

每个样本包含以下特征:

  • filename: 原始数据集中的文件名
  • text: 法院判决文档的纯文本
  • entities: 选定的实体列表,每个实体包含:
    • category_id: 实体类别的整数标识符
    • category_str: 捷克语中的人类友好类别名称
    • start: 实体在源文本中开始位置的索引
    • end: 实体在源文本中结束位置的索引
    • content: 实体内容,由text[start:end]创建
    • entity_id: 唯一的实体字符串标识符
    • refers_to: 某些实体(主要是Reference na rozhodnutí soudu类别)指向特定的其他实体,refers_to属性包含所引用实体的entity_id

实体类别

识别的实体类别包括:

  • 0: Soudní instituce
  • 1: Reference na rozhodnutí soudu
  • 2: Účinnost
  • 3: Reference zákonu

数据集来源

该数据集是对现有捷克法院判决数据集的预处理适应版本,包含几乎相同的数据,但转换为方便的格式,并去除了文本中的泄露的xml-like标签。类别名称(verbalizers)由捷克语母语者添加。

引用

引用原始数据集的作者: bibtex @misc{11234/1-2853, title = {Czech Court Decisions Dataset}, author = {Kr{{i}}{v z}, Vincent and Hladk{a}, Barbora}, url = {http://hdl.handle.net/11234/1-2853}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {Creative Commons - Attribution-{NonCommercial}-{ShareAlike} 4.0 International ({CC} {BY}-{NC}-{SA} 4.0)}, year = {2014} }

搜集汇总
背景与挑战
背景概述
该数据集是一个捷克语命名实体识别数据集,包含300个捷克最高法院和宪法法院的判决文件,标注了4种命名实体。它由现有数据集预处理而来,去除了XML标签并由母语者添加类别名称,专门用于捷克语的文本处理和NER任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作