five

fewshot-goes-multilingual/cs_czech-named-entity-corpus_2.0

收藏
Hugging Face2022-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fewshot-goes-multilingual/cs_czech-named-entity-corpus_2.0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含捷克语句子和标注的命名实体。总句子数约为9,000,总实体数约为34,000(总数为训练集、验证集和测试集的总和)。每个样本包含源句子和选定的实体列表。每个实体包含类别ID、类别名称(捷克语)、实体在句子中的起始和结束位置、实体内容、实体ID和父实体ID(如果实体嵌套在另一个实体中)。数据集是对现有CNEC 2.0数据集的预处理改编,移除了某些未记录或语义意义较小的实体类别。类别名称由捷克语母语者根据可用文档和数据中的多个实例添加。
提供机构:
fewshot-goes-multilingual
原始信息汇总

数据集概述:Czech Named Entity Corpus 2.0

数据集描述

  • 语言: 捷克语
  • 数据集大小: 约9,000个句子,约34,000个实体
  • 许可证: CC-BY-NC-SA-3.0
  • 多语言性: 单语种
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集特征

  • 样本包含:
    • text: 源句子
    • entities: 选定实体列表,每个实体包含:
      • category_id: 实体类别的字符串标识符
      • category_str: 捷克语中的人类友好类别名称(口头表达)
      • start: 实体在源句子中开始位置的索引
      • end: 实体在源句子中结束位置的索引
      • content: 实体内容,由text[start:end]创建
      • entity_id: 唯一实体字符串标识符
      • parent_id: 如果实体被选中在另一个实体内部,parent_id是父实体的标识符;否则为None

实体类别

  • 识别的实体:
    • 例如: A: číslo v adrese / kontaktním údaji
    • 完整列表见原始README文件

数据集来源

  • 源数据集: CNEC 2.0
  • 预处理: 数据格式转换,移除了部分无文档或语义意义较小的实体类别
  • 类别名称: 由捷克语母语者添加,基于数据和文档

引用信息

  • 引用原始数据集: bibtex @misc{11858/00-097C-0000-0023-1B22-8, title = {Czech Named Entity Corpus 2.0}, author = {{v S}ev{v c}{{i}}kov{a}, Magda and {v Z}abokrtsk{y}, Zden{v e}k and Strakov{a}, Jana and Straka, Milan}, url = {http://hdl.handle.net/11858/00-097C-0000-0023-1B22-8}, note = {{LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({{U}FAL}), Faculty of Mathematics and Physics, Charles University}, copyright = {Attribution-{NonCommercial}-{ShareAlike} 3.0 Unported ({CC} {BY}-{NC}-{SA} 3.0)}, year = {2014} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作