five

jerteh/SrpELTeC-gold-NER

收藏
Hugging Face2025-10-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jerteh/SrpELTeC-gold-NER
下载链接
链接失效反馈
官方服务:
资源简介:
SrpELTeC-gold-NER训练数据集是一个用于命名实体识别(NER)任务的塞尔维亚语数据集。该数据集包含从塞尔维亚文学语料库中选取的11部完整小说和15部小说的摘录,这些小说都是超过一个世纪前创作的。数据集通过SrpNER系统自动标注,包含330,119个标记和7个类别:人物、组织、地点、事件、作品、民族和角色。数据集以单个jsonl文件的形式提供,可以通过HuggingFace的datasets库加载。

SrpELTeC-gold-NER训练数据集是一个用于命名实体识别(NER)任务的塞尔维亚语数据集。该数据集包含从塞尔维亚文学语料库中选取的11部完整小说和15部小说的摘录,这些小说都是超过一个世纪前创作的。数据集通过SrpNER系统自动标注,包含330,119个标记和7个类别:人物、组织、地点、事件、作品、民族和角色。数据集以单个jsonl文件的形式提供,可以通过HuggingFace的datasets库加载。
提供机构:
jerteh
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 任务类别: 词元分类
  • 语言: 塞尔维亚语
  • 数据集名称: SrpELTeC-gold-NER 训练数据集
  • 大小类别: 100K<n<1M
  • 标签: NER

数据内容

  • 描述: 该数据集包含11部完整小说和15部小说节选,来自一个世纪前的塞尔维亚文学小说库。这些文本通过SrpNER系统自动标注,用于塞尔维亚语的黄金标准准备的第一阶段。
  • 数据量: 包含330,119个词元
  • 实体类别: 7类(人、组织、地点、事件、作品、地名、角色)

数据格式

  • 文件类型: 单一jsonl文件
  • 加载方式: python from datasets import load_dataset dataset = load_dataset("jerteh/SrpELTeC-gold-NER")

引用信息

  • 引用文献: bibtex @inproceedings{frontini2020named, title={Named entity recognition for distant reading in ELTeC}, author={Frontini, Francesca and Brando, Carmen and Byszuk, Joanna and Galleron, Ioana and Santos, Diana and Stankovi{c}, Ranka}, booktitle={CLARIN Annual Conference 2020}, year={2020} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作