jerteh/SrpELTeC-gold-NER
收藏Hugging Face2025-10-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jerteh/SrpELTeC-gold-NER
下载链接
链接失效反馈官方服务:
资源简介:
SrpELTeC-gold-NER训练数据集是一个用于命名实体识别(NER)任务的塞尔维亚语数据集。该数据集包含从塞尔维亚文学语料库中选取的11部完整小说和15部小说的摘录,这些小说都是超过一个世纪前创作的。数据集通过SrpNER系统自动标注,包含330,119个标记和7个类别:人物、组织、地点、事件、作品、民族和角色。数据集以单个jsonl文件的形式提供,可以通过HuggingFace的datasets库加载。
SrpELTeC-gold-NER训练数据集是一个用于命名实体识别(NER)任务的塞尔维亚语数据集。该数据集包含从塞尔维亚文学语料库中选取的11部完整小说和15部小说的摘录,这些小说都是超过一个世纪前创作的。数据集通过SrpNER系统自动标注,包含330,119个标记和7个类别:人物、组织、地点、事件、作品、民族和角色。数据集以单个jsonl文件的形式提供,可以通过HuggingFace的datasets库加载。
提供机构:
jerteh
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 任务类别: 词元分类
- 语言: 塞尔维亚语
- 数据集名称: SrpELTeC-gold-NER 训练数据集
- 大小类别: 100K<n<1M
- 标签: NER
数据内容
- 描述: 该数据集包含11部完整小说和15部小说节选,来自一个世纪前的塞尔维亚文学小说库。这些文本通过SrpNER系统自动标注,用于塞尔维亚语的黄金标准准备的第一阶段。
- 数据量: 包含330,119个词元
- 实体类别: 7类(人、组织、地点、事件、作品、地名、角色)
数据格式
- 文件类型: 单一jsonl文件
- 加载方式: python from datasets import load_dataset dataset = load_dataset("jerteh/SrpELTeC-gold-NER")
引用信息
- 引用文献: bibtex @inproceedings{frontini2020named, title={Named entity recognition for distant reading in ELTeC}, author={Frontini, Francesca and Brando, Carmen and Byszuk, Joanna and Galleron, Ioana and Santos, Diana and Stankovi{c}, Ranka}, booktitle={CLARIN Annual Conference 2020}, year={2020} }



