jerteh/SrpELTeC-gold-NER

Name: jerteh/SrpELTeC-gold-NER
Creator: jerteh
Published: 2025-10-27 10:40:32
License: 暂无描述

Hugging Face2025-10-27 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/jerteh/SrpELTeC-gold-NER

下载链接

链接失效反馈

官方服务：

资源简介：

SrpELTeC-gold-NER训练数据集是一个用于命名实体识别（NER）任务的塞尔维亚语数据集。该数据集包含从塞尔维亚文学语料库中选取的11部完整小说和15部小说的摘录，这些小说都是超过一个世纪前创作的。数据集通过SrpNER系统自动标注，包含330,119个标记和7个类别：人物、组织、地点、事件、作品、民族和角色。数据集以单个jsonl文件的形式提供，可以通过HuggingFace的datasets库加载。

提供机构：

jerteh

原始信息汇总

数据集概述

基本信息

许可证: cc-by-sa-4.0
任务类别: 词元分类
语言: 塞尔维亚语
数据集名称: SrpELTeC-gold-NER 训练数据集
大小类别: 100K<n<1M
标签: NER

数据内容

描述: 该数据集包含11部完整小说和15部小说节选，来自一个世纪前的塞尔维亚文学小说库。这些文本通过SrpNER系统自动标注，用于塞尔维亚语的黄金标准准备的第一阶段。
数据量: 包含330,119个词元
实体类别: 7类（人、组织、地点、事件、作品、地名、角色）

数据格式

文件类型: 单一jsonl文件
加载方式: python from datasets import load_dataset dataset = load_dataset("jerteh/SrpELTeC-gold-NER")

引用信息

引用文献: bibtex @inproceedings{frontini2020named, title={Named entity recognition for distant reading in ELTeC}, author={Frontini, Francesca and Brando, Carmen and Byszuk, Joanna and Galleron, Ioana and Santos, Diana and Stankovi{c}, Ranka}, booktitle={CLARIN Annual Conference 2020}, year={2020} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集