josephimperial/CebuaNER
收藏Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/josephimperial/CebuaNER
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CebuaNER,是宿务语中最大的命名实体识别黄金标准数据集。数据集来源于两个当地新闻站(Yes the Best Dumaguete和Filipinas Bisaya)的宿务语新闻文章,并整合了另一个公开可用的数据集(Sunstar Cebu)。总共有4258篇文章经过清理和过滤。所有数据集仅用于非商业研究目的,并遵循合理使用原则。
提供机构:
josephimperial
原始信息汇总
数据集概述
CebuaNER 是最大的 Cebuano 语命名实体识别黄金标准数据集。该数据集用于支持论文《CebuaNER: A New Baseline Cebuano Named Entity Recognition Model》,该论文将在 PACLIC 2023 上发表,由 Ma. Beatrice Emanuela N. Pilar 等人共同撰写。
数据来源
该数据集由以下来源的 Cebuano 新闻文章编译而成:
- Yes the Best Dumaguete
- Filipinas Bisaya
- Sunstar Cebu(由独立研究员 Arjemariel Requina 预先收集)
数据规模
总共累积并过滤的 Cebuano 数据集大小为 4258 篇文章。
数据清洗
| 来源 | 原始数据量 | 清洗后数据量 |
|---|---|---|
| Yes the Best Dumaguete | 1484 | 781 |
| Filipinas Bisaya | 769 | 377 |
| Sunstar | 3100 | 3100 |
数据使用
所有用于本研究的数据集仅用于非商业研究目的,并遵循合理使用原则。
联系信息
如有问题,请联系研究的主要作者:
Joseph Marvin Imperial Faculty Member, Department of Computer Science Lab Head, NU Human Language Technology Lab jrimperial@national-u.edu.ph



