five

josephimperial/CebuaNER

收藏
Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/josephimperial/CebuaNER
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为CebuaNER,是宿务语中最大的命名实体识别黄金标准数据集。数据集来源于两个当地新闻站(Yes the Best Dumaguete和Filipinas Bisaya)的宿务语新闻文章,并整合了另一个公开可用的数据集(Sunstar Cebu)。总共有4258篇文章经过清理和过滤。所有数据集仅用于非商业研究目的,并遵循合理使用原则。
提供机构:
josephimperial
原始信息汇总

数据集概述

CebuaNER 是最大的 Cebuano 语命名实体识别黄金标准数据集。该数据集用于支持论文《CebuaNER: A New Baseline Cebuano Named Entity Recognition Model》,该论文将在 PACLIC 2023 上发表,由 Ma. Beatrice Emanuela N. Pilar 等人共同撰写。

数据来源

该数据集由以下来源的 Cebuano 新闻文章编译而成:

  • Yes the Best Dumaguete
  • Filipinas Bisaya
  • Sunstar Cebu(由独立研究员 Arjemariel Requina 预先收集)

数据规模

总共累积并过滤的 Cebuano 数据集大小为 4258 篇文章。

数据清洗

来源 原始数据量 清洗后数据量
Yes the Best Dumaguete 1484 781
Filipinas Bisaya 769 377
Sunstar 3100 3100

数据使用

所有用于本研究的数据集仅用于非商业研究目的,并遵循合理使用原则。

联系信息

如有问题,请联系研究的主要作者:

Joseph Marvin Imperial Faculty Member, Department of Computer Science Lab Head, NU Human Language Technology Lab jrimperial@national-u.edu.ph

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作