MYNER
收藏arXiv2021-09-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2109.01293v1
下载链接
链接失效反馈官方服务:
资源简介:
MYNER是由广东外语外贸大学信息科学与技术学院和广州多语言智能处理重点实验室共同创建的一个大规模马来语命名实体识别数据集。该数据集包含28,991个句子,总计超过384,000个tokens,主要来源于马来新闻文章,涵盖政治、金融、社会等多个领域。数据集的构建过程包括基于同源语言(印尼语)的标注数据集和迭代优化方法。MYNER旨在解决马来语这种低资源语言在命名实体识别领域的资源稀缺问题,为相关研究提供高质量的基准数据集。
提供机构:
广东外语外贸大学
创建时间:
2021-09-03



