five

BenCoref

收藏
arXiv2023-07-04 更新2024-06-21 收录
下载链接:
https://github.com/ShadmanRohan/BenCoref
下载链接
链接失效反馈
官方服务:
资源简介:
BenCoref是首个公开的孟加拉语指代消解标注数据集,由南北大学创建。该数据集包含48,569个标注令牌,分为502个提及集群,涵盖四个不同领域。数据收集自19世纪和20世纪的版权免费书籍以及现代资源。创建过程包括使用WebAnno工具进行标注,并制定了详细的标注指南。BenCoref旨在解决孟加拉语在指代消解研究中的资源匮乏问题,特别是在机器翻译、文学分析等下游NLP任务中的应用。

BenCoref is the first publicly available annotated dataset for coreference resolution in Bengali, created by North South University. This dataset contains 48,569 annotated tokens, grouped into 502 mention clusters, and covers four distinct domains. The data was collected from copyright-free books from the 19th and 20th centuries as well as modern resources. Its development involved annotation using the WebAnno tool and the formulation of detailed annotation guidelines. BenCoref aims to alleviate the shortage of resources for Bengali coreference resolution research, especially for downstream NLP applications including machine translation and literary analysis.
提供机构:
南北大学
创建时间:
2023-04-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作