five

HighGEN

收藏
arXiv2023-06-01 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2210.07586v4
下载链接
链接失效反馈
官方服务:
资源简介:
HighGEN数据集是由韩国大学的研究团队开发的一个用于命名实体识别(NER)的数据集。该数据集通过自动从无标签的维基百科语料库中构建实体丰富的伪词典来生成。数据集的创建过程包括使用短语嵌入搜索方法来提高实体召回率,并通过基于嵌入距离的验证过程来减少弱标签中的假阳性噪声。HighGEN数据集的应用领域主要集中在解决NER任务中的数据稀缺问题,特别是在缺乏专家手工构建词典的新领域中。

The HighGEN dataset is a named entity recognition (NER) dataset developed by a research team at South Korean universities. It is generated by automatically constructing entity-rich pseudo-dictionaries from unlabeled Wikipedia corpora. The dataset creation workflow adopts phrase embedding search techniques to enhance entity recall, and uses an embedding distance-based validation procedure to reduce false positive noise in weakly labeled samples. The primary application of the HighGEN dataset focuses on addressing the data scarcity issue in NER tasks, particularly in emerging domains where expert-curated dictionaries are unavailable.
提供机构:
韩国大学
创建时间:
2022-10-14
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作