HighGEN

Name: HighGEN
Creator: 韩国大学
Published: 2023-06-01 14:26:46
License: 暂无描述

arXiv2023-06-01 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2210.07586v4

下载链接

链接失效反馈

官方服务：

资源简介：

HighGEN数据集是由韩国大学的研究团队开发的一个用于命名实体识别（NER）的数据集。该数据集通过自动从无标签的维基百科语料库中构建实体丰富的伪词典来生成。数据集的创建过程包括使用短语嵌入搜索方法来提高实体召回率，并通过基于嵌入距离的验证过程来减少弱标签中的假阳性噪声。HighGEN数据集的应用领域主要集中在解决NER任务中的数据稀缺问题，特别是在缺乏专家手工构建词典的新领域中。

The HighGEN dataset is a named entity recognition (NER) dataset developed by a research team at South Korean universities. It is generated by automatically constructing entity-rich pseudo-dictionaries from unlabeled Wikipedia corpora. The dataset creation workflow adopts phrase embedding search techniques to enhance entity recall, and uses an embedding distance-based validation procedure to reduce false positive noise in weakly labeled samples. The primary application of the HighGEN dataset focuses on addressing the data scarcity issue in NER tasks, particularly in emerging domains where expert-curated dictionaries are unavailable.

提供机构：

韩国大学

创建时间：

2022-10-14

5,000+

优质数据集

54 个

任务类型

进入经典数据集