yeajinmin/NER-News-BIDataset

Name: yeajinmin/NER-News-BIDataset
Creator: yeajinmin
Published: 2024-01-07 07:22:35
License: 暂无描述

Hugging Face2024-01-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yeajinmin/NER-News-BIDataset

下载链接

链接失效反馈

官方服务：

资源简介：

NER-News-BIDataset是一个用于新闻文章中命名实体识别（NER）的数据集，由韩国国立国语院于2023年公开发布。该数据集专门为新闻数据标注了命名实体，包含总共150,142个句子，实体被分为150个标签进行识别。数据集分为训练集和测试集，分别包含120,113和30,029个句子。每个实例代表一篇新闻文章，句子中的实体被适当地标记为相应的标签。数据字段包括input_ids、attention_mask和labels，其中input_ids是经过处理的命名实体语料库，labels则标识了151个实体类型。数据集的来源是韩国国立国语院发布的2022年命名实体分析语料库。

提供机构：

yeajinmin

原始信息汇总

数据集概述

NER-News-BIDataset 是一个用于新闻文章中命名实体识别（NER）的数据集，由韩国国家语言学院于2023年公开发布。该数据集专门针对新闻数据进行命名实体标注，包含总共150,142个句子，实体被分类为150个标签以供识别。

语言

韩语

数据结构

数据集包含训练集和测试集，具体结构如下：

训练集：包含120,113个样本，每个样本具有以下特征：
- input_ids: 序列化的整数表示
- attention_mask: 注意力掩码
- labels: 标签
测试集：包含30,029个样本，每个样本具有相同的特征结构。

数据实例

每个实例代表一篇新闻文章，如果句子中存在实体，则会用相应的标签进行适当标记。对于被分割成多个标记的单个实体，第一个标记被标记为“B-entity”，后续标记被标记为“I-entity”直至结束。

数据字段

input_ids: 新闻文章的命名实体语料库在2022年进行了标记化并表示为数值。
label: 共识别出151个实体，包括第0个标签（非实体）。如果计算每个实体的“B-entity”和“I-entity”标签，总共有301个标签。标签以数值形式进行标注。

标签类型

标签共有151种类型，具体包括：

O: 非实体
B-PS_NAME: 实体名称开始
I-PS_NAME: 实体名称内部
...（其他标签类型详见原文档）

数据分割

数据集按照8:2的比例分割，训练集包含120,113个句子，测试集包含3,029个句子。

源数据

该数据集基于韩国国家语言学院于2023年9月发布的“2022年命名实体分析语料库（版本1.1）”。

引用

(국문) 국립국어원(2023). 국립국어원 개체명 분석 말뭉치 2022(버전 1.1) URL: https://corpus.korean.go.kr (Eng) National Institute of Korean Language(2023). NIKL Named Entity Corpus 2022 (v.1.1) URL: https://corpus.korean.go.kr

5,000+

优质数据集

54 个

任务类型

进入经典数据集