yeajinmin/NER-News-BIDataset
收藏Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yeajinmin/NER-News-BIDataset
下载链接
链接失效反馈官方服务:
资源简介:
NER-News-BIDataset是一个用于新闻文章中命名实体识别(NER)的数据集,由韩国国立国语院于2023年公开发布。该数据集专门为新闻数据标注了命名实体,包含总共150,142个句子,实体被分为150个标签进行识别。数据集分为训练集和测试集,分别包含120,113和30,029个句子。每个实例代表一篇新闻文章,句子中的实体被适当地标记为相应的标签。数据字段包括input_ids、attention_mask和labels,其中input_ids是经过处理的命名实体语料库,labels则标识了151个实体类型。数据集的来源是韩国国立国语院发布的2022年命名实体分析语料库。
NER-News-BIDataset是一个用于新闻文章中命名实体识别(NER)的数据集,由韩国国立国语院于2023年公开发布。该数据集专门为新闻数据标注了命名实体,包含总共150,142个句子,实体被分为150个标签进行识别。数据集分为训练集和测试集,分别包含120,113和30,029个句子。每个实例代表一篇新闻文章,句子中的实体被适当地标记为相应的标签。数据字段包括input_ids、attention_mask和labels,其中input_ids是经过处理的命名实体语料库,labels则标识了151个实体类型。数据集的来源是韩国国立国语院发布的2022年命名实体分析语料库。
提供机构:
yeajinmin
原始信息汇总
数据集概述
NER-News-BIDataset 是一个用于新闻文章中命名实体识别(NER)的数据集,由韩国国家语言学院于2023年公开发布。该数据集专门针对新闻数据进行命名实体标注,包含总共150,142个句子,实体被分类为150个标签以供识别。
语言
韩语
数据结构
数据集包含训练集和测试集,具体结构如下:
- 训练集:包含120,113个样本,每个样本具有以下特征:
input_ids: 序列化的整数表示attention_mask: 注意力掩码labels: 标签
- 测试集:包含30,029个样本,每个样本具有相同的特征结构。
数据实例
每个实例代表一篇新闻文章,如果句子中存在实体,则会用相应的标签进行适当标记。对于被分割成多个标记的单个实体,第一个标记被标记为“B-entity”,后续标记被标记为“I-entity”直至结束。
数据字段
input_ids: 新闻文章的命名实体语料库在2022年进行了标记化并表示为数值。label: 共识别出151个实体,包括第0个标签(非实体)。如果计算每个实体的“B-entity”和“I-entity”标签,总共有301个标签。标签以数值形式进行标注。
标签类型
标签共有151种类型,具体包括:
O: 非实体B-PS_NAME: 实体名称开始I-PS_NAME: 实体名称内部- ...(其他标签类型详见原文档)
数据分割
数据集按照8:2的比例分割,训练集包含120,113个句子,测试集包含3,029个句子。
源数据
该数据集基于韩国国家语言学院于2023年9月发布的“2022年命名实体分析语料库(版本1.1)”。
引用
(국문) 국립국어원(2023). 국립국어원 개체명 분석 말뭉치 2022(버전 1.1) URL: https://corpus.korean.go.kr (Eng) National Institute of Korean Language(2023). NIKL Named Entity Corpus 2022 (v.1.1) URL: https://corpus.korean.go.kr



