Kriyans/ner

Name: Kriyans/ner
Creator: Kriyans
Published: 2024-06-28 07:42:58
License: 暂无描述

Hugging Face2024-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Kriyans/ner

下载链接

链接失效反馈

官方服务：

资源简介：

WNUT 17数据集是一个用于命名实体识别（NER）任务的数据集，特别关注于识别在噪声文本中出现的罕见和新兴实体。数据集包含训练集、验证集和测试集，分别包含3394、1009和1287个样本。数据集的字段包括id、tokens和ner_tags，其中ner_tags使用IOB2格式标注实体类型。数据集的创建目的是为了提供新兴和罕见实体的定义，并基于此提供检测这些实体的数据集。

提供机构：

Kriyans

原始信息汇总

数据集概述

基本信息

数据集名称: WNUT 17
语言: 英语
许可证: CC-BY-4.0
多语言性: 单语种
数据集大小: 1K<n<10K
源数据: 原始数据
任务类别: 词性标注
任务ID: 命名实体识别
PapersWithCode ID: wnut-2017-emerging-and-rare-entity

数据集结构

特征

id: 字符串类型，示例ID。
tokens: 字符串序列，示例文本的词元。
ner_tags: 类标签序列，词元的NER标签（使用IOB2格式），可能的值包括：
- 0: O
- 1: B-corporation
- 2: I-corporation
- 3: B-creative-work
- 4: I-creative-work
- 5: B-group
- 6: I-group
- 7: B-location
- 8: I-location
- 9: B-person
- 10: I-person
- 11: B-product
- 12: I-product

数据分割

训练集: 3394个示例，1078379字节
验证集: 1009个示例，259383字节
测试集: 1287个示例，405536字节

下载和数据集大小

下载大小: 800955字节
数据集大小: 1743298字节

数据集创建

数据集摘要

WNUT 17: 新兴和罕见实体识别

该共享任务专注于识别新兴讨论中的不寻常、先前未见过的实体。命名实体构成了许多现代方法的基础（如事件聚类和摘要），但在噪声文本中的召回率是一个真正的问题——即使在标注者中也是如此。这种下降往往是由于新实体和表面形式造成的。例如，推文“so.. kktny in 30 mins?”中的实体“kktny”，即使是人类专家也难以检测和解析。该任务将评估检测和分类噪声文本中新兴、单一命名实体的能力。

该任务的目标是提供新兴和罕见实体的定义，并基于此，也提供检测这些实体的数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集