phucdev/noisyner

Name: phucdev/noisyner
Creator: phucdev
Published: 2023-01-05 12:09:58
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/phucdev/noisyner

下载链接

链接失效反馈

官方服务：

资源简介：

NoisyNER是一个用于评估处理噪声标签方法的命名实体识别（NER）数据集。该数据集基于爱沙尼亚语新闻文本，包含七种不同噪声模式的标签集，以及一个干净的标签集。数据集的结构包括训练集、验证集和测试集，每个实例包含id、tokens、lemmas、grammar和ner_tags等字段。数据集的创建过程涉及手动标注和自动标注技术，并且提供了详细的标注过程和噪声生成方法。

提供机构：

phucdev

原始信息汇总

数据集概述

数据集基本信息

名称: NoisyNER
语言: 爱沙尼亚语 (et)
许可证: CC-BY-NC-4.0
多语言性: 单语种
标签: 报纸, 1997-2009
任务类别: 令牌分类
任务ID: 命名实体识别
数据集大小: 10K<n<100K
源数据集: 原始

数据集结构

数据实例

每个数据实例包含以下字段:

id: 字符串类型
tokens: 字符串序列
lemmas: 字符串序列
grammar: 字符串序列
ner_tags: 分类标签序列，包含以下类别:
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC

数据分割

数据集分为训练、验证和测试集，具体分布如下:

分割	示例数量	字节数
训练	11365	7544221
验证	1480	986310
测试	1433	995204

数据集大小

下载大小: 6.23 MB
生成数据集大小: 9.53 MB

数据集创建

源数据

数据集基于2013年收集的572篇新闻故事，这些故事来自爱沙尼亚的在线报纸Delfi和Postimees，涵盖了1997至2009年间的报道。数据预处理包括分词、词形还原、词性标注和语法形态分析。

标注过程

原始数据由一位作者手动标注，另一位作者复查，冲突案例通过协商解决。此外，通过远距离监督方法自动生成噪声标签，使用ANEA工具匹配Wikidata中的实体列表，并应用启发式函数修正错误。

标签集

数据集包含七个不同的标签集，每个标签集代表不同的噪声水平，用于评估不同噪声条件下的模型性能。

5,000+

优质数据集

54 个

任务类型

进入经典数据集