five

phucdev/noisyner

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/phucdev/noisyner
下载链接
链接失效反馈
官方服务:
资源简介:
NoisyNER是一个用于评估处理噪声标签方法的命名实体识别(NER)数据集。该数据集基于爱沙尼亚语新闻文本,包含七种不同噪声模式的标签集,以及一个干净的标签集。数据集的结构包括训练集、验证集和测试集,每个实例包含id、tokens、lemmas、grammar和ner_tags等字段。数据集的创建过程涉及手动标注和自动标注技术,并且提供了详细的标注过程和噪声生成方法。
提供机构:
phucdev
原始信息汇总

数据集概述

数据集基本信息

  • 名称: NoisyNER
  • 语言: 爱沙尼亚语 (et)
  • 许可证: CC-BY-NC-4.0
  • 多语言性: 单语种
  • 标签: 报纸, 1997-2009
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 数据集大小: 10K<n<100K
  • 源数据集: 原始

数据集结构

数据实例

每个数据实例包含以下字段:

  • id: 字符串类型
  • tokens: 字符串序列
  • lemmas: 字符串序列
  • grammar: 字符串序列
  • ner_tags: 分类标签序列,包含以下类别:
    • 0: O
    • 1: B-PER
    • 2: I-PER
    • 3: B-ORG
    • 4: I-ORG
    • 5: B-LOC
    • 6: I-LOC

数据分割

数据集分为训练、验证和测试集,具体分布如下:

分割 示例数量 字节数
训练 11365 7544221
验证 1480 986310
测试 1433 995204

数据集大小

  • 下载大小: 6.23 MB
  • 生成数据集大小: 9.53 MB

数据集创建

源数据

数据集基于2013年收集的572篇新闻故事,这些故事来自爱沙尼亚的在线报纸Delfi和Postimees,涵盖了1997至2009年间的报道。数据预处理包括分词、词形还原、词性标注和语法形态分析。

标注过程

原始数据由一位作者手动标注,另一位作者复查,冲突案例通过协商解决。此外,通过远距离监督方法自动生成噪声标签,使用ANEA工具匹配Wikidata中的实体列表,并应用启发式函数修正错误。

标签集

数据集包含七个不同的标签集,每个标签集代表不同的噪声水平,用于评估不同噪声条件下的模型性能。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作