phucdev/noisyner
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/phucdev/noisyner
下载链接
链接失效反馈官方服务:
资源简介:
NoisyNER是一个用于评估处理噪声标签方法的命名实体识别(NER)数据集。该数据集基于爱沙尼亚语新闻文本,包含七种不同噪声模式的标签集,以及一个干净的标签集。数据集的结构包括训练集、验证集和测试集,每个实例包含id、tokens、lemmas、grammar和ner_tags等字段。数据集的创建过程涉及手动标注和自动标注技术,并且提供了详细的标注过程和噪声生成方法。
提供机构:
phucdev
原始信息汇总
数据集概述
数据集基本信息
- 名称: NoisyNER
- 语言: 爱沙尼亚语 (et)
- 许可证: CC-BY-NC-4.0
- 多语言性: 单语种
- 标签: 报纸, 1997-2009
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 数据集大小: 10K<n<100K
- 源数据集: 原始
数据集结构
数据实例
每个数据实例包含以下字段:
id: 字符串类型tokens: 字符串序列lemmas: 字符串序列grammar: 字符串序列ner_tags: 分类标签序列,包含以下类别:0: O1: B-PER2: I-PER3: B-ORG4: I-ORG5: B-LOC6: I-LOC
数据分割
数据集分为训练、验证和测试集,具体分布如下:
| 分割 | 示例数量 | 字节数 |
|---|---|---|
| 训练 | 11365 | 7544221 |
| 验证 | 1480 | 986310 |
| 测试 | 1433 | 995204 |
数据集大小
- 下载大小: 6.23 MB
- 生成数据集大小: 9.53 MB
数据集创建
源数据
数据集基于2013年收集的572篇新闻故事,这些故事来自爱沙尼亚的在线报纸Delfi和Postimees,涵盖了1997至2009年间的报道。数据预处理包括分词、词形还原、词性标注和语法形态分析。
标注过程
原始数据由一位作者手动标注,另一位作者复查,冲突案例通过协商解决。此外,通过远距离监督方法自动生成噪声标签,使用ANEA工具匹配Wikidata中的实体列表,并应用启发式函数修正错误。
标签集
数据集包含七个不同的标签集,每个标签集代表不同的噪声水平,用于评估不同噪声条件下的模型性能。



