tomaarsen/ner-orgs
收藏Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomaarsen/ner-orgs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为ner-orgs,是Few-NERD、CoNLL 2003和OntoNotes v5数据集的子集组合,特别关注B-ORG和I-ORG标签。每个分割中,一半的样本包含组织实体,另一半则不包含任何组织实体。数据集通过特定的脚本处理,确保了数据的一致性和平衡性。
该数据集名为ner-orgs,是Few-NERD、CoNLL 2003和OntoNotes v5数据集的子集组合,特别关注B-ORG和I-ORG标签。每个分割中,一半的样本包含组织实体,另一半则不包含任何组织实体。数据集通过特定的脚本处理,确保了数据的一致性和平衡性。
提供机构:
tomaarsen
原始信息汇总
数据集概述
数据集名称
- 名称: ner-orgs
数据集来源
- 来源: 该数据集是Few-NERD、CoNLL 2003和OntoNotes v5的子集合并,仅包含"B-ORG"和"I-ORG"标签。
数据集结构
- 特征:
- tokens: 字符串序列
- ner_tags: 标签序列,包含以下类别:
- 0: O
- 1: B-ORG
- 2: I-ORG
数据集划分
- 训练集:
- 样本数: 109424
- 字节数: 40381520.59961503
- 验证集:
- 样本数: 15908
- 字节数: 5782294.96333573
- 测试集:
- 样本数: 28124
- 字节数: 10727120.198367199
数据集大小
- 下载大小: 14938552 字节
- 数据集大小: 56890935.76131796 字节
数据集生成
- 生成方式: 通过脚本将原始数据集进行预处理和合并,确保每个划分中包含组织标签的样本和不含组织标签的样本各占一半。



