five

tomaarsen/ner-orgs

收藏
Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomaarsen/ner-orgs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为ner-orgs,是Few-NERD、CoNLL 2003和OntoNotes v5数据集的子集组合,特别关注B-ORG和I-ORG标签。每个分割中,一半的样本包含组织实体,另一半则不包含任何组织实体。数据集通过特定的脚本处理,确保了数据的一致性和平衡性。

该数据集名为ner-orgs,是Few-NERD、CoNLL 2003和OntoNotes v5数据集的子集组合,特别关注B-ORG和I-ORG标签。每个分割中,一半的样本包含组织实体,另一半则不包含任何组织实体。数据集通过特定的脚本处理,确保了数据的一致性和平衡性。
提供机构:
tomaarsen
原始信息汇总

数据集概述

数据集名称

  • 名称: ner-orgs

数据集来源

数据集结构

  • 特征:
    • tokens: 字符串序列
    • ner_tags: 标签序列,包含以下类别:
      • 0: O
      • 1: B-ORG
      • 2: I-ORG

数据集划分

  • 训练集:
    • 样本数: 109424
    • 字节数: 40381520.59961503
  • 验证集:
    • 样本数: 15908
    • 字节数: 5782294.96333573
  • 测试集:
    • 样本数: 28124
    • 字节数: 10727120.198367199

数据集大小

  • 下载大小: 14938552 字节
  • 数据集大小: 56890935.76131796 字节

数据集生成

  • 生成方式: 通过脚本将原始数据集进行预处理和合并,确保每个划分中包含组织标签的样本和不含组织标签的样本各占一半。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作