five

P3ps/Cross_ner

收藏
Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/P3ps/Cross_ner
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Cross_ner,主要用于命名实体识别任务。数据集中包含文本数据及其对应的命名实体标签,标签涵盖了多种实体类型,如学术期刊、专辑、算法、天文对象等。数据集分为训练集和测试集,训练集包含20856个样本,测试集包含5215个样本。

--- 数据集信息: 特征: - 字段名:id,数据类型:字符串 - 字段名:tokens,类型为序列型字符串 - 字段名:ner_tags(命名实体识别标签,Named Entity Recognition Tags),其类型为序列型类别标签,标签映射关系如下: 0: O(非实体) 1: B-学术期刊(academicjournal) 2: I-学术期刊(academicjournal) 3: B-专辑(album) 4: I-专辑(album) 5: B-算法(algorithm) 6: I-算法(algorithm) 7: B-天文天体(astronomicalobject) 8: I-天文天体(astronomicalobject) 9: B-奖项(award) 10: I-奖项(award) 11: B-乐队(band) 12: I-乐队(band) 13: B-图书(book) 14: I-图书(book) 15: B-化合物(chemicalcompound) 16: I-化合物(chemicalcompound) 17: B-化学元素(chemicalelement) 18: I-化学元素(chemicalelement) 19: B-会议(conference) 20: I-会议(conference) 21: B-国家(country) 22: I-国家(country) 23: B-学科(discipline) 24: I-学科(discipline) 25: B-选举(election) 26: I-选举(election) 27: B-酶(enzyme) 28: I-酶(enzyme) 29: B-事件(event) 30: I-事件(event) 31: B-领域(field) 32: I-领域(field) 33: B-文学体裁(literarygenre) 34: I-文学体裁(literarygenre) 35: B-地点(location) 36: I-地点(location) 37: B-杂志(magazine) 38: I-杂志(magazine) 39: B-计量指标(metrics) 40: I-计量指标(metrics) 41: B-杂项(misc) 42: I-杂项(misc) 43: B-音乐艺人(musicalartist) 44: I-音乐艺人(musicalartist) 45: B-乐器(musicalinstrument) 46: I-乐器(musicalinstrument) 47: B-音乐流派(musicgenre) 48: I-音乐流派(musicgenre) 49: B-组织机构(organisation) 50: I-组织机构(organisation) 51: B-人物(person) 52: I-人物(person) 53: B-诗歌(poem) 54: I-诗歌(poem) 55: B-政党(politicalparty) 56: I-政党(politicalparty) 57: B-政治家(politician) 58: I-政治家(politician) 59: B-产品(product) 60: I-产品(product) 61: B-编程语言(programlang) 62: I-编程语言(programlang) 63: B-蛋白质(protein) 64: I-蛋白质(protein) 65: B-研究人员(researcher) 66: I-研究人员(researcher) 67: B-科学家(scientist) 68: I-科学家(scientist) 69: B-歌曲(song) 70: I-歌曲(song) 71: B-任务(task) 72: I-任务(task) 73: B-理论(theory) 74: I-理论(theory) 75: B-大学(university) 76: I-大学(university) 77: B-作家(writer) 78: I-作家(writer) 数据集拆分: - 拆分集名称:train(训练集),字节大小:6995502.064669556,样本数量:20856 - 拆分集名称:test(测试集),字节大小:1749210.9353304438,样本数量:5215 下载总大小:2609946 数据集总大小:8744713.0 --- # 「Cross_ner」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
P3ps
原始信息汇总

数据集概述

数据集特征

  • id: 字符串类型
  • tokens: 字符串序列类型
  • ner_tags: 字符串序列类型,包含以下类别标签:
    • 0: O
    • 1: B-academicjournal
    • 2: I-academicjournal
    • ... (省略其他标签)
    • 77: B-writer
    • 78: I-writer

数据集分割

  • train:
    • 数据量: 6995502.064669556字节
    • 样本数: 20856
  • test:
    • 数据量: 1749210.9353304438字节
    • 样本数: 5215

数据集大小

  • 下载大小: 2609946字节
  • 数据集总大小: 8744713.0字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作