P3ps/Cross_ner
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/P3ps/Cross_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Cross_ner,主要用于命名实体识别任务。数据集中包含文本数据及其对应的命名实体标签,标签涵盖了多种实体类型,如学术期刊、专辑、算法、天文对象等。数据集分为训练集和测试集,训练集包含20856个样本,测试集包含5215个样本。
---
数据集信息:
特征:
- 字段名:id,数据类型:字符串
- 字段名:tokens,类型为序列型字符串
- 字段名:ner_tags(命名实体识别标签,Named Entity Recognition Tags),其类型为序列型类别标签,标签映射关系如下:
0: O(非实体)
1: B-学术期刊(academicjournal)
2: I-学术期刊(academicjournal)
3: B-专辑(album)
4: I-专辑(album)
5: B-算法(algorithm)
6: I-算法(algorithm)
7: B-天文天体(astronomicalobject)
8: I-天文天体(astronomicalobject)
9: B-奖项(award)
10: I-奖项(award)
11: B-乐队(band)
12: I-乐队(band)
13: B-图书(book)
14: I-图书(book)
15: B-化合物(chemicalcompound)
16: I-化合物(chemicalcompound)
17: B-化学元素(chemicalelement)
18: I-化学元素(chemicalelement)
19: B-会议(conference)
20: I-会议(conference)
21: B-国家(country)
22: I-国家(country)
23: B-学科(discipline)
24: I-学科(discipline)
25: B-选举(election)
26: I-选举(election)
27: B-酶(enzyme)
28: I-酶(enzyme)
29: B-事件(event)
30: I-事件(event)
31: B-领域(field)
32: I-领域(field)
33: B-文学体裁(literarygenre)
34: I-文学体裁(literarygenre)
35: B-地点(location)
36: I-地点(location)
37: B-杂志(magazine)
38: I-杂志(magazine)
39: B-计量指标(metrics)
40: I-计量指标(metrics)
41: B-杂项(misc)
42: I-杂项(misc)
43: B-音乐艺人(musicalartist)
44: I-音乐艺人(musicalartist)
45: B-乐器(musicalinstrument)
46: I-乐器(musicalinstrument)
47: B-音乐流派(musicgenre)
48: I-音乐流派(musicgenre)
49: B-组织机构(organisation)
50: I-组织机构(organisation)
51: B-人物(person)
52: I-人物(person)
53: B-诗歌(poem)
54: I-诗歌(poem)
55: B-政党(politicalparty)
56: I-政党(politicalparty)
57: B-政治家(politician)
58: I-政治家(politician)
59: B-产品(product)
60: I-产品(product)
61: B-编程语言(programlang)
62: I-编程语言(programlang)
63: B-蛋白质(protein)
64: I-蛋白质(protein)
65: B-研究人员(researcher)
66: I-研究人员(researcher)
67: B-科学家(scientist)
68: I-科学家(scientist)
69: B-歌曲(song)
70: I-歌曲(song)
71: B-任务(task)
72: I-任务(task)
73: B-理论(theory)
74: I-理论(theory)
75: B-大学(university)
76: I-大学(university)
77: B-作家(writer)
78: I-作家(writer)
数据集拆分:
- 拆分集名称:train(训练集),字节大小:6995502.064669556,样本数量:20856
- 拆分集名称:test(测试集),字节大小:1749210.9353304438,样本数量:5215
下载总大小:2609946
数据集总大小:8744713.0
---
# 「Cross_ner」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
P3ps
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- tokens: 字符串序列类型
- ner_tags: 字符串序列类型,包含以下类别标签:
- 0: O
- 1: B-academicjournal
- 2: I-academicjournal
- ... (省略其他标签)
- 77: B-writer
- 78: I-writer
数据集分割
- train:
- 数据量: 6995502.064669556字节
- 样本数: 20856
- test:
- 数据量: 1749210.9353304438字节
- 样本数: 5215
数据集大小
- 下载大小: 2609946字节
- 数据集总大小: 8744713.0字节



