doushabao4766/weibo_ner_knowledge_V3_wc_bioes
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/doushabao4766/weibo_ner_knowledge_V3_wc_bioes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的数据集,包含了微博文本中的实体标注信息。数据集中的每个样本包含id、tokens、ner_tags、knowledge、token_words和knowledge_words等字段。ner_tags字段标注了文本中的实体类型,包括人名、地名、组织名等多种实体类别。数据集分为训练集、测试集和验证集,分别包含1350、270和270个样本。数据集的下载大小为2406555字节,总大小为9251729字节。
该数据集是一个用于命名实体识别(NER)任务的数据集,包含了微博文本中的实体标注信息。数据集中的每个样本包含id、tokens、ner_tags、knowledge、token_words和knowledge_words等字段。ner_tags字段标注了文本中的实体类型,包括人名、地名、组织名等多种实体类别。数据集分为训练集、测试集和验证集,分别包含1350、270和270个样本。数据集的下载大小为2406555字节,总大小为9251729字节。
提供机构:
doushabao4766
原始信息汇总
数据集概述
数据集名称
weibo_ner_knowledge_V3_wc_bioes
数据集特征
- id: 字符串类型
- tokens: 字符串序列类型
- ner_tags: 字符串序列类型,包含以下类别标签:
- 0: O
- 1: B-PER.NOM
- 2: B-LOC.NAM
- 3: B-PER.NAM
- 4: B-GPE.NAM
- 5: B-ORG.NAM
- 6: B-ORG.NOM
- 7: B-LOC.NOM
- 8: B-GPE.NOM
- 9: I-PER.NAM
- 10: I-ORG.NAM
- 11: I-PER.NOM
- 12: I-ORG.NOM
- 13: I-LOC.NAM
- 14: I-LOC.NOM
- 15: I-GPE.NAM
- 16: E-PER.NOM
- 17: E-LOC.NAM
- 18: E-PER.NAM
- 19: E-GPE.NAM
- 20: E-ORG.NAM
- 21: E-ORG.NOM
- 22: E-LOC.NOM
- 23: E-GPE.NOM
- 24: S-PER.NOM
- 25: S-GPE.NAM
- 26: S-PER.NAM
- 27: S-LOC.NOM
- knowledge: 字符串类型
- token_words: 字符串序列类型
- knowledge_words: 字符串序列类型
数据集分割
- train: 1350个样本,大小为7027512字节
- test: 270个样本,大小为1107689字节
- validation: 270个样本,大小为1116528字节
数据集大小
- 下载大小: 2406555字节
- 数据集总大小: 9251729字节
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个中文微博命名实体识别数据集,包含1,890条样本,已划分为训练集、验证集和测试集。数据集特点在于不仅提供了字符级别的tokens和对应的ner_tags标注(可能采用BIOES方案),还包含了与实体相关的知识(knowledge)文本,用于增强实体语义理解。
以上内容由遇见数据集搜集并总结生成



