five

doushabao4766/weibo_ner_knowledge_V3_wc_bioes

收藏
Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/doushabao4766/weibo_ner_knowledge_V3_wc_bioes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的数据集,包含了微博文本中的实体标注信息。数据集中的每个样本包含id、tokens、ner_tags、knowledge、token_words和knowledge_words等字段。ner_tags字段标注了文本中的实体类型,包括人名、地名、组织名等多种实体类别。数据集分为训练集、测试集和验证集,分别包含1350、270和270个样本。数据集的下载大小为2406555字节,总大小为9251729字节。

该数据集是一个用于命名实体识别(NER)任务的数据集,包含了微博文本中的实体标注信息。数据集中的每个样本包含id、tokens、ner_tags、knowledge、token_words和knowledge_words等字段。ner_tags字段标注了文本中的实体类型,包括人名、地名、组织名等多种实体类别。数据集分为训练集、测试集和验证集,分别包含1350、270和270个样本。数据集的下载大小为2406555字节,总大小为9251729字节。
提供机构:
doushabao4766
原始信息汇总

数据集概述

数据集名称

weibo_ner_knowledge_V3_wc_bioes

数据集特征

  • id: 字符串类型
  • tokens: 字符串序列类型
  • ner_tags: 字符串序列类型,包含以下类别标签:
    • 0: O
    • 1: B-PER.NOM
    • 2: B-LOC.NAM
    • 3: B-PER.NAM
    • 4: B-GPE.NAM
    • 5: B-ORG.NAM
    • 6: B-ORG.NOM
    • 7: B-LOC.NOM
    • 8: B-GPE.NOM
    • 9: I-PER.NAM
    • 10: I-ORG.NAM
    • 11: I-PER.NOM
    • 12: I-ORG.NOM
    • 13: I-LOC.NAM
    • 14: I-LOC.NOM
    • 15: I-GPE.NAM
    • 16: E-PER.NOM
    • 17: E-LOC.NAM
    • 18: E-PER.NAM
    • 19: E-GPE.NAM
    • 20: E-ORG.NAM
    • 21: E-ORG.NOM
    • 22: E-LOC.NOM
    • 23: E-GPE.NOM
    • 24: S-PER.NOM
    • 25: S-GPE.NAM
    • 26: S-PER.NAM
    • 27: S-LOC.NOM
  • knowledge: 字符串类型
  • token_words: 字符串序列类型
  • knowledge_words: 字符串序列类型

数据集分割

  • train: 1350个样本,大小为7027512字节
  • test: 270个样本,大小为1107689字节
  • validation: 270个样本,大小为1116528字节

数据集大小

  • 下载大小: 2406555字节
  • 数据集总大小: 9251729字节
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个中文微博命名实体识别数据集,包含1,890条样本,已划分为训练集、验证集和测试集。数据集特点在于不仅提供了字符级别的tokens和对应的ner_tags标注(可能采用BIOES方案),还包含了与实体相关的知识(knowledge)文本,用于增强实体语义理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作