面向社会治理三元空间典型场景的数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=683dea30195d26123318981d&type=1
下载链接
链接失效反馈官方服务:
资源简介:
面向社会治理三元空间典型场景的数据集,具体包括Resume NER、Weibo NER、人民日报、MSRA-NER和CCKS2017共5个子数据集。其中,Resume NER数据集由1027份简历数据组成,涉及实体类别包括“人物”、“组织”、“国籍”、“职位”、“种族”等。这些数据多为高度结构化文本,通常具有明确的语法规则和一致的语言风格。Weibo NER数据集包含1890条微博文本,实体类别主要涵盖“人物”、“机构组织”、“地址”等,其内容高度非结构化,常伴有口语化表达、拼写错误以及网络流行语,数据噪声显著增加。人民日报数据集和MSRA-NER数据集分别包含19359条和50,729条新闻文本,均关注“人物”、“组织机构”、“地点”等实体类别,语料语言风格较为正式,具有一定的结构化特征,同时覆盖了广泛的社会领域内容。CCKS2017医疗数据集由400条医疗记录构成,实体类别涵盖“症状/体征”、“检查/检验”、“疾病/诊断”等,具有高度专业化的特点。这五个子数据集全面覆盖了结构化文本、半结构化文本和非结构化文本,体现了社会治理任务中多样化的实体识别需求。
提供机构:
北京理工大学



