基于模版库和数据增强的命名实体识别数据集
收藏国家基础学科公共科学数据中心2026-04-04 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69ca9e21f17560281a739a9d&type=1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集面向工业级自然语言处理领域命名实体识别任务建设,聚焦电子产品售后服务真实工业场景,针对该场景文本非结构化、口语化强、实体命名多样、存在拼写错误、语序混乱及实体分布长尾等特征,填补了复杂工业场景下专用命名实体识别数据集的缺口,对研发鲁棒性强、泛化能力高的实体抽取模型具有重要意义,有力支撑学术研究、技术研发及相关教学实践。
数据集通过多源数据融合与技术加工生成,数据来源涵盖联想售后服务场景数据及电商平台爬取的产品评论数据,构建过程融合真实标注数据、远程监督标注数据,运用基于模板的数据增强技术,经聚类、采样、人工编写与校验等流程,确保数据质量与实用性。
数据集为纯文本序列标注数据集,采用BIO标注体系,定义产品(PDT)、处理器(CPU)、显卡(GPU)、时间(TIME)四类核心实体及9类对应标签,以“词\t标签”对逐行存储于.txt文件,句子间以空行分隔,采用UTF-8编码保障中文兼容性。数据集为一级目录结构,包含train.txt(人工标注训练样本)、dev.txt(人工标注验证样本)、test.txt(人工标注测试样本)、ds.txt(远程监督标注数据)、template.txt(聚类+抽取+人工标注模板数据)五个功能分区明确的文件,模板文件含实体占位符可结合外部词典合成数据,远程监督标注数据适用于标签清洗、去噪机制等研究。
数据体量方面,数据集共包含约137万条标注样本,分布合理:训练集130221条、评估集25509条、测试集51701条、远程监督标注数据集1161455条、模板数据697条,规模充足,支持模型训练、评估、测试及拓展研究。
该数据集完全公开共享,适配标准NER建模流程与多种文本解析编程语言及数据处理工具,既可用于监督学习训练模型,也可用于评测模型精度、生成合成训练数据等,为真实工业场景下命名实体识别技术发展提供有力支撑。
提供机构:
北京航空航天大学



