five

非结构化数据正确性检测数据集

收藏
国家基础学科公共科学数据中心2026-04-04 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69ca9e22f17560281a739a9f&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集面向自然语言处理领域工业文本正确性检测的研究与应用需求建设,聚焦智能手机、计算机等电子产品的用户手册与维修手册文本质量优化场景,填补了工业场景下专用错误检测数据集的空白,对提升技术文档准确性、推动自动化文档审核技术发展具有重要意义。 数据集通过人工植入与自动化清洗结合的方式产生,核心围绕拼写错误、术语不一致、内容缺失三类典型工业文档错误构建输入 - 输出匹配数据。数据来源为多款电子产品的正规用户手册(UM)与维修手册(SM),经人工校验确保错误类型的真实性与标注的准确性。 数据集以 JSON 格式存储,采用 “Input-Output” 双目录结构,文件名按 “品牌 + 产品型号_手册类型” 规范命名,文件内通过文本块序号实现原始文本与标注文本的精准对应。Input 目录存放植入错误的原始文本(含 Markdown 多级标题标记),Output 目录存放用特定符号标注错误的目标文本(拼写错误用 “||| |||”、术语不一致用 “<< 缺失用 “---” 标记)。 数据体量方面,训练集包含 8000 条文本错误(拼写错误 2800 条、内容缺失 2800 条、术语不一致 2400 条),测试集包含 300 条文本错误(三类错误各 100 条),覆盖多款电子产品的完整手册内容,支持模型训练与性能验证。 该数据集为公开共享资源,可用于监督学习模型微调(适配 Transformer、Bi-LSTM+CRF 等架构),适用于学术研究、教学实践及非商业 AI 研发,助力构建技术文档写作辅助系统与自动化质量审核流程。
提供机构:
北京航空航天大学
二维码
社区交流群
二维码
科研交流群
商业服务