five

工业企业问数质检垂类大模型语料数据

收藏
浙江省数据知识产权登记平台2026-04-10 更新2026-05-09 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8437381
下载链接
链接失效反馈
官方服务:
资源简介:
该数据可用于训练工业企业问数质检垂类大语言模型,使其能够深度理解企业经营管理过程中对于产品质量检验方向的自然语言问题,并准确转化为对应的SQL查询语句,从而实现企业数据的高效查询与分析。依托企业真实经营数据构建标准化语料体系,模型经训练后可精准理解“合格率计算”“不良品追溯”等工业质检特有需求,工业企业可基于本语料数据的“行业类型”“业务场景”字段,适配自身数据表结构(如替换建表语句中的表名、字段名),快速启用文字转SQL功能进行复用。本数据也为工业领域提供稀缺的、高质量的垂直领域语料库,支撑意图识别、自然语言处理等核心技术的研发与评测,推动工业企业数据分析标准的建立与技术发展。1.数据预处理:采用数据清洗+格式标准化双重机制提升数据质量,去除重复、矛盾及无效信息,统一指标名称、SQL语法和业务表述方式,补齐缺失字段与查询示例,保证数据规范、通用、一致。 2.问题收集与分类:从企业经营管理系统(如ERP、MES、CRM等)中收集常见问题,按业务领域(如生产管理、质量控制、供应链管理、财务分析等)进行分类整理,确保语料覆盖企业核心业务场景。 3.核心算法建模:构建“语义解析-查询生成-异常检测-逻辑验证”全流程算法体系。 (1)语义解析与结构化:采用递归字符文本分块技术对自然语言问题进行智能切分,将整句如"上月A车间的合格率是多少?"精准拆分为语义单元[‘上月’,‘A车间’,‘合格率’,‘是多少’],为后续分析奠定基础。系统基于常见的自然语言处理技术(如词性标注、命名实体识别、意图分类等)初步提取问题中的关键要素。 (2)SQL生成与初步验证:基于企业数据模型,采用基于规则和机器学习相结合的方法,将自然语言问题映射到对应的SQL查询语句,生成初步的SQL候选。系统通过企业数据模型验证SQL语句的正确性,并进行必要的调整,确保生成的SQL语句符合数据模型规范。 (3)异常值检测:采用IsolationForest算法检测“结果输出”字段中的异常SQL(如查询结果与业务实际偏差超10%),结合数据完整性检查(如缺失建表语句的语料标记),异常语料过滤率≥99%。 (4)逻辑核验与优化:由企业业务人员对系统生成的SQL语句进行核验、修正,确保SQL语句的正确性、业务适用性及查询效率。企业业务人员将结合企业实际业务场景,从标准SQL语料库中进行比对,筛选出最合适的应答内容,为智能问数的准确查询提供重要依据。 4.语料库迭代优化:通过AI模型的实际应用反馈,持续优化语料库内容。每新增一个企业场景,系统将自动收集新的问题-SQL对,并通过业务员验证后加入语料库,形成"应用-反馈-优化"的良性循环,不断提升语料库的质量和覆盖度。 该算法规则确保了语料数据的专业性、准确性和实用性,为工业企业问数垂类大语言模型的训练提供了高质量的支撑,推动了工业企业数据价值的深度挖掘和高效利用。
提供机构:
台州市路桥数字产业有限公司,浙江金龙电机股份有限公司
创建时间:
2026-03-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是为工业企业问数质检场景设计的垂类大模型训练语料,包含1606条每日更新的标准化语料,覆盖电加工嵌线检验等典型质检业务。数据结构围绕“电加工嵌线检验日报表”构建,涵盖班组、规格型号、送检数量、合格率等字段,并配套了自然语言问题与对应的SQL查询语句对,例如“电加工嵌线部门2025年12月20日各车间合格率是多少”及其精确的SQL实现。通过数据清洗、语义解析、异常检测和人工核验等算法流程,确保了语料的高质量和行业适用性,旨在帮助企业快速实现“文字转SQL”查询,提升工业数据分析效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作