five

工时薪资问数垂类大模型语料数据

收藏
浙江省数据知识产权登记平台2026-05-07 更新2026-05-08 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8440416
下载链接
链接失效反馈
官方服务:
资源简介:
该数据可直接用于训练工业企业问数工时薪资垂类大语言模型,使其深度掌握工时薪资领域专属知识结构与业务规则,具备三大核心价值:工业企业可基于数据“指标名称”“问题查询”字段,快速适配自身工时薪资数据表结构,启用文字转SQL功能等自然语言需求,模型秒级生成合规SQL(响应时间≤0.6秒),替代人工编写SQL模式,从而实现日常生产质量管理数据的即时、高效查询与分析。工时薪资查询效率提升80%-90%,核算误差率从12%降至2%以下;覆盖“工时统计-薪资核算-考勤校验”全流程。本数据为工业企业提供了稀缺的、高质量的垂直领域语料,有力支撑了生产质量管理领域的自然语言处理技术研发、模型训练与评测,对推动工业企业生产质量管理数据价值的深度挖掘和智能运维技术的发展具有重要意义。1.数据清洗与标准化: 数据清洗:对从设备管理系统(如MES、SCADA)收集的原始问答对进行清洗,剔除重复、无效或存在明显逻辑矛盾的样本。例如,表格中“结果输出”为“无匹配数据”的样本,作为查询无返回结果的标准语料被保留,增强了模型对数据缺失场景的理解能力。 格式统一:统一问题表述中的时间格式(如“11月01日”)、指标名称(如“员工薪资”)和SQL语法风格,确保语料的规范性和一致性。对建表语句进行格式化,统一字段类型和注释风格。 2.问题分类与结构化: 按照设备运维的特定场景对问题进行归类,主要包括组成分析(如“工资和工时”)、阈值查询(如“工资前三”)等,确保语料对设备运维核心场景的全面覆盖。 3.核心算法建模: (1)语义解析与要素提取:采用基于规则和词典的文本分析方法,对自然语言问题进行解析,精准提取关键要素,如时间、对象、指标和约束条件。 (2)SQL语句生成:基于预定义的“指标-字段”映射规则和“对象-过滤条件”映射规则,自动生成标准化的SQL查询语句。 (3)异常值检测:对生成的SQL及其执行结果进行双重校验。一方面,利用IsolationForest等算法检测SQL语句的逻辑异常(如缺失必要的关联条件);另一方面,结合数据统计特征,识别结果中可能存在的异常值(如工资或工时为0的极端情况),并打标或过滤,确保语料质量。 (4)逻辑核验与业务对齐:由资深设备运维人员对生成的问题-SQL-结果三元组进行最终核验。运维人员结合现场业务知识,判断SQL逻辑是否正确,确保语料不仅语法正确,更具备高度的业务适用性和准确性。 4.语料库的持续迭代: 构建语料库的闭环迭代机制。新产生的业务问题及其经核验的SQL语句会定期注入语料库。同时,通过分析大语言模型在实际应用中的反馈(如查询失败、语义理解错误),定位语料库的薄弱环节并进行针对性补充,形成“应用-反馈-优化”的良性循环,持续提升语料库的覆盖度和质量。
提供机构:
台州市路桥数字产业有限公司,浙江保镖电子有限公司
创建时间:
2026-03-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是面向工业制造业的垂类大模型语料,专注于工时与薪资领域。数据以xlsx格式提供,包含从自然语言问题到SQL查询语句的完整映射对(共3748条),以及相应的结果核验信息,旨在训练模型深度理解工时薪资业务规则,实现自然语言秒级生成合规SQL,将查询效率提升80%-90%,核算误差率从12%降至2%以下,覆盖“工时统计-薪资核算-考勤校验”全流程,为工业企业智能运维和数据分析提供高质量垂直领域训练支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作