five

造纸工艺大模型训练数据集

收藏
广东省数据知识产权存证登记平台2026-04-17 收录
下载链接:
https://data.gpic.gd.cn/dataStorage/credentialInfo.jhtml?no=20260144000000957
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集面向造纸及制浆工业领域的智能化转型需求,基于“全流程工艺知识图谱化”范式构建。数据内容涵盖从植物纤维原料备料、化学/机械制浆、漂白、打浆、造纸机抄造到成品整理及废水处理的全生命周期工艺知识。数据来源汇集了近二十年来的造纸工程核心教材、国家标准(GB/T)、行业技术手册及权威期刊文献。数据处理采用“自动化解析+专家知识增强”双重路径:利用OCR与文档版面分析技术提取非结构化文本与图表数据,结合NLP技术进行去噪与结构化分块;通过引入造纸领域专家进行SFT(监督微调)指令对的构建与校验,确保了工艺参数、故障诊断逻辑的准确性。 数据集经过严格的数据清洗与去重处理,删除了非必要的页眉页脚及冗余信息,并对涉及具体企业敏感生产数据的部分进行了脱敏处理,符合工业数据安全流通规范。本数据集可为工业大模型的预训练、微调(SFT)及检索增强生成(RAG)知识库构建提供高质量语料基础。
提供机构:
广州博依特智能信息科技有限公司
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作