纺织材料产业链结构文本训练数据
收藏浙江省数据知识产权登记平台2026-05-22 更新2026-05-24 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8447667
下载链接
链接失效反馈官方服务:
资源简介:
本数据集服务于纺织材料产业链智能分类与图谱构建模型的训练与开发,通过精准关联企业文本与原料类型标签,为纺织产业供应链分析提供核心数据工具。其主要应用于:供应链管理与原料寻源:赋能纺织服装制造商、品牌商或贸易商,快速识别与匹配棉花、亚麻、涤纶、再生纤维素纤维等各类天然及化学纤维的种植商、生产商或供应商,优化原材料采购策略。
产业技术路线与区域分布分析:辅助政府、产业园区及研究机构,分析特定区域在传统天然纤维、高性能合成纤维或绿色再生纤维等不同技术路线上的产业集聚情况、产能布局与完整度。一、加工前数据说明
本数据集旨在构建用于纺织材料产业链智能分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。
二、数据处理规则
数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据纺织工业标准及材料科学分类,预先定义了从“纺织材料”(一级节点)出发,按产业环节划分为“纺织原料及设备”(二级节点),并进一步依据来源与技术原理细分为“天然原料”与“化学纤维”(三级节点),再具体化为“植物纤维”、“动物纤维”、“合成纤维”、“再生纤维”等(四级节点)的树状分类体系。该体系确保了从原料源头(种植、开采)到初级加工(纺丝、制浆)的全链条覆盖。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的纺织产业语义规则库(涵盖“棉花收购”、“亚麻加工”、“涤纶生产”、“纤维素纤维”、“化纤浆粕”等)自动计算并推荐初步分类节点。随后,由具备纺织化工专业知识的标注专家进行审核与最终判定,确保企业被精准归入对应的纤维类型与产业链环节。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心原料品类、加工工艺与技术特点的关键术语(如:长绒棉、苎麻、碳纤维、熔喷无纺布、再生涤纶),经过去重与标准化格式化,组合成“正向词”特征串,并归纳其所属的“产业标签”,共同作为对多级分类标签的精准、细粒度补充。
三、加工后数据内容
加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、高度细化的原料与技术特征词(正向词)与产业标签。数据内容全面覆盖了从棉花、亚麻等天然植物纤维,到涤纶、丙纶等合成纤维,再到粘胶、莱赛尔等再生纤维的整个纺织原料体系,形成了一个分类体系科学、特征刻画精准、可直接用于纺织原料供应商识别、技术路线分析及产业链竞争力评估模型训练与评估的高质量专用数据集。
提供机构:
火石创造科技有限公司
创建时间:
2026-02-06
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是纺织材料产业链结构文本训练数据,包含1000条结构化文本-标签对,覆盖从天然原料到化学纤维的多级分类(如植物纤维、合成纤维),并附有正向词和产业标签。数据经过严格的匿名化处理,服务于供应链分析、原料寻源等场景,为纺织产业智能模型训练提供高质量语料。
以上内容由遇见数据集搜集并总结生成



