高端装备制造产业链结构文本训练数据
收藏浙江省数据知识产权登记平台2026-05-26 更新2026-05-27 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8448716
下载链接
链接失效反馈官方服务:
资源简介:
本数据集服务于高端装备制造产业链智能分类与图谱构建模型的训练与开发,通过精准关联企业文本与产业标签,为产业分析提供核心数据工具。其主要应用价值体现在以下三个方面:支撑产业规划与招商:辅助政府及园区摸清产业家底、识别薄弱环节,实现基于数据的精准招商与产业链优化,科学支撑产业决策。赋能投研与市场洞察:为投资及研究机构提供标准化的企业标签,支持对细分赛道进行快速量化分析,洞察竞争格局与技术趋势。驱动供应链协同与优化:赋能龙头企业或产业平台,实现供应商智能寻源、潜在伙伴挖掘,促进产业链上下游的高效协同与合作。一、加工前数据说明
本数据集旨在构建服务于高端装备制造产业链分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了合规的输入基础。
二、数据处理规则
数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,参考国家产业分类与行业专家知识,预先定义了从“高端装备制造”(一级节点)到具体产业领域、产品与工艺的四级树状分类体系。该体系确保了分类的逻辑性、互斥性与全面性,为自动化处理提供了结构化框架。2.业务匹配:采用 “自动化规则匹配与人工校验相结合” 的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的产业语义规则库自动计算并推荐初步的分类节点。 随后,由标注专家对系统推荐结果进行全文语境审核与最终判定,确保每家企业的主营业务被精准归入最贴切的产业链节点,保障了标签的准确性与业务一致性。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心产品、技术与服务的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串。该特征作为对分类标签的细粒度语义补充,为模型提供了更丰富的学习信息。
三、加工后数据内容
加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一级至四级节点、产业标签)与业务特征词(正向词)。数据内容全面覆盖智能制造装备、海洋工程装备、卫星及应用等高端装备制造核心产业领域,形成了一个分类体系清晰、标注一致性高、特征明确的专用数据集,可直接用于产业链图谱构建、企业智能分类等模型的训练与评估。
提供机构:
火石创造科技有限公司
创建时间:
2026-01-23
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是面向高端装备制造产业链智能分类与图谱构建的专用训练数据,包含1000条企业文本与精细化产业标签(一级至四级节点及正向词)的对应关系。数据经过匿名化、业务匹配和特征抽取等处理,广泛应用于产业规划、投研分析和供应链协同等场景,为政府、投资机构及企业提供标准化的数据工具支持。
以上内容由遇见数据集搜集并总结生成



