节能环保产业链结构文本训练数据

Name: 节能环保产业链结构文本训练数据
Creator: 火石创造科技有限公司
Published: 2026-05-26 19:44:00
License: 暂无描述

浙江省数据知识产权登记平台2026-05-26 更新2026-05-27 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/8448963

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集服务于节能环保产业链智能分类与产业图谱构建模型的训练与开发，通过精准关联企业文本与产业标签，为绿色发展决策提供核心数据工具。其主要应用价值体现在以下三个方面：支撑绿色产业规划与招商：辅助政府及园区绘制区域节能环保产业地图，精准识别在高效节能、资源循环、先进环保等领域的优势与短板，实现基于数据的靶向招商与绿色产业集群培育。赋能绿色金融与赛道洞察：为投资机构及研究机构提供标准化的企业业务标签，支持对节能设备、环保工程、固废资源化等细分赛道进行量化分析，洞察技术趋势与市场格局。驱动绿色供应链构建与协同：赋能龙头企业或产业平台，实现绿色供应商智能寻源、技术合作伙伴匹配，促进区域内废弃物资源化链接与低碳协同解决方案的落地。一、加工前数据说明本数据集旨在构建服务于节能环保产业链智能分析的人工智能模型训练语料。在加工前，数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符，并彻底移除所有的个人及商业敏感信息，确保数据完全符合隐私保护与安全合规要求，为模型训练提供了合规的输入基础。二、数据处理规则数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则，形成了一套从分类框架构建到最终标签生成的完整流程：1.首先，参考国家绿色产业指导目录与行业标准，预先定义了从“节能环保”（一级节点）到具体细分领域与业务类型的多级树状分类体系。该体系确保了分类的逻辑性、互斥性与全面性，为自动化处理提供了结构化框架。2.业务匹配：采用 “自动化规则匹配与人工校验相结合” 的策略。首先，依托Spark大数据处理框架，对海量企业简介文本进行分布式清洗、分词与关键词匹配，通过预构建的节能环保产业语义规则库自动计算并推荐初步的分类节点。随后，由标注专家对系统推荐结果进行全文语境审核与最终判定，确保每家企业的主营业务被精准归入“高效节能”、“资源循环”或“先进环保”等最贴切的产业链节点，保障了标签的准确性与业务一致性。3.特征抽取：在完成业务匹配的同时，从同一段企业简介文本中，系统性地抽取代表其核心业务、技术或服务的关键术语与名词性短语（如：节能、降耗、循环、再生、治理），经过去重与标准化格式化，组合成“正向词”特征串。该特征作为对分类标签的细粒度语义补充，为模型提供了更丰富的学习信息。三、加工后数据内容加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本，以及与之对应、经人工校验的完整分类标签（一级至三级节点、产业标签）与业务特征词（正向词）。数据内容全面覆盖高效节能、资源循环利用及先进环保等产业链关键环节，形成了一个分类体系清晰、标注一致性高、特征明确的专用数据集，可直接用于绿色产业链图谱构建、企业智能分类等模型的训练与评估。

提供机构：

火石创造科技有限公司

创建时间：

2026-01-23

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集为节能环保产业链智能分类与产业图谱构建提供专用训练数据，包含1000条经过匿名化和人工校验的文本-标签对，覆盖高效节能、资源循环、先进环保等产业链关键节点。数据通过多级分类体系和特征词抽取，精准关联企业描述与产业标签，支撑绿色产业规划、金融赛道分析及供应链协同等应用，确保高一致性、规范性和合规性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集